Inferential statistik får sit navn fra, hvad der sker i denne gren af statistikker. I stedet for blot at beskrive et sæt data, søger inferentiel statistik at udlede noget om en befolkning på grundlag af en statistisk stikprøve. Et specifikt mål i inferentielle statistikker involverer bestemmelse af værdien af en ukendt befolkning parameter. Det interval af værdier, som vi bruger til at estimere denne parameter kaldes et konfidensinterval.
Formen for et tillidsinterval
Et konfidensinterval består af to dele. Den første del er estimatet af populationsparameteren. Vi opnår dette estimat ved hjælp af en enkel tilfældig prøve. Fra denne prøve beregner vi den statistik, der svarer til den parameter, vi ønsker at estimere. For eksempel, hvis vi var interesseret i middelhøjden for alle første klasses studerende i USA, ville vi gøre det Brug en simpel tilfældig prøve af amerikanske første klassetrin, mål dem alle og beregn derefter middelhøjden på vores prøve.
Den anden del af et konfidensinterval er fejlmargenen. Dette er nødvendigt, fordi vores estimat alene kan afvige fra den sande værdi af populationsparameteren. For at muliggøre andre potentielle værdier af parameteren, er vi nødt til at producere et interval af tal. Fejlmargenen gør dette, og hvert konfidensinterval er af følgende form:
Anslå ± fejlmargen
Estimatet er i midten af intervallet, og derefter trækker vi fra og tilføjer fejlmargenen fra dette estimat for at få et interval af værdier for parameteren.
Selvtillidsniveau
Der er knyttet et tillidsniveau til hvert tillidsinterval. Dette er en sandsynlighed eller procent, der angiver, hvor meget sikkerhed vi skal tilskrives vores tillidsinterval. Hvis alle andre aspekter af en situation er identiske, jo højere konfidensniveau, jo bredere er konfidensintervallet.
Dette tillidsniveau kan føre til en vis forvirring. Det er ikke en erklæring om prøveudtagningsproceduren eller populationen. I stedet giver det en indikation af, hvor vellykket processen med konstruktionen af et tillidsinterval er. For eksempel vil tillidsintervaller med en tillid på 80 procent på lang sigt gå glip af den ægte populationsparameter en ud af hver fem gang.
Ethvert tal fra nul til et kunne i teorien bruges til et konfidensniveau. I praksis er 90 procent, 95 procent og 99 procent alle almindelige tillidsniveauer.
Fejlmargen
Fejlmargenen for et konfidensniveau bestemmes af et par faktorer. Vi kan se dette ved at undersøge formlen for fejlmargen. En fejlmargin er af formen:
Fejlmargen = (Statistik for tillidsniveau) * (Standardafvigelse / fejl)
Statistikken for tillidsniveauet afhænger af, hvad Sandsynlighedsfordeling bruges, og hvilket niveau af selvtillid vi har valgt. For eksempel, hvis Cer vores selvtillidsniveau, og vi arbejder med en Normal fordeling, derefter C er området under kurven mellem -z* til z*. Dette nummer z* er tallet i vores formel for fejlmargin.
Standardafvigelse eller standardfejl
Det andet udtryk, der er nødvendigt i vores fejlmargin, er standardafvigelsen eller standardfejlen. Her foretrækkes standardafvigelsen for distributionen, som vi arbejder med. Imidlertid er typiske parametre fra populationen ukendt. Dette nummer er normalt ikke tilgængeligt, når der dannes tillidsintervaller i praksis.
For at håndtere denne usikkerhed ved at kende standardafvigelsen bruger vi i stedet standardfejlen. Standardfejlen, der svarer til en standardafvigelse, er et skøn over denne standardafvigelse. Hvad der gør standardfejlen så kraftig er, at den beregnes ud fra den enkle tilfældige prøve, der bruges til at beregne vores estimat. Ingen ekstra information er nødvendig, da prøven gør alle skøn for os.
Forskellige tillidsintervaller
Der er en række forskellige situationer, der kræver tillidsintervaller. Disse konfidensintervaller bruges til at estimere et antal forskellige parametre. Selvom disse aspekter er forskellige, forenes alle disse tillidsintervaller med det samme overordnede format. Nogle almindelige tillidsintervaller er intervallet for et gennemsnit af befolkningen, befolkningsvarians, befolkningsandel, forskellen mellem to populationer og forskellen mellem to befolkningsforhold.