Tillidsintervaller kan bruges til at estimere flere populationer parametre. En type parameter, der kan estimeres ved hjælp af Inferential statistik er en befolkningsandel. For eksempel vil vi måske vide, hvilken procentdel af den amerikanske befolkning, der støtter et bestemt stykke lovgivning. Til denne type spørgsmål er vi nødt til at finde et tillidsinterval.
I denne artikel vil vi se, hvordan man konstruerer et tillidsinterval for en befolkningsandel, og undersøger nogle af teorierne bag dette.
Overordnede rammer
Vi begynder med at se på det store billede, inden vi går nærmere ind på detaljerne. Den type konfidensinterval, som vi vil overveje, er af følgende form:
Estimer +/- Fejlmargin
Dette betyder, at der er to tal, som vi bliver nødt til at bestemme. Disse værdier er et estimat for den ønskede parameter sammen med fejlmargenen.
Betingelser
Før der udføres nogen statistisk test eller procedure, er det vigtigt at sikre sig, at alle betingelserne er opfyldt. For et tillidsinterval for en befolkningsandel, er vi nødt til at sikre, at følgende holder:
- Vi har en enkel tilfældig prøve af størrelse n fra en stor befolkning
- Vores individer er valgt uafhængigt af hinanden.
- Der er mindst 15 succeser og 15 fiaskoer i vores stikprøve.
Hvis den sidste vare ikke er tilfreds, kan det være muligt at justere vores prøve lidt og bruge a plus-tillidsinterval. I det følgende antager vi, at alle ovenstående betingelser er opfyldt.
Prøve- og befolkningsforhold
Vi starter med estimatet for vores befolkningsandel. Ligesom vi bruger et stikprøveværdi til at estimere et populationsmiddelværdi, bruger vi en prøveandel til at estimere en populationsandel. Befolkningsandelen er en ukendt parameter. Prøveandelen er en statistik. Denne statistik findes ved at tælle antallet af succeser i vores stik og derefter divideres med det samlede antal individer i prøven.
Befolkningsandelen er angivet med p og er selvforklarende. Notationen for prøveandelen er lidt mere involveret. Vi betegner en prøveandel som p̂, og vi læser dette symbol som "p-hat", fordi det ligner brevet p med en hat på toppen.
Dette bliver den første del af vores tillidsinterval. Estimatet af p er p̂.
Prøveuddeling af prøveandelen
For at bestemme formlen for fejlmargenen er vi nødt til at tænke på stikprøvefordeling af p̂. Vi bliver nødt til at kende gennemsnittet, standardafvigelsen og den særlige distribution, som vi arbejder med.
Samplingsfordelingen af p̂ er en binomial fordeling med sandsynlighed for succes p og n forsøg. Denne type tilfældig variabel har et gennemsnit på p og standardafvigelse for (p(1 - p)/n)0.5. Der er to problemer med dette.
Det første problem er, at en binomial distribution kan være meget vanskelig at arbejde med. Tilstedeværelsen af fabrikker kan føre til nogle meget store antal. Det er her forholdene hjælper os. Så længe vores betingelser er opfyldt, kan vi estimere binomialfordelingen med den normale normalfordeling.
Det andet problem er, at standardafvigelsen for p̂ bruger p i sin definition. Den ukendte populationsparameter beregnes ved at bruge den samme parameter som en fejlmargin. Denne cirkulære ræsonnement er et problem, der skal rettes.
Vejen ud af dette forhold er at erstatte standardafvigelsen med dens standardfejl. Standardfejl er baseret på statistikker, ikke parametre. En standardfejl bruges til at estimere en standardafvigelse. Hvad der gør denne strategi værd er, at vi ikke længere behøver at kende parameterens værdi s.
Formel
For at bruge standardfejlen erstatter vi den ukendte parameter p med statistikken p̂. Resultatet er følgende formel for et konfidensinterval for en befolkningsandel:
p̂ +/- z * (p̂ (1 - p̂) /n)0.5.
Her værdien af z * bestemmes af vores selvtillidsniveau C. For den normale normalfordeling, nøjagtigt C procent af den normale normalfordeling er mellem -z * og z *. Fælles værdier for z * inkluderer 1.645 for 90% tillid og 1,96 for 95% tillid.
Eksempel
Lad os se, hvordan denne metode fungerer med et eksempel. Antag, at vi med 95% tillid ønsker at kende procentdelen af vælgerne i et amt, der identificerer sig som demokratisk. Vi udfører en simpel tilfældig stikprøve på 100 mennesker i dette amt og finder ud af, at 64 af dem identificerer sig som en demokrat.
Vi ser, at alle betingelserne er opfyldt. Estimatet af vores befolkningsandel er 64/100 = 0,64. Dette er værdien af prøveandelen p̂, og det er centrum for vores konfidensinterval.
Fejlmargenen består af to stykker. Den første er z*. Som vi sagde, for 95% tillid, værdien af z* = 1.96.
Den anden del af fejlmargenen er angivet med formlen (p̂ (1 - p̂) /n)0.5. Vi indstiller p̂ = 0.64 og beregner = standardfejlen skal være (0.64 (0.36) / 100)0.5 = 0.048.
Vi multiplicerer disse to tal sammen og opnår en fejlmargin på 0,09408. Slutresultatet er:
0.64 +/- 0.09408,
eller vi kan omskrive dette til 54,592% til 73,408%. Vi er således 95% sikre på, at den sande befolkningsandel af demokrater ligger et sted i intervallet af disse procenter. Dette betyder, at på lang sigt vil vores teknik og formel fange befolkningsandelen på 95% af tiden.
Relaterede ideer
Der er en række ideer og emner, der er forbundet med denne type tillidsinterval. For eksempel kunne vi gennemføre en hypotestest vedrørende værdien af befolkningsandelen. Vi kunne også sammenligne to proportioner fra to forskellige populationer.