Tillidsinterval for forskellen mellem to befolkningsforhold

Tillidsintervaller er en del af Inferential statistik. Den grundlæggende idé bag dette emne er at estimere værdien af en ukendt befolkning parameter ved hjælp af en statistisk prøve. Vi kan ikke kun estimere værdien af en parameter, men vi kan også tilpasse vores metoder til at estimere forskellen mellem to relaterede parametre. F.eks. Ønsker vi måske at finde forskellen i procentdelen af den mandlige U.S.-stemmepopulation, der støtter et bestemt stykke lovgivning sammenlignet med den kvindelige stemmepopulation.

Vi vil se, hvordan man udfører denne type beregning ved at konstruere et konfidensinterval for forskellen mellem to befolkningsforhold. I processen vil vi undersøge nogle af teorierne bag denne beregning. Vi vil se nogle ligheder i, hvordan vi konstruerer en tillidsinterval for en enkelt befolkningsandel såvel som en tillidsinterval for forskellen mellem to populationer betyder.

Generelt

Inden vi ser på den specifikke formel, som vi vil bruge, lad os overveje den overordnede ramme, som denne type konfidensinterval passer ind i. Formen for den type konfidensinterval, som vi ser på, er givet ved følgende formel:

instagram viewer

Estimer +/- Fejlmargin

Mange tillidsintervaller er af denne type. Der er to tal, som vi skal beregne. Den første af disse værdier er estimatet for parameteren. Den anden værdi er fejlmargenen. Denne fejlmargin tegner sig for det faktum, at vi har et skøn. Konfidensintervallet giver os en række mulige værdier for vores ukendte parameter.

Betingelser

Vi skal sørge for, at alle betingelserne er opfyldt, inden vi foretager nogen beregning. For at finde et tillidsinterval for forskellen mellem to befolkningsforhold, er vi nødt til at sikre, at følgende holder:

Vi har to enkle tilfældige prøver fra store populationer. Her betyder "stor", at populationen er mindst 20 gange større end størrelsen på prøven. Prøvestørrelser angives med n₁ og n₂.
Vores individer er valgt uafhængigt af hinanden.
Der er mindst ti succeser og ti fiaskoer i hver af vores prøver.

Hvis det sidste punkt på listen ikke er tilfreds, kan der være en vej rundt om dette. Vi kan ændre plus-tillidsinterval konstruktion og opnå robuste resultater. Når vi går fremover, antager vi, at alle ovenstående betingelser er opfyldt.

Prøver og befolkningsforhold

Nu er vi klar til at konstruere vores tillidsinterval. Vi starter med estimatet for forskellen mellem vores befolkningsproportioner. Begge disse befolkningsforhold estimeres med en stikprøveandel. Disse prøveforhold er statistikker, der findes ved at dividere antallet af succeser i hver prøve og derefter dividere med den respektive stikprøvestørrelse.

Den første befolkningsandel er angivet med p₁. Hvis antallet af succeser i vores stikprøve fra denne population er k₁, så har vi en prøveandel af k₁ / n_1.

Vi angiver denne statistik med p̂₁. Vi læser dette symbol som ”s₁-hvad "fordi det ligner symbolet p₁ med en hat på toppen.

På en lignende måde kan vi beregne en stikprøveandel fra vores anden population. Parameteren fra denne population er p₂. Hvis antallet af succeser i vores stikprøve fra denne population er k₂, og vores prøveandel er p̂₂= k₂ / n_2.

Disse to statistikker bliver den første del af vores tillidsinterval. Estimatet af p₁ er p̂₁. Estimatet af p₂ er p̂_2.Så estimatet for forskellen p₁ - p₂ er p̂₁- p̂_2.

Stikprøvefordeling af forskellen mellem prøveandele

Dernæst skal vi få formlen for fejlmargenen. For at gøre dette vil vi først overveje stikprøvefordeling af p̂₁. Dette er en binomial distribution med sandsynlighed for succes p₁ og n₁ forsøg. Gennemsnittet af denne fordeling er andelen p₁. Standardafvigelsen for denne type tilfældig variabel har varians af p₁(1 - p₁)/n₁.

Prøveudtagningsfordelingen af p̂₂svarer til p̂₁. Skift blot alle indekserne fra 1 til 2, og vi har en binomial fordeling med gennemsnittet af p₂og varians af p₂(1 - p₂)/n₂.

Vi har nu brug for et par resultater fra matematisk statistik for at bestemme samplingfordelingen af p̂₁- p̂₂. Gennemsnittet for denne distribution er p₁ - p₂. På grund af det faktum, at afvigelserne samles, ser vi, at variansen af samplingfordelingen er p₁(1 - p₁)/n₁ + p₂(1 - p₂)/n_2.Standardafvigelsen for fordelingen er kvadratroten til denne formel.

Der er et par justeringer, som vi er nødt til at foretage. Den første er, at formlen for standardafvigelsen for p̂₁- p̂₂ bruger de ukendte parametre for p₁og p₂. Selvfølgelig, hvis vi virkelig kendte disse værdier, ville det overhovedet ikke være et interessant statistisk problem. Vi behøver ikke at estimere forskellen mellem p₁og p_2..I stedet kunne vi blot beregne den nøjagtige forskel.

Dette problem kan rettes ved at beregne en standardfejl i stedet for en standardafvigelse. Det eneste, vi skal gøre, er at erstatte befolkningsforholdene med stikprøver. Standardfejl beregnes ud fra statistikker i stedet for parametre. En standardfejl er nyttig, fordi den effektivt estimerer en standardafvigelse. Hvad dette betyder for os er, at vi ikke længere har brug for at vide værdien af parametrene p₁ og p₂. .Da disse prøveforhold er kendte, er standardfejlen givet af kvadratroten af følgende udtryk:

p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.

Det andet punkt, som vi har brug for, er den særlige form for vores prøveudtagningsdistribution. Det viser sig, at vi kan bruge en normal distribution til at tilnærme samplingfordelingen af p of₁- p̂₂. Årsagen til dette er noget teknisk, men er beskrevet i næste afsnit.

Begge p̂₁og p̂₂har en samplingsfordeling, der er binomial. Hver af disse binomiale fordelinger kan tilnærmes ganske godt ved en normal fordeling. Således p̂₁- p̂₂er en tilfældig variabel. Det er dannet som en lineær kombination af to tilfældige variabler. Hver af disse er tilnærmet ved en normal fordeling. Derfor er samplingsfordelingen af p̂₁- p̂₂er også normalt distribueret.

Formel for tillidsinterval

Vi har nu alt, hvad vi har brug for for at samle vores tillidsinterval. Estimatet er (p̂₁- p̂₂) og fejlmargenen er z * [p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5. Den værdi, vi indtaster for z * er dikteret af niveauet af selvtillid C. Almindeligt anvendte værdier for z * er 1,645 for 90% tillid og 1,96 for 95% tillid. Disse værdier for z * angiver den del af den normale normalfordeling hvor nøjagtigt C procent af fordelingen er mellem -z * og z *.

Følgende formel giver os et tillidsinterval for forskellen mellem to befolkningsforhold:

(p₁- p̂₂) +/- z * [p₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5