Statistisk prøveudtagning bruges ret ofte i statistikker. I denne proces har vi til formål at bestemme noget om en befolkning. Da populationer typisk er store i størrelse, danner vi en statistisk prøve ved at vælge en undergruppe af befolkningen, der har en forudbestemt størrelse. Ved at studere prøven kan vi bruge inferentielle statistikker til at bestemme noget om befolkningen.
En statistisk stikprøve af størrelse n involverer en enkelt gruppe af n individer eller individer, der er valgt tilfældigt fra befolkningen. En tæt tilknytning til begrebet en statistisk prøve er en stikprøvefordeling.
Oprindelse af prøveuddelingsdistributioner
En samplingfordeling opstår, når vi danner mere end en enkel tilfældig prøve af samme størrelse fra en given befolkning. Disse prøver betragtes som uafhængige af hinanden. Så hvis et individ er i en prøve, har det samme sandsynlighed for at være i den næste prøve, der udtages.
Vi beregner en bestemt statistik for hver prøve. Dette kan være en prøve betyde, en prøvevarians eller en prøveandel. Da en statistik afhænger af den prøve, vi har, vil hver prøve typisk producere en anden værdi for statistikken af interesse. Intervallet for de værdier, der er produceret, er det, der giver os vores samplingfordeling.
Prøveuddeling for midler
Som et eksempel overvejer vi samplingfordelingen for middelværdien. Gennemsnittet af en population er en parameter, der typisk er ukendt. Hvis vi vælger en prøve i størrelse 100, beregnes gennemsnittet af denne prøve let ved at tilføje alle værdier sammen og derefter dele med det samlede antal datapunkter, i dette tilfælde 100. En prøve i størrelse 100 kan give os et gennemsnit på 50. En anden sådan prøve kan have et gennemsnit på 49. Yderligere 51 og en anden prøve kunne have et gennemsnit på 50,5.
Fordelingen af disse samplingsmidler giver os en prøveudtagningsfordeling. Vi vil overveje mere end blot fire eksempler, som vi har gjort ovenfor. Med flere prøveeksempler ville vi have en god idé om formen for prøveudtagningsfordelingen.
Hvorfor bryder vi os?
Samplingfordelinger kan virke temmelig abstrakte og teoretiske. Der er dog nogle meget vigtige konsekvenser ved at bruge disse. En af de største fordele er, at vi eliminerer den variation, der er til stede i statistikker.
Antag f.eks., At vi starter med en population med et gennemsnit på μ og standardafvigelse for σ. Standardafvigelsen giver os en måling af, hvor spredt distributionen er. Vi vil sammenligne dette med en samplingfordeling opnået ved at danne enkle tilfældige prøver af størrelse n. Samplingsfordelingen af middelværdien vil stadig have et gennemsnit på μ, men standardafvigelsen er forskellig. Standardafvigelsen for en samplingfordeling bliver σ / √ n.
Således har vi følgende
- En prøvestørrelse på 4 giver os mulighed for at have en samplingsfordeling med en standardafvigelse på σ / 2.
- En prøvestørrelse på 9 giver os mulighed for at have en samplingfordeling med en standardafvigelse på σ / 3.
- En prøvestørrelse på 25 giver os mulighed for at have en prøveudtagningsfordeling med en standardafvigelse på σ / 5.
- En prøvestørrelse på 100 giver os mulighed for at have en samplingsfordeling med en standardafvigelse på σ / 10.
I praksis
I praksis med statistik danner vi sjældent prøveuddelingsfordelinger. I stedet behandler vi statistikker, der stammer fra en simpel tilfældig stikprøve af størrelse n som om de er et punkt langs en tilsvarende samplingfordeling. Dette understreger igen, hvorfor vi ønsker at have relativt store prøvestørrelser. Jo større prøvestørrelse, desto mindre variation vil vi opnå i vores statistik.
Bemærk, at bortset fra centrum og spredning, er vi ikke i stand til at sige noget om formen for vores samplingfordeling. Det viser sig, at under nogle forholdsvis brede forhold Central Limit-sætning kan anvendes til at fortælle os noget ganske forbløffende om formen på en prøveudtagningsfordeling.