Mange gange ønsker forskere at vide svarene på spørgsmål, der er store i omfang. For eksempel:
- Hvad så alle i et bestemt land på tv i går aftes?
- Hvem vælger vælgerne har til hensigt at stemme for i et kommende valg?
- Hvor mange fugle vender tilbage fra vandring på et bestemt sted?
- Hvilken procentdel af arbejdsstyrken er arbejdsløs?
Disse slags spørgsmål er enorme i den forstand, at de kræver, at vi holder styr på millioner af enkeltpersoner.
Statistik forenkler disse problemer ved hjælp af en teknik kaldet sampling. Ved at udføre en statistisk prøve kan vores arbejdsbyrde blive reduceret enormt. I stedet for at spore adfærd på milliarder eller millioner, behøver vi kun at undersøge dem på tusinder eller hundreder. Som vi vil se, kommer denne forenkling til en pris.
Befolkninger og folketællinger
Befolkningen i en statistisk undersøgelse er det, vi prøver på at finde ud af noget om. Det består af alle de personer, der undersøges. En befolkning kan virkelig være hvad som helst. Californians, caribous, computere, biler eller amter kunne alle betragtes som populationer, afhængigt af det statistiske spørgsmål. Selvom de fleste populationer, der undersøges, er store, behøver de ikke nødvendigvis at være det.
En strategi for at forske på befolkningen er at foretage en folketælling. I en folketælling undersøger vi hvert eneste medlem af befolkningen i vores undersøgelse. Et godt eksempel på dette er U.S.-folketælling. Hvert ti år sender Census Bureau et spørgeskema til alle i landet. De, der ikke returnerer formularen, besøges af folketællinger
Folketællinger er fyldte med vanskeligheder. De er typisk dyre med hensyn til tid og ressourcer. Derudover er det vanskeligt at garantere, at alle i befolkningen er nået. Andre befolkninger er endnu sværere at foretage en folketælling med. Hvis vi ville undersøge vanerne hos omstrejfende hunde i delstaten New York, afrundede held og lykke alle af disse forbigående hjørnetænder.
Prøver
Da det normalt er enten umuligt eller upraktisk at spore hvert enkelt medlem af en befolkning op, er den næste tilgængelige mulighed at prøve befolkningen. En prøve er enhver undergruppe af en befolkning, så dens størrelse kan være lille eller stor. Vi vil have en prøve, der er lille nok til at kunne håndteres af vores computerkraft, men alligevel stor nok til at give os statistisk signifikante resultater.
Hvis et valgfirma forsøger at bestemme vælgerens tilfredshed med Kongressen og dens prøve størrelse er en, så bliver resultaterne meningsløse (men lette at få). På den anden side vil det at spørge millioner af mennesker forbruge for mange ressourcer. For at opnå en balance har afstemninger af denne type typisk prøvestørrelser på omkring 1000.
Tilfældige prøver
Men at have den rigtige prøvestørrelse er ikke nok til at sikre gode resultater. Vi ønsker en stikprøve, der er repræsentativ for befolkningen. Antag, at vi vil finde ud af, hvor mange bøger den gennemsnitlige amerikaner læser årligt. Vi beder 2000 universitetsstuderende om at holde styr på, hvad de læser i løbet af året, og så tjek med dem igen, efter at et år er gået. Vi finder ud af, at det gennemsnitlige antal af læste bøger er 12, og konkluderer derefter, at den gennemsnitlige amerikaner læser 12 bøger om året.
Problemet med dette scenarie er med prøven. Et flertal af universitetsstuderende er mellem 18-25 år og kræves af deres instruktører at læse lærebøger og romaner. Dette er en dårlig gengivelse af den gennemsnitlige amerikaner. En god prøve ville indeholde mennesker i forskellige aldre, fra alle samfundslag og fra forskellige regioner i landet. For at erhverve en sådan prøve ville vi være nødt til at komponere den tilfældigt, så enhver amerikaner har samme sandsynlighed for at være i prøven.
Typer af prøver
Guldstandarden for statistiske eksperimenter er enkel tilfældig prøve. I en sådan prøve af størrelse n enkeltpersoner, hvert medlem af befolkningen har samme sandsynlighed for at blive valgt til stikprøven, og hver gruppe af n individer har samme sandsynlighed for at blive valgt. Der er forskellige måder at prøve en befolkning på. Nogle af de mest almindelige er:
- Tilfældig prøve
- Enkel tilfældig prøve
- Frivillig svarprøve
- Praktisk prøve
- Systematisk prøve
- Cluster-prøve
- Stratificeret prøve
Nogle ord til rådgivning
Som det siger: "Vel begyndt er halvt gjort." For at sikre, at vores statistiske undersøgelser og eksperimenter har gode resultater, er vi nødt til at planlægge og starte dem omhyggeligt. Det er let at komme med dårlige statistiske prøver. godt enkle tilfældige prøver kræver noget arbejde at få. Hvis vores data er opnået tilfældigt og på en cavalier måde, så uanset hvor sofistikeret vores analyse, statistiske teknikker vil ikke give os nogen værdige konklusioner.