Statistikfeltet er opdelt i to hovedafdelinger: beskrivende og inferentielle. Hvert af disse segmenter er vigtigt og tilbyder forskellige teknikker, der opfylder forskellige mål. Beskrivende statistik beskriver, hvad der foregår i en befolkning eller datasæt. Inferentielle statistikker tillader derimod forskere at tage fund fra en prøvegruppe og generalisere dem til en større befolkning. De to typer statistikker har nogle vigtige forskelle.
Beskrivende statistik
Beskrivende statistik er den type statistik, der sandsynligvis springer op for de fleste, når de hører ordet ”statistik”. I denne gren af statistikker er målet at beskrive. Numeriske mål bruges til at fortælle om funktioner i et datasæt. Der er en række poster, der hører til i denne del af statistikkerne, såsom:
- Det gennemsnit, eller måling af midten af et datasæt, der består af middelværdien, medianen, tilstanden eller mellemområdet
- Spredningen af et datasæt, som kan måles med rækkevidde eller standardafvigelse
- Overordnede beskrivelser af data som f.eks fem numre resume
- Målinger som skævhed og kurtosis
- Udforskningen af forhold og korrelation mellem parrede data
- Præsentation af statistiske resultater i grafisk form
Disse foranstaltninger er vigtige og nyttige, fordi de giver forskere mulighed for at se mønstre blandt data og dermed give mening om disse data. Beskrivende statistikker kan kun bruges til at beskrive populationen eller datasættet, der undersøges: Resultaterne kan ikke generaliseres til nogen anden gruppe eller population.
Typer af beskrivende statistikker
Der er to slags beskrivende statistikker, som sociale forskere bruger:
Målinger af central tendens fange generelle tendenser inden for dataene og beregnes og udtrykkes som middelværdien, medianen og tilstanden. Et middel fortæller forskerne det matematiske gennemsnit af alt datasæt, såsom gennemsnitsalderen ved første ægteskab; medianen repræsenterer midten af datadistributionen, ligesom den alder, der sidder i midten af aldersområdet, hvor folk først gifter sig med; og måden er muligvis den mest almindelige alder, hvor folk først gifter sig med.
Spredningsmålinger beskriver, hvordan dataene distribueres og forholder sig til hinanden, herunder:
- Intervallet, hele intervallet af værdier, der findes i et datasæt
- Frekvensfordelingen, der definerer, hvor mange gange en bestemt værdi forekommer i et datasæt
- Kvartiler, undergrupper dannet i et datasæt, når alle værdier er opdelt i fire lige store dele på tværs af området
- Gennemsnitlig absolut afvigelse, gennemsnittet af hvor meget hver værdi afviger fra gennemsnittet
- varians, der illustrerer hvor meget af en spredning der findes i dataene
- Standardafvigelse, som illustrerer spredningen af data i forhold til gennemsnittet
Målinger af spredning er ofte visuelt repræsenteret i tabeller, cirkeldiagrammer og søjlediagrammer og histogrammer for at hjælpe med til at forstå tendensen inden for dataene.
Inferential statistik
Inferentielle statistikker produceres gennem komplekse matematiske beregninger, der tillader forskere at udlede tendenser omkring en større befolkning baseret på en undersøgelse af en prøve taget derfra. Forskere bruger inferential statistik til at undersøge forholdet mellem variabler i en stikprøve og lav derefter generaliseringer eller forudsigelser om, hvordan disse variabler vil forholde sig til en større befolkning.
Det er normalt umuligt at undersøge hvert medlem af befolkningen individuelt. Så forskere vælger et repræsentativt undergruppe af befolkningen, kaldet en statistisk stikprøve, og fra denne analyse er de i stand til at sige noget om den befolkning, som prøven kommer fra. Der er to hovedafdelinger af inferentiel statistik:
- Et konfidensinterval giver et interval af værdier for en ukendt parameter i populationen ved at måle en statistisk prøve. Dette udtrykkes i form af et interval og graden af tillid til, at parameteren er inden for intervallet.
- Test af betydning eller hypotese testning hvor forskere fremsætter et krav om befolkningen ved at analysere en statistisk stikprøve. Ved design er der en vis usikkerhed i denne proces. Dette kan udtrykkes som et betydningsniveau.
Teknikker, som samfundsvidenskabsfolk bruger til at undersøge forholdet mellem variabler og derved til at oprette inferentielle statistikker, inkluderer lineære regressionsanalyser, logistiske regressionsanalyser, ANOVA, korrelationsanalyser, strukturel ligningsmodellering, og overlevelsesanalyse. Når forskere udfører brug af inferentiel statistik, foretager forskere en test af betydning for at afgøre, om de kan generalisere deres resultater til en større befolkning. Almindelige test af betydning inkluderer chi-square og t-test. Disse fortæller forskerne sandsynligheden for, at resultaterne af deres analyse af prøven er repræsentative for befolkningen som helhed.
Beskrivende vs. Inferential statistik
Selvom beskrivende statistikker er nyttige til at lære ting som spredning og centrum af data, kan intet i beskrivende statistik bruges til at foretage nogen generaliseringer. I beskrivende statistik angives målinger som middelværdi og standardafvigelse som nøjagtige tal.
Selvom inferential statistik bruger nogle lignende beregninger - som middel- og standardafvigelse - er fokus forskelligt for inferential statistik. Inferentielle statistikker starter med en stikprøve og generaliseres derefter til en befolkning. Denne information om en befolkning er ikke angivet som et tal. I stedet udtrykker forskere disse parametre som en række potentielle tal sammen med en grad af tillid.