En normal fordeling er mere almindeligt kendt som en klokkekurve. Denne type kurve vises overalt Statistikker og den virkelige verden.
For eksempel, efter at jeg har aflagt en test i nogen af mine klasser, er en ting, jeg kan lide at gøre, at lave en graf over alle scoringer. Jeg skriver typisk 10 punktsintervaller såsom 60-69, 70-79 og 80-89 og sætter derefter et stemmeret for hver testresultat i dette interval. Næsten hver gang jeg gør dette, dukker en kendt form op. Nogle få studerende klarer sig meget godt, og nogle få klarer sig meget dårligt. En masse scoringer ender med at klumpe rundt om den gennemsnitlige score. Forskellige test kan resultere i forskellige måder og standardafvigelser, men formen på grafen er næsten altid den samme. Denne form kaldes ofte klokkekurven.
Hvorfor kalde det en klokkekurve? Klokkekurven får sit navn ganske enkelt, fordi dens form ligner en klokke. Disse kurver vises i hele studiet af statistikker, og deres betydning kan ikke overvurderes.
Hvad er en klokkekurve?
For at være teknisk kaldes de slags klokekurver, vi er mest interesserede i i statistikker, normalt sandsynlighedsfordelinger. For det følgende antager vi bare, at klokkekurverne, vi taler om, er normale sandsynlighedsfordelinger. På trods af navnet "klokkekurve" defineres disse kurver ikke af deres form. I stedet for et skræmmende udseende formel bruges som den formelle definition for klokkekurver.
Men vi behøver virkelig ikke at bekymre os for meget om formlen. De eneste to numre, vi er interesseret i i det, er middel- og standardafvigelsen. Klokkekurven for et givet datasæt har centret placeret i gennemsnittet. Det er her det højeste punkt på kurven eller "toppen af klokken" er placeret. Et datasæt's standardafvigelse bestemmer, hvor spredt vores klokkekurve er. Jo større standardafvigelse, jo mere spredes kurven.
Vigtige funktioner ved en klokkekurve
Der er flere træk ved klokkekurver, der er vigtige og adskiller dem fra andre kurver i statistikker:
- En klokkekurve har en tilstand, der falder sammen med middelværdien og medianen. Dette er midten af kurven, hvor den er på sit højeste.
- En klokkekurve er symmetrisk. Hvis det blev foldet langs en lodret linje i gennemsnittet, ville begge halvdele matche perfekt, fordi de er spejlbilleder af hinanden.
- En klokkekurve følger reglen 68-95-99.7, som giver en bekvem måde at udføre estimerede beregninger på:
- Cirka 68% af alle data ligger inden for en standardafvigelse for gennemsnittet.
- Cirka 95% af alle data ligger inden for to standardafvigelser for gennemsnittet.
- Cirka 99,7% af dataene ligger inden for tre standardafvigelser for gennemsnittet.
Et eksempel
Hvis vi ved, at en klokkekurve modellerer vores data, kan vi bruge ovenstående funktioner i klokkekurven til at sige ganske lidt. Når vi går tilbage til testeksemplet, formoder vi, at vi har 100 studerende, der aflagde en statistikprøve med en gennemsnitlig score på 70 og standardafvigelse på 10.
Standardafvigelsen er 10. Træk og tilføj 10 til gennemsnittet. Dette giver os 60 og 80. Ved 68-95-99.7 reglen forventer vi, at ca. 68% af 100 eller 68 studerende scorede mellem 60 og 80 på testen.
To gange er standardafvigelsen 20. Hvis vi trækker fra og tilføjer 20 til gennemsnittet, har vi 50 og 90. Vi forventer, at ca. 95% af 100 eller 95 studerende scorer mellem 50 og 90 på testen.
En lignende beregning fortæller os, at effektivt alle scorede mellem 40 og 100 på testen.
Anvendelser af klokkekurven
Der er mange applikationer til klokkekurver. De er vigtige i statistikkerne, fordi de modellerer en lang række data i den virkelige verden. Som nævnt ovenfor er testresultaterne et sted, hvor de dukker op. Her er nogle andre:
- Gentagne målinger af et udstyr
- Måling af karakteristika i biologi
- Tilnærmelsesvis tilfældige begivenheder såsom at vende en mønt flere gange
- Højder på studerende på et bestemt niveau i et skolekvarter
Hvornår man ikke skal bruge klokkekurven
Selvom der er utallige anvendelser af klokkekurver, er det ikke passende at bruge i alle situationer. Nogle statistiske datasæt, såsom udstyrssvigt eller indkomstfordeling, har forskellige former og er ikke symmetriske. Andre gange kan der være to eller flere tilstande, såsom når flere studerende klarer sig meget godt, og flere klarer sig meget dårligt på en test. Disse applikationer kræver brug af andre kurver, der er defineret anderledes end klokkekurven. Viden om, hvordan det pågældende datasæt blev opnået, kan hjælpe med til at bestemme, om en klokkekurve skal bruges til at repræsentere dataene eller ej.