Begrebet klokke kurve bruges til at beskrive det matematiske begreb kaldet normal distribution, sommetider benævnt Gaussisk distribution. "Klokkekurve" henviser til klokkeformen, der oprettes, når en linje er plottet ved hjælp af datapunkterne for et element, der opfylder kriterierne for normal distribution.
I en klokkekurve indeholder midten det største antal af en værdi, og det er derfor det højeste punkt på linjens bue. Dette punkt henvises til betyde, men simpelt set er det det højeste antal forekomster af et element (i statistiske termer, tilstanden).
Normal fordeling
Den vigtige ting at bemærke om a Normal fordeling er, at kurven er koncentreret i midten og falder på hver side. Dette er markant, idet dataene har en mindre tendens til at producere usædvanligt ekstreme værdier, kaldet outliers, sammenlignet med andre distributioner. Klokkekurven betyder også, at dataene er symmetriske. Det betyder, at du kan skabe rimelige forventninger til muligheden for, at et resultat ligger inden for en række til venstre eller højre for midten, når du har målt mængden af afvigelse indeholdt i dataene. Dette måles i form af
standardafvigelser.En klokkekurvegraf afhænger af to faktorer: middelværdien og standardafvigelsen. Middelværdien identificerer centrumets position, og standardafvigelsen bestemmer klokkens højde og bredde. For eksempel skaber en stor standardafvigelse en klokke, der er kort og bred, mens en lille standardafvigelse skaber en høj og smal kurve.
Klokkekurvesandsynlighed og standardafvigelse
For at forstå sandsynlighedsfaktorerne for en normal fordeling skal du forstå følgende regler:
- Det samlede areal under kurven er lig med 1 (100%)
- Cirka 68% af arealet under kurven falder inden for en standardafvigelse.
- Cirka 95% af arealet under kurven falder inden for to standardafvigelser.
- Cirka 99,7% af arealet under kurven falder inden for tre standardafvigelser.
Punkt 2, 3 og 4 ovenfor omtales undertiden som den empiriske regel eller 68-95-99.7-reglen. Når du først har bestemt, at dataene normalt distribueres (klokke buet) og beregne middelværdien og standardafvigelse, kan du bestemme sandsynlighed at et enkelt datapunkt falder inden for et givet interval af muligheder.
Eksempel på klokkekurve
Et godt eksempel på en klokkekurve eller normal distribution er rulle med to terninger. Fordelingen er centreret omkring nummer syv, og sandsynligheden falder, når du bevæger dig væk fra midten.
Her er den procentvise chance for de forskellige resultater, når du ruller to terninger.
- To: (1/36) 2.78%
- Tre: (2/36) 5.56%
- Fire: (3/36) 8.33%
- Fem: (4/36) 11.11%
- Seks: (5/36) 13.89%
- Syv: (6/36) 16,67% = mest sandsynligt resultat
- Otte: (5/36) 13.89%
- Ni: (4/36) 11.11%
- Ti: (3/36) 8.33%
- Elleve: (2/36) 5.56%
- Tolv: (1/36) 2.78%
Normale fordelinger har mange praktiske egenskaber, så i mange tilfælde, især i fysik og astronomitilfældige variationer med ukendte fordelinger antages ofte at være normale for at muliggøre sandsynlighedsberegninger. Selvom dette kan være en farlig antagelse, er det ofte en god tilnærmelse på grund af et overraskende resultat kendt som centrale grænse sætning.
Denne sætning angiver, at middelværdien af ethvert sæt af varianter med enhver fordeling med et begrænset middelværdi og varians har en tendens til at forekomme i en normal fordeling. Mange almindelige attributter såsom testresultater eller højde følger nogenlunde normale fordelinger, med få medlemmer i høje og lave ender og mange i midten.
Når du ikke skulle bruge klokkekurven
Der er nogle typer data, der ikke følger et normalt fordelingsmønster. Disse datasæt bør ikke tvinges til at forsøge at passe til en klokkekurve. Et klassisk eksempel ville være studerendes karakterer, der ofte har to tilstande. Andre typer data, der ikke følger kurven, inkluderer indkomst, befolkningsvækst og mekaniske fejl.