En normal fordeling af data er en, hvor størstedelen af datapunkter er relativt ens, hvilket betyder, at de forekommer inden for et lille interval af værdier med færre outliers på de høje og lave ender af dataområde.
Når data normalt distribueres, resulterer at plotte dem på en graf et klokkeformet og symmetrisk billede, der ofte kaldes klokkekurven. I en sådan distribution af data, gennemsnit, median og tilstand er alle samme værdi og falder sammen med toppen af kurven.
I samfundsvidenskab er en normal fordeling imidlertid mere et teoretisk ideal end en fælles virkelighed. Konceptet og anvendelsen af det som en linse, hvorpå man kan undersøge data, gennem et nyttigt værktøj til at identificere og visualisering af normer og tendenser inden for et datasæt.
Egenskaber ved den normale distribution
En af de mest bemærkelsesværdige egenskaber ved en normal fordeling er dens form og perfekte symmetri. Hvis du folder et billede af en normal fordeling nøjagtigt i midten, kommer du med to lige store halvdele, hver et spejlbillede af den anden. Dette betyder også, at halvdelen af observationer i dataene falder på hver side af midten af fordelingen.
Midtpunktet for en normal fordeling er det punkt, der har den maksimale frekvens, hvilket betyder antallet eller responskategorien med flest observationer for den pågældende variabel. Midtpunktet for den normale fordeling er også det punkt, hvor tre mål falder: middelværdien, medianen og tilstanden. I en helt normal fordeling er disse tre mål alle de samme.
I alle normale eller næsten normale fordelinger er der en konstant andel af arealet under kurven mellem middelværdien og en given afstand fra middelværdien, når det måles i standardafvigelsesenheder. For eksempel falder 99,73 procent af alle tilfælde i alle normale kurver inden for tre standardafvigelser fra gennemsnittet, 95,45 procent af alle sager falder inden for to standardafvigelser fra gennemsnittet, og 68,27 procent af sagerne falder inden for et standardafvigelse fra gennemsnittet betyde.
Normale fordelinger er ofte repræsenteret i standardresultater eller Z-scores, som er tal, der fortæller os afstanden mellem en faktisk score og gennemsnittet med hensyn til standardafvigelser. Standard normalfordelingen har et gennemsnit på 0,0 og en standardafvigelse på 1,0.
Eksempler og brug inden for samfundsvidenskab
Selvom en normal fordeling er teoretisk, er der flere variabler, som forskere studerer, der ligner en normal kurve. For eksempel ligner standardiserede testresultater såsom SAT, ACT og GRE typisk en normal fordeling. Højde, atletisk evne og talrige sociale og politiske holdninger hos en given befolkning ligner også typisk en klokekurve.
Idealet om en normal distribution er også nyttigt som sammenligningspunkt, når data ikke normalt distribueres. F.eks. Antager de fleste, at fordelingen af husholdningsindkomst i USA ville være en normal fordeling og ligne klokkekurven, når de er afbildet på en graf. Dette ville betyde, at de fleste amerikanske borgere tjener i mellemindkomst, eller med andre ord, at der er en sund middelklasse. I mellemtiden ville antallet af personer i de lavere økonomiske klasser være lille, ligesom antallet i de øvre klasser. Imidlertid ligner den reelle fordeling af husholdningsindtægter i USA overhovedet ikke en klokkekurve. Størstedelen af husstande falder ind i EU lavt til det nederste midterste interval, hvilket betyder, at der er flere fattige mennesker, der kæmper for at overleve, end der er mennesker, der lever komfortable middelklasseliv. I dette tilfælde er idealet om en normal fordeling nyttigt til at illustrere indkomstuligheder.