Hvis du overhovedet bruger meget tid på at arbejde med Statistikker, temmelig snart får du udtrykket "sandsynlighedsfordeling." Det er her, vi virkelig får se, hvor meget områderne med sandsynlighed og statistik overlapper hinanden. Selvom dette kan lyde som noget teknisk, er udtrykket sandsynlighedsfordeling egentlig bare en måde at tale om at organisere en liste over sandsynligheder på. En sandsynlighedsfordeling er en funktion eller regel, der tildeler sandsynligheder til hver værdi af en tilfældig variabel. Distributionen kan i nogle tilfælde være angivet. I andre tilfælde præsenteres det som en graf.
Eksempel
Antag, at vi rulle to terninger og registrer derefter summen af terningerne. Sommer fra to til 12 er mulige. Hver sum har en særlig sandsynlighed for at forekomme. Vi kan ganske enkelt anføre disse som følger:
- Summen af 2 har en sandsynlighed for 1/36
- Summen af 3 har en sandsynlighed på 2/36
- Summen af 4 har en sandsynlighed for 3/36
- Summen af 5 har en sandsynlighed på 4/36
- Summen af 6 har en sandsynlighed på 5/36
- Summen af 7 har en sandsynlighed på 6/36
- Summen af 8 har en sandsynlighed på 5/36
- Summen af 9 har en sandsynlighed på 4/36
- Summen af 10 har en sandsynlighed for 3/36
- Summen af 11 har en sandsynlighed på 2/36
- Summen af 12 har en sandsynlighed for 1/36
Denne liste er en sandsynlighedsfordeling for sandsynlighedseksperimentet ved at rulle to terninger. Vi kan også betragte ovenstående som en sandsynlighedsfordeling af tilfældig variabel defineret ved at se på summen af de to terninger.
Kurve
En sandsynlighedsfordeling kan graferes, og nogle gange hjælper dette med at vise os træk ved fordelingen, der ikke fremgik af bare at læse listen over sandsynligheder. Den tilfældige variabel er afbildet langs x-ax, og den tilsvarende sandsynlighed er afbildet langs y-akse. For en diskret tilfældig variabel vil vi have en histogram. For en kontinuerlig tilfældig variabel vil vi have indersiden af en glat kurve.
Reglerne for sandsynlighed er stadig i kraft, og de manifesterer sig på nogle få måder. Da sandsynligheder er større end eller lig med nul, skal grafen for en sandsynlighedsfordeling have y-koordinater, der ikke er negative. Et andet træk ved sandsynligheder, nemlig at det ene er det maksimale, som sandsynligheden for en begivenhed kan være, dukker op på en anden måde.
Område = sandsynlighed
Grafen for en sandsynlighedsfordeling er konstrueret på en sådan måde, at områder repræsenterer sandsynligheder. For en diskret sandsynlighedsfordeling beregner vi virkelig bare områdene med rektangler. I grafen ovenfor svarer arealerne til de tre søjler, der svarer til fire, fem og seks, sandsynligheden for, at summen af vores terninger er fire, fem eller seks. Områderne på alle stængerne udgør i alt en.
I standard normal distribution eller klokkekurve, vi har en lignende situation. Området under kurven mellem to z værdier svarer til sandsynligheden for, at vores variabel falder mellem disse to værdier. F.eks. Området under klokkekurven i -1 z.
Vigtige fordelinger
Der er bogstaveligt talt uendeligt mange sandsynlighedsfordelinger. En liste over nogle af de mere vigtige distributioner følger:
- Binomial distribution - Giver antallet af succeser for en række uafhængige eksperimenter med to resultater
- Chi-square distribution - Til brug til bestemmelse af, hvor tæt observerede mængder passer til en foreslået model
- F-fordeling - Brugt i variansanalyse (ANOVA)
- Normal fordeling - Kaldte til klokke kurve og findes i hele statistikken.
- Studerendes distribution - Til brug med små prøvestørrelser fra en normal fordeling