Forståelse af relative frekvenshistogrammer

I Statistikker, er der mange udtryk, der har subtile sondringer mellem dem. Et eksempel på dette er forskellen mellem frekvens og relativ frekvens. Selvom der er mange anvendelser til relative frekvenser, er der især en der involverer et relativt frekvenshistogram. Dette er en type graf, der har forbindelser til andre emner i statistik og matematisk statistik.

Definition

Histogrammer er statistiske grafer, der ligner søjlediagrammer. Typisk er imidlertid betegnelsen histogram forbeholdt kvantitativ variabler. Den horisontale akse på et histogram er en talelinje, der indeholder klasser eller skraldespande med ensartet længde. Disse skraldespande er intervaller i en talelinje, hvor data kan falde og kan bestå af et enkelt tal (typisk for diskrete datasæt, der er relativt små) eller et interval af værdier (for større diskrete datasæt og sammenhængende data).

For eksempel kan vi være interesseret i at overveje fordelingen af ​​score på en 50 point quiz for en klasse af studerende. En mulig måde at konstruere skraldespandene på ville være at have en anden skraldespand for hvert 10. punkt.

instagram viewer

Den lodrette akse på et histogram repræsenterer det antal eller frekvens, som en dataværdi forekommer i hver af skraldespandene. Jo højere bjælken er, jo flere dataværdier falder inden for dette interval af bin-værdier. For at vende tilbage til vores eksempel, hvis vi der er fem studerende, der scorede mere end 40 point på quizzen, så vil linjen svarende til 40 til 50 bin være fem enheder høj.

Sammenligning af frekvenshistogram

Et relativt frekvenshistogram er en mindre modifikation af et typisk frekvenshistogram. I stedet for at bruge en lodret akse til antallet af dataværdier, der falder i en given bin, bruger vi denne akse til at repræsentere den samlede andel af dataværdier, der falder i denne bin. Da 100% = 1, skal alle søjler have en højde fra 0 til 1. Desuden skal højderne på alle bjælker i vores relative frekvenshistogram være til 1.

I det løbende eksempel, som vi har set på, skal vi antage, at der er 25 studerende i vores klasse, og fem har scoret mere end 40 point. I stedet for at konstruere en bjælke med højde fem til denne skraldespand, ville vi have en bjælke med højde 5/25 = 0,2.

Når vi sammenligner et histogram med et relativt frekvenshistogram, hver med de samme skraldespand, vil vi bemærke noget. Histogrammenes overordnede form vil være identisk. Et relativ frekvenshistogram understreger ikke de samlede tællinger i hver skraldespand. I stedet fokuserer denne type graf på, hvordan antallet af dataværdier i skraldespanden relateres til de andre skraldespande. Den måde, det viser dette forhold på, er i procent af det samlede antal dataværdier.

Sandsynlighed Massefunktioner

Vi kan undre os over, hvad poenget er med at definere et relativ frekvenshistogram. Én nøgleapplikation vedrører diskrete tilfældige variabler, hvor vores skraldespand har bredde en og er centreret omkring hvert ikke-negativt heltal. I dette tilfælde kan vi definere en stykkevis funktion med værdier, der svarer til de lodrette højder på bjælkerne i vores relative frekvenshistogram.

Denne type funktion kaldes en sandsynlighedsmassefunktion. Årsagen til at konstruere funktionen på denne måde er, at den kurve, der er defineret af funktionen, har en direkte forbindelse til sandsynlighed. Området under kurven fra værdierne -en til b er sandsynligheden for, at den tilfældige variabel har en værdi fra -en til b.

Forbindelsen mellem sandsynlighed og område under kurven er en, der gentagne gange vises i matematiske statistikker. Brug af en sandsynlighedsmassefunktion til at modellere et relativ frekvenshistogram er en anden sådan forbindelse.