Histogramklasser: Information og eksempler

click fraud protection

Der er virkelig ingen regel for, hvor mange klasser der skal være. Der er et par ting at overveje ved antallet af klasser. Hvis der kun var en klasse, falder alle data i denne klasse. Vores histogram ville simpelthen være et enkelt rektangel med højde angivet af antallet af elementer i vores datasæt. Dette ville ikke være meget nyttigt eller nyttigt histogram.

På den anden ekstreme måde kunne vi have et væld af klasser. Dette ville resultere i en mangfoldighed af søjler, hvoraf ingen sandsynligvis ville være meget høje. Det ville være meget vanskeligt at bestemme nogen sondringskarakteristik fra dataene ved hjælp af denne type histogram.

For at beskytte mod disse to ekstremer har vi en tommelfingerregel, der skal bruges til at bestemme antallet af klasser for et histogram. Når vi har et relativt lille datasæt, bruger vi typisk kun omkring fem klasser. Hvis datasættet er relativt stort, bruger vi ca. 20 klasser.

Lad det igen understreges, at dette er en tommelfingerregel, ikke et absolut statistisk princip. Der kan være gode grunde til at have et andet antal klasser til data. Vi vil se et eksempel på dette nedenfor.

instagram viewer

Inden vi overvejer et par eksempler, vil vi se, hvordan vi bestemmer, hvad klasserne faktisk er. Vi begynder denne proces med at finde rækkevidde af vores data. Med andre ord trækker vi den laveste dataværdi fra den højeste dataværdi.

Når datasættet er relativt lille, deler vi området med fem. Kvotienten er bredden på klasserne for vores histogram. Vi bliver sandsynligvis nødt til at gøre noget afrunding i denne proces, hvilket betyder, at det samlede antal klasser muligvis ikke ender med at blive fem.

Når datasættet er relativt stort, deler vi intervallet med 20. Ligesom før giver dette opdelingsproblem os bredden af ​​klasserne til vores histogram. Som vi tidligere har set, kan vores afrunding muligvis resultere i lidt mere eller lidt mindre end 20 klasser.

I en af ​​de store eller små datasættilfælde får vi første klasse til at begynde på et punkt, der er lidt mindre end den mindste dataværdi. Vi skal gøre dette på en sådan måde, at den første dataværdi falder i den første klasse. Andre efterfølgende klasser bestemmes af den bredde, der blev indstillet, da vi delte området. Vi ved, at vi er i den sidste klasse, når vores højeste dataværdi er indeholdt i denne klasse.

Som et eksempel bestemmer vi en passende klassebredde og klasser for datasættet: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Vi ser, at der er 27 datapunkter i vores sæt. Dette er et relativt lille sæt, og derfor vil vi dele intervallet med fem. Området er 19,2 - 1,1 = 18,1. Vi deler 18,1 / 5 = 3,62. Dette betyder, at en klassebredde på 4 ville være passende. Vores mindste dataværdi er 1,1, så vi starter den første klasse på et punkt mindre end dette. Da vores data består af positive tal, ville det være fornuftigt at få den første klasse til at gå fra 0 til 4.

For et eksempel på dette, formoder, at der er en multiple choice-test med 35 spørgsmål til den, og 1000 studerende på en gymnasium tager testen. Vi ønsker at danne et histogram, der viser antallet af studerende, der opnåede bestemte point på testen. Vi ser, at 35/5 = 7, og at 35/20 = 1,75. På trods af vores tommelfingerregel, der giver os valg af klasser med bredde 2 eller 7 til at bruge til vores histogram, kan det være bedre at have klasser med bredde 1. Disse klasser svarer til hvert spørgsmål, som en studerende besvarede korrekt under testen. Den første af disse ville være centreret på 0, og den sidste ville være centreret på 35.

instagram story viewer