Et histogram er en type graf, der har brede applikationer i statistikker. Histogrammer giver en visuel fortolkning af numeriske data ved at angive antallet af datapunkter, der ligger inden for et interval af værdier. Disse værdiområder kaldes klasser eller skraldespande. Hyppigheden af de data, der falder i hver klasse, er afbildet ved brug af en bjælke. Jo højere søjlen er, jo større er hyppigheden af dataværdier i denne bin.
Histogrammer vs. Søjlediagrammer
Ved første øjekast ser histogrammer meget ud søjlediagrammer. Begge grafer anvender lodrette bjælker til at repræsentere data. Højden på en bjælke svarer til relativ frekvens af mængden af data i klassen. Jo højere bjælke, desto højere er datafrekvensen. Jo lavere søjle, jo lavere er datafrekvensen. Men udseende kan være bedragende. Det er her lighederne slutter mellem de to typer grafer.
Årsagen til, at disse typer grafer er forskellige, har at gøre med målingsniveau for dataene. På den ene side bruges søjlediagrammer til data på det nominelle måleniveau.
Søjlediagrammer måle frekvensen af kategoriske data, og klasserne for en søjlediagram er disse kategorier. På den anden side bruges histogrammer til data, der er mindst i ordinalt niveau af måling. Klasserne for et histogram er værdiområder.En anden nøgleforskel mellem søjlediagrammer og histogrammer har at gøre med rækkefølgen af søjlerne. I en søjlediagram er det almindelig praksis at omarrangere bjælkerne i rækkefølge af faldende højde. Søjlerne i et histogram kan imidlertid ikke omarrangeres. De skal vises i den rækkefølge, klasserne forekommer.
Eksempel på et histogram
Diagrammet ovenfor viser os et histogram. Antag, at fire mønter vendes, og resultaterne registreres. Brug af passende binomial fordelingstabel eller ligefrem beregninger med den binomiale formel viser sandsynligheden for, at ingen hoveder viser, er 1/16, sandsynligheden for, at et hoved viser, er 4/16. Sandsynligheden for to hoveder er 6/16. Sandsynligheden for tre hoveder er 4/16. Sandsynligheden for fire hoveder er 1/16.
Vi konstruerer i alt fem klasser, hver med bredde en. Disse klasser svarer til antallet af mulige hoveder: nul, en, to, tre eller fire. Over hver klasse tegner vi en lodret bjælke eller rektangel. Højderne på disse søjler svarer til de sandsynligheder, der er nævnt i vores sandsynlighedseksperiment med at vende fire mønter og tælle hovederne.
Histogrammer og sandsynligheder
Ovenstående eksempel viser ikke kun konstruktionen af et histogram, men det viser også det diskrete sandsynlighedsfordelinger kan repræsenteres med et histogram. Faktisk kan en diskret sandsynlighedsfordeling repræsenteres ved et histogram.
For at konstruere et histogram, der repræsenterer en sandsynlighedsfordeling, begynder vi med at vælge klasser. Dette skulle være resultaterne af et sandsynlighedseksperiment. Bredden af hver af disse klasser skal være en enhed. Højderne på bjælkerne i histogrammet er sandsynligheden for hvert af resultaterne. Med et histogram konstrueret på en sådan måde er områderne af søjlerne også sandsynligheder.
Da denne slags histogram giver os sandsynligheder, er det underlagt et par betingelser. En bestemmelse er, at kun ikke-negative tal kan bruges til den skala, der giver os højden på en given bjælke i histogrammet. En anden betingelse er, at eftersom sandsynligheden er lig med området, skal alle områdene af søjlerne tilsammen udgøre en, svarende til 100%.
Histogrammer og andre applikationer
Søjlerne i et histogram behøver ikke at være sandsynligheder. Histogrammer er nyttige på andre områder end sandsynlighed. Når som helst vi ønsker at sammenligne hyppigheden af forekomst af kvantitative data, der kan bruges til et histogram, til at skildre vores datasæt.