En introduktion til interkvartilområdet

Interkvartilområdet (IQR) er forskellen mellem den første kvartil og den tredje kvartil. Formlen til dette er:

IQR = Q3 - Sp1

Der er mange målinger af variationen i et datasæt. Begge rækkevidde og standardafvigelse fortæl os, hvor spredt vores data er. Problemet med disse beskrivende statistikker er, at de er ret følsomme over for outliers. En måling af spredningen af ​​et datasæt, der er mere modstandsdygtigt over for tilstedeværelsen af ​​outliers, er interkvartilområdet.

Definition af interkvartil rækkevidde

Som det ses ovenfor, er interkvartilområdet baseret på beregning af anden statistik. Før vi bestemmer interkvartilområdet, skal vi først kende værdierne for den første kvartil og den tredje kvartil. (Naturligvis afhænger første og tredje kvartil af værdien af ​​medianen).

Når vi først har bestemt værdierne for det første og det tredje kvartil, er interkvartilområdet meget let at beregne. Alt hvad vi skal gøre er at trække den første kvartil fra den tredje kvartil. Dette forklarer brugen af ​​udtrykket interkvartilt interval for denne statistik.

instagram viewer

Eksempel

For at se et eksempel på beregningen af ​​et interkvartilt interval vil vi overveje datasættet: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. Det fem numre resume for dette datasæt er:

  • Minimum 2
  • Første kvartil på 3,5
  • Median af 6
  • Tredje kvartil af 8
  • Maksimum 9

Vi ser således, at interkvartilområdet er 8 - 3,5 = 4,5.

Betydningen af ​​det interkvartile interval

Området giver os en måling af, hvor spredt hele vores datasæt er. Interkvartilområdet, der fortæller os, hvor langt fra hinanden første og tredje kvartil er, angiver, hvor spredt de midterste 50% af vores datasæt er.

Modstand mod outliers

Den primære fordel ved at bruge interkvartilområdet snarere end området til måling af spredningen af ​​et datasæt er, at interkvartilområdet ikke er følsomt over for outliers. For at se dette, vil vi se på et eksempel.

Fra ovennævnte datasæt har vi et interkvartilt interval på 3,5, et interval på 9 - 2 = 7 og en standardafvigelse på 2,34. Hvis vi erstatter den højeste værdi på 9 med en ekstrem outlier på 100, bliver standardafvigelsen 27,37 og området er 98. Selvom vi har ret drastiske forskydninger af disse værdier, påvirkes den første og den tredje kvartil ikke, og interkvartilområdet ændres derfor ikke.

Brug af interkvartil rækkevidde

Udover at være et mindre følsomt mål for spredningen af ​​et datasæt, har interkvartilområdet en anden vigtig anvendelse. På grund af dens modstand mod outliers er interkvartilområdet nyttigt til at identificere, hvornår en værdi er en outlier.

Det interquartile rækkevidde er det, der informerer os, om vi har en mild eller stærk outlier. For at se efter en outlier skal vi se under den første kvartil eller over den tredje kvartil. Hvor langt vi skal gå afhænger af værdien af ​​det interkvartile interval.

instagram story viewer