Interquartile rækkevidde er nyttig til at detektere tilstedeværelsen af outliers. outliers er individuelle værdier, der falder uden for det samlede mønster i et datasæt. Denne definition er noget vag og subjektiv, så det er nyttigt at have en regel, der skal anvendes, når bestemmelse af, om et datapunkt virkelig er en udvidere - det er her, interquartile rækkevidden styres kommer i.
Ethvert datasæt kan beskrives ved hjælp af dets fem-nummer sammendrag. Disse fem numre, som giver dig de oplysninger, du har brug for for at finde mønstre og outliers, består af (i stigende rækkefølge):
Disse fem numre fortæller en person mere om deres data end at se på numrene på én gang kunne, eller i det mindste gøre dette meget lettere. F.eks rækkevidde, der er det mindste, der trækkes fra det maksimale, er en indikator for, hvor spredt dataene er i et sæt (bemærk: området er meget følsom over for outliers - hvis en outlier også er et minimum eller maksimum, vil intervallet ikke være en nøjagtig repræsentation af bredden af en data sæt).
Område ville være vanskeligt at ekstrapolere ellers. I lighed med intervallet, men mindre følsomt over for outliers er interkvartilområdet. Det interkvartil rækkevidde beregnes på omtrent samme måde som intervallet. Alt hvad du gør for at finde det er at trække den første kvartil fra den tredje kvartil:
Interkvartilområdet viser, hvordan dataene spredes om medianen. Det er mindre modtageligt end rækkevidden for outliers og kan derfor være mere nyttigt.
Selvom det ikke ofte påvirkes meget af dem, kan interkvartilområdet bruges til at opdage outliers. Dette gøres ved hjælp af disse trin:
Husk, at interkvartilreglen kun er en tommelfingerregel, der generelt indeholder, men ikke gælder for alle tilfælde. Generelt skal du altid følge din outlier-analyse ved at studere de resulterende outliers for at se, om de giver mening. Enhver potentiel outlier, der opnås ved hjælp af interkvartilmetoden, bør undersøges i sammenhæng med hele datasættet.
Se interquartile rækkevidde på arbejdet med et eksempel. Antag, at du har følgende datasæt: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Sammendraget af fem numre for dette datasæt er minimum = 1, første kvartil = 4, median = 7, tredje kvartil = 10 og maksimum = 17. Du kigger måske på dataene og siger automatisk, at 17 er en outlier, men hvad siger interkvarteringsreglen?
Multipliser nu dit svar med 1,5 for at få 1,5 x 6 = 9. Ni mindre end den første kvartil er 4 - 9 = -5. Ingen data er mindre end dette. Ni mere end den tredje kvartil er 10 + 9 = 19. Ingen data er større end dette. På trods af at den maksimale værdi er fem mere end det nærmeste datapunkt, viser interkvarteringsreglen, at det sandsynligvis ikke bør betragtes som en outlier for dette datasæt.