Sådan finder du de indvendige og ydre hegn

click fraud protection

Én funktion i et datasæt, der er vigtigt at bestemme, er, om det indeholder nogen outliers. Outliers betragtes intuitivt som værdier i vores datasæt, der adskiller sig meget fra et flertal af resten af ​​dataene. Naturligvis er denne forståelse af outliers tvetydig. For at betragtes som en outlier, hvor meget skal værdien afvige fra resten af ​​dataene? Er det, hvad en forsker kalder en outlier, der skal matche en anden? For at give en vis konsistens og et kvantitativt mål til bestemmelse af udliggere bruger vi indre og ydre hegn.

For at finde de indvendige og ydre hegn i et datasæt, har vi først brug for et par andre beskrivende statistik. Vi begynder med at beregne kvartiler. Dette vil føre til interkvartilområdet. Endelig, med disse beregninger bag os, vil vi være i stand til at bestemme de indre og ydre hegn.

kvartiler

Det første og tredje kvartil er en del af fem numre resume af ethvert sæt kvantitative data. Vi begynder med at finde median eller midtvejspunktet for dataene, efter at alle værdier er anført i stigende rækkefølge. Værdierne mindre end medianen svarer til omtrent halvdelen af ​​dataene. Vi finder medianen for denne halvdel af datasættet, og dette er den første kvartil.

instagram viewer

På en lignende måde overvejer vi nu den øverste halvdel af datasættet. Hvis vi finder medianen for denne halvdel af dataene, så har vi de tredje kvartiler. Disse kvartiler får deres navn fra det faktum, at de opdelte datasættet i fire dele af samme størrelse eller kvartaler. Så med andre ord er ca. 25% af alle dataværdier mindre end den første kvartil. På lignende måde er cirka 75% af dataværdierne mindre end den tredje kvartil.

Interkvartil rækkevidde

Vi skal næste finde den interkvartil rækkevidde (IQR). Dette er lettere at beregne end den første kvartil q1 og den tredje kvartil q3. Alt hvad vi skal gøre er at tage forskellen mellem disse to kvartiler. Dette giver os formlen:

IQR = Q3 - Q1

IQR fortæller os, hvor spredt den midterste halvdel af vores datasæt er.

Find de indre hegn

Vi kan nu finde de indre hegn. Vi starter med IQR og multiplicerer dette tal med 1,5. Vi trækker derefter dette nummer fra den første kvartil. Vi tilføjer også dette nummer til den tredje kvartil. Disse to numre danner vores indre hegn.

Find de ydre hegn

For de ydre hegn starter vi med IQR og multiplicerer dette tal med 3. Vi trækker derefter dette nummer fra den første kvartil og tilføjer det til den tredje kvartil. Disse to numre er vores ydre hegn.

Opdage outliers

Påvisning af outliers bliver nu så let som at bestemme, hvor dataværdierne ligger i reference til vores indre og ydre hegn. Hvis en enkelt dataværdi er mere ekstrem end nogen af ​​vores ydre hegn, er dette en outlier og omtales undertiden som en stærk outlier. Hvis vores dataværdi er mellem et tilsvarende indre og ydre hegn, er denne værdi en mistænkt outlier eller en mild outlier. Vi vil se, hvordan dette fungerer med eksemplet nedenfor.

Eksempel

Antag, at vi har beregnet den første og tredje kvartil af vores data og har fundet disse værdier til henholdsvis 50 og 60. Det interkvartile interval IQR = 60 - 50 = 10. Dernæst ser vi, at 1,5 x IQR = 15. Dette betyder, at de indvendige hegn er 50 - 15 = 35 og 60 + 15 = 75. Dette er 1,5 x IQR mindre end den første kvartil og mere end den tredje kvartil.

Vi beregner nu 3 x IQR og ser, at dette er 3 x 10 = 30. De ydre hegn er 3 x IQR mere ekstreme end den første og tredje kvartil. Dette betyder, at de ydre hegn er 50 - 30 = 20 og 60 + 30 = 90.

Eventuelle dataværdier, der er mindre end 20 eller større end 90, betragtes som outliers. Eventuelle dataværdier, der er mellem 29 og 35 eller mellem 75 og 90, er mistanke om outliers.

instagram story viewer