Området for statistiske datasæt

click fraud protection

I statistik og matematik er intervallet forskellen mellem maksimum- og minimumsværdierne for et datasæt og tjener som en af ​​to vigtige funktioner i et datasæt. Formlen for et interval er den maksimale værdi minus minimumsværdien i datasættet, som giver statistikere en bedre forståelse af, hvor varieret datasættet er.

To vigtige funktioner i et datasæt inkluderer datacentret og spredningen af ​​dataene, og centret kan væremålt på en række måder: de mest populære af disse er middelværdien, median, mode og midrange, men på lignende måde er der forskellige måder at beregne, hvor spredt datasættet er, og det nemmeste og groveste mål for spredning kaldes intervallet.

Beregningen af ​​intervallet er meget ligetil. Alt, hvad vi skal gøre, er at finde forskellen mellem den største dataværdi i vores sæt og den mindste dataværdi. Kort sagt anført har vi følgende formel: Område = Maksimal værdi – Minimumsværdi. For eksempel har datasættet 4,6,10, 15, 18 maksimalt 18, mindst 4 og et interval på 18-4 = 14.

instagram viewer

Området er en meget grov måling af spredningen af ​​data, fordi det er ekstremt følsomt over for outliers, og som et resultat er der visse begrænsninger i anvendeligheden af ​​et sandt interval af et datasæt til statistikere, fordi en enkelt dataværdi i høj grad kan påvirke værdien af rækkevidde.

Overvej for eksempel datasættet 1, 2, 3, 4, 6, 7, 7, 8. Den maksimale værdi er 8, minimum er 1 og området er 7. Overvej derefter det samme datasæt, kun med værdien 100 inkluderet. Området bliver nu 100-1 = 99 hvor tilføjelsen af ​​et enkelt ekstra datapunkt i høj grad påvirkede værdien af ​​området. Standardafvigelsen er et andet mål for spredning, der er mindre modtagelig for outliers, men ulempen er, at beregning af standardafvigelsen er meget mere kompliceret.

Området fortæller os heller intet om de interne funktioner i vores datasæt. For eksempel overvejer vi datasættet 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 8, 10, hvor området for dette datasæt er 10-1 = 9. Hvis vi så sammenligner dette med datasættet på 1, 1, 1, 2, 9, 9, 9, 10. Her er intervallet endnu en gang ni, dog for dette andet sæt, og i modsætning til det første sæt er dataene samlet omkring minimum og maksimum. Andre statistikker, såsom den første og tredje kvartil, ville være nødt til at blive brugt til at detektere noget af denne interne struktur.

Området er en god måde at få en meget grundlæggende forståelse af, hvor spredte numre i datasættet virkelig er, fordi det er let at gøre beregne, da det kun kræver en grundlæggende aritmetisk operation, men der er også et par andre applikationer af et datasæt i Statistikker.

Området kan også bruges til at estimere et andet mål for spredning, standardafvigelsen. I stedet for at gennemgå en temmelig kompliceret formel for at finde standardafvigelsen, kan vi i stedet bruge det, der kaldes rækkevidde. Intervallet er grundlæggende i denne beregning.

Området forekommer også i en boxplot, eller kasse og whiskers plot. Maksimum- og minimumsværdierne er begge tegnet i slutningen af ​​whiskers i grafen, og den samlede længde af whiskers og boksen er lig med området.

instagram story viewer