Hvad er skevhed i statistikker?

Nogle fordelinger af data, f.eks klokke kurve eller Normal fordeling, er symmetriske. Dette betyder, at højre og venstre for distributionen er perfekte spejlbilleder af hinanden. Ikke hver fordeling af data er symmetrisk. Sæt af data, der ikke er symmetriske, siges at være asymmetriske. Målet for, hvordan asymmetrisk en fordeling kan kaldes, kaldes skævhed.

Middelværdien, medianen og tilstanden er alle mål for centret af et sæt data. Datas skævhed kan bestemmes af, hvordan disse mængder er forbundet med hinanden.

Skævet til højre

Data, der er skæve til højre, har en lang hale, der strækker sig til højre. En alternativ måde at tale om et datasæt skævt til højre på er at sige, at det er positivt skævt. I denne situation er middelværdien og median er begge større end tilstanden. Som en generel regel vil gennemsnittet for det meste af tiden for data, der er skævet til højre, være større end medianen. I resume for et datasæt, der er skævet til højre:

  • Altid: middel større end tilstanden
  • Altid: median større end tilstanden
  • Det meste af tiden: gennemsnit større end median
instagram viewer

Skævet til venstre

Situationen vender sig selv, når vi håndterer data, der er skæve mod venstre. Data, der er skæve til venstre, har en lang hale, der strækker sig til venstre. En alternativ måde at tale om et datasæt skævt til venstre på er at sige, at det er negativt skævt. I denne situation er middelværdien og medianen begge mindre end tilstanden. Som en generel regel vil gennemsnittet oftest være mindre end median for data, der er skævet til venstre. I resume for et datasæt, der er skævet til venstre:

  • Altid: betyder mindre end tilstanden
  • Altid: median mindre end tilstanden
  • Det meste af tiden: betyder mindre end median

Målinger af skevhed

Det er en ting at se på to datasæt og bestemme, at den ene er symmetrisk, mens den anden er asymmetrisk. Det er en anden at se på to sæt asymmetriske data og sige, at det ene er mere skævt end det andet. Det kan være meget subjektivt at bestemme, hvilket er mere skævt ved blot at se på fordelingsgrafen. Dette er grunden til, at der er måder at numerisk beregne målene for skævhed.

Et mål for skævhed, kaldet Pearsons første skævhedskoefficient, er at trække middelværdien fra tilstanden og derefter dele denne forskel med standardafvigelse af dataene. Årsagen til at opdele forskellen er sådan, at vi har en dimensionløs mængde. Dette forklarer, hvorfor data, der er skæve til højre, har positive skævheder. Hvis datasættet er skævet til højre, er middelværdien større end tilstanden, og så at trække tilstanden fra gennemsnittet giver et positivt tal. Et lignende argument forklarer, hvorfor data, der er skævet til venstre, har negativ skævhed.

Pearsons anden skævhedskoefficient bruges også til at måle asymmetrien i et datasæt. For denne mængde trækker vi tilstanden fra medianen, ganges dette tal med tre og divideres derefter med standardafvigelsen.

Anvendelser af skeve data

Skæve data opstår ganske naturligt i forskellige situationer. Indkomsterne er skæve til højre, fordi selv bare et par enkeltpersoner, der tjener millioner af dollars, i høj grad kan påvirke middelværdien, og der er ingen negative indkomster. Tilsvarende er data, der involverer et produkts levetid, såsom et mærke af pære, skæve til højre. Her er den mindste, som en levetid kan være, nul, og langvarige lyspærer giver dataene en positiv skævhed.

instagram story viewer