Hvad er korrelation i statistik?

click fraud protection

Nogle gange kommer numeriske data parvis. Måske en palæontolog måler længden af ​​lårbenet (benben) og humerus (armben) i fem fossiler af samme dinosaurart. Det kan være fornuftigt at overveje armlængderne separat fra benlængderne og beregne ting som middelværdien eller standardafvigelsen. Men hvad hvis forskeren er nysgerrig efter at vide, om der er et forhold mellem disse to målinger? Det er ikke nok bare at se på armene separat fra benene. I stedet skal paleontologen parre længderne på knoglerne for hvert skelet og bruge et område på Statistikker kendt som korrelation.

Hvad er sammenhæng? Antag i eksemplet ovenfor, at forskeren studerede dataene og nåede de ikke meget overraskende resultat, at dinosaurfossiler med længere arme også havde længere ben, og fossiler med kortere arme havde kortere ben. En spredningsdiagram af dataene viste, at datapunkterne alle var samlet i nærheden af ​​en lige linje. Forskeren vil så sige, at der er et stærkt retlinjeforhold, eller korrelationmellem længderne af armknogler og benknogler i fossilerne. Det kræver noget mere arbejde for at sige, hvor stærk korrelationen er.

instagram viewer

Korrelation og scatterplots

Da hvert datapunkt repræsenterer to tal, er en todimensionel spredningsdiagram en stor hjælp til at visualisere dataene. Antag, at vi faktisk har vores hænder på dinosaurdataene, og de fem fossiler har følgende målinger:

  1. Femur 50 cm, humerus 41 cm
  2. Femur 57 cm, humerus 61 cm
  3. Femur 61 cm, humerus 71 cm
  4. Femur 66 cm, humerus 70 cm
  5. Femur 75 cm, humerus 82 cm

En spredningsdiagram af dataene med femurmåling i vandret retning og humerusmåling i lodret retning resulterer i ovenstående graf. Hvert punkt repræsenterer målingerne på et af skeletene. For eksempel svarer punktet nederst til venstre til skelet # 1. Punktet øverst til højre er skelet # 5.

Det ser bestemt ud til, at vi kunne tegne en lige linje, der ville være meget tæt på alle punkterne. Men hvordan kan vi fortælle med sikkerhed? Nærhed er i betragtningens øje. Hvordan ved vi, at vores definitioner af "nærhed" stemmer overens med en anden? Er der nogen måde, hvorpå vi kan kvantificere denne nærhed?

Korrelationskoefficient

For objektivt at måle, hvor tæt dataene er at være langs en lige linje, kommer korrelationskoefficienten til hjælp. Det korrelationskoefficient, typisk betegnet r, er et reelt tal mellem -1 og 1. Værdien af r måler styrken af ​​en korrelation baseret på en formel og eliminerer enhver subjektivitet i processen. Der er flere retningslinjer, man skal huske på, når man fortolker værdien af r.

  • Hvis r = 0, så er punkterne et komplet virvar uden absolut linjeforhold mellem dataene.
  • Hvis r = -1 eller r = 1, så samles alle datapunkter perfekt på en linje.
  • Hvis r er en anden værdi end disse ekstremer, så er resultatet en mindre end perfekt pasform af en lige linje. I virkelige datasæt er dette det mest almindelige resultat.
  • Hvis r er positiv, så går linjen op med en positiv hældning. Hvis r er negativ, så går linjen ned med negativ hældning.

Beregningen af ​​korrelationskoefficienten

Formlen for korrelationskoefficienten r er kompliceret, som det kan ses her. Ingredienserne i formlen er middel og standardafvigelser for begge sæt numeriske data såvel som antallet af datapunkter. Til de fleste praktiske anvendelser r er kedelig at beregne for hånd. Hvis vores data er indtastet i en lommeregner eller et regnearksprogram med statistiske kommandoer, er der normalt en indbygget funktion, der skal beregnes r.

Korrelationsbegrænsninger

Selvom korrelation er et kraftfuldt værktøj, er der nogle begrænsninger i brugen af ​​den:

  • Korrelation fortæller os ikke helt om dataene. Midler og standardafvigelser er fortsat vigtige.
  • Dataene kan beskrives ved en mere kompliceret kurve end en lige linje, men dette vises ikke i beregningen af r.
  • Outliers påvirker kraftigt korrelationskoefficienten. Hvis vi ser nogen outliers i vores data, skal vi være forsigtige med, hvilke konklusioner vi drager ud fra værdien af r.
  • Bare fordi to datasæt er korrelerede, betyder det ikke, at det ene er årsag af den anden.
instagram story viewer