Forskelle mellem korrelation og årsag

click fraud protection

En dag ved frokosten spiste en ung kvinde en stor skål is, og et medarbejder på fakultetet gik hen til hende og sagde: ”Du skulle være bedre, der er en høj statistiskkorrelation mellem is og drukning. ” Hun må have givet ham et forvirret blik, da han uddybte noget mere. "Dage med det største salg af is ser også de fleste drukne."

Da hun var færdig med min is, diskuterede de to kolleger det faktum, at bare fordi en variabel statistisk er forbundet med en anden, betyder det ikke, at den ene er årsagen til den anden. Undertiden er der en variabel gemt i baggrunden. I dette tilfælde gemmer dagen på året sig i dataene. Mere is sælges på varme sommerdage end snedækkede vinterdage. Flere svømmer om sommeren, og derfor drukner flere om sommeren end om vinteren.

Pas på lurer variabler

Ovenstående anekdot er et godt eksempel på, hvad der er kendt som en lurer variabel. Som navnet antyder, kan en lurer variabel være undvigende og vanskelig at opdage. Når vi finder ud af, at to numeriske datasæt er stærkt korrelerede, skal vi altid spørge: "Kan der være noget andet, der forårsager dette forhold?"

instagram viewer

Følgende er eksempler på stærk korrelation forårsaget af en lurer variabel:

  • Det gennemsnitlige antal computere pr. Person i et land og det lands gennemsnitlige forventede levetid.
  • Antallet af brandmænd ved en brand og skaden forårsaget af branden.
  • Højden på en grundskolestudent og hans eller hendes læseniveau.

I alle disse tilfælde er forholdet mellem variablerne meget stærkt. Dette er typisk angivet med a korrelationskoefficient der har en værdi tæt på 1 eller -1. Det betyder ikke noget, hvor tæt denne korrelationskoefficient er på 1 eller til -1, denne statistik kan ikke vise, at den ene variabel er årsagen til den anden variabel.

Påvisning af lurerende variabler

Efter deres natur er lurende variabler vanskelige at opdage. En strategi, hvis den er tilgængelig, er at undersøge, hvad der sker med dataene over tid. Dette kan afsløre sæsonbetonede tendenser, som eksempel på is, der bliver skjult, når dataene klumpes sammen. En anden metode er at se på outliers og prøv at bestemme, hvad der gør dem anderledes end de andre data. Nogle gange giver dette en antydning af, hvad der sker bag kulisserne. Det bedste handlingsforløb er at være proaktiv; stille spørgsmålstegn ved antagelser og designeksperimenter omhyggeligt.

Hvorfor betyder det noget?

Antag, at en velmenende, men statistisk uinformeret kongresmedlem i åbningsscenariet foreslog at forbudte al is for at forhindre drukning. En sådan regning ville være til ulempe for store dele af befolkningen, tvinge flere virksomheder til konkurs og eliminere tusinder af job, når landets isindustri lukker ned. På trods af de bedste intentioner ville dette lovforslag ikke mindske antallet af druknende dødsfald.

Hvis dette eksempel virker lidt for langt hentet, skal du overveje følgende, som faktisk skete. I begyndelsen af ​​1900-tallet bemærkede lægerne, at nogle spædbørn på mystisk vis døde i deres søvn af opfattede luftvejsproblemer. Dette blev kaldt krybbe død og er nu kendt som krybbedød. En ting, der stakk ud fra obduktioner, der blev udført på dem, der døde af krybbedød, var en forstørret thymus, en kirtel placeret i brystet. Fra sammenhængen mellem forstørrede thymuskirtler hos SIDS-babyer formodede lægerne, at en unormalt stor thymus forårsagede forkert åndedræt og død.

Den foreslåede løsning var at krympe thymus med stor stråling eller fjerne kirtlen helt. Disse procedurer havde en høj dødelighed og førte til endnu flere dødsfald. Det, der er trist, er, at disse operationer ikke behøver at være blevet udført. Efterfølgende forskning har vist, at disse læger tog fejl af deres antagelser, og at thymus ikke er ansvarlig for krybbedød.

Korrelation antyder ikke årsag

Ovenstående skulle få os til at stoppe, når vi mener, at der bruges statistiske beviser til at retfærdiggøre ting som medicinske regimer, lovgivning og uddannelsesforslag. Det er vigtigt, at der arbejdes godt med at fortolke data, især hvis resultater, der involverer korrelation, vil påvirke andres liv.

Når nogen siger: ”Undersøgelser viser, at A er en årsag til B og nogle statistikker sikkerhedskopierer det,” skal du være klar til det svar, "korrelation indebærer ikke årsagssammenhæng." Vær altid på udkig efter hvad der lurer under data.

instagram story viewer