Der er mange spørgsmål, man kan stille, når man ser på en scatterplot. En af de mest almindelige er at undre sig over, hvor godt en lige linje tilnærmer sig dataene. For at hjælpe med at besvare dette er der en beskrivende statistik kaldet korrelationskoefficient. Vi vil se, hvordan vi beregner denne statistik.
Korrelationskoefficient
Det korrelationskoefficient, betegnet med r, fortæller os, hvor tæt data i a scatterplot falde langs en lige linje. Jo nærmere det den absolutte værdi af r er til en, jo bedre er dataene beskrevet af en lineær ligning. Hvis r = 1 eller r = -1 så er datasættet perfekt justeret. Datasæt med værdier på r tæt på nul viser lidt til intet lineært forhold.
På grund af de lange beregninger er det bedst at beregne r med brug af en lommeregner eller statistisk software. Det er dog altid et værdigt forsøg på at vide, hvad din lommeregner laver, når den beregner. Det følgende er en proces til beregning af korrelationskoefficienten hovedsageligt med hånden med en lommeregner, der bruges til de rutinemæssige aritmetiske trin.
Trin til beregning r
Vi begynder med at liste trin til beregning af korrelationskoefficienten. De data, vi arbejder med, er parrede data, hvor hvert par vil blive betegnet med (xjeg, yjeg).
- Vi begynder med et par foreløbige beregninger. Mængderne fra disse beregninger vil blive brugt i efterfølgende trin i vores beregning af r:
- Beregn x̄, the betyde af alle de første koordinater af dataene xjeg.
- Beregn ȳ, gennemsnittet af alle de anden koordinater af dataene
- yjeg.
- Beregn s x prøven standardafvigelse af alle de første koordinater af dataene xjeg.
- Beregn s y prøven standardafvigelse for alle de andet koordinater af dataene yjeg.
- Brug formlen (zx)jeg = (xjeg - x) / s x og beregne en standardiseret værdi for hver xjeg.
- Brug formlen (zy)jeg = (yjeg – ȳ) / s y og beregne en standardiseret værdi for hver yjeg.
- Multiplicer tilsvarende standardiserede værdier: (zx)jeg(zy)jeg
- Tilføj produkterne fra det sidste trin sammen.
- Del summen fra det forrige trin ved n - 1, hvor n er det samlede antal point i vores sæt parrede data. Resultatet af alt dette er korrelationskoefficienten r.
Denne proces er ikke hård, og hvert trin er ret rutinemæssigt, men indsamlingen af alle disse trin er ret involveret. Beregningen af standardafvigelsen er træt nok på egen hånd. Men beregningen af korrelationskoefficienten involverer ikke kun to standardafvigelser, men en række andre operationer.
Et eksempel
For at se nøjagtigt, hvordan værdien af r opnås ser vi på et eksempel. Igen er det vigtigt at bemærke, at vi til praktiske applikationer ønsker at bruge vores lommeregner eller statistisk software til at beregne r for os.
Vi begynder med en liste over parrede data: (1, 1), (2, 3), (4, 5), (5,7). Gennemsnittet af x værdier, middelværdien af 1, 2, 4 og 5 er x̄ = 3. Vi har også det ȳ = 4. Standardafvigelsen for
x værdier er sx = 1,83 og sy = 2.58. Tabellen nedenfor opsummerer de andre beregninger, der er nødvendige for r. Summen af produkterne i kolonnen til højre er 2.969848. Da der i alt er fire point og 4 - 1 = 3, deler vi summen af produkterne med 3. Dette giver os en korrelationskoefficient på r = 2.969848/3 = 0.989949.
Tabel til eksempel på beregning af korrelationskoefficient
x | y | zx | zy | zxzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |