Mange gange i studiet af Statistikker det er vigtigt at oprette forbindelse mellem forskellige emner. Vi vil se et eksempel på dette, hvor hældningen af regressionslinjen er direkte relateret til korrelationskoefficient. Da disse begreber begge involverer lige linjer, er det kun naturligt at stille spørgsmålet, "Hvordan er korrelationskoefficienten og mindst firkantede linje relaterede?"
Først vil vi se på nogle baggrunde vedrørende begge disse emner.
Detaljer vedrørende korrelation
Det er vigtigt at huske detaljerne vedrørende korrelationskoefficienten, som er betegnet med r. Denne statistik bruges, når vi har parret kvantitative data. Fra en scatterplot af parrede data, kan vi se efter tendenser i den samlede distribution af data. Nogle parrede data udviser et lineært eller lige linjemønster. Men i praksis falder dataene aldrig nøjagtigt langs en lige linje.
Flere mennesker ser på det samme scatterplot af sammenkoblede data ville være uenige om, hvor tæt det var at vise en samlet lineær tendens. Når alt kommer til alt, kan vores kriterier for dette være noget subjektivt. Den skala, vi bruger, kan også påvirke vores opfattelse af dataene. Af disse grunde og mere har vi brug for en slags objektiv foranstaltning for at fortælle, hvor tæt vores parrede data er på at være lineære. Korrelationskoefficienten opnår dette for os.
Et par grundlæggende fakta om r omfatte:
- Værdien af r spænder mellem et hvilket som helst reelt tal fra -1 til 1.
- Værdier af r tæt på 0 antyder, at der er ringe eller ingen lineær forbindelse mellem dataene.
- Værdier af r tæt på 1 antyder, at der er et positivt lineært forhold mellem dataene. Dette betyder, at som x øger det y stiger også.
- Værdier af r tæt på -1 antyder, at der er et negativt lineært forhold mellem dataene. Dette betyder, at som x øger det y falder.
Hældningen af den mindste firkantede linje
De sidste to punkter på listen ovenfor peger os mod skråningen af den mindst kvadratiske linje med den bedste pasform. Husk, at linjens hældning er en måling af, hvor mange enheder den går op eller ned for hver enhed, vi flytter til højre. Nogle gange angives dette som stigningen på linjen divideret med kørslen eller ændringen i y værdier divideret med ændringen i x værdier.
Generelt har lige linier skråninger, der er positive, negative eller nul. Hvis vi skulle undersøge vores mindst kvadratiske regressionslinjer og sammenligne de tilsvarende værdier af r, vil vi bemærke, at hver gang vores data har en negativ korrelationskoefficient, er hældningen af regressionslinjen negativ. Tilsvarende for hældningen af regressionslinjen er positiv for hver gang vi har en positiv korrelationskoefficient.
Det bør fremgå af denne iagttagelse, at der bestemt er en forbindelse mellem tegnet på korrelationskoefficienten og skråningen på den mindste firkantede linje. Det gjenstår at forklare, hvorfor dette er sandt.
Formlen for skråningen
Årsagen til forbindelsen mellem værdien af r og hældningen på linjen med mindst kvadrater har at gøre med formlen, der giver os hældningen på denne linje. For parrede data (x, y) vi betegner standardafvigelse af x data af sx og standardafvigelsen for y data af sy.
Formlen for skråningen -en af regressionslinjen er:
- a = r (sy/ sx)
Beregningen af en standardafvigelse indebærer, at man tager den positive firkantede rod af et ikke-negativt tal. Som et resultat skal begge standardafvigelser i formel for skråningen være ikke-negative. Hvis vi antager, at der er en vis variation i vores data, vil vi kunne se bort fra muligheden for, at et af disse standardafvigelser er nul. Derfor er tegnet på korrelationskoefficienten det samme som tegn på hældningen på regressionslinjen.