Lineær regressionsstatistik og analyse

Lineær regression er en statistisk teknik, der bruges til at lære mere om forholdet mellem en uafhængig (prediktor) variabel og en afhængig (kriterium) variabel. Når du har mere end en uafhængig variabel i din analyse, kaldes dette multiple lineær regression. Generelt giver regression forskeren mulighed for at stille det generelle spørgsmål "Hvad er den bedste prediktor for ???"

Lad os sige, at vi studerede årsagerne til fedme, målt ved kropsmasseindeks (BMI). Især ønskede vi at se, om følgende variabler var signifikante forudsigere for en persons BMI: antal fastfood måltider spist om ugen, antal timer fjernsyn set pr. uge, antallet af minutter brugt på træning pr. uge og forældres BMI. Lineær regression ville være en god metode til denne analyse.

Regressionsligningen

Når du udfører en regressionsanalyse med en uafhængig variabel, er regressionsligningen Y = a + b * X hvor Y er den afhængige variabel, X er den uafhængige variabel, a er konstanten (eller aflytning) og b er det hældning af regressionslinjen

instagram viewer
. Lad os for eksempel sige, at GPA bedst forudsiges af regressionsligningen 1 + 0,02 * IQ. Hvis en studerende havde en IQ på 130, ville hans eller hendes GPA være 3,6 (1 + 0,02 * 130 = 3,6).

Når du udfører en regressionsanalyse, hvor du har mere end en uafhængig variabel, er regressionsligningen Y = a + b1 * X1 + b2 * X2 +... + Bp * XP. Hvis vi for eksempel ønskede at inkludere flere variabler til vores GPA-analyse, såsom målinger af motivation og selvdisciplin, ville vi bruge dette ligning.

R-Square

R-firkant, også kendt som bestemmelseskoefficient, er en almindeligt anvendt statistik til evaluering af modellen for en regressionsligning. Det vil sige, hvor gode er alle dine uafhængige variabler til at forudsige din afhængige variabel? Værdien af ​​R-kvadrat varierer fra 0,0 til 1,0 og kan ganges med 100 for at opnå en procentdel af varians forklaret. For eksempel at gå tilbage til vores GPA-regressionsligning med kun en uafhængig variabel (IQ)... Lad os sige, at vores R-kvadrat for ligningen var 0,4. Vi kunne fortolke dette til at betyde, at 40% af variationen i GPA er forklaret af IQ. Hvis vi derefter tilføjer vores to andre variabler (motivation og selvdisciplin), og R-kvadratet øges til 0,6, betyder dette, at IQ, motivation og selvdisciplin sammen forklarer 60% af variationen i GPA scorer.

Regressionsanalyser udføres typisk ved hjælp af statistisk software, såsom SPSS eller SAS, og så beregnes R-kvadratet for dig.

Fortolkning af regressionskoefficienter (b)

B-koefficienterne fra ligningerne ovenfor repræsenterer styrken og retningen for forholdet mellem de uafhængige og afhængige variabler. Hvis vi ser på GPA- og IQ-ligningen, er 1 + 0,02 * 130 = 3,6, 0,02 regressionskoefficienten for variablen IQ. Dette fortæller os, at forholdet i forholdet er positivt, så når IQ stiger, øges også GPA. Hvis ligningen var 1 - 0,02 * 130 = Y, ville dette betyde, at forholdet mellem IQ og GPA var negativt.

Forudsætninger

Der er flere antagelser om de data, der skal opfyldes for at udføre en lineær regressionsanalyse:

  • Linearitet: Det antages, at forholdet mellem de uafhængige og afhængige variabler er lineære. Selvom denne antagelse aldrig kan bekræftes fuldt ud, ser man på en scatterplot af dine variabler kan hjælpe med at foretage denne bestemmelse. Hvis der er en krumning i forholdet, kan du overveje at transformere variablerne eller eksplicit give mulighed for ikke-lineære komponenter.
  • normalitet: Det antages, at residualer af dine variabler fordeles normalt. Det vil sige, at fejlene i forudsigelsen af ​​værdien af ​​Y (den afhængige variabel) er fordelt på en måde, der nærmer sig den normale kurve. Du kan se på histogrammer eller normale sandsynlighedsdiagrammer for at inspicere fordelingen af ​​dine variabler og deres restværdier.
  • Uafhængighed: Det antages, at fejlene i forudsigelsen af ​​værdien af ​​Y alle er uafhængige af hinanden (ikke korrelerede).
  • Homoscedasticity: Det antages, at variansen omkring regressionslinjen er den samme for alle værdier for de uafhængige variabler.

Kilde

  • StatSoft: Elektronisk statistikbog. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.
instagram story viewer