En scatterplot er en type graf, der bruges til at repræsentere parrede data. Den forklarende variabel er afbildet langs den vandrette akse, og responsvariablen er tegnet langs den lodrette akse. En af grundene til at bruge denne type graf er at kigge efter forhold mellem variablerne.
Det mest basale mønster at kigge efter i et sæt parrede data er mønsteret for en lige linje. Gennem to punkter kan vi tegne en lige linje. Hvis der er mere end to punkter i vores scatterplot, vil vi for det meste ikke længere være i stand til at trække en linje, der går gennem hvert punkt. I stedet tegner vi en linje, der passerer midt i punkterne og viser den samlede lineære tendens for dataene.
Når vi ser på punkterne i vores graf og ønsker at trække en linje gennem disse punkter, opstår et spørgsmål. Hvilken linje skal vi tegne? Der er et uendeligt antal linjer, der kunne tegnes. Ved kun at bruge vores øjne er det klart, at hver person, der ser på scatterplot, kunne producere en lidt anden linje. Denne tvetydighed er et problem. Vi ønsker at have en veldefineret måde for alle at få den samme linje. Målet er at have en matematisk præcis beskrivelse af, hvilken linje der skal tegnes. De mindste firkanter
regressionslinje er en sådan linje gennem vores datapunkter.Mindste firkanter
Navnet på den mindste firkantede linje forklarer, hvad den gør. Vi starter med en samling af point med koordinater givet af (xjeg, yjeg). Enhver lige linje vil passere mellem disse punkter og vil enten gå over eller under hver af disse. Vi kan beregne afstande fra disse punkter til linjen ved at vælge en værdi af x og derefter trække den observerede y koordinat, der svarer til dette x fra y koordinat af vores linje.
Forskellige linjer gennem det samme sæt punkter ville give et andet sæt af afstande. Vi ønsker, at disse afstande skal være så små, som vi kan gøre dem. Men der er et problem. Da vores afstande kan være positive eller negative, annullerer summen af alle disse afstande hinanden. Summen af afstande vil altid være nul.
Løsningen på dette problem er at fjerne alle de negative tal ved at kvadrere afstanden mellem punkterne og linjen. Dette giver en samling ikke-negative tal. Målet, vi havde, for at finde en linje, der passer bedst, er det samme som at gøre summen af disse kvadratiske afstande så lille som muligt. Calculus kommer til at redde her. Differentieringsprocessen i beregningen gør det muligt at minimere summen af de kvadratiske afstande fra en given linje. Dette forklarer udtrykket "mindst firkanter" i vores navn for denne linje.
Line of Best Fit
Da linjen med de mindste kvadrater minimerer de firkantede afstande mellem linjen og vores punkter, kan vi tænke på denne linje som den, der bedst passer til vores data. Dette er grunden til, at linjen med mindst kvadrater også kaldes den linje, der passer bedst. Af alle de mulige linjer, der kunne tegnes, er den mindste kvadratlinie tættest på datasættet som helhed. Dette kan betyde, at vores linje vil gå glip af at ramme nogen af punkterne i vores datasæt.
Funktioner af den mindste firkantede linje
Der er et par funktioner, som hver mindst firkantede linje har. Det første punkt af interesse omhandler hældningen af vores linje. Hældningen har forbindelse til korrelationskoefficient af vores data. Faktisk er linjens hældning lig med r (sy/ sx). Her s x angiver standardafvigelsen for x koordinater og s y standardafvigelsen for y koordinater af vores data. Tegnet på korrelationskoefficienten er direkte relateret til tegnet på skråningen på vores mindst kvadratlinie.
Et andet træk på linjen med mindst kvadrater angår et punkt, som det passerer gennem. Mens y opfangning af en mindstekvadrats linje er måske ikke interessant fra et statistisk synspunkt, der er et punkt, der er. Hver mindst firkantede linje passerer gennem midtpunktet i dataene. Dette midterste punkt har en x koordinat, det er betyde af x værdier og a y koordinat, det er middelværdien af y værdier.