Beregningen af a prøve varians eller standardafvigelse angives typisk som en brøkdel. Tælleren for denne brøkdel involverer en sum af kvadratiske afvigelser fra gennemsnittet. I statistik, er formlen for denne samlede sum af kvadrater
Σ (xjeg - x)2
Her henviser symbolet x̄ til gennemsnittet af prøven, og symbolet Σ fortæller os at tilføje de kvadratiske forskelle (xjeg - x̄) for alle jeg.
Mens denne formel fungerer til beregninger, er der en ækvivalent genvejsformel, som ikke kræver, at vi først beregner prøve middel. Denne genvejsformel for summen af firkanter er
Σ (xjeg2) - (Σ xjeg)2/n
Her variablen n henviser til antallet af datapunkter i vores stikprøve.
Standardformeleksempel
For at se, hvordan denne genvejsformel fungerer, overvejer vi et eksempel, der beregnes ved hjælp af begge formler. Antag, at vores prøve er 2, 4, 6, 8. Prøveværdien er (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Nu beregner vi forskellen på hvert datapunkt med gennemsnittet 5.
- 2 – 5 = -3
- 4 – 5 = -1
- 6 – 5 = 1
- 8 – 5 = 3
Vi kvadraterer nu hvert af disse tal og tilføjer dem sammen. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.
Eksempel på genvejsformel
Nu bruger vi det samme datasæt: 2, 4, 6, 8 med genvejsformlen til at bestemme summen af firkanter. Vi kvadraterer hvert datapunkt først og tilføjer dem sammen: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.
Det næste trin er at tilføje alle dataene og firkante dette beløb: (2 + 4 + 6 + 8)2 = 400. Vi deler dette med antallet af datapunkter for at opnå 400/4 = 100.
Vi trækker nu dette tal fra 120. Dette giver os, at summen af de kvadratiske afvigelser er 20. Dette var nøjagtigt det antal, vi allerede har fundet fra den anden formel.
Hvordan virker det?
Mange mennesker accepterer bare formlen til pålydende værdi og har ikke nogen idé om, hvorfor denne formel fungerer. Ved at bruge en lille smule algebra kan vi se, hvorfor denne genvejsformel svarer til den traditionelle, traditionelle måde at beregne summen af kvadratiske afvigelser på.
Selvom der kan være hundreder, hvis ikke tusinder af værdier i et virkeligt datasæt, antager vi, at der kun er tre dataværdier: x1, x2, x3. Det, vi ser her, kunne udvides til et datasæt, der har tusinder af point.
Vi begynder med at bemærke det (x1 + x2 + x3) = 3 x̄. Udtrykket Σ (xjeg - x)2 = (x1 - x)2 + (x2 - x)2 + (x3 - x)2.
Vi bruger nu faktum fra grundlæggende algebra, at (a + b)2 = a2 + 2ab + b2. Dette betyder, at (x1 - x)2 = x12 -2x1 x̄ + x̄2. Vi gør dette for de to andre vilkår i vores sammenlægning, og vi har:
x12 -2x1 x̄ + x̄2 + x22 -2x2 x̄ + x̄2 + x32 -2x3 x̄ + x̄2.
Vi omorganiserer dette og har:
x12+ x22 + x32+ 3x̄2 - 2x̄ (x1 + x2 + x3) .
Ved at omskrive (x1 + x2 + x3) = 3x̄ ovenstående bliver:
x12+ x22 + x32 - 3x̄2.
Nu siden 3x̄2 = (x1+ x2 + x3)2/ 3, vores formel bliver:
x12+ x22 + x32 - (x1+ x2 + x3)2/3
Og dette er et specielt tilfælde med den generelle formel, der blev nævnt ovenfor:
Σ (xjeg2) - (Σ xjeg)2/n
Er det virkelig en genvej?
Det kan ikke se ud som om denne formel virkelig er en genvej. I det ovenstående eksempel ser det ud til, at der er lige så mange beregninger. En del af dette har at gøre med det faktum, at vi kun kiggede på en prøvestørrelse, der var lille.
Når vi øger størrelsen på vores prøve, ser vi, at genvejsformlen reducerer antallet af beregninger med cirka halvdelen. Vi behøver ikke at trække gennemsnittet fra hvert datapunkt og derefter kvadratere resultatet. Dette reducerer det samlede antal operationer betydeligt.