Sådan estimerer du standardafvigelser (SD)

Standardafvigelsen og rækkevidden er begge mål for spredning af et datasæt. Hvert nummer fortæller os på sin egen måde, hvor dataene er fordelt, da de begge er et mål for variation. Selvom der ikke er et eksplicit forhold mellem rækkevidde og standardafvigelse, der er en tommelfingerregel det kan være nyttigt at relatere disse to statistikker. Dette forhold kaldes undertiden rækkevidden for standardafvigelse.

Områdereglen fortæller os, at standardafvigelsen for en prøve er omtrent lig med en fjerdedel af dataintervallet. Med andre ords = (Maksimum - Minimum) / 4. Dette er en meget ligetil formel, der skal bruges, og bør kun bruges som en meget grov estimat af standardafvigelsen.

Et eksempel

For at se et eksempel på, hvordan rækkevidden fungerer, skal vi se på følgende eksempel. Antag, at vi starter med dataværdierne på 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Disse værdier har en betyde på 17 og en standardafvigelse på ca. 4,1. Hvis vi i stedet først beregner omfanget af vores data som 25 - 12 = 13 og derefter dele dette antal med fire har vi vores estimat af standardafvigelsen som 13/4 = 3,25. Dette tal er relativt tæt på det sande standardafvigelse og er godt for et groft skøn.

instagram viewer

Hvorfor fungerer det?

Det kan se ud som om rækkevidden er lidt mærkelig. Hvorfor fungerer det? Virker det ikke helt vilkårligt at bare dele intervallet med fire? Hvorfor skulle vi ikke dele med et andet tal? Der er faktisk en vis matematisk begrundelse, der foregår bag kulisserne.

Husk egenskaberne ved klokke kurve og sandsynlighederne fra a standard normal distribution. En funktion har at gøre med den mængde data, der falder inden for et vist antal standardafvigelser:

  • Cirka 68% af dataene ligger inden for en standardafvigelse (højere eller lavere) fra gennemsnittet.
  • Cirka 95% af dataene ligger inden for to standardafvigelser (højere eller lavere) fra gennemsnittet.
  • Cirka 99% er inden for tre standardafvigelser (højere eller lavere) fra gennemsnittet.

Det antal, vi bruger, har 95% at gøre. Vi kan sige, at 95% fra to standardafvigelser under middelværdien til to standardafvigelser over gennemsnittet, vi har 95% af vores data. Således ville næsten al vores normale fordeling strække sig over et linjesegment, der i alt er fire standardafvigelser lang.

Ikke alle data distribueres normalt og klokkekurveformet. Men de fleste data er velopdragne nok til at gå to standardafvigelser væk fra gennemsnittet indfanger næsten alle data. Vi estimerer og siger, at fire standardafvigelser er omtrent størrelsen på området, og derfor er intervallet divideret med fire en grov tilnærmelse af standardafvigelsen.

Anvendelser til rækkeviddeområdet

Afstandsreglen er nyttig i en række indstillinger. For det første er det et meget hurtigt estimat af standardafvigelsen. Standardafvigelsen kræver, at vi først finder middelværdien og derefter trækker dette gennemsnit fra hvert datapunkt, firkant forskellene, tilføj disse, divideres med et mindre end antallet af datapunkter, tag derefter (til sidst) firkanten rod. På den anden side kræver rækkevidden kun en subtraktion og en opdeling.

Andre steder, hvor afstandsreglen er nyttig, er når vi har ufuldstændige oplysninger. Formler som den, der bestemmer prøvestørrelsen, kræver tre oplysninger: den ønskede fejlmargen, det niveau af selvtillid og standardafvigelsen for den befolkning, vi undersøger. Mange gange er det umuligt at vide, hvad befolkningen har standardafvigelse er. Med afstandsreglen kan vi estimere denne statistik og derefter vide, hvor store vi skal lave vores prøve.

instagram story viewer