Hvad er robusthed i statistikker?

I Statistikkerbetegner udtrykket robust eller robusthed styrken af en statistisk model, test og procedurer i henhold til de specifikke betingelser i den statistiske analyse, som en undersøgelse håber at opnå. I betragtning af at disse betingelser i en undersøgelse er opfyldt, kan modellerne verificeres for at være rigtige ved hjælp af matematiske bevis.

Mange modeller er baseret på ideelle situationer, der ikke findes, når man arbejder med data i den virkelige verden, og som et resultat kan modellen give rigtige resultater, selvom betingelserne ikke er nøjagtigt opfyldt.

Robust statistik er derfor alle statistikker, der giver god ydeevne, når data hentes fra en lang række sandsynlighedsfordelinger, der stort set ikke påvirkes af outliers eller små afvigelser fra modelantagelser i en given datasæt. Med andre ord er en robust statistik modstandsdygtig over for fejl i resultaterne.

En måde at observere en almindelig robust statistisk procedure på, behøver man ikke se længere end t-procedurer, der bruger hypotetests for at bestemme de mest nøjagtige statistiske forudsigelser.

instagram viewer

Iagttagelse af T-procedurer

Som et eksempel på robusthed overvejer vi t-procedurer, der inkluderer konfidensinterval for et populationsmiddel med ukendt populationsstandardafvigelse samt hypotesetest om populationsmiddelværdien.

Brugen af t-procedurer forudsætter følgende:

Datasættet, som vi arbejder med, er en enkel tilfældig prøve af befolkningen.
Befolkningen, som vi har udtaget fra, er normalt fordelt.

I praksis med eksempler fra det virkelige liv har statistikere sjældent en befolkning, der normalt er fordelt, så spørgsmålet bliver i stedet: ”Hvor robuste er vores t-procedurer?”

Generelt er betingelsen, at vi har en simpel tilfældig prøve, vigtigere end den betingelse, at vi har udtaget prøver fra en normalt fordelt population; Årsagen hertil er, at den centrale grænsesteorem sikrer en samplingfordeling, der er ca. normal - jo større vores prøvestørrelse, desto tættere er prøveuddelingsfordelingen for prøven gennemsnit normal.

Hvordan T-procedurer fungerer som robust statistik

Så robusthed for t-procedurer hænger sammen med prøvestørrelsen og fordelingen af vores prøve. Overvejelserne hertil inkluderer:

Hvis prøverne er stor, hvilket betyder, at vi har 40 eller flere observationer, så t-procedurer kan bruges selv med distribuerede fordelinger.
Hvis prøvestørrelsen er mellem 15 og 40, kan vi bruge den t-procedurer for enhver formet fordeling, medmindre der er outliers eller en høj grad af skævhed.
Hvis prøvestørrelsen er mindre end 15, kan vi bruge t- procedurer for data, der ikke har nogen outliers, en enkelt top og er næsten symmetriske.

I de fleste tilfælde er robusthed etableret gennem teknisk arbejde i matematisk statistik, og, Heldigvis behøver vi ikke nødvendigvis at udføre disse avancerede matematiske beregninger for at kunne ordentligt bruge dem; vi behøver kun at forstå, hvad de overordnede retningslinjer er for robustheden i vores specifikke statistiske metode.

T-procedurer fungerer som robust statistik, fordi de typisk giver god ydelse pr. Disse modeller ved at indregne størrelsen på prøven i grundlaget for anvendelse af proceduren.