Eksempel på bootstrapping i statistik

bootstrapping er en kraftfuld statistisk teknik. Det er især nyttigt, når prøve størrelse, som vi arbejder med, er lille. Under sædvanlige omstændigheder kan prøvestørrelser på under 40 ikke håndteres ved at antage a Normal fordeling eller a t distribution. Bootstrap-teknikker fungerer ganske godt med prøver, der har mindre end 40 elementer. Årsagen til dette er, at bootstrapping involverer en ny sampling. Denne form for teknikker antager intet om fordeling af vores data.

Bootstrapping er blevet mere populært, efterhånden som computerressourcerne er blevet lettere tilgængelige. Dette skyldes, at for at opstartstrapping skal være praktisk, skal der bruges en computer. Vi vil se, hvordan dette fungerer i det følgende eksempel på bootstrapping.

Vi begynder med en statistisk prøve fra en befolkning, som vi ikke ved noget om. Vores mål er et 90% konfidensinterval om gennemsnittet af prøven. Selvom andre statistiske teknikker anvendt til at bestemme tillidsintervaller antager, at vi kender gennemsnittet eller standardafvigelsen for vores befolkning, bootstrapping kræver ikke andet end prøven.

instagram viewer

Med henblik på vores eksempel antager vi, at prøven er 1, 2, 4, 4, 10.

Vi sampler nu med udskiftning fra vores prøve for at danne såkaldte bootstrap-prøver. Hver bootstrap-prøve har en størrelse på fem, ligesom vores originale prøve. Da vi tilfældigt vælger og derefter erstatter hver værdi, kan bootstrap-prøverne være forskellige fra den oprindelige prøve og fra hinanden.

For eksempler, som vi ville støde på i den virkelige verden, ville vi gøre dette med at resample hundreder, hvis ikke tusinder af gange. I det følgende nedenfor ser vi et eksempel på 20 bootstrap-prøver:

Da vi bruger bootstrapping til at beregne et konfidensinterval for befolkningsgennemsnittet, beregner vi nu midlerne til hver af vores bootstrap-prøver. Disse organer arrangeret i stigende rækkefølge er: 2, 2,4, 2,6, 2,6, 2,8, 3, 3, 3,2, 3,4, 3,6, 3,8, 4, 4, 4,2, 4,6, 5,2, 6, 6, 6,6, 7,6.

Vi får nu fra vores liste over bootstrap-prøve betyder et konfidensinterval. Da vi ønsker et 90% konfidensinterval, bruger vi 95. og 5. procentdel som slutpunkter for intervaller. Årsagen hertil er, at vi opdeler 100% - 90% = 10% i halvdelen, så vi får de midterste 90% af alle bootstrap-prøveindstillingerne.