Hvad er bootstrapping med hensyn til statistik?

Bootstrapping er en statistisk teknik, der falder ind under den bredere overskrift af resampling. Denne teknik involverer en relativt simpel procedure, men gentages så mange gange, at den er stærkt afhængig af computerberegninger. Bootstrapping giver en anden metode end konfidensintervaller til at estimere en populationsparameter. Bootstrapping virker meget som magi. Læs videre for at se, hvordan det får sit interessante navn.

En forklaring på bootstrapping

Et mål for Inferential statistik er at bestemme værdien af ​​en parameter for en population. Det er typisk for dyrt eller endda umuligt at måle dette direkte. Så vi bruger statistisk prøveudtagning. Vi prøver en population, måler en statistik over denne stikprøve og bruger derefter denne statistik til at sige noget om tilsvarende parameter af befolkningen.

For eksempel i en chokoladefabrik kan vi måske garantere, at candybarer har en bestemt betyde vægt. Det er ikke muligt at veje hver candybar, der produceres, så vi bruger prøvetagningsteknikker til tilfældigt at vælge 100 candybarer. Vi beregner gennemsnittet af disse 100 candybarer og siger, at befolkningens middelværdi falder inden for en fejlmargin fra gennemsnittet af vores prøve.

instagram viewer

Antag, at vi et par måneder senere vil vide med større nøjagtighed - eller mindre om en fejlmargen - hvad den gennemsnitlige candybarvægt var den dag, vi prøvede produktionslinjen. Vi kan heller ikke bruge dagens slikbarer mange variabler er kommet ind i billedet (forskellige portioner mælk, sukker og kakaobønner, forskellige atmosfæriske forhold, forskellige medarbejdere på linjen osv.). Alt hvad vi har fra den dag, vi er nysgerrige efter, er de 100 vægte. Uden en tidsmaskine tilbage til den dag ser det ud til, at den indledende fejlmargin er den bedste, vi kan håbe på.

Heldigvis kan vi bruge teknik til bootstrapping. I denne situation er vi tilfældigt prøve med udskiftning fra de 100 kendte vægte. Vi kalder dette en bootstrap-prøve. Da vi tillader udskiftning, er denne bootstrap-prøve sandsynligvis ikke identisk med vores oprindelige prøve. Nogle datapunkter kan duplikeres, og andre datapunkter fra de første 100 kan udelades i en bootstrap-prøve. Ved hjælp af en computer kan tusinder af bootstrap-prøver konstrueres på relativt kort tid.

Et eksempel

Som nævnt skal vi bruge en computer for virkelig at bruge bootstrap-teknikker. Følgende numeriske eksempel hjælper med at demonstrere, hvordan processen fungerer. Hvis vi begynder med prøven 2, 4, 5, 6, 6, er alle følgende mulige bootstrap-prøver:

  • 2 ,5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Teknikkens historie

Bootstrap-teknikker er relativt nye inden for statistikområdet. Den første brug blev offentliggjort i et papir fra 1979 af Bradley Efron. Da computerkraften er steget og bliver billigere, er bootstrap-teknikker blevet mere udbredte.

Hvorfor navnet starter op?

Navnet "bootstrapping" kommer fra udtrykket, "At løfte sig selv ved sine bootstraps." Dette refererer til noget, der er uhøfligt og umuligt. Prøv så hårdt som du kan, du kan ikke løfte dig selv i luften ved at trække i stykker læder på dine støvler.

Der er en matematisk teori, der retfærdiggør bootstrapping-teknikker. Brug af bootstrapping føles dog som om du gør det umulige. Selvom det ikke ser ud til, at du ville være i stand til at forbedre vurderingen af ​​en befolkningsstatistik ved at genbruge den samme prøve igen og igen, kan bootstrapping faktisk gøre dette.