Antag, at vi har en tilfældig prøve fra en befolkning af interesse. Vi har måske en teoretisk model for den måde, hvorpå befolkning distribueres. Der kan dog være flere befolkninger parametre som vi ikke kender værdierne. Maksimal sandsynlighedsestimering er en måde at bestemme disse ukendte parametre.
Den grundlæggende idé bag maksimal sandsynlighedsestimering er, at vi bestemmer værdierne for disse ukendte parametre. Vi gør dette på en sådan måde at maksimere en tilknyttet ledssandsynlighedstæthedsfunktion eller sandsynlighed massefunktion. Vi vil se dette mere detaljeret i det følgende. Derefter beregner vi nogle eksempler på maksimal sandsynlighedsestimering.
Trin for maksimal estimering af sandsynlighed
Ovenstående diskussion kan opsummeres ved følgende trin:
- Start med en prøve af uafhængige tilfældige variabler X1, X2,... xn fra en fælles distribution hver med sandsynlighedsdensitetsfunktion f (x; θ1,.. .θk). Tetaserne er ukendte parametre.
- Da vores prøve er uafhængig, findes sandsynligheden for at opnå den specifikke prøve, som vi observerer, ved at multiplicere vores sandsynligheder sammen. Dette giver os en sandsynlighedsfunktion L (θ 1,.. .θk) = f (x1 ;θ1,.. .θk) f (x2 ;θ1,.. .θk)... f (xn ;θ1,.. .θk) = Π f (xjeg ;θ1,.. .θk).
- Dernæst bruger vi Calculus at finde værdierne for theta, der maksimerer vores sandsynlighedsfunktion L
- Mere specifikt differentierer vi sandsynlighedsfunktionen L med hensyn til θ hvis der er en enkelt parameter. Hvis der er flere parametre, beregner vi partielle derivater af L med hensyn til hver af theta-parametrene.
- For at fortsætte maksimeringsprocessen skal du indstille derivatet af L (eller delvise derivater) lig med nul og løse for theta.
- Vi kan derefter bruge andre teknikker (såsom en anden derivattest) til at verificere, at vi har fundet et maksimum for vores sandsynlighedsfunktion.
Eksempel
Antag, at vi har en pakke frø, som hver har en konstant sandsynlighed p for succes med spiring. Vi planter n af disse og tæl antallet af dem der spirer. Antag, at hvert frø spirer uafhængigt af de andre. Hvordan bestemmer vi den maksimale sandsynlighedsestimator for parameteren p?
Vi begynder med at bemærke, at hvert frø er modelleret af en Bernoulli-distribution med en succes på s. Vi lader x være enten 0 eller 1, og sandsynlighedsmassefunktionen for et enkelt frø er f( x; p ) = px(1 - p)1 - x.
Vores prøve består af n forskellige xjeg, hver med har en Bernoulli-distribution. De frø, der spirer har xjeg = 1 og de frø, der ikke spirer, har xjeg = 0.
Sandsynlighedsfunktionen er givet af:
L ( p ) = Π pxjeg(1 - p)1 - xjeg
Vi ser, at det er muligt at omskrive sandsynlighedsfunktionen ved at bruge eksponenters love.
L ( p ) = pΣ xjeg(1 - p)n - Σ xjeg
Dernæst differentierer vi denne funktion med hensyn til p. Vi antager, at værdierne for alle xjeg er kendte, og er derfor konstante. For at differentiere sandsynlighedsfunktionen er vi nødt til at bruge produktregel sammen med strømreglen:
L '( p ) = Σ xjegp-1 + Σ xjeg (1 - p)n - Σ xjeg- (n - Σ xjeg ) pΣ xjeg(1 - p)n-1 - Σ xjeg
Vi omskriver nogle af de negative eksponenter og har:
L '( p ) = (1/p) Σ xjegpΣ xjeg (1 - p)n - Σ xjeg- 1/(1 - p) (n - Σ xjeg ) pΣ xjeg(1 - p)n - Σ xjeg
= [(1/p) Σ xjeg - 1/(1 - p) (n - Σ xjeg)]jegpΣ xjeg (1 - p)n - Σ xjeg
For at fortsætte processen med maksimering indstiller vi dette derivat lig med nul og løser for p:
0 = [(1/p) Σ xjeg - 1/(1 - p) (n - Σ xjeg)]jegpΣ xjeg (1 - p)n - Σ xjeg
Siden p og (1- p) er ikke andet, vi har det
0 = (1/p) Σ xjeg - 1/(1 - p) (n - Σ xjeg).
Multiplikation af begge sider af ligningen med p(1- p) giver os:
0 = (1 - p) Σ xjeg - p (n - Σ xjeg).
Vi udvider højre side og ser:
0 = Σ xjeg - p Σ xjeg - pn + pΣ xjeg = Σ xjeg - pn.
Således Σ xjeg = pn og (1 / n) Σ xjeg = p. Dette betyder, at den maksimale sandsynlighed estimator for p er et gennemsnit for prøven. Mere specifikt er dette prøveandelen af de frø, der spirer. Dette er perfekt i tråd med hvad intuition ville fortælle os. For at bestemme andelen af frø, der vil spire, skal du først overveje en prøve fra befolkningen af interesse.
Ændringer af trinnene
Der er nogle ændringer af ovenstående liste over trin. Som vi for eksempel har set ovenfor, er det typisk værd at bruge lidt tid på at bruge en vis algebra for at forenkle udtrykket af sandsynlighedsfunktionen. Årsagen hertil er at gøre differentieringen lettere at gennemføre.
En anden ændring af ovenstående liste over trin er at overveje naturlige logaritmer. Maksimumet for funktionen L forekommer på det samme punkt som det vil for den naturlige logaritme af L. Således maksimerer ln L ækvivalent med at maksimere funktionen L.
Mange gange, på grund af tilstedeværelsen af eksponentielle funktioner i L, vil det at tage den naturlige logaritme af L i høj grad forenkle noget af vores arbejde.
Eksempel
Vi ser, hvordan man bruger den naturlige logaritme ved at gennemgå eksemplet ovenfra. Vi begynder med sandsynlighedsfunktionen:
L ( p ) = pΣ xjeg(1 - p)n - Σ xjeg .
Vi bruger derefter vores logaritmelover og ser, at:
R ( p ) = ln L ( p ) = Σ xjeg ln p + (n - Σ xjeg) ln (1 - p).
Vi ser allerede, at derivatet er meget lettere at beregne:
R '( p ) = (1/p) Σ xjeg - 1/(1 - p)(n - Σ xjeg) .
Som tidligere satte vi dette derivat lig med nul og ganges begge sider med p (1 - p):
0 = (1- p ) Σ xjeg - p(n - Σ xjeg) .
Vi løser for p og find det samme resultat som før.
Brug af den naturlige logaritme af L (p) er nyttig på en anden måde. Det er meget lettere at beregne et andet derivat af R (p) for at verificere, at vi virkelig har et maksimum ved punktet (1 / n) Σ xjeg = p.
Eksempel
For et andet eksempel, formoder, at vi har en tilfældig prøve X1, X2,... xn fra en befolkning, som vi modellerer med en eksponentiel fordeling. Sandsynlighedsdensitetsfunktionen for en tilfældig variabel er af formen f( x ) = θ-1e -x/θ
Sandsynlighedsfunktionen er givet af ledssandsynlighedstæthedsfunktionen. Dette er et produkt af flere af disse densitetsfunktioner:
L (θ) = Π θ-1e -xjeg/θ = θ-ne -Σxjeg/θ
Igen er det nyttigt at overveje den naturlige logaritme for sandsynlighedsfunktionen. At differentiere dette vil kræve mindre arbejde end at differentiere sandsynlighedsfunktionen:
R (θ) = ln L (θ) = ln [θ-ne -Σxjeg/θ]
Vi bruger vores lov om logaritmer og opnår:
R (θ) = ln L (θ) = - n ln θ + -Σxjeg/θ
Vi differentierer med hensyn til θ og har:
R '(θ) = - n / θ + Σxjeg/θ2
Indstil dette derivat lig med nul, og vi ser, at:
0 = - n / θ + Σxjeg/θ2.
Multiplicer begge sider med θ2 og resultatet er:
0 = - n θ + Σxjeg.
Brug nu algebra til at løse for θ:
θ = (1 / n) Σxjeg.
Vi ser herfra, at prøveeksemplet er det, der maksimerer sandsynlighedsfunktionen. Parameteren θ, der passer til vores model, skal simpelthen være gennemsnittet af alle vores observationer.
Tilslutninger
Der er andre typer skøn. En alternativ type estimering kaldes en uvildig estimator. For denne type skal vi beregne den forventede værdi af vores statistik og bestemme, om den stemmer overens med en tilsvarende parameter.