Eksempler på estimering af maksimal sandsynlighed

Antag, at vi har en tilfældig prøve fra en befolkning af interesse. Vi har måske en teoretisk model for den måde, hvorpå befolkning distribueres. Der kan dog være flere befolkninger parametre som vi ikke kender værdierne. Maksimal sandsynlighedsestimering er en måde at bestemme disse ukendte parametre.

Den grundlæggende idé bag maksimal sandsynlighedsestimering er, at vi bestemmer værdierne for disse ukendte parametre. Vi gør dette på en sådan måde at maksimere en tilknyttet ledssandsynlighedstæthedsfunktion eller sandsynlighed massefunktion. Vi vil se dette mere detaljeret i det følgende. Derefter beregner vi nogle eksempler på maksimal sandsynlighedsestimering.

Trin for maksimal estimering af sandsynlighed

Ovenstående diskussion kan opsummeres ved følgende trin:

Start med en prøve af uafhængige tilfældige variabler X₁, X₂,... x_n fra en fælles distribution hver med sandsynlighedsdensitetsfunktion f (x; θ₁,.. .θ_k). Tetaserne er ukendte parametre.
Da vores prøve er uafhængig, findes sandsynligheden for at opnå den specifikke prøve, som vi observerer, ved at multiplicere vores sandsynligheder sammen. Dette giver os en sandsynlighedsfunktion L (θ
instagram viewer
₁,.. .θ_k) = f (x₁ ;θ₁,.. .θ_k) f (x₂ ;θ₁,.. .θ_k)... f (x_n ;θ₁,.. .θ_k) = Π f (x_jeg ;θ₁,.. .θ_k).
Dernæst bruger vi Calculus at finde værdierne for theta, der maksimerer vores sandsynlighedsfunktion L
Mere specifikt differentierer vi sandsynlighedsfunktionen L med hensyn til θ hvis der er en enkelt parameter. Hvis der er flere parametre, beregner vi partielle derivater af L med hensyn til hver af theta-parametrene.
For at fortsætte maksimeringsprocessen skal du indstille derivatet af L (eller delvise derivater) lig med nul og løse for theta.
Vi kan derefter bruge andre teknikker (såsom en anden derivattest) til at verificere, at vi har fundet et maksimum for vores sandsynlighedsfunktion.

Eksempel

Antag, at vi har en pakke frø, som hver har en konstant sandsynlighed p for succes med spiring. Vi planter n af disse og tæl antallet af dem der spirer. Antag, at hvert frø spirer uafhængigt af de andre. Hvordan bestemmer vi den maksimale sandsynlighedsestimator for parameteren p?

Vi begynder med at bemærke, at hvert frø er modelleret af en Bernoulli-distribution med en succes på s. Vi lader x være enten 0 eller 1, og sandsynlighedsmassefunktionen for et enkelt frø er f( x; p ) = p^x(1 - p)^{1 - x}.

Vores prøve består af n forskellige x_jeg, hver med har en Bernoulli-distribution. De frø, der spirer har x_jeg = 1 og de frø, der ikke spirer, har x_jeg= 0.

Sandsynlighedsfunktionen er givet af:

L ( p ) = Π p^x_jeg(1 - p)^{1 -}^x_jeg

Vi ser, at det er muligt at omskrive sandsynlighedsfunktionen ved at bruge eksponenters love.

L ( p ) = p^{Σ x}_jeg(1 - p)^{n -}^{Σ x}_jeg

Dernæst differentierer vi denne funktion med hensyn til p. Vi antager, at værdierne for alle x_jeger kendte, og er derfor konstante. For at differentiere sandsynlighedsfunktionen er vi nødt til at bruge produktregel sammen med strømreglen:

L '( p ) = Σ x_jegp^{-1 + Σ x}_jeg (1 - p)^{n -}^{Σ x}_jeg- (n - Σ x_jeg ) p^{Σ x}_jeg(1 - p)^{n-1 -}^{Σ x}_jeg

Vi omskriver nogle af de negative eksponenter og har:

L '( p ) = (1/p) Σ x_jegp^{Σ x}_jeg (1 - p)^{n -}^{Σ x}_jeg- 1/(1 - p) (n - Σ x_jeg ) p^{Σ x}_jeg(1 - p)^{n -}^{Σ x}_jeg

= [(1/p) Σ x_jeg- 1/(1 - p) (n - Σ x_jeg)]_jegp^{Σ x}_jeg (1 - p)^{n -}^{Σ x}_jeg

For at fortsætte processen med maksimering indstiller vi dette derivat lig med nul og løser for p:

0 = [(1/p) Σ x_jeg- 1/(1 - p) (n - Σ x_jeg)]_jegp^{Σ x}_jeg (1 - p)^{n -}^{Σ x}_jeg

Siden p og (1- p) er ikke andet, vi har det

0 = (1/p) Σ x_jeg- 1/(1 - p) (n - Σ x_jeg).

Multiplikation af begge sider af ligningen med p(1- p) giver os:

0 = (1 - p) Σ x_jeg- p (n - Σ x_jeg).

Vi udvider højre side og ser:

0 = Σ x_jeg- p Σ x_jeg- pn + pΣ x_jeg = Σ x_jeg- pn.

Således Σ x_jeg= pn og (1 / n) Σ x_jeg= p. Dette betyder, at den maksimale sandsynlighed estimator for p er et gennemsnit for prøven. Mere specifikt er dette prøveandelen af de frø, der spirer. Dette er perfekt i tråd med hvad intuition ville fortælle os. For at bestemme andelen af frø, der vil spire, skal du først overveje en prøve fra befolkningen af interesse.

Ændringer af trinnene

Der er nogle ændringer af ovenstående liste over trin. Som vi for eksempel har set ovenfor, er det typisk værd at bruge lidt tid på at bruge en vis algebra for at forenkle udtrykket af sandsynlighedsfunktionen. Årsagen hertil er at gøre differentieringen lettere at gennemføre.

En anden ændring af ovenstående liste over trin er at overveje naturlige logaritmer. Maksimumet for funktionen L forekommer på det samme punkt som det vil for den naturlige logaritme af L. Således maksimerer ln L ækvivalent med at maksimere funktionen L.

Mange gange, på grund af tilstedeværelsen af eksponentielle funktioner i L, vil det at tage den naturlige logaritme af L i høj grad forenkle noget af vores arbejde.

Eksempel

Vi ser, hvordan man bruger den naturlige logaritme ved at gennemgå eksemplet ovenfra. Vi begynder med sandsynlighedsfunktionen:

L ( p ) = p^{Σ x}_jeg(1 - p)^{n -}^{Σ x}_jeg .

Vi bruger derefter vores logaritmelover og ser, at:

R ( p ) = ln L ( p ) = Σ x_jegln p + (n - Σ x_jeg) ln (1 - p).

Vi ser allerede, at derivatet er meget lettere at beregne:

R '( p ) = (1/p) Σ x_jeg- 1/(1 - p)(n - Σ x_jeg) .

Som tidligere satte vi dette derivat lig med nul og ganges begge sider med p (1 - p):

0 = (1- p ) Σ x_jeg- p(n - Σ x_jeg) .

Vi løser for p og find det samme resultat som før.

Brug af den naturlige logaritme af L (p) er nyttig på en anden måde. Det er meget lettere at beregne et andet derivat af R (p) for at verificere, at vi virkelig har et maksimum ved punktet (1 / n) Σ x_jeg= p.

Eksempel

For et andet eksempel, formoder, at vi har en tilfældig prøve X₁, X₂,... x_n fra en befolkning, som vi modellerer med en eksponentiel fordeling. Sandsynlighedsdensitetsfunktionen for en tilfældig variabel er af formen f( x ) = θ^-1e ^-x/θ

Sandsynlighedsfunktionen er givet af ledssandsynlighedstæthedsfunktionen. Dette er et produkt af flere af disse densitetsfunktioner:

L (θ) = Π θ^-1e ^-x_jeg^/θ= θ^-ne ^-Σ^x_jeg^/θ

Igen er det nyttigt at overveje den naturlige logaritme for sandsynlighedsfunktionen. At differentiere dette vil kræve mindre arbejde end at differentiere sandsynlighedsfunktionen:

R (θ) = ln L (θ) = ln [θ^-ne ^-Σ^x_jeg^/θ]

Vi bruger vores lov om logaritmer og opnår:

R (θ) = ln L (θ) = - n ln θ + -Σx_jeg/θ

Vi differentierer med hensyn til θ og har:

R '(θ) = - n / θ + Σx_jeg/θ²

Indstil dette derivat lig med nul, og vi ser, at:

0 = - n / θ + Σx_jeg/θ².

Multiplicer begge sider med θ²og resultatet er:

0 = - n θ + Σx_jeg.

Brug nu algebra til at løse for θ:

θ = (1 / n) Σx_jeg.

Vi ser herfra, at prøveeksemplet er det, der maksimerer sandsynlighedsfunktionen. Parameteren θ, der passer til vores model, skal simpelthen være gennemsnittet af alle vores observationer.

Tilslutninger

Der er andre typer skøn. En alternativ type estimering kaldes en uvildig estimator. For denne type skal vi beregne den forventede værdi af vores statistik og bestemme, om den stemmer overens med en tilsvarende parameter.