Estimation Bayesienne - i3s.unice.frrendas/ESINSA/content/SlidesBayesEM.pdf · l’estimation...

Post on 03-May-2020

6 views 0 download

Transcript of Estimation Bayesienne - i3s.unice.frrendas/ESINSA/content/SlidesBayesEM.pdf · l’estimation...

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Estimation Bayesienne

θ ∈ Θ ⊂ <p : paramètre aléatoire inconnu. La connaissancea priori sur θ est exprimée par une loi de probabitlité p(θ).

Critères Bayesiens

R(θ) = Er ,θ

[C(θ, θ(r))

]Usuellement

C(θ, θ(r)) = C(θ − θ(r)) (fonction uniquement del’erreur d’estimation)

C(θ, θ(r)) =(θ − θ(r)

)2: erreur quadratique noyenne

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

MMSE: la moyenne a posteriori

Pour C(θ, θ(r)) =(θ − θ(r)

)2

θMSE(r) = arg minθ

Er ,θ

[(θ − θ(r)

)2]

= E [θ|r ]

Démonstration

R(θ) = Er ,θ

[(θ − θ(r)

)2]

=

∫ ∫ (θ − θ(r)

)2p(r , θ) dr dθ

=

∫ [p(r)

∫ (θ − θ(r)

)2p(θ|r) dθ

]dr

p(r) ≥ 0 ⇒ maxθR⇔ max

θ

∫ (θ − θ(r)

)2p(θ|r) dθ

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

∂/∂θ = 0 ⇔

2∫ (

θ − θ(r))

p(θ|r) dθ = 0∫θ(r)p(θ|r) dθ =

∫θp(θ|r) dθ

θ(r) =

∫θp(θ|r) dθ = E [θ|r ]

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Estimation récursive

Intégration progréssive des observations

p(θ)↑r1

→ θ(r1)↑r2

→ θ(r1, r2)↑r3

→ · · ·

Condition : observations sans mémoire.

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Estimation de signalProcessus de Markov

X1, X2, . . . est un processus de Markov si

p(Xn|X n−11 ) = p(Xn|Xn−1) X n

1 = X1, . . . Xn

Sachant le présent, le futur est statistiquement indépendentdu passé

La probabilité d’une séquence X0, X1, . . . , Xn est factorisée

p(X0, X1, . . . , Xn) = p(X0)n∏

i=1

p(Xi |Xi−1)

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Estimation de signalObservations sans mémoire

Observations sans mémoire

p(rn|Xn, rn−11 ) = p(rn|Xn)

Problème de filtrage

Déterminer Xn sachant les observations rn1 .

L’estimateur d’erreur quadratique minimal est

Xn(rn1 ) = E [Xn|rn

1 ]

Il faut donc déterminer p(Xn|rn1 ).

Pour des processus Xn de Markov, et des observations rnsans mémoire, p(Xn|rn

1 ) peut être déterminée récursivement

p(X0) → p(X1)lr1

→ p(X1|r1) → p(X2|r1)lr2

→ p(X2|r1, r2) → · · ·

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Décomposition Prédiction/Filtrage

p(X0) −→

(prédiction)

p(X1|X0)↑r1

−→

(filtrage)

p(X1|r1)

p(X1|r1) −→

(prédiction)

p(X2|r1)↑r2

−→

(filtrage)

p(X2|r1, r2)

p(X2|r1, r2) −→

(prédiction)

p(X3|r1, r2)↑r3

−→

(filtrage)

· · ·

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Prédiction

p(Xn+1|rn1 ) =

∫p(Xn+1, Xn|rn

1 ) dXn

=

∫p(Xn+1|Xn, rn

1 ) p(Xn|rn1 )dXn

=

∫p(Xn+1|Xn)p(Xn|rn

1 ) dXn

Intégration dans l’espace de Xn : opération de “convolution”.Transporte l’incertitude à propos de Xn sur la valeursuivante (Xn+1) du signal. Utilise le modèle de Markov dusignal (son noyau de transition p(Xn|Xn−1))

p(Xn|rn1 ) → p(Xn+1|rn

1 )

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Filtrage

p(xn+1|rn+11 ) = p(Xn+1|rn+1, rn

1 )

=p(Xn+1, rn+1|rn

1 )

p(rn+1|rn1 )

=p(rn+1|Xn+1, rn

1 )p(Xn+1|rn1 )

p(rn+1|rn1 )

=p(rn+1|Xn+1)p(Xn+1|rn

1 )

p(rn+1|rn1 )

∝ p(rn+1|Xn+1)p(Xn+1|rn1 )

Multiplication point à point de fonctions de Xn+1.

p(Xn+1|rn1 ) → p(Xn+1|rn+1

1 )

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Réalisation

Réalisation exacte des pas de prédiction et de filtrage pourChaînes de Markov (espace d’état fini)Processus de Gauss-Markov (toutes les densités sontGaussiennes, les observations sont linéaires et sansmémoire) → Filtre de Kalman

Dans le cas général, besoin d’approximer les équations deprédiction et filtrage.

Approximation fonctionnelle : le filtre de Kalman ÉtenduApproximation numérique : les filtres particulaires(utilisent des techniques de Monte-Carlo)

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Estimation en présence de paramètres denuisance

p(r |θ, Y ) modèle statistique connu

r : observations.θ : paramètres à estimerY : paramètres inconnus

But

Maximiser la probabilité a posterior marginale

p(θ|r) =

∫p(θ, Y |r)dy .

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Bayes

p(θ|r) =p(r , θ)p(r)

∝ p(r |θ)p(θ) = p(r , θ)

Si p(θ) = C,∀θ ∈ Θ⇒

maximiser p(θ|r) ⇔ maximiser p(r , θ)

θ = arg maxθ∈Θ

p(θ|r)

= arg maxθ∈Θ

log p(r , θ) = arg maxθ∈Θ

log∫Y

p(r , y , θ) dy

Difficulté: logarithme d’un integral (somme)

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Présentation intuitive

Alterner entredéterminer des estimés des paramètres désirés, θk , etdéterminer les estimés yk (θk ) des paramètres cachésY

θ0 → y0(θ0) → θ1(y0) → y1(θ1) → · · ·

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Algorithme E-M (Expectation-Maximization)

E-M : propage une distribution de probabilité sur Y :

θ0 → p0(y) → θ1 → p1(y) → θ2 · · ·

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

E-M

étape de Expectation : borne inférieure (fonctionelle)Bk (θ) pour la densité a posteriori marginale p(θ|r)

Bk (θ) = B(θ, θk ) ≤ log p(θ|r)

étape de Maximization : maximise Bk (θ) :

θk+1 = arg maxθ

Bk (θ)

Nous allons voir que, ∀k

p(r , θk+1) ≥ p(r , θk )

⇒ convergence vers un maximum local de p(r , θ).

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

log p(r , θ) = log∫Y

p(r , y , θ) dy

= log∫Y

pk (y)p(r , y , θ)

pk (y), ∀pk (y) > 0

= log Epk (y)

{p(r , y , θ)

pk (y)

}Inégalité de Jensen (fonctions concaves)

E {f (X )} ≤ f (E {X}) ,

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Définition de la borne Inférieure

B(θ, θk ) = Epk (y)

{log

p(r , y , θ)

pk (y)

}=

∫Y

pk (y) logp(r , y , θ)

pk (y)

≤ log Epk (y)

{p(r , y , θ)

pk (y)

}= log p(r , θ)

Note : pk (y) est fonction de θk .

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Expectation: calcul de B(θ, θn)

E-M : choisir pk (y) de façon que

B(θk , θk ) = B(θ, θk )∣∣∣θ=θk

=

∫Y

pk (y) logp(r , y , θk )

pk (y)

= log p(r , θk )

sous la contrainte ∫Y

pk (y) dy = 1

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Choix de pk(y)Multiplicateurs de Lagrange

G(pk (y)

)= λ

(1−

∫Y pk (y) dy

)+∫Y pk (y) log p(r , y , θk ) dy −

∫Y pk (y) log pk (y) dy

∂G/∂pk (y) = 0

⇒ − λ + log p(r , y , θk )− log pk (y)− 1 = 0

⇒ pk (y) = c(λ)p(r , y , θk )

⇒ pk (y) = p(r ,y ,θk )∫Y p(r ,y ,θk )

= p(y |r , θk )

densité a posteriori des paramètres de nuisance, sachantles observations, et pour θ = θk ,

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Exercice

Vérifier que pour ce choix de pk (y) nous avonseffectivement

B(θ, θk )∣∣∣θ=θk

= log p(r , θk )

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Maximization (1)

Déterminer θ qui maximise B(θ, θk ) :

B(θ, θk ) = Epk (y) {log p(r , y , θ)}+ H= Epk (y) {log p(r , y |θ)}+ log p(θ) + H

= Qk (θ) + log p(θ) + H

H = −Epk (y)

{log pk (y)

}entropie de Shanon

Qk (θ) = Epk (y) {log p(r , y |θ)} espérance de la vraisemblance

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Maximization (2)

θk+1 = arg maxθ∈Θ

B(θ, θk ) = arg maxθ

Qk (θ) + log p(θ)

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Algorithme E-M

Initialiser θ0Pour k = 0, 1, . . .

(pas ”E”): calculer : pk (y) = p(y |r , θk )Qk (θ) = Epk (y) {log p(r , y |θ)}

(pas ”M”): actualiser θk+1 = arg maxθ Qk (θ) + log p(θ)

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

illustration graphique

Méhode locale : convergence vers un maximum local.

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

estimation des paramètres cachés

θ0 → p0(y)↓y0

→ θ1 → p1(y)↓y1

→ θ2 · · ·

yk = arg maxy

pk (y) = arg maxy

p(y |r , θk ) .

yk : estimateur MAP (Maximum a Posterior) des paramètrescachés, sachant les observations, et admettant que θ = θk .

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Estimation d’un modèle de mélange

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Modèle de mélange

r = r1, . . . , ri (iid)

p(r |θ) =N∏

i=1

p(

ri |θ = {αk , βk}Kk=1

)=

N∏i=1

K∑k=1

αkp(ri |βk )

K : nombre de termes du mélange (connu)αk ∈ [0, 1],

∑k αk = 1 : coefficients de mélange (poids)

βk : paramètres de forme

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Vraisemblance

log p(r |θ) =N∑

i=1

log∑

k

αkp(ri |βk )

θ = (θ1 · · · θK ) = (α1 β1 · · · αK βK ) ,

θk = (αk , βk )

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Variables cachées : les étiquettes des données

`i ∈ {1, . . . , L}, i = 1, . . . , N `i = k ⇔ ri ∼ pk = p(r |βk )

log p(r , `|θ) =N∑

i=1

log p(ri |θ, `i)p(`i |θ) =N∑

i=1

p(ri |β`i )p(`i |θ)

p(`i = k |θ) = αk : probabilité de choisir le terme (la loi deprobabilité) k

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Expectation(1)

θk →

pk (`) = p(`|r , θk ) =N∏

i=1

p(`i |ri , θk ) ,

Loi de Bayes ⇒

p(`i |ri , θ) =p(ri |`i , θ)p(`i |θ)

p(ri |θ)=

α`i p(ri |β`i )∑Kk=1 αkp(ri |βk )

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Expectation(2)

Qn(θ) = Epn(`) {log p(r , `|θ)}

=

∫LN

N∑i=1

log (α`i p(ri |β`i ))N∏

j=1

p(`j |rj , θn) d`1 · · ·d`N

=N∑

i=1

∫L

K∑k=1

δk ,`i log (αkp(ri |βk )) p(`i |ri , θn) d`i

=N∑

i=1

K∑k=1

log (αkp(ri |βk ))

∫L

δk ,`i p(`i |ri , θn) d`i

comme ∫L

δk ,`i p(`i |ri , θn) d`i = p(k |ri , θn)

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Expectation(3)

Qn(θ) =K∑

k=1

N∑i=1

log (αkp(ri |βk )) p(k |ri , θn)

=K∑

k=1

N∑i=1

log αkp(k |ri , θn)

+K∑

k=1

N∑i=1

log p(ri |βk )p(k |ri , θn)

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Remarque

Le calcul de Qn(θ) dans les deux derniers slides estsimplifié si nous utilisons le fait que `i est une variablealéatoire discrète,

`i ∈ {1, . . . , K}, pn(`i = k) = p(`i = k |ri , θm)

et que, par définition

Qn(θ) = Epn(`)

[N∑

i=1

log (α`i p(ri |β`i ))

]

=N∑

i=1

Epn(`i ) [log (α`i p(ri |β`i ))]

=N∑

i=1

K∑`i=1

log (α`i p(ri |β`i )) p(`i |ri , θn)

qui est l’expression trouvée si nous faisons `i ↔ k .

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Maximisation sur αkRésultat général

Avec la contrainte de somme unitaire

K∑k=1

N∑i=1

log αkp(k |ri , θn) + λ

(1−

∑k

αk

)

∂/∂αj ⇒N∑

i=1

1αj

p(`i = j |ri , θn)− λ = 0

∑` ⇒ λ = N ⇒

αj,n+1 =1N

N∑i=1

p(`i = j |ri , θn) ,

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Maximisation sur βkDensités gaussiennes

Pour des densités Gaussiennes

pk = N (µk ,Σk )

=1

(2π)d/2|Σk |1/2 exp{−1

2(r − µk )T Σ−1

k (r − µk )

}la solution est

µk ,(n+1) =

∑i rip(`i = k |ri , θn)∑i p(`i = k |ri , θn)

moyenne pondérée des données

et

Σk ,(n+1) =

∑i(ri − µk ,(n+1))(ri − µk ,(n+1))

T p(`i = k |ri , θn)∑i p(`i = k |ri , θn)

variance empirique

Bayes

M. J. Rendas

ApprocheBayesienne àl’estimationparamétrique

Paramètresde nuisance

Mélanges

Segmentation d’images

Trouver les régions “homogènes” (les pixels à l’intérieur sontdes réalizations de la même loi de probabilité).