75
Théorie de l’estimation
Estimation de paramètres déterministes. Biais et variance d’estimation. Estimateursnon-biaisés de variance minimale. Maximum de vraisemblance. Borne de CramérRao. Consistance et efficacité. Estimation dans le modèle linéaire. Identification.Estimation MV des paramètres d’un modèle ARMA. Prédiction linéaire. Laméthode de Prony et la méthode de Pisarenko. Méthodes d’haute résolution.
4.1 Estimation de paramètres déterministes _________________________________ 76
4.2 Biais et variance d’estimation _________________________________________ 76
4.3 Maximum de vraisemblance __________________________________________ 77
4.4 Borne de Cramer-Rao _______________________________________________ 79
4.5 Efficacité. _________________________________________________________ 80
Cas vectoriel_______________________________________________________________83
4.6 Le modèle linéaire __________________________________________________ 83
4.7 Identification ______________________________________________________ 86
4.8 Identification MV des paramètres d’un modèle ARMA_____________________ 87
4.9 Prédiction linéaire et la méthode de Prony_______________________________ 90
4.10 Méthode de Prony _________________________________________________ 92
4.11 Méthode de Pisarenko ______________________________________________ 94
Exercices_____________________________________________________________ 98
ANNEXE 1: Gradients vectoriels et matriciels______________________________ 100
Gradients vectoriels________________________________________________________100
Gradients Matriciels _______________________________________________________100
ANNEXE 2: Inversion de matrices _______________________________________ 102
77
c’est-à-dire, l’estimée varie autour de la vraie valeur du paramètre.
On désigne la différence { } θθθ −|)(ˆ rE par biais d’estimation. Il nous indique la valeur
moyenne de l’erreur d’estimation θθε −= )(ˆ r .Trois cas sont possibles
• { } θθθ =|)(ˆ rE pour toutes les valeurs possibles du paramètre. On dit alors quel’estimée est non-biaisée ;
• { } B+=θθθ |)(ˆ rE où B est indépendent de θ. Dans ce cas l’estimateur a un biaisconstant et connu, qui peut toujours être eliminé ;
• { } )(|)(ˆ θθθθ B+=rE , c’est-à-dire, on a un biais qui dépend de θ (qui est inconnu).
On désire en général avoir des estimateurs qui soient non-biaisés. Cependant, unestimateur peut être non-biaisé et être de mauvaise qualité, s’il produit, avec une grandeprobabilité, des estimés qui sont très différentes de la vraie valeur. Une deuxièmecaractéristique importante d’un estimateur est la variance de l’erreur d’estimation :
[ ] ( ) 22)(|)(ˆ|)(ˆvar θθθθθθθ B−
−=− rEr
Cette variance doit être aussi petite que possible, de façon à que l’estimée soit concentréeautour de la vraie valeur du paramètre.
Estimateurs non-biaisés à variance minimaleLa conjonction des deux critères décrits conduit la définition d’estimées non-biaisées àvariance minimale. Il n’existe pas de procédure génerale pour déterminer ces estimées.
Pour des modèles linéaires avec des observations gaussiennes, comme nous le verronsdans la section 4.6, l’estimée non-biaisée de variance minimale existe, et est égale àl’estimée de Maximum de Vraisemblance (voir section 4.3).
4.3 Maximum de vraisemblanceLes estimateurs de maximum de vraisemblance correspondent à prendre comme
estimateur la valeur )(ˆ rmvθ qui rend les données plus probables :
)(ˆ),|())(ˆ|( rrrr mvmv pp θθθθ ≠>Nottons que dans cette équation la densité conditionnelle n’est pas utilisée en tant quetelle – c’est-à-dire, comme fonction de r – mais plutôt comme fonction du paramètreestimer θ. Cette fonction s’appelle fonction de vraisemblance, et, d’une façon analogueau rapport de vraisemblance pour les tests d’hypothèses, elle joue un rôle majeur dans lathéorie de l’estimation. Maximiser la fonction de vraisemblance L(r,θ)
)|()|( θθ rr pL =est équivalent maximiser son logarithme, et donc,
)|(log),(),,(maxarg),(maxarg)(ˆ θθθθθθ
rrrrr pLmv =ΛΛ==
78
Si le maximum de L(r|θ) est un point intérieur de Θ, et L( r|θ) est une fonction continuede θ, une condition nécessaire, qui doit être vérifiée par l’estimée du Maximum devraisemblance est
0)|(ln
ˆ
=∂
∂
= mv
p
θθθθr
Les estimateurs du maximum de vraisemblance possèdent plusieurs propriétésasymptotiques (quand le nombre d’observations, N, est grand) :
• Consistance. On dit qu’un estimateur est consistent s’il tend vers la vraie valeur duparamètre quand le nombre d’observations tend vers infini :
θθ → ∞→N)(r
où la convergence doit être entendue en probabilité. Les estimateurs du maximum devraisemblance sont consistents.
• Les estimateurs du maximum de vraisemblance sont asymptotiquement normales.
Exemple 4.1Soit X=(xo,x1) deux échantillons indépendents d’une variable aléatoire uniforme dans l’intervalle[0,θ]. On désire déterminer l’estimé de Maximum de Vraisemblance de θ.
La densité conditionnelle qui décrit les observations est
>>
≤≤=
==
θθ
θθθ
θθθθ
10
102
1010
ou , si,0
et , si,1
)|().|()|,()|(
xx
xx
xpxpxxpxp
(désinez cette fonction)Ecrivons maintenant cette fonction comme fonction de θ :
<
≥=),max(,0
),max(,1
)|,(
10
10210
xx
xxxxpθ
θθθ
On peut donc vérfier que la fonction de vraisemblance est maximale pour
),max(),(ˆ1010 xxxxml =θ
Cet exemple ilustre le cas où la fonction de vraisemblance n’est pas continue, et l’estimée ne peutpas être déterminée en dérivant ),( θrL .
Exemple 4.2Soit X=(x1,x2,...xN) N échantillons indépendents d’une variable aléatoire gaussienne, de moyenne µet de variance σ2.. On désire estimer le vecteur de paramètres θ=(µ,σ2).
La densité conditionnelle qui décrit les observations est
( )
−−
=
−−=
∑
∏
=
=
N
ii
N
N
iiN
xs
xxxxp
1
2
2
1
2
221
1exp
2
1
)(2
1exp
2
1)|,...,,(
µσσπ
µσσπ
θ
Par simple dérivation par rapport à µ et σ2 on obtient facilement
79
( )∑
∑
=
=
−=
=
N
ii
N
iiml
xN
xN
1
22
1
1ˆ
1ˆ
µσ
µ
c’est-à-dire la moyenne des échantillons et leur variance.
Exercice : Répéter l’exercice précédant pour le cas vectoriel.
4.4 Borne de Cramer-RaoOn dérive par la suite une inégalité très utile dans l’étude de problèmes d’estimationparamétrique, et qui établi une borne inférieure pour la variance de l’ erreur d’estiméesnon-biaisées.
Admettons que les dérivées de premier et deuxième ordre du logarithme de la fonctionde vraisemblance par rapport au paramètre à estimer,
2
2 )|(ln)|(ln
θθ
θθ
∂∂
∂∂ rr pp
existent et sont absolument intégrables. Soit )(ˆ rθ une estimée non-biaisée de θ :
{ } ( ) 0)|()(ˆ|)(ˆ =−=− ∫∞
∞−rrrrE dp θθθθθθ
Si on dérive cette équation par rapport à θ on obtient
{ } ( )[ ] 0)|()(ˆ|)(ˆ =−=− ∫∞
∞−rrrrE dp
d
d
d
dθθθ
θθθθ
θou encore
( ) 0)|()|()(ˆ =−−∫ ∫∞
∞−
∞
∞−rrrrr dpdp
d
dθθ
θθθ
Nottons maintenant que
)|(ln)|()|()|()|(
1)|(ln θ
θθθ
θθ
θθθ
θrrrr
rr p
d
dpp
d
dp
d
d
pp
d
d=⇔= .
Alors, l’équation précédente peut s’écrire
( ) 1)|(ln)|()(ˆ∫∞
∞−=− rrrr dp
d
dp θ
θθθθ
ou encore
( ) 1)|(ln)|()|()(ˆ∫∞
∞−=− rrrrr dp
d
dpp θ
θθθθθ
Par l’inégalité de Schwartz,
∫∫∫ ≤
rrrrrrr dgdfdgf 22
2
)()()()(
on peut écrire
( )[ ] 1)|(ln)|()|()(ˆ2
2
∫ ∫∞
∞−≥
− rrrrrr dp
d
dpdp θ
θθθθθ
et, en reconnaissant l’opérateur valeur moyenne
81
On peut établir une condition générale pour qu’un estimateur non-biaisé soit efficace.
Soit θ̂ un estimateur non-biaisé :
{ } ( ) 0)|()(ˆ)(ˆ =−=− ∫∞∞− rrrrE dp θθθθθθ
Si on dérive cette équation par rapport à θ :
( ) 0)|()|()(ˆ =−−∫ ∫∞
∞−
∞
∞−rrrrr dpdp
d
dθθ
θθθ
ce qui est équivalent à
( )∫∞
∞−=− 1)|(ln)|()(ˆ rrrr dp
d
dp θ
θθθθ
ou encore
( ) 1)|(ln)( =
− θθ
θθθ rrE p
d
d
c’est-à-dire, la correlation entre l’erreur d’un estimateur non-biaisé et la dérivé dulogarithme de la fonction de vraisemblance est égale à l’unité. Avec ce résultat, on peutdémontrer le théorème suivant .
Théorème 4.1Un estimateur non-biaisé est efficace
( )
=
≥
− −
θθθ
θ
θθθθ
2
12
)|(ln)(
)()(ˆ
rE
rE
pd
dJ
J
si et seulement si
( ) )|(ln))(ˆ)( θθ
θθθ rr pd
dJ =− .
Ce théorème identifie donc la constante k(θ) avec l’inverse de la borne de Cramér-Rao.Démonstration(si)Si la condition du théorème est vraie, alors
( ) )()|(ln)()()()(ˆ)(2
2θθθ
θθθθθθθθθ Jpr
d
dJCJJJ =
==
− rEE
d’où onpeut déduire1)()( −= θθ JC
(seulement si)On a vérifié que
( ) 1)|(lnˆ =
− θθ
θθθ rE p
d
d
Si on élève au carré cette équation
82
( ) 1)|(lnˆ2
=
− θθ
θθθ rE p
d
d
De l’inégalité de Schwartz pour les variables aléatoires
[ ]( ) ( ) ( )222 YEXEXY ≤E ,il résulte
( ) ( ) )()(ˆ)|(ln)|(lnˆ12
22
θθθθθθθθ
θθθ
θθ CJpd
dpr
d
d=
−
≤
−= ErErE
avec égalité si et seulement si
( )θθθθθ
−= ˆ)()|(ln Jpd
dr .
Une forme alternative de la borne de Cramér-Rao peut être déduite à partir de l’équationde normalisation de la densité conditionnelle :
∫ =R
dp 1)|( rr θ
Si on dérive par rapport à θ ,
∫ = 0)|( rr dpd
dθ
θ.
Rappelons la relation déduite antérieurement,
∫ = 0)|()|(ln rrr dppd
dθθ
θ.
Si on dérive une deuxième fois par rapport à θ :
∫ ∫ =+ 0)|()|(ln)|(ln)|(2
2
rrrrrr dpd
dp
d
ddp
d
dp θ
θθ
θθ
θθ
ou encore
∫ ∫ =
+ 0)|()|()|(ln)|(
2
2
2
rrrrrr dpd
dpdp
d
dp θ
θθθ
θθ
ce qui montre que
−=
θθθ
θθθ
2
2
2
)|(ln)|(ln rErE pd
dp
d
d.
Et nous obtenons ainsi une expréssion équivalente pour la borne de Cramér-Rao :
( )1
2
22)|(lnˆ
−
−≥
− θθ
θθθθ rEE p
d
d.
Exemple 4.3Soit X=(x1,...,xN) N échantillons indépendents d’une variable aléatoire de Poisson. On désire estimerle paramètre de la distribution. La densité conditionnelle de X est
∑∏ =
−
==N
nn
k
n
N
xkx
exp
1
,)|( θθθ
L’estimateur de maximum de vraisemblance est la valeur moyenne des observations (vérifier cetteaffirmation)
83
∑=
=N
nnmv x
N 1
1θ̂
Sa valeur moyenne et sa covariance sont
[ ]( )
Nmv
mv
θθθθ
θθθ
=
−
=
|ˆ
|ˆ
2E
E
La dérivée du logarithme de la fonction de vraisemblance est
∑=
+−=+−=N
nnxN
N
kNxp
d
d
1
1)|(ln
θθ
θet donc J(θ) est
θθ
θθθ
θθ
1|
1|)|(ln)(
122
2
Nxxpd
dJ
N
nn =
−−=
−= ∑
=EE
La borne inférieure pour l’erreur quadratique de toutes les estimées non-biaisées de θ est donc
( )N
θθθ ≥
−
2ˆE .
Ce résultat montre que pour obtenir le même erreur on doit prendre plus d’échantillons quand leparamètre de la distribution est grand.Si nous comparons la variance de l’estimateur du maximum de vraisemblance avec le résultatprécédent, nous pouvons constater qu’il est efficace. On remarque que, effectivement, cet estimateursatisfait la condition du théorème ennoncé auparavant :
( ) ( ) )|(ln11ˆ)(
11
θθθ
θθ
θθθ xpd
dxNx
N
NJ
N
nn
N
nn =+−=
−=− ∑∑
==
.
Cas vectorielQuand θ est un vecteur (plus d’un paramètre) le résultat précédant est modifié :
( )( )11
2
1
)|(ln)|(ln|)|(ln)(
)()(ˆ)(ˆ
−−
−
∂∂
∂∂
=
∂∂∂
−=
≥
−−
θθθ
θθ
θθθθ
θ
θθθθθθ
rrErE
rrE
pppJ
J
jijiij
T
où la notationBA ≥
est définie parxxBAxBABA T ∀≥−⇔≥−⇔≥ ,0)(0 ,
c’est-à-dire, implique que A-B est une matrice définie non-négative.
4.6 Le modèle linéaire
On considère le modèle d’observations suivant :K
iii rNiwmr ℜ∈=+= ,,...,1,)(θ
84
où )(θm est un vecteur de dimension K, fonction connue du vecteur de paramètres
inconnus θ de dimension q, et { } `
1
N
iiw = sont des vecteurs gaussiens, de moyenne nulle et
matrice de covariance )(θR , qui dépend, en général, du vecteur de paramètres θ.
La densité conditionnelle de ],...,,[ 21 Nrrrr = étant donnée une valeur fixe du vecteur θest :
( )( ) ( )
( )[ ]
−=
−−−=
=
−
=
−
=
∑
∏
)()(2
exp)(2
1
)()()(2
1exp
)(2
1
)|()|(
12/2/
1
12/2/
1
θθθπ
θθθθπ
θθ
SRtrN
R
mrRmrR
rprp
NNK
N
ii
TiNNK
N
ii
où nous avons défini
( )( )∑=
−−=N
i
Tii mrmr
NS
1
)()(1
)( θθθ .
L’estimateur de Maximum de vraisemblance (MV) est la solution de
0)|(ln =∂∂
θθ
rp ,
ce qui conduit aux équations suivantes
qnS
RtrN
SRR
RtrNR
RtrN
nnn
...,1,0)(
)(2
)()()(
)(2
)()(
21111 ==
∂
∂−
∂
∂+
∂
∂− −−−−
θθ
θθθθθ
θθθ
θ
Si la matrice de covariance, R(θ), ne dépend pas de θ :,,)( θθ ∀= RR
l'équation précédante simplifie :
qnS
RtrN
n
,...,1,0)(
21 ==
∂
∂− −
θθ
.
Si nous utilisons la définition de S(θ) dans cette expression,
( ) ∑∑=
−
=
− ==−∂
∂=
∂∂
−N
ii
n
tN
i n
t
i qnmrRmm
mrRtr1
1
1
1 ,...,1,0))(()()(
)( θθθ
θθ
θ
Si on considère aussi que la moyenne m(θ) est une fonction linéaire de θ :,)( θθ Hm =
où H est une matrice qK × de rang égal à q<K, l’équation de l’estimateur MV peuts’écrire, en notation vectorielle,
∑=
− =−N
ii
T HrRH1
1 0)( θ
et donc
( ) mRHHRH TTmv ˆˆ 111 −−−=θ
85
où m̂ est la moyenne des observations :
∑=
=N
iirN
m1
1ˆ .
Quand la matrice de covariance est un multiple de l’identité,IR 2σ= ,
le résultat antérieur devient simplement
( ) mHHH TTmv ˆˆ 1−
=θ .
L’estimée de MV de la valeur moyenne des observations est dans ce cas
( ) mHHHHHm TTmvmv ˆˆˆ
1−== θ .
La matrice qui multiplie la moyenne m̂ dans l’équation précédante,
( ) `1 TT HHHHP−
=est la matrice de projection orthogonale dans l’espace engendré par les colonnes de lamatrice H.
Remarque :La matrice de Fisher pour ce problème – inverse de la borne de Cramér-Rao – est
∂∂∂
−= θθθ
θθ
jiij
rpEJ
)|(ln)(
2
.
Si nous calculons cette matrice pour ce problème, nous obtenonsHRHNJ T 1)( −=θ ,
et nous pouvons donc constater que
[ ]θθθθ −= ˆ)(ˆ Jmv ,
ce qui montre que mvθ̂ est une estimée efficace du vecteur de paramètres θ.
Exemple 4.4Admettre, dans le modèle linéaire gaussien, que θ est un vecteur de dimension 2 , [ ]21 θθθ = et
soient 1h et 2h les colonnes de la matrice H :
][ 21 hhH = .Considérer que
IR 2σ= .Dans ces conditions
mh
hm
h
hT
T
T
T
mv ˆ1
1
1
1ˆ
1
1ˆ2
1
1
22
1
1
−
−
−=
=
−−
ρρ
ρρρ
θ
Analyser le comportement quand 1→ρ . Quelle est l’interprétation physique de ce résultat ?
Exemple 4.5Soit y le vecteur des échantillons d’un signal continu dans les instants NkkTt ,...,1, == :
[ ] )(...., 21 kTyyyyyy kN ==On désire ajuster un modèle polynomial à la courbe y(t) :
86
∑=
−=p
n
nn tty
1
1)( θ
Selon ce modèle les observations suivent un modèle linéaire :wHy += θ
où H est la matrice de Vandermonde
( )
( ) ( )
=
−
−
−
1
1
1
1
221
1
p
p
p
NTNT
TT
TT
H
L
MMM
L
L
et θ est le vecteur de coefficients
[ ]Tpθθθθ L21= .
Exemple 4.6 (modèle exponentiel complèxe)Si au lieu d’un modèle polynomial on considère que le signal observé est une sommed’exponentielles complexes,
∑= tjn
necty ω)(les observations suivent encore un modèle linéaire, de la forme
wHy += θoù, maintenant,
iji
Np
NN
p ez
zzz
zzzH ω=
=
−−−
,
111
112
11
21
L
MMM
L
L
et
[ ]Tpccc L21=θ .
Exercice (forme récursive de l’estimateur MV pour le modèle linéaire)
Considérez le problème d’estimer récursivement le paramétre θ, au fur et à mesure que les
observations ny arrivent. Nous cherchons à écrire l’estimée MV pour le modèle linéaire dans la
forme :
1)1()(ˆ)1(ˆ +++=+ nynKnn θθ ,
où )(ˆ nθ désigne l’estimée obtenue avec le vecteur ][ 21 nyyy L . C’est-à-dire, l’estimée
optimale est obtenue en ajoutant un terme de correction – fonction uniquement de la nouvelleobservation – à l’estimée optimale précédante. Ceci montre que l’estimée MV peut êtredéterminée sans avoir à mémoriser toutes les observations : l’estimée est donc une statistiquesuffisante, qui résume toute l'’nformation utile dans les observations.
4.7 IdentificationDans beaucoup de problèmes (analyse spectrale, traitement d’antenne, etc.) la matrice Hdu modèle linéaire a une structure connue, mais dépend de paramètres inconnus. Soit ω levecteur qui groupe ces paramètres :
[ ])(||)(|)()( 21 ωωωω phhhH L= ,
87
que l’on désire estimer. L’exemple 4.5 illustre cette situation, car les fréquences desexponentielles ne sont pas, usuellement, connues.
Le modèle des observations est donc dans ce cas :K
iii rNiwHr ℜ∈=+= ,,...,1,)( θωSi nous écrivons la fonction de vraisemblance pour l’ensemble de paramètres inconnus
),( θω
( ) ( )∑=
− −−−−−=N
ii
Ti HrRHrR
NKNrp
1
1 )()(2
1ln
2)2ln(
2),|(ln θωθωπθω .
Pour toutes les valeurs de ω, cette expression est maximisée, comme on l’a vu, par
[ ] mRHHRH TTmv ˆ)()()()(ˆ 111 −−−= ωωωωθ
et donc,
[ ] mPmRHHRHHH TTmv ˆ)(ˆ)()()()(ˆ)( 111 ωωωωωθω == −−−
où
[ ] 111 )()()()()( −−−= RHHRHHP TT ωωωωω .Nous pouvons donc écrire
( ) ( )
( ) ( ) [ ] [ ]mPIRPImN
mrRmrC
mPrRmPrCrp
TN
ii
Ti
te
N
ii
Ti
temv
ˆ)()(ˆ2
ˆˆ2
1
ˆ)(ˆ)(2
1))(ˆ,|(ln
1
1
1
1
1
ωω
ωωωθω
−−−−−−
−−−=
−
=
−
=
−
∑
∑
La maximisation de cette expression par rapport à ω conduit à
[ ] [ ]mPIRPImTmv ˆ)()(ˆminargˆ 1 ωωω
ω−−= −
L’expression précédante, qui défine les estimées de Maximum de vraisemblance duvecteur w, conduit à un problème d’optimisation non-linéaire multivariable, qui doit êtrerésolu numériquement.
4.8 Identification MV des paramètres d’un modèle ARMAOn considère maintenant un signal qui suit un modèle ARMA(p,p-1) causal :
∑ ∑=
−
=−− ==
p
n
p
nntnntn aubya
0
1
00 1, .
Soit H(z) la fonction de transfert du système :
∑∑−
=
−
=
− ===1
00
)(,)(,)(
)()(
p
n
nn
p
n
nn zbzBzazA
zA
zBzH
De la définition de la fonction de transfert
∑=
−=⇔=p
nntnt habzBzHzA
0
)()()(
où th est la réponse impulsionnelle du système. Si on écrit les N>p premières équations,
on obtient
90
[ ]
=
− 00
0
bbaH
A
aaa
aa
a
T
p
*)(1
1
1
1
121
12
1
L
OOOM
De cette équation nous pouvons conclure
IaH
aaa
aa
a
bbaH
aaa
aa
a
pp
=
⇔=
−−
)(
1
1
1
1
)(
1
1
1
1
121
12
1
121
12
1
L
OOOM
L
OOOM
00
et0)(0)( =⇔= aHAbaHA TT
Cette dernière équation nous permet d’affirmer que les N-p colonnes de A sontorthogonales aux p colonnes de H(a). Donc, l’opérateur de projection dans l’espaceorthogonal aux colonnes de H(a) peut s’écrire directement en termes de la matrice A :
TT AAAAaPIaP 1)()()( −⊥ =−=et en conséquence
2)(minargˆ raPa
aMV
⊥=
Comme nous avons déjà remarqué, ce problème d’optimisation est non-linéaire, et doitêtre résolu par des méthodes numériques.
4.9 Prédicition linéaire et la méthode de PronyNous reprenons les équations pour les estimées de MV des paramètres d’un modèleARMA :
[ ] raHaHaHab
rAAAArraPaPrraPa
TTMB
TTT
aa
T
aMV
T
)()()()(ˆ
)(minarg)()(minarg)(minargˆ
1
12
−
−⊥⊥⊥
=
===
On rapelle le modèle des observationswbaHh += )(
et le fait que l’estimée MV de la composante non-bruitée des observations estraPbaH MV )()( =
Alors l’estimée de le la composante de bruit estraPwMV
⊥= )(ˆ
92
[ ] raHaHaHb TT )ˆ()ˆ()ˆ(ˆ 1−= .
4.10 Méthode de Prony
Nous allons constater maintenant que la méthode de Prony est un cas particulier de cetteapproche à l’identification paramétrique. Cette méthode est basée sur une modélisationdu signal observée comme une superposition de sinusoï des amorties
∑=
+=p
i
nfjnjin
iii eex1
)2( παθγ
Ce signal peut être modélisé comme la réponse d’un modèle d’état homogène
nT
n
nn
Xx
FXX
1=
=+1
avec la condition initiale[ ]T
pbbX L10 =où la matrice F est une matrice diagonale qui regroupe les pôles du système
=
pz
z
F
0
0
O1
(vértifier cette affirmation)et
pj
pp ebθγ=
Le théorème de Cayley-Hamilton nous donne directement le modèle AR(p) à partir dumodèle d’état, en identifiant le polynôme p
p zazaza −−− −−−− L22
111 avec le
polynôme caractéristique de F :
ppp
p
ii aazFI −−−=−=−=ϕ −
=∏ L1
11
)()( λλλλλ
car0100)( 1
11
1 =−−−⇔=−−−⇔=ϕ −−− pipip
pi
pi zazaazazF LL
Si nous formons la combinaison linéaire des observations
[ ]∑ ∑
∑ ∑∑=ϕ=−−−=
−−−=−−−−
−−
−−−−−
0)(1 11
112211
inii
pipi
nii
pnii
nii
niipnpnnn
zzbzazazb
zbzbazbxaxaxax
L
LL
c’est-à-dire, le signal observé suit un modèle AR(p)
∑=
−=p
iinin xax
1
dont les pôles sont les exponentielles complexes)2( pp fj
p ezπα +=
93
On retrouve ici l’approche de prédiction linéaire présentée dans la section précédante,c’est-à-dire, une équation qui permet de représenter chaque échantillon comme unecombinaison lineaire des échantillons précédants.
Reprennons maintenant la représentation AR du signal. Si l’on écrit cette équation pourdes valeurs consécutifs de n, on obtient
132211
11211
2211
−−+−+−+
+−−+
−−−
+++=
+++=
+++=
nppnpnpn
pnpnnn
pnpnnn
xaxaxax
xaxaxax
xaxaxax
L
M
L
L
ou encore
=
+−+−+
+−−
−−−
+
+
pkpnknkn
pnnn
pnnn
kn
n
n
a
a
a
xxx
xxx
xxx
x
x
x
M
L
MM
L
L
M
2
1
21
11
21
1 ,
que nous pouvons écrire en forme matricielleCaX = ,
avec des définitions évidentes du vecteur X – de dimension k+1 – et de la matrice C – dedimension ( ) pk ×+ 1 .
Nous obtenons donc une relation linéaire qui nous permet de calculer la valeur descoefficients du polynôme caractéristique de la matrice F, et donc les pôles du système.
RemarquePour calculer les pôles d’un modèle d’ordre p il faut que pkpk >⇒≥+ 1 . Pourchaque valeur de k, le système d’équations précédant fait intervenir leséchantillons depuis l’instant n-p jusqu’à l’instant n+k, en nombre total de k+p. Onpeut alors conclure que le nombre minimal d’observations pour identifier unmodèle d’ordre p est égal à 2p. Dans le cas où l’on prend exactement 2pobservations, le système d’équations obtenu peut être en général inversédirectement pour obtenir le vecteur des coefficients a :
XCa 1−= .On remarque que cette équation est un cas particulier du cas général considéréprécédemment, quand la matrice Y est inversible. Si k>p la matrice C devient, s’iln’y a pas de bruit, singulière.
La méthode de Prony originale utilise seulement 2p observations pour estimer lesparamètres d’un modèle d’ordre p. Elle marche très bien si les observations nesont pas bruitées, ce qui en genéral n’est pas vrai. On a donc intérêt à prendre unplus grand nombre d’observations et dans ce cas, l’équation générale doit êtreutilisée :
94
( ) XCCCa TT 1−= .
Une fois connus les pôles du système, la détermination du vecteur condition initiale dumodèle est équivalente à un problème d’interpolation polynomiale.Si l’on décrit la sortie du modèle d’état en fonction de sa condition iniciale, on obtientpour ce cas simple
[ ]bzzzbFx np
nnnTn L21== 1 .
Si l'on écrit cette équation pour p valeurs consécutifs de n :
=
−+−+−+
+++
−+
+
ppn
ppnpn
np
nn
np
nn
pn
n
n
b
b
b
zzz
zzz
zzz
x
x
x
M
L
MMM
L
L
M2
1
112
11
112
11
21
1
1,
qui est une équation linéaire de la formeVbz = .
La matrice de cette équation – matrice de Vandermonde – a un déterminant différent dezéro si et seulement si tous les pôles du système sont distincts, et peut donc être inverséepour obtenir le vecteur b. De ce vecteur résultent immédiatement les amplitudes et lesphases des sinusoï des du modèle de départ.
La méthode de Prony consiste donc dans la séquence de quatre pas :1. Déterminer les coefficients du polynôme caractéristique de F par résolution de
CaX = .2. Déterminer les pôles par détermination des racines du polynôme
01)( 11 =−−−=ϕ −− p
ipii zazaz L .
3. Construire la matrice de Vandermonde
=−+−+ 11
1
1
pnp
pn
np
n
zz
zz
V
L
MM
L
.
4. Déterminer les coefficients par résolution deVbz = .
Remarque : La méthode de Prony, que l’on vient de décrire, est basée sur deuxhypothèses : (1) le système à identifier est un système AR ; (2) on observedirectement la réponse impulsionnelle du système.
4.11 Méthode de Pisarenko
La méthode de Pisarenko est basée directement sur des relations entre les entrées et lessorties du modèle AR. La méthode de Pisarenko est basée sur les propriétés de la matriced’auto-corrélation. Elle considère explicitement la présence de bruit dans les mesures, etadmet que le processus sinusoï dal observé est stationnaire. Cependant, le modèlesinusoï dal tel qu’il a été défini dans l’étude de la méthode de Prony n’est pas stationnaire.
95
Pour obtenir stationnarité, il faut considérer que les phases pθ sont des variables
aléatoires, indépendantes et identiquement distribuées, uniformes en [ ]π2,0 , et que les
facteurs d’amortissement pα sont tous nuls :
nnifjij
in weex += ∑ πθγ 2 .
Le modèle correspondant peut être encore défini par un modèle d’état similaire auprécédant :
nnT
n
nn
wXx
FXX
+==+
1
,1 ,
avec la condition initiale[ ]T
pbbX L10 = , pj
pp ebθγ= ,
où
=
pz
z
F O1
, ifji ez π2= ,
et nw est une séquence blanche.
On peut remarquer que ce modèle de sinusoï des dans du bruit correspond à une formelimite d’un processus ARMA(p,p) :
nnn wyx += ,
où ny représente la partie non-bruitée du signal. Alors, comme on a vu,
( )∑ −− −=−= knknknnn wxawxy ,
ou encore
∑ ∑= =
−− =−p
k
p
kknkknkn waxax
1 1
,
qui est un modèle ARMA(p,p) avec les mêmes coefficients pour les parties auto-regréssive et moyenne glissante.
On présente ensuite la méthode de Pisarenko.Si on forme le vecteur qui regroupe k+l échantillons consécutifs de ce processus, onobtient
wDb
w
w
w
b
zzz
zzz
zzz
x
x
x
Y
kn
n
n
knp
knkn
np
nn
np
nn
kn
n
n
+=
+
=
=
+
+
+++
+++
+
+
M
L
MMM
L
L
M1
21
112
11
21
1 .
La matrice de correlation du vecteur Y est[ ] IDBDYYR eHH σ+== E ,
où on a défini la matrice B
96
[ ]HbbB E= .
On constate que R est la somme d’une matrice de rang inférieur à p plus un multiple de lamatrice identité. Admettons que le rang de B est p, et que les pôles sont tous distincts, etconsidérons la décomposition spectrale de la matrice R
kiuRu iii ,...,1, == λ .
Si nous remplaçons R par son expression( ) kiuuIDBD iii
H ,...,1,2 ==+ λσ ,
ou encore( ) kiuuDBD iii
H ,...,1,2 =+= σλ ,
ce qui montre que les valeurs propres de R sont égaux à ceux de HDBD additionnés de2σ . Comme, par hypothèse, cette matrice a rang p, nous pouvons séparer les valeurs
propres – et les vecteurs propres correspondants – de R en dux groupes :• p valeurs propres de valeur plus grande, et dont les vecteurs propres correspondants
engendrent le même sous-espace que les colonnes de la matrice B ;• k-p valeurs propres toutes égales à 2σ , et don’t les vecteurs propres correspondants
sont orthogonales aux colonnes de D.
La méthode de Pisarenko est basée sur ce fait, pour le cas particulier où le nombred’observations est k=p+1. Elle consiste à déterminer le vecteur propre de R associé à laplus petite valeur propre, ν, et à déterminer les pôles du système à partir des relations
pqzzz pnqp
nq
nqi ,...,1,01
12 ==+++ +
++ ννν L ,
ce qui montre que les pôles du système sont les racines du polynôme de degré p don’t lescoefficients sont les éléments du vecteur propre ν.
Les amplitudes et les phases des sinuoï des sont ensuite déterminés de façon à minimiserl’erreur quadratique entre les observations et le signal synthétisé,
( ) ( )bDxbDxH ˆˆ −− ,
ce qui conduit à la solution
( ) xDDDb HH ˆˆˆˆ 1−= .
En pratique, on doit remplacer R par une estimée déterminée à partir des données. Pourassurer que les racines du polynôme construit à partir du vecteur propre associ’e à la pluspetite valeur propre de la matrice d’auto-corrélation se trouvent sur le cercle unitaire, ilfaut que cette estimée soit une matrice de Toeplitz.
Pour des données réels, le modèle de sinusoï des est
( )∑=
++=p
iniiin wnfx
1
2sin θπγ ,
qui est équivalent à un modèle complexe avec 2p sinusoï des en fréquences symmétriques.Dans ce cas, les relations antérieures restent valides, mais il faudra construire une matriced’auto-corrélation de dimension 2p+1.
97
Remarque : cette méthode est très sensible au choix de p. Noter qu’elle trouveratoujours p sinusoï des, même quand les données n’en contiennent qu’un nombreinférieur de composantes.
99
( ) ( )2,0,cos
1,...,1,0,
σφω N∝+=
−=+=
tt
ttt
ntAs
Ntnsx
Déterminez les estimés MV des paramètres du modèle.Tracez les bornes pour la variance en fonction du rapport signal/bruit SNR, enprennant N comme paramètre, et en fonction de N avec SNR comme paramètre.
8. Soit X un vecteur avec une distribution gaussienne de moyenne θH et matrice decovariance R. Considérez le problème de l’estimation de θθ Tw = , et déterminez laborne de Cramér-Rao pour ce problème.
9. Soit X un vecteur de mesures avec densité )|( θXp dépendante d’un vecteur de
paramètres, θ inconnu. Un estimateur biaisé )(ˆ Xθ est utilisé pour estimer θ. Soit
[ ]θθθ |)(ˆ)( XEg = l’espérance de l’estimateur.
a) En utilisant la propriété [ ] 0|)()(ˆ =− θθθ gXE , montrer que
( ) ( )∫ ∂∂
=
∂∂
=
− θ
θθ
θθθθθθ TTT
gdXgXpgXXsE )()|(|)()(ˆ),(
où ),( Xs θ est la dérivé du logarithme de la fonction de vraisemblance.b) Soit
( ) ( ) ( )
∂∂
−=−
),(
ˆ
0
][),(1
Xs
X
I
JgIXzTT
θθθθ
θθ .
En utilisant le fait que ( ) ( )[ ]XzXzE T ,, θθ est définie non-négative, montrez quela borne de Cramér-Rao pour estimateurs biaisés est donnée par
( ) ( )( ) ( ) ( )( ) ( ) ( ) ( )
∂∂
∂∂
≥
Θ−Θ− − θ
θθθ
θθθ T
TTT
gJggxgxE 1ˆˆ
où ( ) ( )[ ]XsXsEJ T ,),( θθθ = est la matrice de Fisher pour θ.
10. Soit [ ]MxxxX ,...,, 21= des échantillons indépendants de variables aléatoires
uniformes en [ ]θ,0 . Montrer que
c) nn
mv xmaxˆ =θ
d) La densité de probabilité de mvθ̂ est θθθθ
θθ ≤≤= − ˆ0,ˆ)|ˆ( 1MM
Mp .
e) [ ] θθθ1
|ˆ+
=M
ME .
f) [ ]( )( )
2212
|ˆvar θθθ++
=MM
Mmv .
Concluez que mvθ̂ est asymptotiquement non-biaisé et consistent.
100
ANNEXE 1: Gradients vectoriels et matricielsBeacoup de résultats en traitement du signal sont obtenus par dérivation d’une fonctionde coût non-négative. Pour cette raison, les égalités concernant la dérivation de vecteurset de matrices jouent un rôle important. Dans cette annexe, nous présentons sans preuveplusieurs définitions et résultats.
Gradients vectorielsSoit ( )θa une fonction scalaire du vecteur 1×p θ. Le gradient de a par rapport à q est le
vecteur de dimension 1×p ( )aθ∂∂ / :
( )
( )( )
( )
∂∂
∂∂∂∂
=∂∂
pa
a
a
a
θθ
θθθθ
θθ
/
/
/
2
1
M
Cette définition peut être généralisée au gradient d’une fonction vectorielle de dimensionn ( ) ( ) ( )[ ]θθθ naaa L1= par rapport à θ :
( ) ( ) ( ) ( )( ) ( )
( ) ( )
∂∂∂∂
∂∂∂∂
∂∂
∂∂
∂∂
=∂∂
pnn
n
nT
aa
aa
aaaa
θθθθ
θθθθθ
θθ
θθ
θθ
θL
MM
L
L
1
111
21
Un certain nombre de cas particuliers [euvent être déduits de ces expressions :
a) IT =∂∂
θθ
b) bbb TT =∂∂
=∂∂
θθ
θθ
c) ( ) ( ) ( ) ( ) ( ) ( )θθθ
θθθ
θθθ
abbaba TTT
∂∂
+
∂∂
=∂∂
d) θθθθ
QQT 2=∂∂
si Q est indépendant de θ.
e) ( ) ( )θθθ
θθθ
QmmQmm TT
∂∂
=∂∂
2)()( si Q est indépendant de θ.
f) θθθθθθ
111
2
1exp
2
1exp −−−
−−=
−
∂∂
QQQ TT si Q est indépendant de θ.
g) ( ) ( ) θθθθθθ
QQQ TT 12ln
−=
∂∂
si Q est indépendant de θ.
Gradients MatricielsSoit maintenat ( )Ra une fonction scalaire de la matrice np × R. Le gradient de a par
rapport à la matrice R est la matrice de dimension np × ( )aR∂∂ / :
101
∂∂
∂∂
∂∂
∂∂
∂∂
∂∂
=∂∂
pnp
n
r
Ra
r
Ra
r
Rar
Ra
r
Ra
r
Ra
aR
)()(
)(
)()()(
1
21
11211
L
M
M
L
Un certain nombre de identités découlent de ces définitions
a) IRtrR
=∂∂
b) [ ] [ ] [ ] TT
TT
TLRLtr
RRLtr
RRLtr
R=
∂∂
=∂
∂=
∂∂
c) [ ] [ ] ( )TT
LRRLRtrR
RLtrR
111 −−− −=∂
∂=
∂∂
d) ( )Tnn RnRtrR
1−=∂∂
e) [ ] RRtrR
expexp =∂∂
f) ( )TRRRR
1detdet −=∂∂
g) ( )TRR
R1detln −=
∂∂
h) ( ) ( )Tnn RRnRR
1detdet −=∂∂
103
nnT
nn
nTnnnnnn
Tnnnn
Tnn
cGc
GccGGG
ccGHHG
11
11
11
111
1
1
1 −−
−−
−−
−−−
−
−
+=
−=
+==
γ
γ
Exemple (Identité de Woodbury)L’inverse de la matrice
TuuRR 20 γ+=
est la matrice
10
101
02
21
01
1−−
−−−
+−= RuuR
uRuRR T
Tγγ
Cette identité est le cas particulier de
( ) ( ) 1111111 −−−−−−− +−=+ DABDACBAABCDAquand C est un scalaire.
Top Related