Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec...
Transcript of Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec...
![Page 2: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/2.jpg)
Présentation
• Objectifs : Comprendre le problème de la modélisation statistique etacquérir les premières notions fondamentales de la théorie del’estimation.
• Pré-requis : théorie des probabilités, variables aléatoires discrètes etcontinues.
• Enseignant : Laurent Rouvière [email protected]• Recherche : statistique non paramétrique, apprentissage statistique• Enseignements : statistique et probabilités (Université, école d’ingénieur
et de commerce, formation continue).• Consulting : energie, finance, marketing, sport.
2
![Page 3: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/3.jpg)
Programme
• 40h : 20h CM + 20h TD.
• Matériel : slides + feuilles d’exercices. Disponible à l’url :https://lrouviere.github.io/doc_cours/
• 5 parties :1. La modélisation2. Théorie de l’estimation3. Convergences stochastiques4. Critères de performance asymptotique et estimation par intervalles5. Introduction à l’approche non paramétrique
3
![Page 4: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/4.jpg)
Première partie I
La modélisation statistique
4
![Page 5: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/5.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
5
![Page 6: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/6.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
6
![Page 7: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/7.jpg)
Statistique (version Wikipedia)La statistique est l’étude de la collecte de données, leur analyse, leurtraitement, l’interprétation des résultats et leur présentation afin de rendreles données compréhensibles par tous.
ConséquencePlusieurs étapes :
1. Collecte des données
2. Analyse et vérification des données (statistiques descriptives)
3. Traitement (modélisation)
4. Interprétation des résultats (ou du modèle)
5. Présentation des résultats (visualisation)
7
![Page 8: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/8.jpg)
Statistique (version Wikipedia)La statistique est l’étude de la collecte de données, leur analyse, leurtraitement, l’interprétation des résultats et leur présentation afin de rendreles données compréhensibles par tous.
ConséquencePlusieurs étapes :
1. Collecte des données
2. Analyse et vérification des données (statistiques descriptives)
3. Traitement (modélisation)
4. Interprétation des résultats (ou du modèle)
5. Présentation des résultats (visualisation)
7
![Page 9: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/9.jpg)
Un exemple célèbre : les iris de Fisher
QuestionPour 3 espèces d’iris différentes, est-il possible d’expliquer (ou de prédire)l’appartenance à une des espèces connaissant les longueurs et largeurs desépales ?
8
![Page 10: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/10.jpg)
Collecte des données
• On a mesuré sur n = 150 iris les quantités d’intérêts.
> data(iris)> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa6 5.4 3.9 1.7 0.4 setosa
> summary(iris)Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :501st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.1993rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
9
![Page 11: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/11.jpg)
Statistiques descriptives
• Indicateurs numériques et graphiques permettant de mieux comprendrele problème.
> library(ggplot2)> ggplot(iris)+aes(x=Species,y=Petal.Length)+geom_boxplot()> ggplot(iris)+aes(x=Petal.Length,color=Species)+geom_density()> ggplot(iris)+aes(x=Petal.Length,y=Petal.Width,color=Species)+geom_point()
2
4
6
setosa versicolor virginica
Species
Pe
tal.L
en
gth
0
1
2
2 4 6
Petal.Length
de
nsi
ty
Species
setosa
versicolor
virginica
0.0
0.5
1.0
1.5
2.0
2.5
2 4 6
Petal.Length
Pe
tal.W
idth Species
setosa
versicolor
virginica
10
![Page 12: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/12.jpg)
Modélisation
• Modéliser =
créer un objet qui permette d’expliquer l’espèce à partirdes 4 variables quantitatives.
• On utilise ici un arbre de classification> library(rpart)> model <- rpart(Species~.,data=iris)
• que l’on peut visualiser> library(rpart.plot)> rpart.plot(model)
Petal.Length < 2.5
Petal.Width < 1.8
setosa.33 .33 .33
100%
setosa1.00 .00 .00
33%
versicolor.00 .50 .50
67%
versicolor.00 .91 .09
36%
virginica.00 .02 .98
31%
yes no
setosaversicolorvirginica
11
![Page 13: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/13.jpg)
Modélisation
• Modéliser = créer un objet qui permette d’expliquer l’espèce à partirdes 4 variables quantitatives.
• On utilise ici un arbre de classification> library(rpart)> model <- rpart(Species~.,data=iris)
• que l’on peut visualiser> library(rpart.plot)> rpart.plot(model)
Petal.Length < 2.5
Petal.Width < 1.8
setosa.33 .33 .33
100%
setosa1.00 .00 .00
33%
versicolor.00 .50 .50
67%
versicolor.00 .91 .09
36%
virginica.00 .02 .98
31%
yes no
setosaversicolorvirginica
11
![Page 14: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/14.jpg)
Prévisions
• On dispose de 5 nouveaux iris sur lesquels on a mesuré les longueurs etlargeurs de pétales et sépales.
> iris_prevSepal.Length Sepal.Width Petal.Length Petal.Width
5.0 3.6 1.4 0.25.5 2.4 3.7 1.05.8 2.7 5.1 1.95.1 3.5 1.4 0.36.3 2.9 5.6 1.8
• On souhaite connaitre (prédire, estimer...) l’espèce de chacun.
• On utilise le modèle (l’arbre) pour faire ces prévisions.
12
![Page 15: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/15.jpg)
Prévisions
• On dispose de 5 nouveaux iris sur lesquels on a mesuré les longueurs etlargeurs de pétales et sépales.
> iris_prevSepal.Length Sepal.Width Petal.Length Petal.Width
5.0 3.6 1.4 0.25.5 2.4 3.7 1.05.8 2.7 5.1 1.95.1 3.5 1.4 0.36.3 2.9 5.6 1.8
• On souhaite connaitre (prédire, estimer...) l’espèce de chacun.
• On utilise le modèle (l’arbre) pour faire ces prévisions.
12
![Page 16: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/16.jpg)
• Prévisions des probabilités d’appartenance aux espèces :
> predict(model,newdata=iris_prev)setosa versicolor virginica
1 0.000 0.0000 0.907 0.0930 0.022 0.9781 0.000 0.0000 0.022 0.978
• Prévisions des espèces :
> predict(model,newdata=iris_prev,type="class")setosa versicolor virginica setosa virginica
Levels: setosa versicolor virginica
13
![Page 17: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/17.jpg)
• Prévisions des probabilités d’appartenance aux espèces :
> predict(model,newdata=iris_prev)setosa versicolor virginica
1 0.000 0.0000 0.907 0.0930 0.022 0.9781 0.000 0.0000 0.022 0.978
• Prévisions des espèces :
> predict(model,newdata=iris_prev,type="class")setosa versicolor virginica setosa virginica
Levels: setosa versicolor virginica
13
![Page 18: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/18.jpg)
• Chacune de ces étapes est primordiale pour le succés d’une étudestatistique.
Dans ce cours
• On va s’intéresser à la phase de modélisation mathématique d’unproblème.
• On supposera les données collectées (c’est en grande partie une affairede praticien). Elles seront souvent notées x1, . . . , xn.
• Les phases d’interprétation et de visualisation des résultats serontabordées plus tard.
14
![Page 19: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/19.jpg)
• Chacune de ces étapes est primordiale pour le succés d’une étudestatistique.
Dans ce cours
• On va s’intéresser à la phase de modélisation mathématique d’unproblème.
• On supposera les données collectées (c’est en grande partie une affairede praticien). Elles seront souvent notées x1, . . . , xn.
• Les phases d’interprétation et de visualisation des résultats serontabordées plus tard.
14
![Page 20: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/20.jpg)
• Chacune de ces étapes est primordiale pour le succés d’une étudestatistique.
Dans ce cours
• On va s’intéresser à la phase de modélisation mathématique d’unproblème.
• On supposera les données collectées (c’est en grande partie une affairede praticien). Elles seront souvent notées x1, . . . , xn.
• Les phases d’interprétation et de visualisation des résultats serontabordées plus tard.
14
![Page 21: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/21.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
15
![Page 22: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/22.jpg)
Nombre de voitures à un feu rouge
• Afin de mieux gérer la circulation, on s’intéresse au nombre de voituresà un feu rouge sur un créneau donné.
• Expérience : on compte le nombre de voitures dans la file d’attente àchaque fois que le feu passe au vert.• On récolte n = 250 observations
5 9 9 9 11 9
0
10
20
30
40
5 10 15
X
coun
t
16
![Page 23: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/23.jpg)
Nombre de voitures à un feu rouge
• Afin de mieux gérer la circulation, on s’intéresse au nombre de voituresà un feu rouge sur un créneau donné.
• Expérience : on compte le nombre de voitures dans la file d’attente àchaque fois que le feu passe au vert.• On récolte n = 250 observations
5 9 9 9 11 9
0
10
20
30
40
5 10 15
X
coun
t
16
![Page 24: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/24.jpg)
QuestionComment utiliser au mieux ces données pour gérer le feu ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dunombre de voitures arrêtées au feu à ce créneau.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (discrète) à partir des mesures effectuées.
17
![Page 25: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/25.jpg)
QuestionComment utiliser au mieux ces données pour gérer le feu ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dunombre de voitures arrêtées au feu à ce créneau.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (discrète) à partir des mesures effectuées.
17
![Page 26: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/26.jpg)
QuestionComment utiliser au mieux ces données pour gérer le feu ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dunombre de voitures arrêtées au feu à ce créneau.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (discrète) à partir des mesures effectuées.
17
![Page 27: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/27.jpg)
QuestionComment utiliser au mieux ces données pour gérer le feu ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dunombre de voitures arrêtées au feu à ce créneau.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (discrète) à partir des mesures effectuées.
17
![Page 28: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/28.jpg)
Durée d’un trajet
• J’ai une réunion à mon travail à 8h, à quelle heure dois-je partir pour"avoir de grandes chances" d’être à l’heure ?
• Expérience : je mesure la durée de trajet domicile/travail pendantplusieurs jours.• Je récolte n = 100 observations
20.87 22.12 20.90 21.33 17.73
0
20
40
60
16 20 24
X
coun
t
18
![Page 29: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/29.jpg)
Durée d’un trajet
• J’ai une réunion à mon travail à 8h, à quelle heure dois-je partir pour"avoir de grandes chances" d’être à l’heure ?
• Expérience : je mesure la durée de trajet domicile/travail pendantplusieurs jours.• Je récolte n = 100 observations
20.87 22.12 20.90 21.33 17.73
0
20
40
60
16 20 24
X
coun
t
18
![Page 30: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/30.jpg)
QuestionComment utiliser au mieux ces données pour gérer mon heure de départ ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dela durée de trajet domicile/travail.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées.
19
![Page 31: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/31.jpg)
QuestionComment utiliser au mieux ces données pour gérer mon heure de départ ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dela durée de trajet domicile/travail.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées.
19
![Page 32: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/32.jpg)
QuestionComment utiliser au mieux ces données pour gérer mon heure de départ ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dela durée de trajet domicile/travail.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées.
19
![Page 33: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/33.jpg)
QuestionComment utiliser au mieux ces données pour gérer mon heure de départ ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dela durée de trajet domicile/travail.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées.
19
![Page 34: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/34.jpg)
Séries temporelles
• On s’intéresse au taux de chomage d’une population entre deux datest0 et t1. On souhaite prédire le taux de chomage futur.
• Expérience : on mesure le taux de chomage entre les deux dates
> head(economics)# A tibble: 6 x 6
date pce pop psavert uempmed unemploy<date> <dbl> <int> <dbl> <dbl> <int>
1 1967-07-01 507.4 198712 12.5 4.5 29442 1967-08-01 510.5 198911 12.5 4.7 29453 1967-09-01 516.3 199113 11.7 4.6 29584 1967-10-01 512.9 199311 12.5 4.9 31435 1967-11-01 518.1 199498 12.5 4.7 30666 1967-12-01 525.8 199657 12.1 4.8 3018
20
![Page 35: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/35.jpg)
Séries temporelles
• On s’intéresse au taux de chomage d’une population entre deux datest0 et t1. On souhaite prédire le taux de chomage futur.
• Expérience : on mesure le taux de chomage entre les deux dates
> head(economics)# A tibble: 6 x 6
date pce pop psavert uempmed unemploy<date> <dbl> <int> <dbl> <dbl> <int>
1 1967-07-01 507.4 198712 12.5 4.5 29442 1967-08-01 510.5 198911 12.5 4.7 29453 1967-09-01 516.3 199113 11.7 4.6 29584 1967-10-01 512.9 199311 12.5 4.9 31435 1967-11-01 518.1 199498 12.5 4.7 30666 1967-12-01 525.8 199657 12.1 4.8 3018
20
![Page 36: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/36.jpg)
0.02
0.03
0.04
0.05
1970 1980 1990 2000 2010
date
unempl
oy/pop
QuestionComment utiliser au mieux ces données pour prédire le taux de chomageen 2012 ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dutaux de chomage à l’instant t sachant le taux de chomage avant t.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées.
21
![Page 37: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/37.jpg)
0.02
0.03
0.04
0.05
1970 1980 1990 2000 2010
date
unempl
oy/pop
QuestionComment utiliser au mieux ces données pour prédire le taux de chomageen 2012 ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dutaux de chomage à l’instant t sachant le taux de chomage avant t.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées.
21
![Page 38: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/38.jpg)
0.02
0.03
0.04
0.05
1970 1980 1990 2000 2010
date
unempl
oy/pop
QuestionComment utiliser au mieux ces données pour prédire le taux de chomageen 2012 ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dutaux de chomage à l’instant t sachant le taux de chomage avant t.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées.
21
![Page 39: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/39.jpg)
0.02
0.03
0.04
0.05
1970 1980 1990 2000 2010
date
unempl
oy/pop
QuestionComment utiliser au mieux ces données pour prédire le taux de chomageen 2012 ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi de probabilité dutaux de chomage à l’instant t sachant le taux de chomage avant t.
• On dispose juste de mesures, cette loi est donc inconnue.
• Le travail statistique va donc consister à essayer de reconstruire aumieux cette loi (continue) à partir des mesures effectuées. 21
![Page 40: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/40.jpg)
Prévision ozone
• On s’intéresse à la prévision de la concentration en ozone dans l’air.
• Expérience : on mesure la concentration en ozone dans l’air ainsid’autres variable (météo) qui pourraient potentiellement expliquercette quantité.
> head(ozone)maxO3 T9 T12 T15 Ne9 Ne12 Ne15 Vx9 Vx12 Vx15 maxO3v vent pluie
20010601 87 15.6 18.5 18.4 4 4 8 0.6946 -1.7101 -0.6946 84 Nord Sec20010602 82 17.0 18.4 17.7 5 5 7 -4.3301 -4.0000 -3.0000 87 Nord Sec20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec20010605 94 17.4 20.5 20.4 8 8 7 -0.5000 -2.9544 -4.3301 114 Ouest Sec20010606 80 17.7 19.8 18.3 6 6 7 -5.6382 -5.0000 -6.0000 94 Ouest Pluie
22
![Page 41: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/41.jpg)
Prévision ozone
• On s’intéresse à la prévision de la concentration en ozone dans l’air.
• Expérience : on mesure la concentration en ozone dans l’air ainsid’autres variable (météo) qui pourraient potentiellement expliquercette quantité.
> head(ozone)maxO3 T9 T12 T15 Ne9 Ne12 Ne15 Vx9 Vx12 Vx15 maxO3v vent pluie
20010601 87 15.6 18.5 18.4 4 4 8 0.6946 -1.7101 -0.6946 84 Nord Sec20010602 82 17.0 18.4 17.7 5 5 7 -4.3301 -4.0000 -3.0000 87 Nord Sec20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec20010605 94 17.4 20.5 20.4 8 8 7 -0.5000 -2.9544 -4.3301 114 Ouest Sec20010606 80 17.7 19.8 18.3 6 6 7 -5.6382 -5.0000 -6.0000 94 Ouest Pluie
22
![Page 42: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/42.jpg)
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()> ggplot(ozone)+aes(x=vent,y=maxO3)+geom_boxplot()
40
80
120
160
15 20 25 30
T12
max
O3
40
80
120
160
Est Nord Ouest Sud
vent
max
O3
QuestionComment utiliser au mieux ces données pour prédire la concentration enozone sachant les variables météo ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi conditionnelle deprobabilité de la concentration en ozone sachant les variables météo.
23
![Page 43: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/43.jpg)
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()> ggplot(ozone)+aes(x=vent,y=maxO3)+geom_boxplot()
40
80
120
160
15 20 25 30
T12
max
O3
40
80
120
160
Est Nord Ouest Sud
vent
max
O3
QuestionComment utiliser au mieux ces données pour prédire la concentration enozone sachant les variables météo ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi conditionnelle deprobabilité de la concentration en ozone sachant les variables météo.
23
![Page 44: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/44.jpg)
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()> ggplot(ozone)+aes(x=vent,y=maxO3)+geom_boxplot()
40
80
120
160
15 20 25 30
T12
max
O3
40
80
120
160
Est Nord Ouest Sud
vent
max
O3
QuestionComment utiliser au mieux ces données pour prédire la concentration enozone sachant les variables météo ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi conditionnelle deprobabilité de la concentration en ozone sachant les variables météo. 23
![Page 45: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/45.jpg)
Reconnaissance de la voix
• On souhaite développer une procédure automatique permettant dereconnaitre un son.
• Expérience : on prononce 5 sons un certain nombre de fois et onconsidère la courbe temporelle associé au son dans la base de Fourier.• On dispose de n = 4509 courbes, chacune étant associée à un son.
5
10
15
20
0 100 200
X
value
g
aa
ao
dcl
iy
sh
24
![Page 46: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/46.jpg)
Reconnaissance de la voix
• On souhaite développer une procédure automatique permettant dereconnaitre un son.
• Expérience : on prononce 5 sons un certain nombre de fois et onconsidère la courbe temporelle associé au son dans la base de Fourier.
• On dispose de n = 4509 courbes, chacune étant associée à un son.
5
10
15
20
0 100 200
X
value
g
aa
ao
dcl
iy
sh
24
![Page 47: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/47.jpg)
Reconnaissance de la voix
• On souhaite développer une procédure automatique permettant dereconnaitre un son.
• Expérience : on prononce 5 sons un certain nombre de fois et onconsidère la courbe temporelle associé au son dans la base de Fourier.
• On dispose de n = 4509 courbes, chacune étant associée à un son.
5
10
15
20
0 100 200
X
value
g
aa
ao
dcl
iy
sh
24
![Page 48: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/48.jpg)
QuestionComment utiliser au mieux ces données pour identifier un son à partird’une courbe ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi conditionnelle deprobabilité de la variable son sachant la courbe.
25
![Page 49: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/49.jpg)
QuestionComment utiliser au mieux ces données pour identifier un son à partird’une courbe ?
Quantité d’intérêt
• Il serait intéressant d’avoir de l’information sur la loi conditionnelle deprobabilité de la variable son sachant la courbe.
25
![Page 50: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/50.jpg)
Bilan
• Pour chacun de ces problèmes on cherche à reconstruire (ou estimer)des probabilités (ou plus généralement des lois de probabilité).
• Les probabilités sont cependant différentes : la nature des quantités quiinterviennent diffèrent• discrètes (voitures)• continues (durée de trajet)• conditionnelles (ozone, phonèmes)
• Les objets mesurés sont également de nature différente (entiers, réel,vecteurs, courbes...).
Conséquence importanteIl va être primordial d’introduire un formalisme (mathématique) précispour représenter (modéliser) ces problèmes.
26
![Page 51: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/51.jpg)
Bilan
• Pour chacun de ces problèmes on cherche à reconstruire (ou estimer)des probabilités (ou plus généralement des lois de probabilité).
• Les probabilités sont cependant différentes : la nature des quantités quiinterviennent diffèrent• discrètes (voitures)• continues (durée de trajet)• conditionnelles (ozone, phonèmes)
• Les objets mesurés sont également de nature différente (entiers, réel,vecteurs, courbes...).
Conséquence importanteIl va être primordial d’introduire un formalisme (mathématique) précispour représenter (modéliser) ces problèmes.
26
![Page 52: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/52.jpg)
Bilan
• Pour chacun de ces problèmes on cherche à reconstruire (ou estimer)des probabilités (ou plus généralement des lois de probabilité).
• Les probabilités sont cependant différentes : la nature des quantités quiinterviennent diffèrent• discrètes (voitures)• continues (durée de trajet)• conditionnelles (ozone, phonèmes)
• Les objets mesurés sont également de nature différente (entiers, réel,vecteurs, courbes...).
Conséquence importanteIl va être primordial d’introduire un formalisme (mathématique) précispour représenter (modéliser) ces problèmes.
26
![Page 53: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/53.jpg)
Bilan
• Pour chacun de ces problèmes on cherche à reconstruire (ou estimer)des probabilités (ou plus généralement des lois de probabilité).
• Les probabilités sont cependant différentes : la nature des quantités quiinterviennent diffèrent• discrètes (voitures)• continues (durée de trajet)• conditionnelles (ozone, phonèmes)
• Les objets mesurés sont également de nature différente (entiers, réel,vecteurs, courbes...).
Conséquence importanteIl va être primordial d’introduire un formalisme (mathématique) précispour représenter (modéliser) ces problèmes.
26
![Page 54: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/54.jpg)
• Ces problèmes peuvent être appréhendés à l’aide d’un modèlestatistique.
Modèle statistique
• Définition avec des mots : vision simplifiée de la réalité.
• Définition mathématique : triplet (F ,H, P,P ∈ P) où• F est un ensemble (l’espace des observations)• H est une tribu sur F• P,P ∈ P est une famille de lois de probabilité.
Question importanteQuel est le lien entre ces deux définitions ?
27
![Page 55: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/55.jpg)
• Ces problèmes peuvent être appréhendés à l’aide d’un modèlestatistique.
Modèle statistique
• Définition avec des mots : vision simplifiée de la réalité.
• Définition mathématique : triplet (F ,H, P,P ∈ P) où• F est un ensemble (l’espace des observations)• H est une tribu sur F• P,P ∈ P est une famille de lois de probabilité.
Question importanteQuel est le lien entre ces deux définitions ?
27
![Page 56: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/56.jpg)
• Ces problèmes peuvent être appréhendés à l’aide d’un modèlestatistique.
Modèle statistique
• Définition avec des mots : vision simplifiée de la réalité.
• Définition mathématique : triplet (F ,H, P,P ∈ P) où• F est un ensemble (l’espace des observations)• H est une tribu sur F• P,P ∈ P est une famille de lois de probabilité.
Question importanteQuel est le lien entre ces deux définitions ?
27
![Page 57: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/57.jpg)
• Ces problèmes peuvent être appréhendés à l’aide d’un modèlestatistique.
Modèle statistique
• Définition avec des mots : vision simplifiée de la réalité.
• Définition mathématique : triplet (F ,H, P,P ∈ P) où• F est un ensemble (l’espace des observations)• H est une tribu sur F• P,P ∈ P est une famille de lois de probabilité.
Question importanteQuel est le lien entre ces deux définitions ?
27
![Page 58: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/58.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
28
![Page 59: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/59.jpg)
• On suppose que des données ont été collectées.
• Ces données sont le résultat d’une expérience répétée n fois.
• On va les noter x1, . . . , xn.
Exemple des durées de trajet
• Données :
20.87 22.12 20.90 21.33 17.73
• x1 = 20.87, x2 = 22.12 . . .
29
![Page 60: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/60.jpg)
• On suppose que des données ont été collectées.
• Ces données sont le résultat d’une expérience répétée n fois.
• On va les noter x1, . . . , xn.
Exemple des durées de trajet
• Données :
20.87 22.12 20.90 21.33 17.73
• x1 = 20.87, x2 = 22.12 . . .
29
![Page 61: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/61.jpg)
• On suppose que des données ont été collectées.
• Ces données sont le résultat d’une expérience répétée n fois.
• On va les noter x1, . . . , xn.
Exemple des durées de trajet
• Données :
20.87 22.12 20.90 21.33 17.73
• x1 = 20.87, x2 = 22.12 . . .
29
![Page 62: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/62.jpg)
• On suppose que des données ont été collectées.
• Ces données sont le résultat d’une expérience répétée n fois.
• On va les noter x1, . . . , xn.
Exemple des durées de trajet
• Données :
20.87 22.12 20.90 21.33 17.73
• x1 = 20.87, x2 = 22.12 . . .
29
![Page 63: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/63.jpg)
• On suppose que des données ont été collectées.
• Ces données sont le résultat d’une expérience répétée n fois.
• On va les noter x1, . . . , xn.
Exemple des durées de trajet
• Données :
20.87 22.12 20.90 21.33 17.73
• x1 = 20.87, x2 = 22.12 . . .
29
![Page 64: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/64.jpg)
Hasard, aléa...
Question
• Sur les n = 100 trajet, on obtient une moyenne de 20.02 minutes.
• Peut-on en conclure que le durée moyenne du trajet domicile/travailest de 20.02 minutes ?
• Le résultat dépend des conditions de l’expérience.• Si on re-mesure 100 fois le trajet, il est fort possible qu’on n’obtienne
pas la même durée moyenne.
Conséquence
• Nécessité de prendre en compte que le résultat observé dépend desconditions expérimentales.
• Ces dernières vont être difficiles à caractériser précisément.
• On dit souvent que le hasard ou l’aléa intervient dans ces conditions.
30
![Page 65: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/65.jpg)
Hasard, aléa...
Question
• Sur les n = 100 trajet, on obtient une moyenne de 20.02 minutes.
• Peut-on en conclure que le durée moyenne du trajet domicile/travailest de 20.02 minutes ?
• Le résultat dépend des conditions de l’expérience.
• Si on re-mesure 100 fois le trajet, il est fort possible qu’on n’obtiennepas la même durée moyenne.
Conséquence
• Nécessité de prendre en compte que le résultat observé dépend desconditions expérimentales.
• Ces dernières vont être difficiles à caractériser précisément.
• On dit souvent que le hasard ou l’aléa intervient dans ces conditions.
30
![Page 66: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/66.jpg)
Hasard, aléa...
Question
• Sur les n = 100 trajet, on obtient une moyenne de 20.02 minutes.
• Peut-on en conclure que le durée moyenne du trajet domicile/travailest de 20.02 minutes ?
• Le résultat dépend des conditions de l’expérience.• Si on re-mesure 100 fois le trajet, il est fort possible qu’on n’obtienne
pas la même durée moyenne.
Conséquence
• Nécessité de prendre en compte que le résultat observé dépend desconditions expérimentales.
• Ces dernières vont être difficiles à caractériser précisément.
• On dit souvent que le hasard ou l’aléa intervient dans ces conditions.
30
![Page 67: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/67.jpg)
Hasard, aléa...
Question
• Sur les n = 100 trajet, on obtient une moyenne de 20.02 minutes.
• Peut-on en conclure que le durée moyenne du trajet domicile/travailest de 20.02 minutes ?
• Le résultat dépend des conditions de l’expérience.• Si on re-mesure 100 fois le trajet, il est fort possible qu’on n’obtienne
pas la même durée moyenne.
Conséquence
• Nécessité de prendre en compte que le résultat observé dépend desconditions expérimentales.
• Ces dernières vont être difficiles à caractériser précisément.
• On dit souvent que le hasard ou l’aléa intervient dans ces conditions. 30
![Page 68: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/68.jpg)
Variable aléatoire
Un outil spécifiqueL’outil mathématique permettant de prendre en compte l’aléa dansl’expérience est la variable aléatoire.
DéfinitionUne variable aléatoire réelle (v.a.r.) est une application X : Ω→ R et uneréalisation de X est une valeur X (ω) pour une éventualité ω ∈ Ω.
• Remarque : la définition d’une v.a. est étrange et ne présente unintérêt que si on comprend son utilité dans la modélisation.
31
![Page 69: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/69.jpg)
Variable aléatoire
Un outil spécifiqueL’outil mathématique permettant de prendre en compte l’aléa dansl’expérience est la variable aléatoire.
DéfinitionUne variable aléatoire réelle (v.a.r.) est une application X : Ω→ R et uneréalisation de X est une valeur X (ω) pour une éventualité ω ∈ Ω.
• Remarque : la définition d’une v.a. est étrange et ne présente unintérêt que si on comprend son utilité dans la modélisation.
31
![Page 70: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/70.jpg)
Variable aléatoire
Un outil spécifiqueL’outil mathématique permettant de prendre en compte l’aléa dansl’expérience est la variable aléatoire.
DéfinitionUne variable aléatoire réelle (v.a.r.) est une application X : Ω→ R et uneréalisation de X est une valeur X (ω) pour une éventualité ω ∈ Ω.
• Remarque : la définition d’une v.a. est étrange et ne présente unintérêt que si on comprend son utilité dans la modélisation.
31
![Page 71: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/71.jpg)
V.a. et modélisation
• x1, . . . , xn représentent le résultat de l’expérience. On suppose quexi ∈ R, i = 1, . . . , n.
• Pour prendre en compte l’aléa de l’expérience, on va considérer desvariables aléatoires réelles (v.a.r.).
Lien observation/v.a.r.Les xi sont dés réalisations de v.a.r. Xi . C’est-à-dire
∀i = 1, . . . , n ∃ωi ∈ Ω tel que xi = Xi (ωi ).
32
![Page 72: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/72.jpg)
V.a. et modélisation
• x1, . . . , xn représentent le résultat de l’expérience. On suppose quexi ∈ R, i = 1, . . . , n.
• Pour prendre en compte l’aléa de l’expérience, on va considérer desvariables aléatoires réelles (v.a.r.).
Lien observation/v.a.r.Les xi sont dés réalisations de v.a.r. Xi . C’est-à-dire
∀i = 1, . . . , n ∃ωi ∈ Ω tel que xi = Xi (ωi ).
32
![Page 73: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/73.jpg)
V.a. et modélisation
• x1, . . . , xn représentent le résultat de l’expérience. On suppose quexi ∈ R, i = 1, . . . , n.
• Pour prendre en compte l’aléa de l’expérience, on va considérer desvariables aléatoires réelles (v.a.r.).
Lien observation/v.a.r.Les xi sont dés réalisations de v.a.r. Xi . C’est-à-dire
∀i = 1, . . . , n ∃ωi ∈ Ω tel que xi = Xi (ωi ).
32
![Page 74: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/74.jpg)
• On suppose donc qu’il existe n v.a.r. X1, . . . ,Xn et des élémentsω1, . . . , ωn tels que
x1 = X1(ω1), . . . , xn = Xn(ωn).
QuestionQue représentent les ωi ?
Réponse
• ωi représente les conditions expérimentales associées à la i e mesure,c’est-a-dire toutes les conditions qui permettent "d’expliquer" qu’on aobtenu xi .
• Cette quantité n’est généralement pas caractérisable (on sait qu’elleexiste mais on ne peut pas en dire plus).
33
![Page 75: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/75.jpg)
• On suppose donc qu’il existe n v.a.r. X1, . . . ,Xn et des élémentsω1, . . . , ωn tels que
x1 = X1(ω1), . . . , xn = Xn(ωn).
QuestionQue représentent les ωi ?
Réponse
• ωi représente les conditions expérimentales associées à la i e mesure,c’est-a-dire toutes les conditions qui permettent "d’expliquer" qu’on aobtenu xi .
• Cette quantité n’est généralement pas caractérisable (on sait qu’elleexiste mais on ne peut pas en dire plus).
33
![Page 76: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/76.jpg)
• On suppose donc qu’il existe n v.a.r. X1, . . . ,Xn et des élémentsω1, . . . , ωn tels que
x1 = X1(ω1), . . . , xn = Xn(ωn).
QuestionQue représentent les ωi ?
Réponse
• ωi représente les conditions expérimentales associées à la i e mesure,c’est-a-dire toutes les conditions qui permettent "d’expliquer" qu’on aobtenu xi .
• Cette quantité n’est généralement pas caractérisable (on sait qu’elleexiste mais on ne peut pas en dire plus).
33
![Page 77: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/77.jpg)
Exemple : durée de trajet
• x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .• X1, . . . ,Xn définies sur (Ω,A), n v.a.r. telles que Xi (ωi ) = xi .
Interprétation
• On dit que Xi est la v.a.r. représentant le i e temps de trajet.
• L’ensemble Ω contient toutes les conditions expérimentales possibles...C’est-à-dire tout ce qui peut se produire sur le trajet (feux, passant quitraverse, vitesse à laquelle on roule...).
• ωi correspondant à ce qui s’est produit sur le i e trajet.
• Par exemple ω1 représente tout ce qui s’est passé sur le trajetpermettant d’expliquer qu’on a mis 20.87 minutes.
RemarqueOn voit bien sur cet exemple qu’il est difficile de caractérisermathématiquement Ω et les ωi , i = 1, . . . , n.
34
![Page 78: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/78.jpg)
Exemple : durée de trajet
• x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .• X1, . . . ,Xn définies sur (Ω,A), n v.a.r. telles que Xi (ωi ) = xi .
Interprétation
• On dit que Xi est la v.a.r. représentant le i e temps de trajet.
• L’ensemble Ω contient toutes les conditions expérimentales possibles...C’est-à-dire tout ce qui peut se produire sur le trajet (feux, passant quitraverse, vitesse à laquelle on roule...).
• ωi correspondant à ce qui s’est produit sur le i e trajet.
• Par exemple ω1 représente tout ce qui s’est passé sur le trajetpermettant d’expliquer qu’on a mis 20.87 minutes.
RemarqueOn voit bien sur cet exemple qu’il est difficile de caractérisermathématiquement Ω et les ωi , i = 1, . . . , n.
34
![Page 79: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/79.jpg)
Exemple : durée de trajet
• x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .• X1, . . . ,Xn définies sur (Ω,A), n v.a.r. telles que Xi (ωi ) = xi .
Interprétation
• On dit que Xi est la v.a.r. représentant le i e temps de trajet.
• L’ensemble Ω contient toutes les conditions expérimentales possibles...C’est-à-dire tout ce qui peut se produire sur le trajet (feux, passant quitraverse, vitesse à laquelle on roule...).
• ωi correspondant à ce qui s’est produit sur le i e trajet.
• Par exemple ω1 représente tout ce qui s’est passé sur le trajetpermettant d’expliquer qu’on a mis 20.87 minutes.
RemarqueOn voit bien sur cet exemple qu’il est difficile de caractérisermathématiquement Ω et les ωi , i = 1, . . . , n.
34
![Page 80: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/80.jpg)
Exemple : durée de trajet
• x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .• X1, . . . ,Xn définies sur (Ω,A), n v.a.r. telles que Xi (ωi ) = xi .
Interprétation
• On dit que Xi est la v.a.r. représentant le i e temps de trajet.
• L’ensemble Ω contient toutes les conditions expérimentales possibles...C’est-à-dire tout ce qui peut se produire sur le trajet (feux, passant quitraverse, vitesse à laquelle on roule...).
• ωi correspondant à ce qui s’est produit sur le i e trajet.
• Par exemple ω1 représente tout ce qui s’est passé sur le trajetpermettant d’expliquer qu’on a mis 20.87 minutes.
RemarqueOn voit bien sur cet exemple qu’il est difficile de caractérisermathématiquement Ω et les ωi , i = 1, . . . , n.
34
![Page 81: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/81.jpg)
Exemple : durée de trajet
• x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .• X1, . . . ,Xn définies sur (Ω,A), n v.a.r. telles que Xi (ωi ) = xi .
Interprétation
• On dit que Xi est la v.a.r. représentant le i e temps de trajet.
• L’ensemble Ω contient toutes les conditions expérimentales possibles...C’est-à-dire tout ce qui peut se produire sur le trajet (feux, passant quitraverse, vitesse à laquelle on roule...).
• ωi correspondant à ce qui s’est produit sur le i e trajet.
• Par exemple ω1 représente tout ce qui s’est passé sur le trajetpermettant d’expliquer qu’on a mis 20.87 minutes.
RemarqueOn voit bien sur cet exemple qu’il est difficile de caractérisermathématiquement Ω et les ωi , i = 1, . . . , n.
34
![Page 82: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/82.jpg)
Exemple : durée de trajet
• x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .• X1, . . . ,Xn définies sur (Ω,A), n v.a.r. telles que Xi (ωi ) = xi .
Interprétation
• On dit que Xi est la v.a.r. représentant le i e temps de trajet.
• L’ensemble Ω contient toutes les conditions expérimentales possibles...C’est-à-dire tout ce qui peut se produire sur le trajet (feux, passant quitraverse, vitesse à laquelle on roule...).
• ωi correspondant à ce qui s’est produit sur le i e trajet.
• Par exemple ω1 représente tout ce qui s’est passé sur le trajetpermettant d’expliquer qu’on a mis 20.87 minutes.
RemarqueOn voit bien sur cet exemple qu’il est difficile de caractérisermathématiquement Ω et les ωi , i = 1, . . . , n.
34
![Page 83: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/83.jpg)
Récapitulatif
• n observations x1, . . . , xn telles que xi ∈ R.• Les n valeurs observées x1, . . . , xn sont des réalisations de variables
aléatoires X1, . . . ,Xn à valeurs dans R.
AttentionXi est une variable aléatoire, c’est-à-dire une fonction, et xi est uneréalisation de cette variable, c’est-à-dire une quantité déterministe.
Remarque
• Les v.a. X1, . . . ,Xn n’ont pas forcément un grand intérêt dans lamodélisation.
• La quantité qui va nous intéresser est la loi de probabilité associée àces v.a.
• C’est cette loi qui nous permettra d’apporter des réponses au problèmeposé.
35
![Page 84: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/84.jpg)
Récapitulatif
• n observations x1, . . . , xn telles que xi ∈ R.• Les n valeurs observées x1, . . . , xn sont des réalisations de variables
aléatoires X1, . . . ,Xn à valeurs dans R.
AttentionXi est une variable aléatoire, c’est-à-dire une fonction, et xi est uneréalisation de cette variable, c’est-à-dire une quantité déterministe.
Remarque
• Les v.a. X1, . . . ,Xn n’ont pas forcément un grand intérêt dans lamodélisation.
• La quantité qui va nous intéresser est la loi de probabilité associée àces v.a.
• C’est cette loi qui nous permettra d’apporter des réponses au problèmeposé.
35
![Page 85: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/85.jpg)
Récapitulatif
• n observations x1, . . . , xn telles que xi ∈ R.• Les n valeurs observées x1, . . . , xn sont des réalisations de variables
aléatoires X1, . . . ,Xn à valeurs dans R.
AttentionXi est une variable aléatoire, c’est-à-dire une fonction, et xi est uneréalisation de cette variable, c’est-à-dire une quantité déterministe.
Remarque
• Les v.a. X1, . . . ,Xn n’ont pas forcément un grand intérêt dans lamodélisation.
• La quantité qui va nous intéresser est la loi de probabilité associée àces v.a.
• C’est cette loi qui nous permettra d’apporter des réponses au problèmeposé. 35
![Page 86: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/86.jpg)
Loi de probabilité
Loi de probabilitéLa loi de probabilité d’une v.a.r. est représentée par les probabilitésP(X ∈ [a, b]) avec a ≤ b.
Intérêt
• La loi de probabilité permet de mesurer tous les évènements dansl’espace d’arrivé.
• C’est elle qui va nous intéresser pour comprendre le phénomène quinous intéresse.
36
![Page 87: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/87.jpg)
Loi de probabilité
Loi de probabilitéLa loi de probabilité d’une v.a.r. est représentée par les probabilitésP(X ∈ [a, b]) avec a ≤ b.
Intérêt
• La loi de probabilité permet de mesurer tous les évènements dansl’espace d’arrivé.
• C’est elle qui va nous intéresser pour comprendre le phénomène quinous intéresse.
36
![Page 88: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/88.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
37
![Page 89: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/89.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
38
![Page 90: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/90.jpg)
Fonction de répartition
• La loi de probabilité telle qu’elle est définie précédemment n’est pasfacile à manipuler.
• Nécessité de trouver des outils mathématiques qui permettent de lacaractériser ou de l’identifier.
DéfinitionSoit X une v.a.r. On appelle fonction de répartition de X la fonctionFX : R→ [0, 1] définie par
FX (x) = P(X ≤ x).
39
![Page 91: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/91.jpg)
Fonction de répartition
• La loi de probabilité telle qu’elle est définie précédemment n’est pasfacile à manipuler.
• Nécessité de trouver des outils mathématiques qui permettent de lacaractériser ou de l’identifier.
DéfinitionSoit X une v.a.r. On appelle fonction de répartition de X la fonctionFX : R→ [0, 1] définie par
FX (x) = P(X ≤ x).
39
![Page 92: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/92.jpg)
PropriétéLa fonction de répartition FX d’une v.a.r. X satisfait les propriétéssuivantes :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1 ;
2. FX est une fonction croissante, continue à droite en tout point x ∈ R ;
3. limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1.
PropriétéLa fonction de répartition caractérise la loi de probabilité d’une variablealéatoire réelle.
40
![Page 93: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/93.jpg)
PropriétéLa fonction de répartition FX d’une v.a.r. X satisfait les propriétéssuivantes :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1 ;
2. FX est une fonction croissante, continue à droite en tout point x ∈ R ;
3. limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1.
PropriétéLa fonction de répartition caractérise la loi de probabilité d’une variablealéatoire réelle.
40
![Page 94: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/94.jpg)
• FX permet de caractériser la loi de n’importe quelle v.a.r.
• Il existe d’autres outils pour caractériser les lois qui peuvent dépendrede la nature de la variable.
• Cas discret : fonction de masse.
• Cas continue : densité.
41
![Page 95: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/95.jpg)
• FX permet de caractériser la loi de n’importe quelle v.a.r.
• Il existe d’autres outils pour caractériser les lois qui peuvent dépendrede la nature de la variable.
• Cas discret : fonction de masse.
• Cas continue : densité.
41
![Page 96: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/96.jpg)
Cas discret
Définition
• On dit qu’une v.a.r X est discrète si son support SX est fini oudénombrable.
• La fonction de masse définie par
πX : SX → [0, 1]
x 7→ P(X = x)
• Exemples : Bernoulli, binomiale, Poisson...
PropriétéLa fonction de masse caractérise la loi de probabilité d’une v.a.r discrète.
42
![Page 97: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/97.jpg)
Cas discret
Définition
• On dit qu’une v.a.r X est discrète si son support SX est fini oudénombrable.
• La fonction de masse définie par
πX : SX → [0, 1]
x 7→ P(X = x)
• Exemples : Bernoulli, binomiale, Poisson...
PropriétéLa fonction de masse caractérise la loi de probabilité d’une v.a.r discrète.
42
![Page 98: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/98.jpg)
Cas discret
Définition
• On dit qu’une v.a.r X est discrète si son support SX est fini oudénombrable.
• La fonction de masse définie par
πX : SX → [0, 1]
x 7→ P(X = x)
• Exemples : Bernoulli, binomiale, Poisson...
PropriétéLa fonction de masse caractérise la loi de probabilité d’une v.a.r discrète.
42
![Page 99: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/99.jpg)
Cas discret
Définition
• On dit qu’une v.a.r X est discrète si son support SX est fini oudénombrable.
• La fonction de masse définie par
πX : SX → [0, 1]
x 7→ P(X = x)
• Exemples : Bernoulli, binomiale, Poisson...
PropriétéLa fonction de masse caractérise la loi de probabilité d’une v.a.r discrète.
42
![Page 100: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/100.jpg)
Cas continu
• Généralement pour des v.a.r qui prennent leurs valeurs sur un intervallede R ou une réunion d’intervalles de R.
Définition
Une v.a.r X est dite de loi à densité si il existe une densité fX : R→ R+
telle que pour tous a, b avec a ≤ b on a
P(a ≤ X ≤ b) =
∫ b
afX (x) dx .
• Exemples : Gaussienne, exponentielle...
PropriétéLa densité caractérise la loi de probabilité d’une v.a.r continue.
43
![Page 101: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/101.jpg)
Cas continu
• Généralement pour des v.a.r qui prennent leurs valeurs sur un intervallede R ou une réunion d’intervalles de R.
Définition
Une v.a.r X est dite de loi à densité si il existe une densité fX : R→ R+
telle que pour tous a, b avec a ≤ b on a
P(a ≤ X ≤ b) =
∫ b
afX (x) dx .
• Exemples : Gaussienne, exponentielle...
PropriétéLa densité caractérise la loi de probabilité d’une v.a.r continue.
43
![Page 102: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/102.jpg)
Cas continu
• Généralement pour des v.a.r qui prennent leurs valeurs sur un intervallede R ou une réunion d’intervalles de R.
Définition
Une v.a.r X est dite de loi à densité si il existe une densité fX : R→ R+
telle que pour tous a, b avec a ≤ b on a
P(a ≤ X ≤ b) =
∫ b
afX (x) dx .
• Exemples : Gaussienne, exponentielle...
PropriétéLa densité caractérise la loi de probabilité d’une v.a.r continue.
43
![Page 103: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/103.jpg)
Cas continu
• Généralement pour des v.a.r qui prennent leurs valeurs sur un intervallede R ou une réunion d’intervalles de R.
Définition
Une v.a.r X est dite de loi à densité si il existe une densité fX : R→ R+
telle que pour tous a, b avec a ≤ b on a
P(a ≤ X ≤ b) =
∫ b
afX (x) dx .
• Exemples : Gaussienne, exponentielle...
PropriétéLa densité caractérise la loi de probabilité d’une v.a.r continue.
43
![Page 104: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/104.jpg)
Quelques propriétés
• Toute fonction f positive, continue et qui intègre à 1 est une densité.
• Lien fonction de répartition densité : fX = F ′X sur l’ensemble où FX estdérivable.
• Une v.a.r n’est pas forcément discrète ou continue, ça peut aussi êtreun mélange des deux...
44
![Page 105: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/105.jpg)
Espérance d’un v.a.r.
DéfinitionSoit X une v.a.r. P-intégrable. On appelle espérance mathématique de X ,notée E[X ] l’intégrale de X par rapport à P :
E[X ] =
∫X dP =
∫ΩX (ω) dP(ω).
Interprétation
• L’espérance revient à intégrer les valeurs de la v.a.r. X pour chaqueévènement ω pondéré par la mesure de probabilité P.
• D’où l’interprétation de valeur moyenne prise par X .
• Problème : l’espérance dépend de Ω que l’on ne peut généralement pascaractériser !
• Le théorème de transfert permet de pallier à cette difficulté.
45
![Page 106: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/106.jpg)
Espérance d’un v.a.r.
DéfinitionSoit X une v.a.r. P-intégrable. On appelle espérance mathématique de X ,notée E[X ] l’intégrale de X par rapport à P :
E[X ] =
∫X dP =
∫ΩX (ω) dP(ω).
Interprétation
• L’espérance revient à intégrer les valeurs de la v.a.r. X pour chaqueévènement ω pondéré par la mesure de probabilité P.
• D’où l’interprétation de valeur moyenne prise par X .
• Problème : l’espérance dépend de Ω que l’on ne peut généralement pascaractériser !
• Le théorème de transfert permet de pallier à cette difficulté.
45
![Page 107: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/107.jpg)
Espérance d’un v.a.r.
DéfinitionSoit X une v.a.r. P-intégrable. On appelle espérance mathématique de X ,notée E[X ] l’intégrale de X par rapport à P :
E[X ] =
∫X dP =
∫ΩX (ω) dP(ω).
Interprétation
• L’espérance revient à intégrer les valeurs de la v.a.r. X pour chaqueévènement ω pondéré par la mesure de probabilité P.
• D’où l’interprétation de valeur moyenne prise par X .
• Problème : l’espérance dépend de Ω que l’on ne peut généralement pascaractériser !
• Le théorème de transfert permet de pallier à cette difficulté.
45
![Page 108: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/108.jpg)
Espérance d’un v.a.r.
DéfinitionSoit X une v.a.r. P-intégrable. On appelle espérance mathématique de X ,notée E[X ] l’intégrale de X par rapport à P :
E[X ] =
∫X dP =
∫ΩX (ω) dP(ω).
Interprétation
• L’espérance revient à intégrer les valeurs de la v.a.r. X pour chaqueévènement ω pondéré par la mesure de probabilité P.
• D’où l’interprétation de valeur moyenne prise par X .
• Problème : l’espérance dépend de Ω que l’on ne peut généralement pascaractériser !
• Le théorème de transfert permet de pallier à cette difficulté.
45
![Page 109: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/109.jpg)
Espérance d’un v.a.r.
DéfinitionSoit X une v.a.r. P-intégrable. On appelle espérance mathématique de X ,notée E[X ] l’intégrale de X par rapport à P :
E[X ] =
∫X dP =
∫ΩX (ω) dP(ω).
Interprétation
• L’espérance revient à intégrer les valeurs de la v.a.r. X pour chaqueévènement ω pondéré par la mesure de probabilité P.
• D’où l’interprétation de valeur moyenne prise par X .
• Problème : l’espérance dépend de Ω que l’on ne peut généralement pascaractériser !
• Le théorème de transfert permet de pallier à cette difficulté.45
![Page 110: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/110.jpg)
Calcul en pratique
• On déduit du théorème de transfert un moyen "simple" pour calculerl’espérance dans les cas discret et continu.
Propriété
• Cas discret :E[X ] =
∑x∈SX
xπx(x).
• Cas continu :E[X ] =
∫RxfX (x) dλ(x).
=⇒ l’espérance s’obtient en calculant une somme ou une intégrale.
46
![Page 111: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/111.jpg)
Calcul en pratique
• On déduit du théorème de transfert un moyen "simple" pour calculerl’espérance dans les cas discret et continu.
Propriété
• Cas discret :E[X ] =
∑x∈SX
xπx(x).
• Cas continu :E[X ] =
∫RxfX (x) dλ(x).
=⇒ l’espérance s’obtient en calculant une somme ou une intégrale.
46
![Page 112: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/112.jpg)
Variance
Définition
• Le moment centré d’ordre 2 de X est appelé la variance de X et estnoté V[X ] :
V[X ] = E[(X − E [X ])2] = E[X 2]− (E[X ])2.
• Sa racine carrée positive est appelée l’écart-type de X , noté σ[X ].
Interprétion
• La variance est un réel positif.
• Elle mesure l’écart entre les valeurs prises par X et l’espérance(moyenne) de X =⇒ interprétation en terme de dispersion.
47
![Page 113: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/113.jpg)
Variance
Définition
• Le moment centré d’ordre 2 de X est appelé la variance de X et estnoté V[X ] :
V[X ] = E[(X − E [X ])2] = E[X 2]− (E[X ])2.
• Sa racine carrée positive est appelée l’écart-type de X , noté σ[X ].
Interprétion
• La variance est un réel positif.
• Elle mesure l’écart entre les valeurs prises par X et l’espérance(moyenne) de X
=⇒ interprétation en terme de dispersion.
47
![Page 114: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/114.jpg)
Variance
Définition
• Le moment centré d’ordre 2 de X est appelé la variance de X et estnoté V[X ] :
V[X ] = E[(X − E [X ])2] = E[X 2]− (E[X ])2.
• Sa racine carrée positive est appelée l’écart-type de X , noté σ[X ].
Interprétion
• La variance est un réel positif.
• Elle mesure l’écart entre les valeurs prises par X et l’espérance(moyenne) de X =⇒ interprétation en terme de dispersion.
47
![Page 115: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/115.jpg)
Exemples
1. Loi de Bernoulli B(p) : V[X ] = p(1− p) ;
2. Loi uniforme sur [0, 1] : V[X ] = 1/12 ;
3. Loi uniforme sur [1/4, 3/4] : V[X ] = 1/48.
48
![Page 116: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/116.jpg)
Quelques propriétés
Espérance
1. ∀(a, b) ∈ R2, E[aX + b] = aE[X ] + b ;
2. E[X1 + X2] = E[X1] + E[X2]
3. Jensen : Soit X à valeurs dans ]a, b[ et ϕ une fonction réelle convexesur ]a, b[
ϕ(E[X ]) ≤ E[ϕ(X )].
Variance
1. ∀α ∈ R, V[αX ] = α2V[X ] ;
2. ∀a ∈ R, V[a + X ] = V[X ] ;
3. V[X ] = 0 si et seulement si X est une v.a.r. presque sûrementconstante (X = E[X ] p.s.).
49
![Page 117: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/117.jpg)
Quelques propriétés
Espérance
1. ∀(a, b) ∈ R2, E[aX + b] = aE[X ] + b ;
2. E[X1 + X2] = E[X1] + E[X2]
3. Jensen : Soit X à valeurs dans ]a, b[ et ϕ une fonction réelle convexesur ]a, b[
ϕ(E[X ]) ≤ E[ϕ(X )].
Variance
1. ∀α ∈ R, V[αX ] = α2V[X ] ;
2. ∀a ∈ R, V[a + X ] = V[X ] ;
3. V[X ] = 0 si et seulement si X est une v.a.r. presque sûrementconstante (X = E[X ] p.s.).
49
![Page 118: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/118.jpg)
Inégalités sur les moments
MarkovSi X est une v.a.r. positive, on a pour tout réel a > 0
P(X ≥ a) ≤ E[X ]
a.
Bienaymé-Chebychev
Si E[X 2] < +∞, alors on a pour tout réel a > 0
P(|X − E[X ]| > a) ≤ V[X ]
a2 .
50
![Page 119: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/119.jpg)
Inégalités sur les moments
MarkovSi X est une v.a.r. positive, on a pour tout réel a > 0
P(X ≥ a) ≤ E[X ]
a.
Bienaymé-Chebychev
Si E[X 2] < +∞, alors on a pour tout réel a > 0
P(|X − E[X ]| > a) ≤ V[X ]
a2 .
50
![Page 120: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/120.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
51
![Page 121: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/121.jpg)
• On se restreindra à la notion de couple aléatoire.
Définitions
• Un couple de v.a.r. est une application :
(X ,Y ) : Ω→ R2
ω 7→ (X (ω),Y (ω))
• La loi de (X ,Y ) est représentée par les probabilités
P((X ,Y ) ∈ [a, b]× [c , d ]) = P(X ∈ [a, b] et Y ∈ [c , d ])
pour tous a ≤ b et c ≤ d .
• Les v.a.r. X et Y sont les marginales du couple (X ,Y ).
52
![Page 122: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/122.jpg)
• On se restreindra à la notion de couple aléatoire.
Définitions
• Un couple de v.a.r. est une application :
(X ,Y ) : Ω→ R2
ω 7→ (X (ω),Y (ω))
• La loi de (X ,Y ) est représentée par les probabilités
P((X ,Y ) ∈ [a, b]× [c , d ]) = P(X ∈ [a, b] et Y ∈ [c , d ])
pour tous a ≤ b et c ≤ d .
• Les v.a.r. X et Y sont les marginales du couple (X ,Y ).
52
![Page 123: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/123.jpg)
• On se restreindra à la notion de couple aléatoire.
Définitions
• Un couple de v.a.r. est une application :
(X ,Y ) : Ω→ R2
ω 7→ (X (ω),Y (ω))
• La loi de (X ,Y ) est représentée par les probabilités
P((X ,Y ) ∈ [a, b]× [c , d ]) = P(X ∈ [a, b] et Y ∈ [c , d ])
pour tous a ≤ b et c ≤ d .
• Les v.a.r. X et Y sont les marginales du couple (X ,Y ).
52
![Page 124: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/124.jpg)
• Les notions vues pour les v.a.r. se généralisent aux couples aléatoires.
Exemple
• Fonction de répartition :
FX ,Y (x , y) = P(X ≤ x ,Y ≤ y).
• Densité (si elle existe) : fonction fX ,Y : R2 → R+ telle que
P((X ,Y ) ∈ [a, b]× [c , d ]) =
∫ b
a
∫ d
cfX ,Y (x , y) dy dx .
• Densités marginales (si elles existent) :
FX (x) =
∫RfX ,Y (x , y) dy et FY (y) =
∫RfX ,Y (x , y) dx .
53
![Page 125: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/125.jpg)
• Les notions vues pour les v.a.r. se généralisent aux couples aléatoires.
Exemple
• Fonction de répartition :
FX ,Y (x , y) = P(X ≤ x ,Y ≤ y).
• Densité (si elle existe) : fonction fX ,Y : R2 → R+ telle que
P((X ,Y ) ∈ [a, b]× [c , d ]) =
∫ b
a
∫ d
cfX ,Y (x , y) dy dx .
• Densités marginales (si elles existent) :
FX (x) =
∫RfX ,Y (x , y) dy et FY (y) =
∫RfX ,Y (x , y) dx .
53
![Page 126: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/126.jpg)
• Les notions vues pour les v.a.r. se généralisent aux couples aléatoires.
Exemple
• Fonction de répartition :
FX ,Y (x , y) = P(X ≤ x ,Y ≤ y).
• Densité (si elle existe) : fonction fX ,Y : R2 → R+ telle que
P((X ,Y ) ∈ [a, b]× [c , d ]) =
∫ b
a
∫ d
cfX ,Y (x , y) dy dx .
• Densités marginales (si elles existent) :
FX (x) =
∫RfX ,Y (x , y) dy et FY (y) =
∫RfX ,Y (x , y) dx .
53
![Page 127: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/127.jpg)
Calcul d’espérance
• Question : étant donné un couple (X ,Y ) et une fonction g : R2 → R,que vaut E[g(X ,Y )] ?
Théorème de transfert
Si∫R2 |g(x , y)|fX ,Y (x , y) dx dy < +∞ alors g(X ,Y ) est intégrable et
E[g(X ,Y )] =
∫R2
g(x , y)fX ,Y (x , y) dx dy .
• On déduit la linéarité de l’espérance : soient a et b dans R alors
E[aX + bY ] = aE[X ] + bE[Y ].
54
![Page 128: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/128.jpg)
Calcul d’espérance
• Question : étant donné un couple (X ,Y ) et une fonction g : R2 → R,que vaut E[g(X ,Y )] ?
Théorème de transfert
Si∫R2 |g(x , y)|fX ,Y (x , y) dx dy < +∞ alors g(X ,Y ) est intégrable et
E[g(X ,Y )] =
∫R2
g(x , y)fX ,Y (x , y) dx dy .
• On déduit la linéarité de l’espérance : soient a et b dans R alors
E[aX + bY ] = aE[X ] + bE[Y ].
54
![Page 129: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/129.jpg)
Covariance
Définitions
• Covariance entre X et Y :
cov(X ,Y ) = E([X − E[X ])(Y − E[Y ]) = E[XY ]− E[X ]E[Y ].
• Matrice de variance covariance : matrice 2× 2
ΣX ,Y =
(V[X ] cov(X ,Y )
cov(Y ,X ) V[Y ]
)
Propriétés
• cov(X ,Y ) = cov(Y ,X ) ;
• cov(aX + b,Y ) = acov(X ,Y ) ;
• V[aX + bY ] = a2V[X ] + b2V[Y ] + 2abcov(X ,Y ).
55
![Page 130: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/130.jpg)
Covariance
Définitions
• Covariance entre X et Y :
cov(X ,Y ) = E([X − E[X ])(Y − E[Y ]) = E[XY ]− E[X ]E[Y ].
• Matrice de variance covariance : matrice 2× 2
ΣX ,Y =
(V[X ] cov(X ,Y )
cov(Y ,X ) V[Y ]
)
Propriétés
• cov(X ,Y ) = cov(Y ,X ) ;
• cov(aX + b,Y ) = acov(X ,Y ) ;
• V[aX + bY ] = a2V[X ] + b2V[Y ] + 2abcov(X ,Y ).55
![Page 131: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/131.jpg)
Indépendance
Définition
Soit (X ,Y ) un couple aléatoire. X et Y sont indépendantes si pour tousa ≤ b et c ≤ d on a
P(a ≤ X ≤ b, c ≤ Y ≤ d) = P(a ≤ X ≤ b)P(c ≤ Y ≤ d).
En pratique
Si (X ,Y ) admet pour densité fX ,Y alors X et Y sont indépendantes si etseulement si
FX ,Y (x , y) = fX (x)fY (x) pour tous x , y ∈ R.
56
![Page 132: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/132.jpg)
Indépendance
Définition
Soit (X ,Y ) un couple aléatoire. X et Y sont indépendantes si pour tousa ≤ b et c ≤ d on a
P(a ≤ X ≤ b, c ≤ Y ≤ d) = P(a ≤ X ≤ b)P(c ≤ Y ≤ d).
En pratique
Si (X ,Y ) admet pour densité fX ,Y alors X et Y sont indépendantes si etseulement si
FX ,Y (x , y) = fX (x)fY (x) pour tous x , y ∈ R.
56
![Page 133: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/133.jpg)
PropriétéSoient X et Y 2 v.a.r indépendantes. Alors
1. E[XY ] = E[X ]E[Y ] et donc cov(X ,Y ) = 0
2. V[X + Y ] = V[X ] + V[Y ].
• Attention : les réciproques sont fausses !
57
![Page 134: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/134.jpg)
Un exemple de modèle
Quelques exemples de problèmes statistiques
Modèle statistique
Quelques rappels de probabilités
Variable aléatoire réelle
Vecteurs aléatoires
Bibliographie
58
![Page 135: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/135.jpg)
Références i
Jacod, J. and Protter, P. (2003).L’essentiel en théorie des probabilités.Cassini.
Lejeune, M. (2004).Statistique. La théorie et ses applications.Springer.
Rouvière, L. (2015).Probabilités générales.Polycopié de cours, https ://perso.univ-rennes2.fr/laurent.rouviere.
59
![Page 136: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/136.jpg)
Deuxième partie II
Théorie de l’estimation
60
![Page 137: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/137.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
61
![Page 138: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/138.jpg)
Rappels
• n observations x1, . . . , xn.
• Ces observations sont des réalisations de variables aléatoiresX1, . . . ,Xn
=⇒ ∃ωi tel que
Xi (ωi ) = xi , i = 1, . . . , n.
Hypothèse
• On va supposer que les variables Xi sont indépendantes et de même loide probabilité (inconnue) P.
Le problème de l’estimationIl consiste à trouver (estimer) la loi P à partir de l’échantillon X1, . . . ,Xn.
62
![Page 139: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/139.jpg)
Rappels
• n observations x1, . . . , xn.
• Ces observations sont des réalisations de variables aléatoiresX1, . . . ,Xn =⇒ ∃ωi tel que
Xi (ωi ) = xi , i = 1, . . . , n.
Hypothèse
• On va supposer que les variables Xi sont indépendantes et de même loide probabilité (inconnue) P.
Le problème de l’estimationIl consiste à trouver (estimer) la loi P à partir de l’échantillon X1, . . . ,Xn.
62
![Page 140: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/140.jpg)
Rappels
• n observations x1, . . . , xn.
• Ces observations sont des réalisations de variables aléatoiresX1, . . . ,Xn =⇒ ∃ωi tel que
Xi (ωi ) = xi , i = 1, . . . , n.
Hypothèse
• On va supposer que les variables Xi sont indépendantes et de même loide probabilité (inconnue) P.
Le problème de l’estimationIl consiste à trouver (estimer) la loi P à partir de l’échantillon X1, . . . ,Xn.
62
![Page 141: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/141.jpg)
Rappels
• n observations x1, . . . , xn.
• Ces observations sont des réalisations de variables aléatoiresX1, . . . ,Xn =⇒ ∃ωi tel que
Xi (ωi ) = xi , i = 1, . . . , n.
Hypothèse
• On va supposer que les variables Xi sont indépendantes et de même loide probabilité (inconnue) P.
Le problème de l’estimationIl consiste à trouver (estimer) la loi P à partir de l’échantillon X1, . . . ,Xn.
62
![Page 142: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/142.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
63
![Page 143: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/143.jpg)
• Poser un modèle revient à supposer que la loi de probabilité inconnueP appartient à une famille de lois P.
Définition
On appelle modèle statistique tout triplet (H,A,P) où
• H est l’espace des observations (l’ensemble dans lequel lesobservations prennent valeurs) ;
• A est une tribu sur H ;
• P est une famille de probabilités définies sur (H,A).
Remarque
• H et A ne sont généralement pas difficile à caractériser.
• Le statisticien ou le praticien doit par contre choisir une famille de loide probabilité susceptible de contenir la loi inconnue P.
64
![Page 144: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/144.jpg)
• Poser un modèle revient à supposer que la loi de probabilité inconnueP appartient à une famille de lois P.
Définition
On appelle modèle statistique tout triplet (H,A,P) où
• H est l’espace des observations (l’ensemble dans lequel lesobservations prennent valeurs) ;
• A est une tribu sur H ;
• P est une famille de probabilités définies sur (H,A).
Remarque
• H et A ne sont généralement pas difficile à caractériser.
• Le statisticien ou le praticien doit par contre choisir une famille de loide probabilité susceptible de contenir la loi inconnue P.
64
![Page 145: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/145.jpg)
• Poser un modèle revient à supposer que la loi de probabilité inconnueP appartient à une famille de lois P.
Définition
On appelle modèle statistique tout triplet (H,A,P) où
• H est l’espace des observations (l’ensemble dans lequel lesobservations prennent valeurs) ;
• A est une tribu sur H ;
• P est une famille de probabilités définies sur (H,A).
Remarque
• H et A ne sont généralement pas difficile à caractériser.
• Le statisticien ou le praticien doit par contre choisir une famille de loide probabilité susceptible de contenir la loi inconnue P.
64
![Page 146: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/146.jpg)
Exemple
• On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.
• On traite n = 100 patients atteints de la pathologie.• A l’issue de l’étude, 72 patients sont guéris.
Modélisation
• On note xi = 1 si le ième patient a guéri, 0 sinon.
• On suppose que xi est la réalisation d’une variable aléatoire Xi de loide bernoulli de paramètre inconnu p ∈ [0, 1].
• Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sont aumême stade de la pathologie), il est alors raisonnable de supposer queles variables aléatoires X1, . . . ,Xn sont indépendantes.
65
![Page 147: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/147.jpg)
Exemple
• On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.
• On traite n = 100 patients atteints de la pathologie.• A l’issue de l’étude, 72 patients sont guéris.
Modélisation
• On note xi = 1 si le ième patient a guéri, 0 sinon.
• On suppose que xi est la réalisation d’une variable aléatoire Xi de loide bernoulli de paramètre inconnu p ∈ [0, 1].
• Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sont aumême stade de la pathologie), il est alors raisonnable de supposer queles variables aléatoires X1, . . . ,Xn sont indépendantes.
65
![Page 148: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/148.jpg)
Exemple
• On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.
• On traite n = 100 patients atteints de la pathologie.• A l’issue de l’étude, 72 patients sont guéris.
Modélisation
• On note xi = 1 si le ième patient a guéri, 0 sinon.
• On suppose que xi est la réalisation d’une variable aléatoire Xi de loide bernoulli de paramètre inconnu p ∈ [0, 1].
• Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sont aumême stade de la pathologie), il est alors raisonnable de supposer queles variables aléatoires X1, . . . ,Xn sont indépendantes.
65
![Page 149: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/149.jpg)
Exemple
• On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’unessai clinique.
• On traite n = 100 patients atteints de la pathologie.• A l’issue de l’étude, 72 patients sont guéris.
Modélisation
• On note xi = 1 si le ième patient a guéri, 0 sinon.
• On suppose que xi est la réalisation d’une variable aléatoire Xi de loide bernoulli de paramètre inconnu p ∈ [0, 1].
• Si les individus sont choisis de manière indépendante et ont tous lamême probabilité de guérir (ce qui peut revenir à dire qu’ils en sont aumême stade de la pathologie), il est alors raisonnable de supposer queles variables aléatoires X1, . . . ,Xn sont indépendantes.
65
![Page 150: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/150.jpg)
Spécification du triplet
Le triplet pour l’exemple
• H : pas le choix H = 0, 1.• A : pas le choix A = ensemble des parties de 0, 1.
• P = lois de Bernoulli de paramètre p ∈ [0, 1] = B(p) : p ∈ [0, 1].
• A travers ce modèle, on suppose que la variable aléatoire Xi quireprésente la réaction du i e patient au traitement suit une loi deBernoulli de paramètre inconnu p ∈ [0, 1].
• Le problème statistique : reconstruire ou estimer ce paramètre à l’aidede l’échantillon X1, . . . ,Xn.
66
![Page 151: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/151.jpg)
Spécification du triplet
Le triplet pour l’exemple
• H : pas le choix H = 0, 1.• A : pas le choix A = ensemble des parties de 0, 1.• P = lois de Bernoulli de paramètre p ∈ [0, 1] = B(p) : p ∈ [0, 1].
• A travers ce modèle, on suppose que la variable aléatoire Xi quireprésente la réaction du i e patient au traitement suit une loi deBernoulli de paramètre inconnu p ∈ [0, 1].
• Le problème statistique : reconstruire ou estimer ce paramètre à l’aidede l’échantillon X1, . . . ,Xn.
66
![Page 152: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/152.jpg)
Spécification du triplet
Le triplet pour l’exemple
• H : pas le choix H = 0, 1.• A : pas le choix A = ensemble des parties de 0, 1.• P = lois de Bernoulli de paramètre p ∈ [0, 1] = B(p) : p ∈ [0, 1].
• A travers ce modèle, on suppose que la variable aléatoire Xi quireprésente la réaction du i e patient au traitement suit une loi deBernoulli de paramètre inconnu p ∈ [0, 1].
• Le problème statistique : reconstruire ou estimer ce paramètre à l’aidede l’échantillon X1, . . . ,Xn.
66
![Page 153: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/153.jpg)
Spécification du triplet
Le triplet pour l’exemple
• H : pas le choix H = 0, 1.• A : pas le choix A = ensemble des parties de 0, 1.• P = lois de Bernoulli de paramètre p ∈ [0, 1] = B(p) : p ∈ [0, 1].
• A travers ce modèle, on suppose que la variable aléatoire Xi quireprésente la réaction du i e patient au traitement suit une loi deBernoulli de paramètre inconnu p ∈ [0, 1].
• Le problème statistique : reconstruire ou estimer ce paramètre à l’aidede l’échantillon X1, . . . ,Xn.
66
![Page 154: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/154.jpg)
Autres exemples
• Exemple 1 : Traitement.• Exemple 2 : Nombre de voitures au feu rouge.• Exemple 3 : Durée de trajet domicile/travail.
H A P
Exemple 1 0, 1 P(0, 1) B(p), p ∈ [0, 1]
Exemple 2 N P(N) P(λ), λ > 0
Exemple 3 R B(R) N (µ, σ2), µ ∈ R, σ ∈ R+
67
![Page 155: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/155.jpg)
Autres exemples
• Exemple 1 : Traitement.• Exemple 2 : Nombre de voitures au feu rouge.• Exemple 3 : Durée de trajet domicile/travail.
H A P
Exemple 1 0, 1 P(0, 1) B(p), p ∈ [0, 1]
Exemple 2 N P(N) P(λ), λ > 0
Exemple 3 R B(R) N (µ, σ2), µ ∈ R, σ ∈ R+
67
![Page 156: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/156.jpg)
2 types d’erreur
• Poser un modèle = choisir une famille de lois P candidates pour P.
P
P
P
On distingue deux types d’erreurs :
• Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.• Erreur d’approximation : erreur commise par le choix de P.
68
![Page 157: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/157.jpg)
2 types d’erreur
• Poser un modèle = choisir une famille de lois P candidates pour P.
P
P
P
On distingue deux types d’erreurs :
• Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.• Erreur d’approximation : erreur commise par le choix de P. 68
![Page 158: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/158.jpg)
• Ces deux termes évoluent généralement en sens inverse.
Exemple des durées de trajet
• M1 : P = N (µ, σ2), µ ∈ R, σ ∈ R+.• M2 : P = Lois à densités continues.
• M2 est plus flexible queM1. On a mêmeM1 ⊂M2.• La théorie montrera qu’il est plus difficile de bien estimer dansM2 que
dansM1.
Conséquence
• Le travail du statisticien consistera toujours à essayer de trouver lemeilleur compromis entre ces deux erreurs.
• Dans ce cours, nous étudierons essentiellement l’erreur d’estimationdans les modèles paramétriques.
69
![Page 159: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/159.jpg)
• Ces deux termes évoluent généralement en sens inverse.
Exemple des durées de trajet
• M1 : P = N (µ, σ2), µ ∈ R, σ ∈ R+.• M2 : P = Lois à densités continues.
• M2 est plus flexible queM1. On a mêmeM1 ⊂M2.• La théorie montrera qu’il est plus difficile de bien estimer dansM2 que
dansM1.
Conséquence
• Le travail du statisticien consistera toujours à essayer de trouver lemeilleur compromis entre ces deux erreurs.
• Dans ce cours, nous étudierons essentiellement l’erreur d’estimationdans les modèles paramétriques.
69
![Page 160: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/160.jpg)
• Ces deux termes évoluent généralement en sens inverse.
Exemple des durées de trajet
• M1 : P = N (µ, σ2), µ ∈ R, σ ∈ R+.• M2 : P = Lois à densités continues.
• M2 est plus flexible queM1. On a mêmeM1 ⊂M2.• La théorie montrera qu’il est plus difficile de bien estimer dansM2 que
dansM1.
Conséquence
• Le travail du statisticien consistera toujours à essayer de trouver lemeilleur compromis entre ces deux erreurs.
• Dans ce cours, nous étudierons essentiellement l’erreur d’estimationdans les modèles paramétriques.
69
![Page 161: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/161.jpg)
• Ces deux termes évoluent généralement en sens inverse.
Exemple des durées de trajet
• M1 : P = N (µ, σ2), µ ∈ R, σ ∈ R+.• M2 : P = Lois à densités continues.
• M2 est plus flexible queM1. On a mêmeM1 ⊂M2.• La théorie montrera qu’il est plus difficile de bien estimer dansM2 que
dansM1.
Conséquence
• Le travail du statisticien consistera toujours à essayer de trouver lemeilleur compromis entre ces deux erreurs.
• Dans ce cours, nous étudierons essentiellement l’erreur d’estimationdans les modèles paramétriques.
69
![Page 162: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/162.jpg)
• Ces deux termes évoluent généralement en sens inverse.
Exemple des durées de trajet
• M1 : P = N (µ, σ2), µ ∈ R, σ ∈ R+.• M2 : P = Lois à densités continues.
• M2 est plus flexible queM1. On a mêmeM1 ⊂M2.• La théorie montrera qu’il est plus difficile de bien estimer dansM2 que
dansM1.
Conséquence
• Le travail du statisticien consistera toujours à essayer de trouver lemeilleur compromis entre ces deux erreurs.
• Dans ce cours, nous étudierons essentiellement l’erreur d’estimationdans les modèles paramétriques.
69
![Page 163: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/163.jpg)
Paramétrique versus non paramétrique
Définition
• Si P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres.
• Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.
Exemple : modèle de densité
• P = N (µ, σ2), (µ, σ2) ∈ R× R+ est un modèle paramétrique.
• P = densités f 2 fois dérivables est un modèle non paramétrique.
Le problème statistique sera d’estimer (µ, σ2) ou f à partir del’échantillon X1, . . . ,Xn.
70
![Page 164: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/164.jpg)
Paramétrique versus non paramétrique
Définition
• Si P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres.
• Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.
Exemple : modèle de densité
• P = N (µ, σ2), (µ, σ2) ∈ R× R+ est un modèle paramétrique.
• P = densités f 2 fois dérivables est un modèle non paramétrique.
Le problème statistique sera d’estimer (µ, σ2) ou f à partir del’échantillon X1, . . . ,Xn.
70
![Page 165: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/165.jpg)
Paramétrique versus non paramétrique
Définition
• Si P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres.
• Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.
Exemple : modèle de densité
• P = N (µ, σ2), (µ, σ2) ∈ R× R+ est un modèle paramétrique.
• P = densités f 2 fois dérivables est un modèle non paramétrique.
Le problème statistique sera d’estimer (µ, σ2) ou f à partir del’échantillon X1, . . . ,Xn.
70
![Page 166: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/166.jpg)
Paramétrique versus non paramétrique
Définition
• Si P = Pθ, θ ∈ Θ où Θ ∈ Rd alors on parle de modèle paramétriqueet Θ est l’espace des paramètres.
• Si P = P,P ∈ F où F est de dimension infinie, on parle de modèlenon paramétrique.
Exemple : modèle de densité
• P = N (µ, σ2), (µ, σ2) ∈ R× R+ est un modèle paramétrique.
• P = densités f 2 fois dérivables est un modèle non paramétrique.
Le problème statistique sera d’estimer (µ, σ2) ou f à partir del’échantillon X1, . . . ,Xn.
70
![Page 167: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/167.jpg)
Le problème de régression
• Données : (x1, y1), . . . , (xn, yn). On veut expliquer les sorties yi ∈ Rpar les entrées xi ∈ Rp.
• Les données sont des réalisations de variables aléatoires(X1,Y1), . . . , (Xn,Yn) telles qu’il existe une fonction inconnuem : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ2).
Le problème statistiqueIl consiste à estimer la fonction inconnue m à l’aide de l’échantillon(X1,Y1), . . . , (Xn,Yn).
71
![Page 168: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/168.jpg)
Le problème de régression
• Données : (x1, y1), . . . , (xn, yn). On veut expliquer les sorties yi ∈ Rpar les entrées xi ∈ Rp.
• Les données sont des réalisations de variables aléatoires(X1,Y1), . . . , (Xn,Yn) telles qu’il existe une fonction inconnuem : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ2).
Le problème statistiqueIl consiste à estimer la fonction inconnue m à l’aide de l’échantillon(X1,Y1), . . . , (Xn,Yn).
71
![Page 169: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/169.jpg)
Le problème de régression
• Données : (x1, y1), . . . , (xn, yn). On veut expliquer les sorties yi ∈ Rpar les entrées xi ∈ Rp.
• Les données sont des réalisations de variables aléatoires(X1,Y1), . . . , (Xn,Yn) telles qu’il existe une fonction inconnuem : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ2).
Le problème statistiqueIl consiste à estimer la fonction inconnue m à l’aide de l’échantillon(X1,Y1), . . . , (Xn,Yn).
71
![Page 170: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/170.jpg)
Régression paramétrique vs non paramétrique
Modèle linéaire (paramétrique)
• On suppose m(x) = β0 + β1x1 + . . .+ βpxp.
• Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension finie =⇒ modèle paramétrique.
Un modèle non paramétrique
• On suppose que m : Rp → R est une fonction continue.
• Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension infinie =⇒ modèle nonparamétrique.
72
![Page 171: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/171.jpg)
Régression paramétrique vs non paramétrique
Modèle linéaire (paramétrique)
• On suppose m(x) = β0 + β1x1 + . . .+ βpxp.
• Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension finie =⇒ modèle paramétrique.
Un modèle non paramétrique
• On suppose que m : Rp → R est une fonction continue.
• Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension infinie =⇒ modèle nonparamétrique.
72
![Page 172: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/172.jpg)
Régression paramétrique vs non paramétrique
Modèle linéaire (paramétrique)
• On suppose m(x) = β0 + β1x1 + . . .+ βpxp.
• Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension finie =⇒ modèle paramétrique.
Un modèle non paramétrique
• On suppose que m : Rp → R est une fonction continue.
• Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension infinie =⇒ modèle nonparamétrique.
72
![Page 173: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/173.jpg)
Régression paramétrique vs non paramétrique
Modèle linéaire (paramétrique)
• On suppose m(x) = β0 + β1x1 + . . .+ βpxp.
• Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension finie =⇒ modèle paramétrique.
Un modèle non paramétrique
• On suppose que m : Rp → R est une fonction continue.
• Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension infinie =⇒ modèle nonparamétrique.
72
![Page 174: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/174.jpg)
Régression paramétrique vs non paramétrique
Modèle linéaire (paramétrique)
• On suppose m(x) = β0 + β1x1 + . . .+ βpxp.
• Le problème est d’estimer β = (β0, . . . , βp) ∈ Rp+1 à l’aide de(X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension finie =⇒ modèle paramétrique.
Un modèle non paramétrique
• On suppose que m : Rp → R est une fonction continue.
• Le problème est d’estimer m à l’aide de (X1,Y1), . . . , (Xn,Yn).
• Paramètre à estimer de dimension infinie =⇒ modèle nonparamétrique.
72
![Page 175: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/175.jpg)
Objectifs
Estimer...
Etant donné un modèle (H,A,P) :
• Trouver des procédures (automatiques) permettant de sélectionner uneloi P dans P à partir d’un n-échantillon X1, . . . ,Xn.
• Etudier les performances des lois choisies.
Paramétrique
• Dans la suite, on va considérer uniquement des modèles paramétriquesP = Pθ, θ ∈ Θ avec Θ de dimension finie (typiquement Rp).
• Choisir une loi reviendra donc à choisir un paramètre θ à partir del’échantillon X1, . . . ,Xn.
73
![Page 176: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/176.jpg)
Objectifs
Estimer...
Etant donné un modèle (H,A,P) :
• Trouver des procédures (automatiques) permettant de sélectionner uneloi P dans P à partir d’un n-échantillon X1, . . . ,Xn.
• Etudier les performances des lois choisies.
Paramétrique
• Dans la suite, on va considérer uniquement des modèles paramétriquesP = Pθ, θ ∈ Θ avec Θ de dimension finie (typiquement Rp).
• Choisir une loi reviendra donc à choisir un paramètre θ à partir del’échantillon X1, . . . ,Xn.
73
![Page 177: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/177.jpg)
• Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munis destribus P(Ω) ou B(Rd).
• Dans la suite, on se donne un modèleM = (H,P = Pθ, θ ∈ Θ).
EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ, pour θ ∈ Θ.
Identifiabilité
• Si θ 7→ Pθ est injective, le modèle est dit identifiable.
• L’identifiabilité implique• 2 paramètres différents correspondent à deux lois différentes.• 2 paramètres identiques correspondent à deux lois identiques.
• Elle permet donc d’identifier une loi à un unique paramètre et estcapitale pour savoir ce que l’on doit estimer.
74
![Page 178: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/178.jpg)
• Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munis destribus P(Ω) ou B(Rd).
• Dans la suite, on se donne un modèleM = (H,P = Pθ, θ ∈ Θ).
EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ, pour θ ∈ Θ.
Identifiabilité
• Si θ 7→ Pθ est injective, le modèle est dit identifiable.
• L’identifiabilité implique• 2 paramètres différents correspondent à deux lois différentes.• 2 paramètres identiques correspondent à deux lois identiques.
• Elle permet donc d’identifier une loi à un unique paramètre et estcapitale pour savoir ce que l’on doit estimer.
74
![Page 179: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/179.jpg)
• Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munis destribus P(Ω) ou B(Rd).
• Dans la suite, on se donne un modèleM = (H,P = Pθ, θ ∈ Θ).
EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ, pour θ ∈ Θ.
Identifiabilité
• Si θ 7→ Pθ est injective, le modèle est dit identifiable.
• L’identifiabilité implique• 2 paramètres différents correspondent à deux lois différentes.• 2 paramètres identiques correspondent à deux lois identiques.
• Elle permet donc d’identifier une loi à un unique paramètre et estcapitale pour savoir ce que l’on doit estimer.
74
![Page 180: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/180.jpg)
• Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munis destribus P(Ω) ou B(Rd).
• Dans la suite, on se donne un modèleM = (H,P = Pθ, θ ∈ Θ).
EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ, pour θ ∈ Θ.
Identifiabilité
• Si θ 7→ Pθ est injective, le modèle est dit identifiable.
• L’identifiabilité implique• 2 paramètres différents correspondent à deux lois différentes.• 2 paramètres identiques correspondent à deux lois identiques.
• Elle permet donc d’identifier une loi à un unique paramètre et estcapitale pour savoir ce que l’on doit estimer.
74
![Page 181: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/181.jpg)
• Les modèles que nous allons considérer auront pour espaced’observations un ensemble dénombrable Ω ou Rd et seront munis destribus P(Ω) ou B(Rd).
• Dans la suite, on se donne un modèleM = (H,P = Pθ, θ ∈ Θ).
EchantillonUn échantillon de taille n est une suite X1, . . . ,Xn de n variables aléatoiresindépendantes et de même loi Pθ, pour θ ∈ Θ.
Identifiabilité
• Si θ 7→ Pθ est injective, le modèle est dit identifiable.
• L’identifiabilité implique• 2 paramètres différents correspondent à deux lois différentes.• 2 paramètres identiques correspondent à deux lois identiques.
• Elle permet donc d’identifier une loi à un unique paramètre et estcapitale pour savoir ce que l’on doit estimer.
74
![Page 182: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/182.jpg)
La démarche statistique
1. On récolte n observations (n valeurs) x1, . . . , xn qui sont les résultatsde n expériences aléatoires indépendantes.
2. Modélisation : on suppose que les n valeurs sont des réalisations de n
variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ. Cequi nous amène à définir le modèleM = (H, Pθ, θ ∈ Θ).
3. Estimation : chercher dans le modèle une loi Pθ qui soit la plusproche possible de Pθ =⇒ chercher un estimateur θ de θ.
75
![Page 183: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/183.jpg)
La démarche statistique
1. On récolte n observations (n valeurs) x1, . . . , xn qui sont les résultatsde n expériences aléatoires indépendantes.
2. Modélisation : on suppose que les n valeurs sont des réalisations de n
variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ. Cequi nous amène à définir le modèleM = (H, Pθ, θ ∈ Θ).
3. Estimation : chercher dans le modèle une loi Pθ qui soit la plusproche possible de Pθ =⇒ chercher un estimateur θ de θ.
75
![Page 184: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/184.jpg)
La démarche statistique
1. On récolte n observations (n valeurs) x1, . . . , xn qui sont les résultatsde n expériences aléatoires indépendantes.
2. Modélisation : on suppose que les n valeurs sont des réalisations de n
variables aléatoires indépendantes X1, . . . ,Xn et de même loi Pθ. Cequi nous amène à définir le modèleM = (H, Pθ, θ ∈ Θ).
3. Estimation : chercher dans le modèle une loi Pθ qui soit la plusproche possible de Pθ =⇒ chercher un estimateur θ de θ.
75
![Page 185: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/185.jpg)
Estimateurs
Définitions
• Une statistique est une application (mesurable) définie sur Hn.
• Un estimateur (de θ) est une fonction (mesurable) de (X1, . . . ,Xn)
indépendante de θ à valeurs dans un sur-ensemble de Θ.
Exemple 1 (modèle de Bernoulli)
Les variables aléatoires p1 = X1 et p2 = Xn = 1n
∑ni=1 Xi sont des
estimateurs de p.
Remarque
• Un estimateur θ = θ(X1, . . . ,Xn) : c’est une variable aléatoire.
• Démarche :1. Chercher le "meilleur" estimateur θ(X1, . . . ,Xn).2. A la fin, calculer l’estimation θ(x1, . . . , xn) (renvoyé par le logiciel).
76
![Page 186: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/186.jpg)
Estimateurs
Définitions
• Une statistique est une application (mesurable) définie sur Hn.
• Un estimateur (de θ) est une fonction (mesurable) de (X1, . . . ,Xn)
indépendante de θ à valeurs dans un sur-ensemble de Θ.
Exemple 1 (modèle de Bernoulli)
Les variables aléatoires p1 = X1 et p2 = Xn = 1n
∑ni=1 Xi sont des
estimateurs de p.
Remarque
• Un estimateur θ = θ(X1, . . . ,Xn) : c’est une variable aléatoire.
• Démarche :1. Chercher le "meilleur" estimateur θ(X1, . . . ,Xn).2. A la fin, calculer l’estimation θ(x1, . . . , xn) (renvoyé par le logiciel).
76
![Page 187: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/187.jpg)
Estimateurs
Définitions
• Une statistique est une application (mesurable) définie sur Hn.
• Un estimateur (de θ) est une fonction (mesurable) de (X1, . . . ,Xn)
indépendante de θ à valeurs dans un sur-ensemble de Θ.
Exemple 1 (modèle de Bernoulli)
Les variables aléatoires p1 = X1 et p2 = Xn = 1n
∑ni=1 Xi sont des
estimateurs de p.
Remarque
• Un estimateur θ = θ(X1, . . . ,Xn) : c’est une variable aléatoire.
• Démarche :1. Chercher le "meilleur" estimateur θ(X1, . . . ,Xn).2. A la fin, calculer l’estimation θ(x1, . . . , xn) (renvoyé par le logiciel). 76
![Page 188: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/188.jpg)
Estimateurs vs estimation...
• Donner une bonne réponse au problème posé nécessite de se placerdans un premier temps dans un cadre abstrait.
• On cherche alors la meilleure fonction θ(X1, . . . ,Xn) vis à vis decritères à définir.• Une fois cette fonction trouvée, il faut donner une réponse (qui ne doit
pas être abstraite !)... On applique la fonction trouvée aux donnéesobservées θ(x1, . . . , xn).
Abus de notationMalheureusement on note souvent de la même façon l’estimateur etl’estimation :
• on écrit θ pour l’estimateur θ(X1, . . . ,Xn) ;
• on écrit θ pour l’estimation θ(x1, . . . , xn) ;
• Il est donc nécessaire de faire soi-même la distinction entre ces deuxobjets lorsque on lit ou écrit θ.
77
![Page 189: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/189.jpg)
Estimateurs vs estimation...
• Donner une bonne réponse au problème posé nécessite de se placerdans un premier temps dans un cadre abstrait.
• On cherche alors la meilleure fonction θ(X1, . . . ,Xn) vis à vis decritères à définir.
• Une fois cette fonction trouvée, il faut donner une réponse (qui ne doitpas être abstraite !)... On applique la fonction trouvée aux donnéesobservées θ(x1, . . . , xn).
Abus de notationMalheureusement on note souvent de la même façon l’estimateur etl’estimation :
• on écrit θ pour l’estimateur θ(X1, . . . ,Xn) ;
• on écrit θ pour l’estimation θ(x1, . . . , xn) ;
• Il est donc nécessaire de faire soi-même la distinction entre ces deuxobjets lorsque on lit ou écrit θ.
77
![Page 190: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/190.jpg)
Estimateurs vs estimation...
• Donner une bonne réponse au problème posé nécessite de se placerdans un premier temps dans un cadre abstrait.
• On cherche alors la meilleure fonction θ(X1, . . . ,Xn) vis à vis decritères à définir.• Une fois cette fonction trouvée, il faut donner une réponse (qui ne doit
pas être abstraite !)...
On applique la fonction trouvée aux donnéesobservées θ(x1, . . . , xn).
Abus de notationMalheureusement on note souvent de la même façon l’estimateur etl’estimation :
• on écrit θ pour l’estimateur θ(X1, . . . ,Xn) ;
• on écrit θ pour l’estimation θ(x1, . . . , xn) ;
• Il est donc nécessaire de faire soi-même la distinction entre ces deuxobjets lorsque on lit ou écrit θ.
77
![Page 191: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/191.jpg)
Estimateurs vs estimation...
• Donner une bonne réponse au problème posé nécessite de se placerdans un premier temps dans un cadre abstrait.
• On cherche alors la meilleure fonction θ(X1, . . . ,Xn) vis à vis decritères à définir.• Une fois cette fonction trouvée, il faut donner une réponse (qui ne doit
pas être abstraite !)... On applique la fonction trouvée aux donnéesobservées θ(x1, . . . , xn).
Abus de notationMalheureusement on note souvent de la même façon l’estimateur etl’estimation :
• on écrit θ pour l’estimateur θ(X1, . . . ,Xn) ;
• on écrit θ pour l’estimation θ(x1, . . . , xn) ;
• Il est donc nécessaire de faire soi-même la distinction entre ces deuxobjets lorsque on lit ou écrit θ.
77
![Page 192: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/192.jpg)
Estimateurs vs estimation...
• Donner une bonne réponse au problème posé nécessite de se placerdans un premier temps dans un cadre abstrait.
• On cherche alors la meilleure fonction θ(X1, . . . ,Xn) vis à vis decritères à définir.• Une fois cette fonction trouvée, il faut donner une réponse (qui ne doit
pas être abstraite !)... On applique la fonction trouvée aux donnéesobservées θ(x1, . . . , xn).
Abus de notationMalheureusement on note souvent de la même façon l’estimateur etl’estimation :
• on écrit θ pour l’estimateur θ(X1, . . . ,Xn) ;
• on écrit θ pour l’estimation θ(x1, . . . , xn) ;
• Il est donc nécessaire de faire soi-même la distinction entre ces deuxobjets lorsque on lit ou écrit θ.
77
![Page 193: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/193.jpg)
Estimateurs vs estimation...
• Donner une bonne réponse au problème posé nécessite de se placerdans un premier temps dans un cadre abstrait.
• On cherche alors la meilleure fonction θ(X1, . . . ,Xn) vis à vis decritères à définir.• Une fois cette fonction trouvée, il faut donner une réponse (qui ne doit
pas être abstraite !)... On applique la fonction trouvée aux donnéesobservées θ(x1, . . . , xn).
Abus de notationMalheureusement on note souvent de la même façon l’estimateur etl’estimation :
• on écrit θ pour l’estimateur θ(X1, . . . ,Xn) ;
• on écrit θ pour l’estimation θ(x1, . . . , xn) ;
• Il est donc nécessaire de faire soi-même la distinction entre ces deuxobjets lorsque on lit ou écrit θ.
77
![Page 194: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/194.jpg)
Exemple : réponse à un traitement
• Les donnéesx1 x2 x3 x4 x5 x6 x7 x8
1 0 0 0 1 0 1 0
• Modèle : les xi sont des réalisations de v.a. Xi indépendantes et de loide Bernoulli de paramètre p (inconnu).
• Problème statistique : estimer p.
• Estimateur :
p = p(X1, . . . ,Xn) =1n
n∑i=1
Xi .
• Estimation :
p = p(x1, . . . , xn) =1n
n∑i=1
xi =38.
78
![Page 195: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/195.jpg)
Exemple : réponse à un traitement
• Les donnéesx1 x2 x3 x4 x5 x6 x7 x8
1 0 0 0 1 0 1 0• Modèle : les xi sont des réalisations de v.a. Xi indépendantes et de loi
de Bernoulli de paramètre p (inconnu).
• Problème statistique : estimer p.
• Estimateur :
p = p(X1, . . . ,Xn) =1n
n∑i=1
Xi .
• Estimation :
p = p(x1, . . . , xn) =1n
n∑i=1
xi =38.
78
![Page 196: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/196.jpg)
Exemple : réponse à un traitement
• Les donnéesx1 x2 x3 x4 x5 x6 x7 x8
1 0 0 0 1 0 1 0• Modèle : les xi sont des réalisations de v.a. Xi indépendantes et de loi
de Bernoulli de paramètre p (inconnu).
• Problème statistique : estimer p.
• Estimateur :
p = p(X1, . . . ,Xn) =1n
n∑i=1
Xi .
• Estimation :
p = p(x1, . . . , xn) =1n
n∑i=1
xi =38.
78
![Page 197: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/197.jpg)
Exemple : réponse à un traitement
• Les donnéesx1 x2 x3 x4 x5 x6 x7 x8
1 0 0 0 1 0 1 0• Modèle : les xi sont des réalisations de v.a. Xi indépendantes et de loi
de Bernoulli de paramètre p (inconnu).
• Problème statistique : estimer p.
• Estimateur :
p = p(X1, . . . ,Xn) =1n
n∑i=1
Xi .
• Estimation :
p = p(x1, . . . , xn) =1n
n∑i=1
xi =38.
78
![Page 198: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/198.jpg)
Exemple : réponse à un traitement
• Les donnéesx1 x2 x3 x4 x5 x6 x7 x8
1 0 0 0 1 0 1 0• Modèle : les xi sont des réalisations de v.a. Xi indépendantes et de loi
de Bernoulli de paramètre p (inconnu).
• Problème statistique : estimer p.
• Estimateur :
p = p(X1, . . . ,Xn) =1n
n∑i=1
Xi .
• Estimation :
p = p(x1, . . . , xn) =1n
n∑i=1
xi =38.
78
![Page 199: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/199.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
79
![Page 200: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/200.jpg)
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ inconnu.
• On cherche un estimateur θ = θ(X1, . . . ,Xn).
• Un estimateur est donc une variable aléatoire. Il va donc (le plussouvent) posséder• une loi de probabilité• une espérance• une variance...
80
![Page 201: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/201.jpg)
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ inconnu.
• On cherche un estimateur θ = θ(X1, . . . ,Xn).
• Un estimateur est donc une variable aléatoire. Il va donc (le plussouvent) posséder• une loi de probabilité• une espérance• une variance...
80
![Page 202: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/202.jpg)
Espérance d’une estimateur
• On représente ci-dessous les lois de probabilité de 2 estimateurs de θ.
Non biaisé Biaisé
θ θ
0.0
0.1
0.2
0.3
0.4
Commentaires
• L’estimateur de gauche semble être préférable à celui de droite.
• Sa loi de probabilité est en effet centrée sur le paramètre inconnu =⇒E[θ] ≈ θ.
81
![Page 203: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/203.jpg)
Espérance d’une estimateur
• On représente ci-dessous les lois de probabilité de 2 estimateurs de θ.
Non biaisé Biaisé
θ θ
0.0
0.1
0.2
0.3
0.4
Commentaires
• L’estimateur de gauche semble être préférable à celui de droite.
• Sa loi de probabilité est en effet centrée sur le paramètre inconnu =⇒E[θ] ≈ θ. 81
![Page 204: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/204.jpg)
Biais d’un estimateur
• Dans la suite, pour un modèle de famille de loi Pθ, θ ∈ Θ, ondésigne par E et V les variables sous la loi Pθ.
Définition
Soit θ un estimateur d’ordre 1 (l’espérance existe).
1. Le biais de θ en θ est E(θ)− θ.2. θ est sans biais lorsque son biais est nul.
3. θ est asymptotiquement sans biais si limn→∞ E(θ) = θ.
Exemple 1Les estimateurs p1 et p2 sont sans biais.
82
![Page 205: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/205.jpg)
Biais d’un estimateur
• Dans la suite, pour un modèle de famille de loi Pθ, θ ∈ Θ, ondésigne par E et V les variables sous la loi Pθ.
Définition
Soit θ un estimateur d’ordre 1 (l’espérance existe).
1. Le biais de θ en θ est E(θ)− θ.2. θ est sans biais lorsque son biais est nul.
3. θ est asymptotiquement sans biais si limn→∞ E(θ) = θ.
Exemple 1Les estimateurs p1 et p2 sont sans biais.
82
![Page 206: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/206.jpg)
Variance d’un estimateur
• Mesurer le biais n’est pas suffisant
, il faut également mesurer ladispersion des estimateurs.
Var faible Var forte
θ θ
0.0
0.2
0.4
0.6
0.8
• Les deux estimateurs sont sans biais.• L’estimateur de gauche semble être préférable à celui de droite.• Sa variance est plus faible : =⇒ V[θ1] ≤ V[θ2].
83
![Page 207: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/207.jpg)
Variance d’un estimateur
• Mesurer le biais n’est pas suffisant, il faut également mesurer ladispersion des estimateurs.
Var faible Var forte
θ θ
0.0
0.2
0.4
0.6
0.8
• Les deux estimateurs sont sans biais.• L’estimateur de gauche semble être préférable à celui de droite.• Sa variance est plus faible : =⇒ V[θ1] ≤ V[θ2].
83
![Page 208: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/208.jpg)
Variance d’un estimateur
• Mesurer le biais n’est pas suffisant, il faut également mesurer ladispersion des estimateurs.
Var faible Var forte
θ θ
0.0
0.2
0.4
0.6
0.8
• Les deux estimateurs sont sans biais.• L’estimateur de gauche semble être préférable à celui de droite.• Sa variance est plus faible : =⇒ V[θ1] ≤ V[θ2].
83
![Page 209: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/209.jpg)
Risque quadratique
• Objectif : trouver des estimateurs ayant un biais et une variance faibles.• Le risque quadratique prend en compte simultanément ces deux
critères.
Définition
Soit θ un estimateur d’ordre 2.
1. Le risque quadratique de θ de θ ∈ R :
R(θ, θ) = E(θ − θ)2
2. Soit θ′ un autre estimateur d’ordre 2. On dit que θ est préférable à θ′ si
R(θ, θ) ≤ R(θ, θ′) ∀θ ∈ Θ.
Exemple (Bernoulli)p2 est préférable à p1.
84
![Page 210: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/210.jpg)
Risque quadratique
• Objectif : trouver des estimateurs ayant un biais et une variance faibles.• Le risque quadratique prend en compte simultanément ces deux
critères.
Définition
Soit θ un estimateur d’ordre 2.
1. Le risque quadratique de θ de θ ∈ R :
R(θ, θ) = E(θ − θ)2
2. Soit θ′ un autre estimateur d’ordre 2. On dit que θ est préférable à θ′ si
R(θ, θ) ≤ R(θ, θ′) ∀θ ∈ Θ.
Exemple (Bernoulli)p2 est préférable à p1.
84
![Page 211: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/211.jpg)
Risque quadratique
• Objectif : trouver des estimateurs ayant un biais et une variance faibles.• Le risque quadratique prend en compte simultanément ces deux
critères.
Définition
Soit θ un estimateur d’ordre 2.
1. Le risque quadratique de θ de θ ∈ R :
R(θ, θ) = E(θ − θ)2
2. Soit θ′ un autre estimateur d’ordre 2. On dit que θ est préférable à θ′ si
R(θ, θ) ≤ R(θ, θ′) ∀θ ∈ Θ.
Exemple (Bernoulli)p2 est préférable à p1.
84
![Page 212: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/212.jpg)
Estimateur VUMSB
Propriété décomposition biais variance
Si θ est d’ordre 2, on a la décomposition
R(θ, θ) = (E[θ]− θ)2 + E(θ − E[θ])2 = b2(θ) + V[θ].
Définition
Si θ est sans biais, on dit qu’il est de variance uniformément minimumparmi les estimateurs sans biais (VUMSB) si il est préférable à tout autreestimateur sans biais d’ordre 2 :
θ VUMSB ⇐⇒
E[θ] = θ
∀θ tel que E[θ] = θ, V[θ] ≤ V[θ]
Exemple
Dans le modèle de Bernoulli B(p) nous montrerons que p2 est VUMSB.
85
![Page 213: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/213.jpg)
Estimateur VUMSB
Propriété décomposition biais variance
Si θ est d’ordre 2, on a la décomposition
R(θ, θ) = (E[θ]− θ)2 + E(θ − E[θ])2 = b2(θ) + V[θ].
Définition
Si θ est sans biais, on dit qu’il est de variance uniformément minimumparmi les estimateurs sans biais (VUMSB) si il est préférable à tout autreestimateur sans biais d’ordre 2 :
θ VUMSB ⇐⇒
E[θ] = θ
∀θ tel que E[θ] = θ, V[θ] ≤ V[θ]
Exemple
Dans le modèle de Bernoulli B(p) nous montrerons que p2 est VUMSB.
85
![Page 214: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/214.jpg)
Estimateur VUMSB
Propriété décomposition biais variance
Si θ est d’ordre 2, on a la décomposition
R(θ, θ) = (E[θ]− θ)2 + E(θ − E[θ])2 = b2(θ) + V[θ].
Définition
Si θ est sans biais, on dit qu’il est de variance uniformément minimumparmi les estimateurs sans biais (VUMSB) si il est préférable à tout autreestimateur sans biais d’ordre 2 :
θ VUMSB ⇐⇒
E[θ] = θ
∀θ tel que E[θ] = θ, V[θ] ≤ V[θ]
Exemple
Dans le modèle de Bernoulli B(p) nous montrerons que p2 est VUMSB.
85
![Page 215: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/215.jpg)
Estimateur VUMSB
Propriété décomposition biais variance
Si θ est d’ordre 2, on a la décomposition
R(θ, θ) = (E[θ]− θ)2 + E(θ − E[θ])2 = b2(θ) + V[θ].
Définition
Si θ est sans biais, on dit qu’il est de variance uniformément minimumparmi les estimateurs sans biais (VUMSB) si il est préférable à tout autreestimateur sans biais d’ordre 2 :
θ VUMSB ⇐⇒
E[θ] = θ
∀θ tel que E[θ] = θ, V[θ] ≤ V[θ]
Exemple
Dans le modèle de Bernoulli B(p) nous montrerons que p2 est VUMSB. 85
![Page 216: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/216.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
86
![Page 217: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/217.jpg)
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ inconnu.
• Le biais et la variance permettent de mesurer la performance d’unestimateur θ.
QuestionComment construire un estimateur (que l’on espère) performant ?
Construction d’estimateurs
• Il existe des procédures automatiques qui permettent de construire desestimateurs.
• Nous présentons dans cette partie la méthode des moments et dumaximum de vraisemblance.
87
![Page 218: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/218.jpg)
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ inconnu.
• Le biais et la variance permettent de mesurer la performance d’unestimateur θ.
QuestionComment construire un estimateur (que l’on espère) performant ?
Construction d’estimateurs
• Il existe des procédures automatiques qui permettent de construire desestimateurs.
• Nous présentons dans cette partie la méthode des moments et dumaximum de vraisemblance.
87
![Page 219: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/219.jpg)
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ inconnu.
• Le biais et la variance permettent de mesurer la performance d’unestimateur θ.
QuestionComment construire un estimateur (que l’on espère) performant ?
Construction d’estimateurs
• Il existe des procédures automatiques qui permettent de construire desestimateurs.
• Nous présentons dans cette partie la méthode des moments et dumaximum de vraisemblance.
87
![Page 220: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/220.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
88
![Page 221: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/221.jpg)
• C’est une approche intuitive qui repose sur le fait que pour denombreux modèles les moments empiriques doivent être proches desmoments théoriques.
• En effet, on a d’après la LFGN que pour de nombreux modèles :
Xn =1n
n∑i=1
Xi ≈ E[X1].
Définition
L’estimateur des moments θm, si il existe, est la solution en θ de l’équation
1n
n∑i=1
Xi = E[X1].
89
![Page 222: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/222.jpg)
• C’est une approche intuitive qui repose sur le fait que pour denombreux modèles les moments empiriques doivent être proches desmoments théoriques.
• En effet, on a d’après la LFGN que pour de nombreux modèles :
Xn =1n
n∑i=1
Xi ≈ E[X1].
Définition
L’estimateur des moments θm, si il existe, est la solution en θ de l’équation
1n
n∑i=1
Xi = E[X1].
89
![Page 223: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/223.jpg)
• C’est une approche intuitive qui repose sur le fait que pour denombreux modèles les moments empiriques doivent être proches desmoments théoriques.
• En effet, on a d’après la LFGN que pour de nombreux modèles :
Xn =1n
n∑i=1
Xi ≈ E[X1].
Définition
L’estimateur des moments θm, si il existe, est la solution en θ de l’équation
1n
n∑i=1
Xi = E[X1].
89
![Page 224: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/224.jpg)
Bernoulli B(p) pm = Xn
Poisson P(λ) λm = Xn
Uniforme U[0,θ] θm = 2Xn
Exponentielle E(λ) λm = 1/Xn
Remarque
• L’estimateur des moments n’existe pas toujours.
• Même lorsqu’il existe, il n’est pas toujours performant (voir TD).
90
![Page 225: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/225.jpg)
Bernoulli B(p) pm = Xn
Poisson P(λ) λm = Xn
Uniforme U[0,θ] θm = 2Xn
Exponentielle E(λ) λm = 1/Xn
Remarque
• L’estimateur des moments n’existe pas toujours.
• Même lorsqu’il existe, il n’est pas toujours performant (voir TD). 90
![Page 226: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/226.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
91
![Page 227: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/227.jpg)
Retour à l’exemple 1
• X1, . . . ,Xn i.i.d. X1 ∼ B(p).• x1, . . . , xn réalisations de X1, . . . ,Xn.
Idée
1. La quantité L(x1, . . . , xn; p) = P(X1 = x1, . . . ,Xn = xn) peut être vuecomme une mesure de la probabilité d’observer les données observées.
2. Choisir le paramètre p qui maximise cette probabilité.
Notion de vraisemblance
• L(x1, . . . , xn; p) est appelée vraisemblance (elle mesure lavraisemblance des réalisations x1, . . . , xn sous la loi Pp).
• L’approche consiste à choisir p qui "rend ces réalisations les plusvraisemblables possible".
92
![Page 228: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/228.jpg)
Retour à l’exemple 1
• X1, . . . ,Xn i.i.d. X1 ∼ B(p).• x1, . . . , xn réalisations de X1, . . . ,Xn.
Idée
1. La quantité L(x1, . . . , xn; p) = P(X1 = x1, . . . ,Xn = xn) peut être vuecomme une mesure de la probabilité d’observer les données observées.
2. Choisir le paramètre p qui maximise cette probabilité.
Notion de vraisemblance
• L(x1, . . . , xn; p) est appelée vraisemblance (elle mesure lavraisemblance des réalisations x1, . . . , xn sous la loi Pp).
• L’approche consiste à choisir p qui "rend ces réalisations les plusvraisemblables possible".
92
![Page 229: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/229.jpg)
Retour à l’exemple 1
• X1, . . . ,Xn i.i.d. X1 ∼ B(p).• x1, . . . , xn réalisations de X1, . . . ,Xn.
Idée
1. La quantité L(x1, . . . , xn; p) = P(X1 = x1, . . . ,Xn = xn) peut être vuecomme une mesure de la probabilité d’observer les données observées.
2. Choisir le paramètre p qui maximise cette probabilité.
Notion de vraisemblance
• L(x1, . . . , xn; p) est appelée vraisemblance (elle mesure lavraisemblance des réalisations x1, . . . , xn sous la loi Pp).
• L’approche consiste à choisir p qui "rend ces réalisations les plusvraisemblables possible".
92
![Page 230: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/230.jpg)
Retour à l’exemple 1
• X1, . . . ,Xn i.i.d. X1 ∼ B(p).• x1, . . . , xn réalisations de X1, . . . ,Xn.
Idée
1. La quantité L(x1, . . . , xn; p) = P(X1 = x1, . . . ,Xn = xn) peut être vuecomme une mesure de la probabilité d’observer les données observées.
2. Choisir le paramètre p qui maximise cette probabilité.
Notion de vraisemblance
• L(x1, . . . , xn; p) est appelée vraisemblance (elle mesure lavraisemblance des réalisations x1, . . . , xn sous la loi Pp).
• L’approche consiste à choisir p qui "rend ces réalisations les plusvraisemblables possible".
92
![Page 231: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/231.jpg)
Vraisemblance
Cas discret
La vraisemblance du paramètre θ pour la réalisation (x1, . . . , xn) estl’application L : Hn ×Θ définie par
L(x1, . . . , xn; θ) = P(X1 = x1, . . . ,XN = xn) =n∏
i=1
P(Xi = xi ).
Cas absolument continu
Soit f (., θ) la densité associé à Pθ. La vraisemblance du paramètre θpour la réalisation (x1, . . . , xn) est l’application L : Hn ×Θ définie par
L(x1, . . . , xn; θ) =n∏
i=1
f (xi , θ).
93
![Page 232: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/232.jpg)
Vraisemblance
Cas discret
La vraisemblance du paramètre θ pour la réalisation (x1, . . . , xn) estl’application L : Hn ×Θ définie par
L(x1, . . . , xn; θ) = P(X1 = x1, . . . ,XN = xn) =n∏
i=1
P(Xi = xi ).
Cas absolument continu
Soit f (., θ) la densité associé à Pθ. La vraisemblance du paramètre θpour la réalisation (x1, . . . , xn) est l’application L : Hn ×Θ définie par
L(x1, . . . , xn; θ) =n∏
i=1
f (xi , θ).
93
![Page 233: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/233.jpg)
L’estimateur du maximum de vraisemblance
DéfinitionUn estimateur du maximum de vraisemblance (EMV) est unestatistique g qui maximise la vraisemblance, c’est-à-dire∀(x1, . . . , xn) ∈ Hn
L(x1, . . . , xn; g(x1, . . . , xn)) = supθ∈Θ
L(x1, . . . , xn; θ).
L’EMV s’écrit alors θ = g(X1, . . . ,Xn).
Exemples
Bernoulli B(p) pMV = Xn
Poisson P(λ) λMV = Xn
Uniforme U[0,θ] θMV = max1≤i≤n Xi
94
![Page 234: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/234.jpg)
L’estimateur du maximum de vraisemblance
DéfinitionUn estimateur du maximum de vraisemblance (EMV) est unestatistique g qui maximise la vraisemblance, c’est-à-dire∀(x1, . . . , xn) ∈ Hn
L(x1, . . . , xn; g(x1, . . . , xn)) = supθ∈Θ
L(x1, . . . , xn; θ).
L’EMV s’écrit alors θ = g(X1, . . . ,Xn).
Exemples
Bernoulli B(p) pMV = Xn
Poisson P(λ) λMV = Xn
Uniforme U[0,θ] θMV = max1≤i≤n Xi
94
![Page 235: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/235.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
95
![Page 236: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/236.jpg)
• X1, . . . ,Xn i.i.d de loi Pθ avec θ inconnu dans R.
ObjectifMontrer que sous certaines hypothèses de régularité l’EMV estasymptotiquement VUMSB :
1. θ est asymptotiquement sans biais.2. il existe une fonction r(n, θ) telle que pour tout estimateur T sans biais de θ,
on a V(T ) ≥ r(n, θ).3. la variance asymptotique de l’EMV vaut r(n, θ).
96
![Page 237: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/237.jpg)
Information de Fisher
• Considérons pour l’instant 1 seule observation X de loi Pθ.
• On désigne par L1(.; θ) la vraisemblance associée.
DéfinitionSi elle existe (c’est-à-dire si la dérivée par rapport à θ de lalog-vraisemblance est de carré intégrable), l’information de Fisher associéeà l’observation X est définie par :
I : Θ→ R+
θ 7→ E
[(∂
∂θlog(L(X , θ))
)2]
97
![Page 238: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/238.jpg)
Information de Fisher
• Considérons pour l’instant 1 seule observation X de loi Pθ.
• On désigne par L1(.; θ) la vraisemblance associée.
DéfinitionSi elle existe (c’est-à-dire si la dérivée par rapport à θ de lalog-vraisemblance est de carré intégrable), l’information de Fisher associéeà l’observation X est définie par :
I : Θ→ R+
θ 7→ E
[(∂
∂θlog(L(X , θ))
)2]
97
![Page 239: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/239.jpg)
InterprétationL’information de Fisher peut s’interpréter comme :
• la quantité d’information apportée par l’observation X pour estimer leparamètre inconnu.
• une mesure du pouvoir de discrimination du modèle entre deux valeursproches du paramètre θ :• I (θ) grand : il sera "facile" d’identifier quel paramètre est le meilleur.• I (θ) petit : l’identification sera plus difficile.
Propriété
• Si elle existe, l’information de Fisher vérifie
I (θ) = −E[∂2
∂θ2 log(L(X , θ))
]= V
[∂
∂θlog(L(X , θ))
].
• On a de plus
I (θ) ≥ 0 et I (θ) = 0⇔ f (x , θ) = f (x).
98
![Page 240: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/240.jpg)
InterprétationL’information de Fisher peut s’interpréter comme :
• la quantité d’information apportée par l’observation X pour estimer leparamètre inconnu.
• une mesure du pouvoir de discrimination du modèle entre deux valeursproches du paramètre θ :• I (θ) grand : il sera "facile" d’identifier quel paramètre est le meilleur.• I (θ) petit : l’identification sera plus difficile.
Propriété
• Si elle existe, l’information de Fisher vérifie
I (θ) = −E[∂2
∂θ2 log(L(X , θ))
]= V
[∂
∂θlog(L(X , θ))
].
• On a de plus
I (θ) ≥ 0 et I (θ) = 0⇔ f (x , θ) = f (x).
98
![Page 241: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/241.jpg)
InterprétationL’information de Fisher peut s’interpréter comme :
• la quantité d’information apportée par l’observation X pour estimer leparamètre inconnu.
• une mesure du pouvoir de discrimination du modèle entre deux valeursproches du paramètre θ :• I (θ) grand : il sera "facile" d’identifier quel paramètre est le meilleur.• I (θ) petit : l’identification sera plus difficile.
Propriété
• Si elle existe, l’information de Fisher vérifie
I (θ) = −E[∂2
∂θ2 log(L(X , θ))
]= V
[∂
∂θlog(L(X , θ))
].
• On a de plus
I (θ) ≥ 0 et I (θ) = 0⇔ f (x , θ) = f (x). 98
![Page 242: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/242.jpg)
Exemple
• On considère le modèle de Bernoulli : X ∼ B(p).
• On a alorsL(x , p) = px(1− p)1−x
et∂2
∂p2 log(L(x , p)) = − x
p2 −1− x
(1− p)2 .
• D’où
I (p) = −E[− X
p2 −1− X
(1− p)2
]=
1p(1− p)
.
99
![Page 243: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/243.jpg)
Exemple
• On considère le modèle de Bernoulli : X ∼ B(p).
• On a alorsL(x , p) = px(1− p)1−x
et∂2
∂p2 log(L(x , p)) = − x
p2 −1− x
(1− p)2 .
• D’où
I (p) = −E[− X
p2 −1− X
(1− p)2
]=
1p(1− p)
.
99
![Page 244: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/244.jpg)
Fisher pour n observations
• On considère maintenant n observations X1, . . . ,Xn de loi Pθ.
• On désigne par L1(.; θ) la vraisemblance associée.
DéfinitionSi elle existe (c’est-à-dire si la dérivée par rapport à θ de lalog-vraisemblance est de carré intégrable), l’information de Fisher associéeà l’échantillon X1, . . . ,Xn est définie par :
In : Θ→ R+
θ 7→ Eθ
[(∂
∂θlog(L(X1, . . . ,Xn, θ))
)2]
100
![Page 245: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/245.jpg)
Propriété d’additivitéL’information de Fisher est additive :
In(θ) = nI (θ).
Modèle de Bernoulli
• X1, . . . ,Xn i.i.d de loi de Bernoulli B(p).
• On aIn(p) =
n
p(1− p).
101
![Page 246: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/246.jpg)
Propriété d’additivitéL’information de Fisher est additive :
In(θ) = nI (θ).
Modèle de Bernoulli
• X1, . . . ,Xn i.i.d de loi de Bernoulli B(p).
• On aIn(p) =
n
p(1− p).
101
![Page 247: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/247.jpg)
Cramér-Rao
Proposition
Soit θ un estimateur de θ de biais b(θ) = Eθ[θ]− θ. Alors sous certaineshypothèses de régularité (voir [Guyader, 2017]), on a
R(θ, θ) = E[(θ − θ)2] ≥ b(θ)2 +(1 + b′(θ))2
In(θ).
Corollaire : Inégalité de Cramér-Rao
On déduit que si θ est un estimateur sans biais de θ alors
V[θ] ≥ 1nI (θ)
.
102
![Page 248: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/248.jpg)
Cramér-Rao
Proposition
Soit θ un estimateur de θ de biais b(θ) = Eθ[θ]− θ. Alors sous certaineshypothèses de régularité (voir [Guyader, 2017]), on a
R(θ, θ) = E[(θ − θ)2] ≥ b(θ)2 +(1 + b′(θ))2
In(θ).
Corollaire : Inégalité de Cramér-Rao
On déduit que si θ est un estimateur sans biais de θ alors
V[θ] ≥ 1nI (θ)
.
102
![Page 249: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/249.jpg)
• La quantité 1In(θ) est appelée borne de Cramer-Rao.
• Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB. On dit aussi qu’il est efficace.
Exemple : modèle de Bernoulli
• X1, . . . ,Xn i.i.d. de loi de Bernoulli B(p).
• On a vu que In(p) = np(1−p) . La borne de Cramér-Rao vaut donc
p(1−p)n .
• On considère l’estimateur p = X = 1n
∑ni=1 Xi .
• Il est facile de voir que
E[p] = p et V[p] =p(1− p)
n.
• On conclut donc que p est VUMSB ou efficace.
103
![Page 250: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/250.jpg)
• La quantité 1In(θ) est appelée borne de Cramer-Rao.
• Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB. On dit aussi qu’il est efficace.
Exemple : modèle de Bernoulli
• X1, . . . ,Xn i.i.d. de loi de Bernoulli B(p).
• On a vu que In(p) = np(1−p) . La borne de Cramér-Rao vaut donc
p(1−p)n .
• On considère l’estimateur p = X = 1n
∑ni=1 Xi .
• Il est facile de voir que
E[p] = p et V[p] =p(1− p)
n.
• On conclut donc que p est VUMSB ou efficace.
103
![Page 251: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/251.jpg)
• La quantité 1In(θ) est appelée borne de Cramer-Rao.
• Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB. On dit aussi qu’il est efficace.
Exemple : modèle de Bernoulli
• X1, . . . ,Xn i.i.d. de loi de Bernoulli B(p).
• On a vu que In(p) = np(1−p) . La borne de Cramér-Rao vaut donc
p(1−p)n .
• On considère l’estimateur p = X = 1n
∑ni=1 Xi .
• Il est facile de voir que
E[p] = p et V[p] =p(1− p)
n.
• On conclut donc que p est VUMSB ou efficace.
103
![Page 252: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/252.jpg)
• La quantité 1In(θ) est appelée borne de Cramer-Rao.
• Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB. On dit aussi qu’il est efficace.
Exemple : modèle de Bernoulli
• X1, . . . ,Xn i.i.d. de loi de Bernoulli B(p).
• On a vu que In(p) = np(1−p) . La borne de Cramér-Rao vaut donc
p(1−p)n .
• On considère l’estimateur p = X = 1n
∑ni=1 Xi .
• Il est facile de voir que
E[p] = p et V[p] =p(1− p)
n.
• On conclut donc que p est VUMSB ou efficace.
103
![Page 253: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/253.jpg)
• La quantité 1In(θ) est appelée borne de Cramer-Rao.
• Si un estimateur sans biais θ atteint la borne de Cramer-Rao, il estVUMSB. On dit aussi qu’il est efficace.
Exemple : modèle de Bernoulli
• X1, . . . ,Xn i.i.d. de loi de Bernoulli B(p).
• On a vu que In(p) = np(1−p) . La borne de Cramér-Rao vaut donc
p(1−p)n .
• On considère l’estimateur p = X = 1n
∑ni=1 Xi .
• Il est facile de voir que
E[p] = p et V[p] =p(1− p)
n.
• On conclut donc que p est VUMSB ou efficace.
103
![Page 254: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/254.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
104
![Page 255: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/255.jpg)
La classe exponentielle
DéfinitionSoit un famille de lois admettant des densités (cas continu) ou desfonctions de masse (cas discret) f (x , θ), θ ∈ Θ ⊆ R. On dit qu’elleappartient à la famille ou classe exponentielle de lois si f (x , θ) peut s’écrire
f (x , θ) = a(θ)b(x) exp(c(θ)d(x))
pour tout x ∈ R.
• La plupart des lois standards appartiennent à la famille exponentielle.
105
![Page 256: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/256.jpg)
Exemples
• Loi de Bernoulli B(p) :
f (x , p) = px(1− p)1−x = (1− p) exp
(x log
p
1− p
).
• Loi de Poisson P(λ) :
f (x , λ) =λx exp(−λ)
x!= exp(−λ)
1x!
exp(x log λ).
Mais aussiLois exponentielle, normale, gamma...
106
![Page 257: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/257.jpg)
Exemples
• Loi de Bernoulli B(p) :
f (x , p) = px(1− p)1−x = (1− p) exp
(x log
p
1− p
).
• Loi de Poisson P(λ) :
f (x , λ) =λx exp(−λ)
x!= exp(−λ)
1x!
exp(x log λ).
Mais aussiLois exponentielle, normale, gamma...
106
![Page 258: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/258.jpg)
Exemples
• Loi de Bernoulli B(p) :
f (x , p) = px(1− p)1−x = (1− p) exp
(x log
p
1− p
).
• Loi de Poisson P(λ) :
f (x , λ) =λx exp(−λ)
x!= exp(−λ)
1x!
exp(x log λ).
Mais aussiLois exponentielle, normale, gamma...
106
![Page 259: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/259.jpg)
• Il est possible de montrer que les lois de la famille exponentiellepossèdent de bonnes propriétés.
• Notamment pour l’estimateur du maximum de vraisemblance.
• Ces propriétés seront étudiés au S2, on pourra aussi consulter[Lejeune, 2004].
107
![Page 260: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/260.jpg)
Modèle - estimateur
Biais, variance, risque quadratique
Quelques méthodes d’estimation
La méthode des moments
La méthode du maximum de vraisemblance
Information de Fisher
Annexe : La famille exponentielle
Bibliographie
108
![Page 261: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/261.jpg)
Références i
Cadre, B. and Vial, C. (2012).Statistique mathématique, cours et exercices corrigés.Ellipses.
Guyader, A. (2017).Statistique mathématique.Polycopié de cours, http ://www.lsta.upmc.fr/guyader/index.html.
Lejeune, M. (2004).Statistique. La théorie et ses applications.Springer.
109
![Page 262: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/262.jpg)
Troisième partie III
Convergences stochastiques
110
![Page 263: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/263.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
111
![Page 264: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/264.jpg)
Motivations
• X1, . . . ,Xn i.i.d. de loi Pθ avec θ inconnu dans Θ.• Un estimateur : une fonction θ(X1, . . . ,Xn).
• Le paramètre n représente souvent le nombre de mesures que l’on peutvoir d’une certaine façon comme une quantité d’information àdisposition pour bien estimer θ.
Conséquence
• Plus on a d’information, plus on doit être précis.
• Plus n est grand, plus θ(X1, . . . ,Xn) doit être proche de θ.
• On a donc envie de traduire cela par limn→∞ θ(X1, . . . ,Xn) = θ.
ProblèmeQue signifie cette notion de limite ?
112
![Page 265: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/265.jpg)
Motivations
• X1, . . . ,Xn i.i.d. de loi Pθ avec θ inconnu dans Θ.• Un estimateur : une fonction θ(X1, . . . ,Xn).• Le paramètre n représente souvent le nombre de mesures que l’on peut
voir d’une certaine façon comme une quantité d’information àdisposition pour bien estimer θ.
Conséquence
• Plus on a d’information, plus on doit être précis.
• Plus n est grand, plus θ(X1, . . . ,Xn) doit être proche de θ.
• On a donc envie de traduire cela par limn→∞ θ(X1, . . . ,Xn) = θ.
ProblèmeQue signifie cette notion de limite ?
112
![Page 266: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/266.jpg)
Motivations
• X1, . . . ,Xn i.i.d. de loi Pθ avec θ inconnu dans Θ.• Un estimateur : une fonction θ(X1, . . . ,Xn).• Le paramètre n représente souvent le nombre de mesures que l’on peut
voir d’une certaine façon comme une quantité d’information àdisposition pour bien estimer θ.
Conséquence
• Plus on a d’information, plus on doit être précis.
• Plus n est grand, plus θ(X1, . . . ,Xn) doit être proche de θ.
• On a donc envie de traduire cela par limn→∞ θ(X1, . . . ,Xn) = θ.
ProblèmeQue signifie cette notion de limite ?
112
![Page 267: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/267.jpg)
Motivations
• X1, . . . ,Xn i.i.d. de loi Pθ avec θ inconnu dans Θ.• Un estimateur : une fonction θ(X1, . . . ,Xn).• Le paramètre n représente souvent le nombre de mesures que l’on peut
voir d’une certaine façon comme une quantité d’information àdisposition pour bien estimer θ.
Conséquence
• Plus on a d’information, plus on doit être précis.
• Plus n est grand, plus θ(X1, . . . ,Xn) doit être proche de θ.
• On a donc envie de traduire cela par limn→∞ θ(X1, . . . ,Xn) = θ.
ProblèmeQue signifie cette notion de limite ?
112
![Page 268: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/268.jpg)
Motivations
• X1, . . . ,Xn i.i.d. de loi Pθ avec θ inconnu dans Θ.• Un estimateur : une fonction θ(X1, . . . ,Xn).• Le paramètre n représente souvent le nombre de mesures que l’on peut
voir d’une certaine façon comme une quantité d’information àdisposition pour bien estimer θ.
Conséquence
• Plus on a d’information, plus on doit être précis.
• Plus n est grand, plus θ(X1, . . . ,Xn) doit être proche de θ.
• On a donc envie de traduire cela par limn→∞ θ(X1, . . . ,Xn) = θ.
ProblèmeQue signifie cette notion de limite ?
112
![Page 269: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/269.jpg)
Retour vers les probabilités
• Cadre : (Xn)n une suite de variables aléatoires réelles et X une variablealéatoire réelle.
• On cherche à définir la notion de limite : limn→∞ Xn = X .
Première idée
• Une variable aléatoire réelle est une fonction qui va de Ω dans R.
• Utiliser les modes de convergence réservés aux fonctions.
Exemple
On pourrait dire que (Xn)n converge simplement vers X si pour toutω ∈ Ω la suite réelle (Xn(ω))n converge vers X (ω) :
∀ω ∈ Ω, limn→∞
Xn(ω) = X (ω).
113
![Page 270: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/270.jpg)
Retour vers les probabilités
• Cadre : (Xn)n une suite de variables aléatoires réelles et X une variablealéatoire réelle.
• On cherche à définir la notion de limite : limn→∞ Xn = X .
Première idée
• Une variable aléatoire réelle est une fonction qui va de Ω dans R.
• Utiliser les modes de convergence réservés aux fonctions.
Exemple
On pourrait dire que (Xn)n converge simplement vers X si pour toutω ∈ Ω la suite réelle (Xn(ω))n converge vers X (ω) :
∀ω ∈ Ω, limn→∞
Xn(ω) = X (ω).
113
![Page 271: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/271.jpg)
Retour vers les probabilités
• Cadre : (Xn)n une suite de variables aléatoires réelles et X une variablealéatoire réelle.
• On cherche à définir la notion de limite : limn→∞ Xn = X .
Première idée
• Une variable aléatoire réelle est une fonction qui va de Ω dans R.
• Utiliser les modes de convergence réservés aux fonctions.
Exemple
On pourrait dire que (Xn)n converge simplement vers X si pour toutω ∈ Ω la suite réelle (Xn(ω))n converge vers X (ω) :
∀ω ∈ Ω, limn→∞
Xn(ω) = X (ω).
113
![Page 272: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/272.jpg)
• Bien que naturelle, cette définition est, de manière surprenante, à peuprès inutile en probabilités.
Exemple du pile ou face
• On joue n fois à pile ou face avec une pièce équilibrée.
• Xi : v.a.r. qui vaut 1 si face au i e jet, 0 sinon. Xi ∼ B(1/2).
• Lorsque n est grand, la proportion de faces après n lancers "doit"tendre vers 1/2. On a donc envie d’écrire
limn→∞
X1(ω) + . . .+ Xn(ω)
n=
12.
• Ceci est pourtant faux, si on utilise la définition précédente : il suffit deconsidérer l’évènement ω0 = f , f , f , f , f , .... (obtenir que des faces)
limn→∞
X1(ω0) + . . .+ Xn(ω0)
n= 1.
• Il est donc nécessaire de définir des modes de convergence spécifiquesaux v.a..
114
![Page 273: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/273.jpg)
• Bien que naturelle, cette définition est, de manière surprenante, à peuprès inutile en probabilités.
Exemple du pile ou face
• On joue n fois à pile ou face avec une pièce équilibrée.
• Xi : v.a.r. qui vaut 1 si face au i e jet, 0 sinon.
Xi ∼ B(1/2).
• Lorsque n est grand, la proportion de faces après n lancers "doit"tendre vers 1/2. On a donc envie d’écrire
limn→∞
X1(ω) + . . .+ Xn(ω)
n=
12.
• Ceci est pourtant faux, si on utilise la définition précédente : il suffit deconsidérer l’évènement ω0 = f , f , f , f , f , .... (obtenir que des faces)
limn→∞
X1(ω0) + . . .+ Xn(ω0)
n= 1.
• Il est donc nécessaire de définir des modes de convergence spécifiquesaux v.a..
114
![Page 274: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/274.jpg)
• Bien que naturelle, cette définition est, de manière surprenante, à peuprès inutile en probabilités.
Exemple du pile ou face
• On joue n fois à pile ou face avec une pièce équilibrée.
• Xi : v.a.r. qui vaut 1 si face au i e jet, 0 sinon. Xi ∼ B(1/2).
• Lorsque n est grand, la proportion de faces après n lancers "doit"tendre vers 1/2. On a donc envie d’écrire
limn→∞
X1(ω) + . . .+ Xn(ω)
n=
12.
• Ceci est pourtant faux, si on utilise la définition précédente : il suffit deconsidérer l’évènement ω0 = f , f , f , f , f , .... (obtenir que des faces)
limn→∞
X1(ω0) + . . .+ Xn(ω0)
n= 1.
• Il est donc nécessaire de définir des modes de convergence spécifiquesaux v.a..
114
![Page 275: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/275.jpg)
• Bien que naturelle, cette définition est, de manière surprenante, à peuprès inutile en probabilités.
Exemple du pile ou face
• On joue n fois à pile ou face avec une pièce équilibrée.
• Xi : v.a.r. qui vaut 1 si face au i e jet, 0 sinon. Xi ∼ B(1/2).
• Lorsque n est grand, la proportion de faces après n lancers "doit"tendre vers 1/2. On a donc envie d’écrire
limn→∞
X1(ω) + . . .+ Xn(ω)
n=
12.
• Ceci est pourtant faux, si on utilise la définition précédente : il suffit deconsidérer l’évènement ω0 = f , f , f , f , f , .... (obtenir que des faces)
limn→∞
X1(ω0) + . . .+ Xn(ω0)
n= 1.
• Il est donc nécessaire de définir des modes de convergence spécifiquesaux v.a..
114
![Page 276: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/276.jpg)
• Bien que naturelle, cette définition est, de manière surprenante, à peuprès inutile en probabilités.
Exemple du pile ou face
• On joue n fois à pile ou face avec une pièce équilibrée.
• Xi : v.a.r. qui vaut 1 si face au i e jet, 0 sinon. Xi ∼ B(1/2).
• Lorsque n est grand, la proportion de faces après n lancers "doit"tendre vers 1/2. On a donc envie d’écrire
limn→∞
X1(ω) + . . .+ Xn(ω)
n=
12.
• Ceci est pourtant faux, si on utilise la définition précédente : il suffit deconsidérer l’évènement ω0 = f , f , f , f , f , .... (obtenir que des faces)
limn→∞
X1(ω0) + . . .+ Xn(ω0)
n= 1.
• Il est donc nécessaire de définir des modes de convergence spécifiquesaux v.a..
114
![Page 277: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/277.jpg)
• Bien que naturelle, cette définition est, de manière surprenante, à peuprès inutile en probabilités.
Exemple du pile ou face
• On joue n fois à pile ou face avec une pièce équilibrée.
• Xi : v.a.r. qui vaut 1 si face au i e jet, 0 sinon. Xi ∼ B(1/2).
• Lorsque n est grand, la proportion de faces après n lancers "doit"tendre vers 1/2. On a donc envie d’écrire
limn→∞
X1(ω) + . . .+ Xn(ω)
n=
12.
• Ceci est pourtant faux, si on utilise la définition précédente : il suffit deconsidérer l’évènement ω0 = f , f , f , f , f , .... (obtenir que des faces)
limn→∞
X1(ω0) + . . .+ Xn(ω0)
n= 1.
• Il est donc nécessaire de définir des modes de convergence spécifiquesaux v.a..
114
![Page 278: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/278.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
115
![Page 279: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/279.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
116
![Page 280: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/280.jpg)
Exemple du pile ou face (retour)
• Il est facile de voir que l’évènement ω0 est assez invraisemblablelorsque n est grand. En effet P(ω0) = 1/2n.
• On peut même montrer qu’il en est de même pour tous les évènementsoù on n’a pas convergence, on a donc
P
(ω : lim
n→∞
1n
n∑i=1
Xi (ω) =12
)= 1.
• Conclusion : l’ensemble des évènements où la convergence ne seproduit pas est de probabilité nulle. On parle de convergence presquesûre.
117
![Page 281: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/281.jpg)
Exemple du pile ou face (retour)
• Il est facile de voir que l’évènement ω0 est assez invraisemblablelorsque n est grand. En effet P(ω0) = 1/2n.
• On peut même montrer qu’il en est de même pour tous les évènementsoù on n’a pas convergence, on a donc
P
(ω : lim
n→∞
1n
n∑i=1
Xi (ω) =12
)= 1.
• Conclusion : l’ensemble des évènements où la convergence ne seproduit pas est de probabilité nulle. On parle de convergence presquesûre.
117
![Page 282: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/282.jpg)
Définition
On dit que (Xn)n converge presque sûrement vers une variable aléatoire X
si l’ensemble N des ω tels que la suite numérique (Xn(ω))n ne convergepas vers X (ω) est négligeable (c’est-à-dire vérifie P(N) = 0). On note
limn→∞
Xn = X p.s. ou Xnp.s.→ X .
Remarque
On peut aussi dire que Xnp.s.→ X si et seulement si
P(ω ∈ Ω : lim
n→∞Xn(ω) 6= X (ω)
)= 0
ou encoreP(ω ∈ Ω : lim
n→∞Xn(ω) = X (ω)
)= 1.
118
![Page 283: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/283.jpg)
Définition
On dit que (Xn)n converge presque sûrement vers une variable aléatoire X
si l’ensemble N des ω tels que la suite numérique (Xn(ω))n ne convergepas vers X (ω) est négligeable (c’est-à-dire vérifie P(N) = 0). On note
limn→∞
Xn = X p.s. ou Xnp.s.→ X .
Remarque
On peut aussi dire que Xnp.s.→ X si et seulement si
P(ω ∈ Ω : lim
n→∞Xn(ω) 6= X (ω)
)= 0
ou encoreP(ω ∈ Ω : lim
n→∞Xn(ω) = X (ω)
)= 1.
118
![Page 284: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/284.jpg)
Proposition : opérations sur la cv ps
1. Si Xnp.s.→ X et si ϕ : R→ R est une fonction continue sur R alors
ϕ(Xn)p.s.→ ϕ(X ).
2. Si Xnp.s.→ X et Yn
p.s.→ Y alors• pour tout réels a et b, aXn + bYn
p.s.→ aX + bY ;• XnYn
p.s.→ XY .• Xn/Yn
p.s.→ X/Y si P(Y = 0) = 0.
ConclusionLes opérations classiques sur les limites sont conservées par laconvergence presque sûre.
119
![Page 285: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/285.jpg)
Proposition : opérations sur la cv ps
1. Si Xnp.s.→ X et si ϕ : R→ R est une fonction continue sur R alors
ϕ(Xn)p.s.→ ϕ(X ).
2. Si Xnp.s.→ X et Yn
p.s.→ Y alors• pour tout réels a et b, aXn + bYn
p.s.→ aX + bY ;• XnYn
p.s.→ XY .• Xn/Yn
p.s.→ X/Y si P(Y = 0) = 0.
ConclusionLes opérations classiques sur les limites sont conservées par laconvergence presque sûre.
119
![Page 286: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/286.jpg)
Proposition : opérations sur la cv ps
1. Si Xnp.s.→ X et si ϕ : R→ R est une fonction continue sur R alors
ϕ(Xn)p.s.→ ϕ(X ).
2. Si Xnp.s.→ X et Yn
p.s.→ Y alors• pour tout réels a et b, aXn + bYn
p.s.→ aX + bY ;• XnYn
p.s.→ XY .• Xn/Yn
p.s.→ X/Y si P(Y = 0) = 0.
ConclusionLes opérations classiques sur les limites sont conservées par laconvergence presque sûre.
119
![Page 287: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/287.jpg)
Comment montrer une convergence ps
• On utilise rarement la définition pour montrer la convergence presquesûre. On a souvent recourt à l’un des critères suivants.
Théorème
La suite de v.a.r. (Xn)n converge presque sûrement vers X si et seulementsi pour tout ε > 0,
limn→∞
P(supm≥n|Xm − X | > ε) = 0.
Lemme de Borel-CantelliSi pour tout ε > 0, ∑
n∈NP(|Xn − X | > ε) < +∞
alors Xnp.s.→ X .
120
![Page 288: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/288.jpg)
Comment montrer une convergence ps
• On utilise rarement la définition pour montrer la convergence presquesûre. On a souvent recourt à l’un des critères suivants.
Théorème
La suite de v.a.r. (Xn)n converge presque sûrement vers X si et seulementsi pour tout ε > 0,
limn→∞
P(supm≥n|Xm − X | > ε) = 0.
Lemme de Borel-CantelliSi pour tout ε > 0, ∑
n∈NP(|Xn − X | > ε) < +∞
alors Xnp.s.→ X .
120
![Page 289: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/289.jpg)
Comment montrer une convergence ps
• On utilise rarement la définition pour montrer la convergence presquesûre. On a souvent recourt à l’un des critères suivants.
Théorème
La suite de v.a.r. (Xn)n converge presque sûrement vers X si et seulementsi pour tout ε > 0,
limn→∞
P(supm≥n|Xm − X | > ε) = 0.
Lemme de Borel-CantelliSi pour tout ε > 0, ∑
n∈NP(|Xn − X | > ε) < +∞
alors Xnp.s.→ X . 120
![Page 290: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/290.jpg)
Exemple
• (Xn)n suite de v.a.r. i.i.d telle que P(Xn = 1) = P(Xn = −1) = 12 .
• Question : est-ce que1n2
n∑i=1
Xip.s.→ 0 ?
• On a d’après B.T.
P
(∣∣∣∣∣ 1n2
n∑i=1
Xi
∣∣∣∣∣ > ε
)≤ 1
n3ε2.
• On a donc1n2
n∑i=1
Xip.s.→ 0.
121
![Page 291: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/291.jpg)
Exemple
• (Xn)n suite de v.a.r. i.i.d telle que P(Xn = 1) = P(Xn = −1) = 12 .
• Question : est-ce que1n2
n∑i=1
Xip.s.→ 0 ?
• On a d’après B.T.
P
(∣∣∣∣∣ 1n2
n∑i=1
Xi
∣∣∣∣∣ > ε
)≤ 1
n3ε2.
• On a donc1n2
n∑i=1
Xip.s.→ 0.
121
![Page 292: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/292.jpg)
Exemple
• (Xn)n suite de v.a.r. i.i.d telle que P(Xn = 1) = P(Xn = −1) = 12 .
• Question : est-ce que1n2
n∑i=1
Xip.s.→ 0 ?
• On a d’après B.T.
P
(∣∣∣∣∣ 1n2
n∑i=1
Xi
∣∣∣∣∣ > ε
)≤ 1
n3ε2.
• On a donc1n2
n∑i=1
Xip.s.→ 0.
121
![Page 293: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/293.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
122
![Page 294: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/294.jpg)
Définition
On dit que (Xn)n∈N converge en probabilité vers X si pour tout ε > 0, ona
limn→∞
P(|Xn − X | > ε) = 0.
On note XnP→ X .
Exemple
• Soit X1, . . . ,Xn, n ≥ 1 des v.a.r. indépendantes telles que E[Xn] = 0 etV(Xn) = σ2. On note Xn = 1
n
∑ni=1 Xi .
• D’après Bienaymé-Tchebytchev, on a
P(|Xn| > ε) ≤ 1n2ε2
V
(n∑
i=1
Xi
)=
σ2
nε2.
• On a donc XnP→ 0.
123
![Page 295: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/295.jpg)
Définition
On dit que (Xn)n∈N converge en probabilité vers X si pour tout ε > 0, ona
limn→∞
P(|Xn − X | > ε) = 0.
On note XnP→ X .
Exemple
• Soit X1, . . . ,Xn, n ≥ 1 des v.a.r. indépendantes telles que E[Xn] = 0 etV(Xn) = σ2. On note Xn = 1
n
∑ni=1 Xi .
• D’après Bienaymé-Tchebytchev, on a
P(|Xn| > ε) ≤ 1n2ε2
V
(n∑
i=1
Xi
)=
σ2
nε2.
• On a donc XnP→ 0.
123
![Page 296: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/296.jpg)
Définition
On dit que (Xn)n∈N converge en probabilité vers X si pour tout ε > 0, ona
limn→∞
P(|Xn − X | > ε) = 0.
On note XnP→ X .
Exemple
• Soit X1, . . . ,Xn, n ≥ 1 des v.a.r. indépendantes telles que E[Xn] = 0 etV(Xn) = σ2. On note Xn = 1
n
∑ni=1 Xi .
• D’après Bienaymé-Tchebytchev, on a
P(|Xn| > ε) ≤ 1n2ε2
V
(n∑
i=1
Xi
)=
σ2
nε2.
• On a donc XnP→ 0.
123
![Page 297: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/297.jpg)
Définition
On dit que (Xn)n∈N converge en probabilité vers X si pour tout ε > 0, ona
limn→∞
P(|Xn − X | > ε) = 0.
On note XnP→ X .
Exemple
• Soit X1, . . . ,Xn, n ≥ 1 des v.a.r. indépendantes telles que E[Xn] = 0 etV(Xn) = σ2. On note Xn = 1
n
∑ni=1 Xi .
• D’après Bienaymé-Tchebytchev, on a
P(|Xn| > ε) ≤ 1n2ε2
V
(n∑
i=1
Xi
)=
σ2
nε2.
• On a donc XnP→ 0.
123
![Page 298: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/298.jpg)
Exemple
• Soit (Xn)n∈N une suite de variables aléatoires dont la loi est définie par
P(Xn =√n) =
1n
et P(Xn = 0) = 1− 1n.
• On a pour ε > 0 fixé,
P(|Xn| > ε) =P(|Xn| > ε ∩ Xn =√n) + P(|Xn| > ε ∩ Xn = 0)
=P(|Xn| > ε ∩ Xn =√n).
• Or, pour n assez grand, |Xn| > ε = Xn =√n, donc
limn→∞
P(|Xn| > ε) = limn→∞
1/n = 0.
• On déduit XnP→ 0.
124
![Page 299: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/299.jpg)
Exemple
• Soit (Xn)n∈N une suite de variables aléatoires dont la loi est définie par
P(Xn =√n) =
1n
et P(Xn = 0) = 1− 1n.
• On a pour ε > 0 fixé,
P(|Xn| > ε) =P(|Xn| > ε ∩ Xn =√n) + P(|Xn| > ε ∩ Xn = 0)
=P(|Xn| > ε ∩ Xn =√n).
• Or, pour n assez grand, |Xn| > ε = Xn =√n, donc
limn→∞
P(|Xn| > ε) = limn→∞
1/n = 0.
• On déduit XnP→ 0.
124
![Page 300: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/300.jpg)
Exemple
• Soit (Xn)n∈N une suite de variables aléatoires dont la loi est définie par
P(Xn =√n) =
1n
et P(Xn = 0) = 1− 1n.
• On a pour ε > 0 fixé,
P(|Xn| > ε) =P(|Xn| > ε ∩ Xn =√n) + P(|Xn| > ε ∩ Xn = 0)
=P(|Xn| > ε ∩ Xn =√n).
• Or, pour n assez grand, |Xn| > ε = Xn =√n, donc
limn→∞
P(|Xn| > ε) = limn→∞
1/n = 0.
• On déduit XnP→ 0.
124
![Page 301: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/301.jpg)
Exemple
• Soit (Xn)n∈N une suite de variables aléatoires dont la loi est définie par
P(Xn =√n) =
1n
et P(Xn = 0) = 1− 1n.
• On a pour ε > 0 fixé,
P(|Xn| > ε) =P(|Xn| > ε ∩ Xn =√n) + P(|Xn| > ε ∩ Xn = 0)
=P(|Xn| > ε ∩ Xn =√n).
• Or, pour n assez grand, |Xn| > ε = Xn =√n, donc
limn→∞
P(|Xn| > ε) = limn→∞
1/n = 0.
• On déduit XnP→ 0.
124
![Page 302: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/302.jpg)
• Les opérations sur les limites présentées pour la convergence presquesûre sont également vraies pour la convergence en probabilité.
Proposition : opérations sur la cv en proba
1. Si XnP→ X et si ϕ : R→ R est une fonction continue sur R alors
ϕ(Xn)P→ ϕ(X ).
2. Si XnP→ X et Yn
P→ Y alors• pour tout réels a et b, aXn + bYn
P→ aX + bY ;• XnYn
P→ XY .• Xn/Yn
P→ X/Y si P(Y = 0) = 0.
Théorème
Si Xnp.s.→ X alors Xn
P→ X .
• Attention : la réciproque est fausse ! Une contre exemple est donnédans [Jacod and Protter, 2003], page 152.
125
![Page 303: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/303.jpg)
• Les opérations sur les limites présentées pour la convergence presquesûre sont également vraies pour la convergence en probabilité.
Proposition : opérations sur la cv en proba
1. Si XnP→ X et si ϕ : R→ R est une fonction continue sur R alors
ϕ(Xn)P→ ϕ(X ).
2. Si XnP→ X et Yn
P→ Y alors• pour tout réels a et b, aXn + bYn
P→ aX + bY ;• XnYn
P→ XY .• Xn/Yn
P→ X/Y si P(Y = 0) = 0.
Théorème
Si Xnp.s.→ X alors Xn
P→ X .
• Attention : la réciproque est fausse ! Une contre exemple est donnédans [Jacod and Protter, 2003], page 152.
125
![Page 304: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/304.jpg)
• Les opérations sur les limites présentées pour la convergence presquesûre sont également vraies pour la convergence en probabilité.
Proposition : opérations sur la cv en proba
1. Si XnP→ X et si ϕ : R→ R est une fonction continue sur R alors
ϕ(Xn)P→ ϕ(X ).
2. Si XnP→ X et Yn
P→ Y alors• pour tout réels a et b, aXn + bYn
P→ aX + bY ;• XnYn
P→ XY .• Xn/Yn
P→ X/Y si P(Y = 0) = 0.
Théorème
Si Xnp.s.→ X alors Xn
P→ X .
• Attention : la réciproque est fausse ! Une contre exemple est donnédans [Jacod and Protter, 2003], page 152.
125
![Page 305: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/305.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
126
![Page 306: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/306.jpg)
Définition
Soit p > 0. On dit que (Xn)n∈N converge en moyenne d’ordre p (ou dansLp) vers X si les Xn et X sont dans Lp (E[|Xn|p] < +∞ etE[|X |p] < +∞), et si on a
limn→∞
E[|Xn − X |p] = 0.
On note XnLp→ X .
• Les cas les plus importants sont p = 1 (convergence en moyenne) etp = 2 (convergence en moyenne quadratique).
• Convergence en moyenne (dans L1) : si XnL1→ X , alors
limn→∞
E[Xn] = E[X ] et limn→∞
E[|Xn|] = E[|X |].
127
![Page 307: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/307.jpg)
Définition
Soit p > 0. On dit que (Xn)n∈N converge en moyenne d’ordre p (ou dansLp) vers X si les Xn et X sont dans Lp (E[|Xn|p] < +∞ etE[|X |p] < +∞), et si on a
limn→∞
E[|Xn − X |p] = 0.
On note XnLp→ X .
• Les cas les plus importants sont p = 1 (convergence en moyenne) etp = 2 (convergence en moyenne quadratique).
• Convergence en moyenne (dans L1) : si XnL1→ X , alors
limn→∞
E[Xn] = E[X ] et limn→∞
E[|Xn|] = E[|X |].
127
![Page 308: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/308.jpg)
Définition
Soit p > 0. On dit que (Xn)n∈N converge en moyenne d’ordre p (ou dansLp) vers X si les Xn et X sont dans Lp (E[|Xn|p] < +∞ etE[|X |p] < +∞), et si on a
limn→∞
E[|Xn − X |p] = 0.
On note XnLp→ X .
• Les cas les plus importants sont p = 1 (convergence en moyenne) etp = 2 (convergence en moyenne quadratique).
• Convergence en moyenne (dans L1) : si XnL1→ X , alors
limn→∞
E[Xn] = E[X ] et limn→∞
E[|Xn|] = E[|X |].
127
![Page 309: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/309.jpg)
Convergence dans L2
• Il est facile de voir que
E[(Xn − a)2] = (E[Xn]− a)2 + V[Xn].
• On déduit
XnL2→ a⇐⇒
limn→∞ E[Xn] = a
limn→∞V[Xn] = 0
Application en statistique
Si θnL2→ θ alors
• le biais de θn tend vers 0.
• la variance tend vers 0.
128
![Page 310: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/310.jpg)
Convergence dans L2
• Il est facile de voir que
E[(Xn − a)2] = (E[Xn]− a)2 + V[Xn].
• On déduit
XnL2→ a⇐⇒
limn→∞ E[Xn] = a
limn→∞V[Xn] = 0
Application en statistique
Si θnL2→ θ alors
• le biais de θn tend vers 0.
• la variance tend vers 0.
128
![Page 311: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/311.jpg)
Convergence dans L2
• Il est facile de voir que
E[(Xn − a)2] = (E[Xn]− a)2 + V[Xn].
• On déduit
XnL2→ a⇐⇒
limn→∞ E[Xn] = a
limn→∞V[Xn] = 0
Application en statistique
Si θnL2→ θ alors
• le biais de θn tend vers 0.
• la variance tend vers 0.
128
![Page 312: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/312.jpg)
• On a d’après l’inégalité de Jensen
E|Xn − X | = E√
(Xn − X )2 ≤√E|Xn − X |2.
• On déduit la propriété suivante.
Propriété
XnL2→ X =⇒ Xn
L1→ X .
Théorème
Si XnLp→ X alors Xn
P→ X .
• Attention : la réciproque est fausse !• On peut comme contre-exemple utiliser pour p = 2 la suite de v.a.r. de
loiP(Xn =
√n) =
1n
et P(Xn = 0) = 1− 1n.
129
![Page 313: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/313.jpg)
• On a d’après l’inégalité de Jensen
E|Xn − X | = E√
(Xn − X )2 ≤√E|Xn − X |2.
• On déduit la propriété suivante.
Propriété
XnL2→ X =⇒ Xn
L1→ X .
Théorème
Si XnLp→ X alors Xn
P→ X .
• Attention : la réciproque est fausse !• On peut comme contre-exemple utiliser pour p = 2 la suite de v.a.r. de
loiP(Xn =
√n) =
1n
et P(Xn = 0) = 1− 1n.
129
![Page 314: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/314.jpg)
• On a d’après l’inégalité de Jensen
E|Xn − X | = E√
(Xn − X )2 ≤√E|Xn − X |2.
• On déduit la propriété suivante.
Propriété
XnL2→ X =⇒ Xn
L1→ X .
Théorème
Si XnLp→ X alors Xn
P→ X .
• Attention : la réciproque est fausse !• On peut comme contre-exemple utiliser pour p = 2 la suite de v.a.r. de
loiP(Xn =
√n) =
1n
et P(Xn = 0) = 1− 1n.
129
![Page 315: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/315.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
130
![Page 316: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/316.jpg)
• Bien que différent, les trois modes de convergence vus précédemmentsont de même nature et peuvent être abordés comme des variantes dela convergence habituelle.
• Il existe un autre mode de convergence, différent des précédents maistrès utile en probabilité : la convergence en loi, ou convergence faibleou encore convergence étroite.
• Dans cette partie, nous donnons la définition ainsi que les principalespropriétés de ce nouveau mode de convergence. Pour plus de détails,ainsi que pour les preuves des résultats, on pourra consulter[Jacod and Protter, 2003].
131
![Page 317: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/317.jpg)
L’idée
• La loi de Xn se rapproche de la loi de X lorsque n est grand.
• Définir la convergence en loi par quelque chose du genre
XnL→ X ⇐⇒
pour n grand L(Xn) ≈ L(X )
ou∀A ∈ B(R), limn→∞ P(Xn ∈ A) = P(X ∈ A)
ou∀x ∈ R, limn→∞ FXn(x) = FX (x)
(1)
Mais...Cette définition n’est cependant pas totalement satisfaisante.
132
![Page 318: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/318.jpg)
L’idée
• La loi de Xn se rapproche de la loi de X lorsque n est grand.
• Définir la convergence en loi par quelque chose du genre
XnL→ X ⇐⇒
pour n grand L(Xn) ≈ L(X )
ou∀A ∈ B(R), limn→∞ P(Xn ∈ A) = P(X ∈ A)
ou∀x ∈ R, limn→∞ FXn(x) = FX (x)
(1)
Mais...Cette définition n’est cependant pas totalement satisfaisante.
132
![Page 319: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/319.jpg)
L’idée
• La loi de Xn se rapproche de la loi de X lorsque n est grand.
• Définir la convergence en loi par quelque chose du genre
XnL→ X ⇐⇒
pour n grand L(Xn) ≈ L(X )
ou∀A ∈ B(R), limn→∞ P(Xn ∈ A) = P(X ∈ A)
ou∀x ∈ R, limn→∞ FXn(x) = FX (x)
(1)
Mais...Cette définition n’est cependant pas totalement satisfaisante.
132
![Page 320: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/320.jpg)
(Contre) exemple
• (Xn)n de loi uniforme sur ]− 1/n; 1/n[ et X = 0 p.s.
Cv p.s., proba, Lp
• On a pour tout ε > 0
P(|Xn| > ε) =1− P(−ε < Xn < ε)
=1− n
2
[min
(1n, ε
)−max
(−1n,−ε
)]=0 pour n assez grand.
• Conclusion : XnP→ X (mais aussi p.s. et dans Lp).
133
![Page 321: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/321.jpg)
(Contre) exemple
• (Xn)n de loi uniforme sur ]− 1/n; 1/n[ et X = 0 p.s.
Cv p.s., proba, Lp
• On a pour tout ε > 0
P(|Xn| > ε) =1− P(−ε < Xn < ε)
=1− n
2
[min
(1n, ε
)−max
(−1n,−ε
)]=0 pour n assez grand.
• Conclusion : XnP→ X (mais aussi p.s. et dans Lp).
133
![Page 322: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/322.jpg)
(Contre) exemple
• (Xn)n de loi uniforme sur ]− 1/n; 1/n[ et X = 0 p.s.
Cv p.s., proba, Lp
• On a pour tout ε > 0
P(|Xn| > ε) =1− P(−ε < Xn < ε)
=1− n
2
[min
(1n, ε
)−max
(−1n,−ε
)]=0 pour n assez grand.
• Conclusion : XnP→ X (mais aussi p.s. et dans Lp).
133
![Page 323: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/323.jpg)
Remarque
• Cependant P(Xn ≤ 0) = 1
2 6= 1 = P(X ≤ 0)
P(Xn > 0) = 12 6= 0 = P(X > 0)
• Conséquence : (Xn)n ne converge pas en loi vers X au sens de ladéfinition (1).
Remarque
• Pour tout intervalle [a, b] avec a 6= 0 et b 6= 0, on a
limn→∞
P(Xn ∈ [a, b]) = P(X ∈ [a, b]).
• On a également pour x 6= 0 limn→∞ FXn(x) = Fx(x).
• Les problèmes de la définition (1) se situent lorsque x = 0, c’est-à-direen l’unique point de discontinuité de la fonction de répartition de FX .
134
![Page 324: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/324.jpg)
Remarque
• Cependant P(Xn ≤ 0) = 1
2 6= 1 = P(X ≤ 0)
P(Xn > 0) = 12 6= 0 = P(X > 0)
• Conséquence : (Xn)n ne converge pas en loi vers X au sens de ladéfinition (1).
Remarque
• Pour tout intervalle [a, b] avec a 6= 0 et b 6= 0, on a
limn→∞
P(Xn ∈ [a, b]) = P(X ∈ [a, b]).
• On a également pour x 6= 0 limn→∞ FXn(x) = Fx(x).
• Les problèmes de la définition (1) se situent lorsque x = 0, c’est-à-direen l’unique point de discontinuité de la fonction de répartition de FX .
134
![Page 325: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/325.jpg)
Remarque
• Cependant P(Xn ≤ 0) = 1
2 6= 1 = P(X ≤ 0)
P(Xn > 0) = 12 6= 0 = P(X > 0)
• Conséquence : (Xn)n ne converge pas en loi vers X au sens de ladéfinition (1).
Remarque
• Pour tout intervalle [a, b] avec a 6= 0 et b 6= 0, on a
limn→∞
P(Xn ∈ [a, b]) = P(X ∈ [a, b]).
• On a également pour x 6= 0 limn→∞ FXn(x) = Fx(x).
• Les problèmes de la définition (1) se situent lorsque x = 0, c’est-à-direen l’unique point de discontinuité de la fonction de répartition de FX .
134
![Page 326: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/326.jpg)
Remarque
• Cependant P(Xn ≤ 0) = 1
2 6= 1 = P(X ≤ 0)
P(Xn > 0) = 12 6= 0 = P(X > 0)
• Conséquence : (Xn)n ne converge pas en loi vers X au sens de ladéfinition (1).
Remarque
• Pour tout intervalle [a, b] avec a 6= 0 et b 6= 0, on a
limn→∞
P(Xn ∈ [a, b]) = P(X ∈ [a, b]).
• On a également pour x 6= 0 limn→∞ FXn(x) = Fx(x).
• Les problèmes de la définition (1) se situent lorsque x = 0, c’est-à-direen l’unique point de discontinuité de la fonction de répartition de FX .
134
![Page 327: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/327.jpg)
Convergence en loi
Définition
On dit que la suite (Xn)n∈N converge en loi vers X si, en tout point decontinuité de FX , on a limn→∞ FXn(x) = F (x). On note Xn
L→ X .
Exemple
• Sur l’exemple précédent on a
FXn(x) =
0 si x ≤ −1/nn/2(x + 1/n) si − 1/n < x ≤ 1/n1 si x > 1/n.
• Ainsi, limn→∞ FXn(x) = 0 si x < 0limn→∞ FXn(x) = 1 si x > 0.
• Comme FX est discontinue en 0, on conclut que XnL→ X .
135
![Page 328: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/328.jpg)
Convergence en loi
Définition
On dit que la suite (Xn)n∈N converge en loi vers X si, en tout point decontinuité de FX , on a limn→∞ FXn(x) = F (x). On note Xn
L→ X .
Exemple
• Sur l’exemple précédent on a
FXn(x) =
0 si x ≤ −1/nn/2(x + 1/n) si − 1/n < x ≤ 1/n1 si x > 1/n.
• Ainsi, limn→∞ FXn(x) = 0 si x < 0limn→∞ FXn(x) = 1 si x > 0.
• Comme FX est discontinue en 0, on conclut que XnL→ X . 135
![Page 329: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/329.jpg)
Attention
Remarque
• Les opérations conservées par les cv en probabilités et presque sure nele sont pas forcément par la convergence en loi !
• Par exemple, XnL→ X n’implique pas
• P(Xn ∈ A)→ P(X ∈ A), ∀A (déjà vu) ;
• E[Xn]→ E[X ]. Il suffit de prendre L(Xn) = 1nδn + (1− 1/n)δ0 ;
• Xn − XL→ 0. Il suffit de prendre L(X ) = N(0, 1) et Xn = (−1)nX .
136
![Page 330: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/330.jpg)
Attention
Remarque
• Les opérations conservées par les cv en probabilités et presque sure nele sont pas forcément par la convergence en loi !
• Par exemple, XnL→ X n’implique pas
• P(Xn ∈ A)→ P(X ∈ A), ∀A (déjà vu) ;
• E[Xn]→ E[X ]. Il suffit de prendre L(Xn) = 1nδn + (1− 1/n)δ0 ;
• Xn − XL→ 0. Il suffit de prendre L(X ) = N(0, 1) et Xn = (−1)nX .
136
![Page 331: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/331.jpg)
Attention
Remarque
• Les opérations conservées par les cv en probabilités et presque sure nele sont pas forcément par la convergence en loi !
• Par exemple, XnL→ X n’implique pas
• P(Xn ∈ A)→ P(X ∈ A), ∀A (déjà vu) ;
• E[Xn]→ E[X ]. Il suffit de prendre L(Xn) = 1nδn + (1− 1/n)δ0 ;
• Xn − XL→ 0. Il suffit de prendre L(X ) = N(0, 1) et Xn = (−1)nX .
136
![Page 332: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/332.jpg)
Fonctions caractéristiques
• Très souvent utilisées pour montrer des convergences en loi.
DéfinitionOn appelle fonction caractéristique de X la fonction ϕX : R→ C définiecomme la transformée de Fourier de sa loi de probabilité
ϕX (t) = E[e itX ].
Calcul en pratique
• Si X est discrète de support S et de fonction de masse πX alors
ϕX (t) =∑x∈S
πX (x)e itx .
• Si X est absolument continue de densité fX alors
ϕX (t) =
∫Re itx fX (x) dx .
137
![Page 333: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/333.jpg)
Fonctions caractéristiques
• Très souvent utilisées pour montrer des convergences en loi.
DéfinitionOn appelle fonction caractéristique de X la fonction ϕX : R→ C définiecomme la transformée de Fourier de sa loi de probabilité
ϕX (t) = E[e itX ].
Calcul en pratique
• Si X est discrète de support S et de fonction de masse πX alors
ϕX (t) =∑x∈S
πX (x)e itx .
• Si X est absolument continue de densité fX alors
ϕX (t) =
∫Re itx fX (x) dx .
137
![Page 334: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/334.jpg)
Exemple
Loi Fonction caractéristique
Bernoulli B(p) pe it + (1− p)
Binomiale B(n, p) (pe it + (1− p))n
Poisson P(λ) eλ(e it−1)
Géométrique G(p) pe it/(1− (1− p)e it)
Uniforme U([−a, a]) sin(at)/(at)
Exponentielle ξ(λ) λ/(λ− it)
Gaussienne (m, σ2) e ime−σ2t2/2
138
![Page 335: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/335.jpg)
Proposition
1. ϕX est définie et continue pour tout nombre réel t ;
2. ϕX est bornée et ∀t |ϕX (t)| ≤ 1 ;
3. ∀(a, b) ∈ R2, ϕaX+b(t) = e ibtϕX (at) ;
4. Si la loi de X est symétrique alors ϕX est une fonction réelle paire ;
5. ϕX caractérise la loi de X .
PropositionSi X et Y sont deux v.a.r. indépendantes alors on a pour tout t
ϕX+Y (t) = ϕX (t)ϕY (t).
• Exercice : calculer la fonction caractéristique de la loi BinomialeB(n, p) en utilisant la propriété précédente.
139
![Page 336: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/336.jpg)
Proposition
1. ϕX est définie et continue pour tout nombre réel t ;
2. ϕX est bornée et ∀t |ϕX (t)| ≤ 1 ;
3. ∀(a, b) ∈ R2, ϕaX+b(t) = e ibtϕX (at) ;
4. Si la loi de X est symétrique alors ϕX est une fonction réelle paire ;
5. ϕX caractérise la loi de X .
PropositionSi X et Y sont deux v.a.r. indépendantes alors on a pour tout t
ϕX+Y (t) = ϕX (t)ϕY (t).
• Exercice : calculer la fonction caractéristique de la loi BinomialeB(n, p) en utilisant la propriété précédente.
139
![Page 337: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/337.jpg)
Proposition
1. ϕX est définie et continue pour tout nombre réel t ;
2. ϕX est bornée et ∀t |ϕX (t)| ≤ 1 ;
3. ∀(a, b) ∈ R2, ϕaX+b(t) = e ibtϕX (at) ;
4. Si la loi de X est symétrique alors ϕX est une fonction réelle paire ;
5. ϕX caractérise la loi de X .
PropositionSi X et Y sont deux v.a.r. indépendantes alors on a pour tout t
ϕX+Y (t) = ϕX (t)ϕY (t).
• Exercice : calculer la fonction caractéristique de la loi BinomialeB(n, p) en utilisant la propriété précédente.
139
![Page 338: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/338.jpg)
Proposition
1. ϕX est définie et continue pour tout nombre réel t ;
2. ϕX est bornée et ∀t |ϕX (t)| ≤ 1 ;
3. ∀(a, b) ∈ R2, ϕaX+b(t) = e ibtϕX (at) ;
4. Si la loi de X est symétrique alors ϕX est une fonction réelle paire ;
5. ϕX caractérise la loi de X .
PropositionSi X et Y sont deux v.a.r. indépendantes alors on a pour tout t
ϕX+Y (t) = ϕX (t)ϕY (t).
• Exercice : calculer la fonction caractéristique de la loi BinomialeB(n, p) en utilisant la propriété précédente.
139
![Page 339: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/339.jpg)
Fonction caractéristique et moments
• En plus de caractériser la loi, la fonction caractéristique permet decalculer les moments d’une v.a.r. (lorsqu’ils existent).
Théorème
Si il existe n ∈ N? tel que E[|X |n] <∞, alors
1. ϕX est continument dérivable jusqu’à l’ordre n inclu ;
2. ∀k = 0, 1, . . . , n, ϕ(k)X (0) = ikE[X k ].
3. On a le développement
ϕX (t) =n∑
k=0
(it)k
k!E[X k ] + o(|t|n)
lorsque t → 0.
140
![Page 340: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/340.jpg)
Retour à la convergence en loi
• La fonction caractéristique est très souvent utilisée pour montrer desconvergences en loi grâce au théorème suivant.
ThéorèmeLes trois assertions suivantes sont équivalentes :
1. XnL→ X ;
2. Pour toute fonction f : R→ R continue bornée, on alimn→∞ E[f (Xn)] = E[f (X )].
3. Pour tout t ∈ R, on a limn→∞ ϕXn(t) = ϕX (t).
• La dernière assertion est une conséquence directe du théorème de PaulLevy (voir [Jacod and Protter, 2003]).
141
![Page 341: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/341.jpg)
Retour à la convergence en loi
• La fonction caractéristique est très souvent utilisée pour montrer desconvergences en loi grâce au théorème suivant.
ThéorèmeLes trois assertions suivantes sont équivalentes :
1. XnL→ X ;
2. Pour toute fonction f : R→ R continue bornée, on alimn→∞ E[f (Xn)] = E[f (X )].
3. Pour tout t ∈ R, on a limn→∞ ϕXn(t) = ϕX (t).
• La dernière assertion est une conséquence directe du théorème de PaulLevy (voir [Jacod and Protter, 2003]).
141
![Page 342: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/342.jpg)
Retour à la convergence en loi
• La fonction caractéristique est très souvent utilisée pour montrer desconvergences en loi grâce au théorème suivant.
ThéorèmeLes trois assertions suivantes sont équivalentes :
1. XnL→ X ;
2. Pour toute fonction f : R→ R continue bornée, on alimn→∞ E[f (Xn)] = E[f (X )].
3. Pour tout t ∈ R, on a limn→∞ ϕXn(t) = ϕX (t).
• La dernière assertion est une conséquence directe du théorème de PaulLevy (voir [Jacod and Protter, 2003]).
141
![Page 343: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/343.jpg)
Retour à la convergence en loi
• La fonction caractéristique est très souvent utilisée pour montrer desconvergences en loi grâce au théorème suivant.
ThéorèmeLes trois assertions suivantes sont équivalentes :
1. XnL→ X ;
2. Pour toute fonction f : R→ R continue bornée, on alimn→∞ E[f (Xn)] = E[f (X )].
3. Pour tout t ∈ R, on a limn→∞ ϕXn(t) = ϕX (t).
• La dernière assertion est une conséquence directe du théorème de PaulLevy (voir [Jacod and Protter, 2003]).
141
![Page 344: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/344.jpg)
Exemples
Binomiale vers Poisson
1. Soit (Xn)n∈N une suite de variable aléatoire de loi B(n, pn) tellenpn → λ lorsque n→∞.
On a lorsque n→∞ (faire un DL)
ϕXn(t) = [pneit + (1− pn)]n ∼
[1 + (e it − 1)pn
]n → eλ(e it−1).
2. On déduit XnL→ X avec X qui suit une loi de Poisson de paramètre λ.
On note XnL→ P(λ).
Poisson vers normale
• Soit (Xn)n∈N une suite de variables aléatoires de loi de Poisson deparamètre λn avec λn →∞ lorsque n→∞.
• De la même manière que dans l’exemple précédent on montre que
Xn − λn√λn
L→ N (0, 1).
142
![Page 345: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/345.jpg)
Exemples
Binomiale vers Poisson
1. Soit (Xn)n∈N une suite de variable aléatoire de loi B(n, pn) tellenpn → λ lorsque n→∞. On a lorsque n→∞ (faire un DL)
ϕXn(t) = [pneit + (1− pn)]n ∼
[1 + (e it − 1)pn
]n → eλ(e it−1).
2. On déduit XnL→ X avec X qui suit une loi de Poisson de paramètre λ.
On note XnL→ P(λ).
Poisson vers normale
• Soit (Xn)n∈N une suite de variables aléatoires de loi de Poisson deparamètre λn avec λn →∞ lorsque n→∞.
• De la même manière que dans l’exemple précédent on montre que
Xn − λn√λn
L→ N (0, 1).
142
![Page 346: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/346.jpg)
Exemples
Binomiale vers Poisson
1. Soit (Xn)n∈N une suite de variable aléatoire de loi B(n, pn) tellenpn → λ lorsque n→∞. On a lorsque n→∞ (faire un DL)
ϕXn(t) = [pneit + (1− pn)]n ∼
[1 + (e it − 1)pn
]n → eλ(e it−1).
2. On déduit XnL→ X avec X qui suit une loi de Poisson de paramètre λ.
On note XnL→ P(λ).
Poisson vers normale
• Soit (Xn)n∈N une suite de variables aléatoires de loi de Poisson deparamètre λn avec λn →∞ lorsque n→∞.
• De la même manière que dans l’exemple précédent on montre que
Xn − λn√λn
L→ N (0, 1).
142
![Page 347: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/347.jpg)
Exemples
Binomiale vers Poisson
1. Soit (Xn)n∈N une suite de variable aléatoire de loi B(n, pn) tellenpn → λ lorsque n→∞. On a lorsque n→∞ (faire un DL)
ϕXn(t) = [pneit + (1− pn)]n ∼
[1 + (e it − 1)pn
]n → eλ(e it−1).
2. On déduit XnL→ X avec X qui suit une loi de Poisson de paramètre λ.
On note XnL→ P(λ).
Poisson vers normale
• Soit (Xn)n∈N une suite de variables aléatoires de loi de Poisson deparamètre λn avec λn →∞ lorsque n→∞.
• De la même manière que dans l’exemple précédent on montre que
Xn − λn√λn
L→ N (0, 1). 142
![Page 348: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/348.jpg)
Convergence en loi et densités
• Dans les cas discret et absolument continue, la convergence en loi peutégalement se montrer à partir des fonctions de masse et de densité.
Théorème
1. Soit Xn et X des v.a.r. à valeurs dans un espace E fini oudénombrable. Alors Xn
L→ X si et seulement si
∀j ∈ E , limn→∞
P(Xn = j) = P(X = j).
2. Soit Xn et X des v.a.r. dont les lois admettent pour densité (parrapport à la mesure de Lebesgue) fn et f . Si pour presque tout x de Ron a limn→∞ fn(x) = f (x), alors Xn
L→ X .
143
![Page 349: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/349.jpg)
Convergence en loi et densités
• Dans les cas discret et absolument continue, la convergence en loi peutégalement se montrer à partir des fonctions de masse et de densité.
Théorème
1. Soit Xn et X des v.a.r. à valeurs dans un espace E fini oudénombrable. Alors Xn
L→ X si et seulement si
∀j ∈ E , limn→∞
P(Xn = j) = P(X = j).
2. Soit Xn et X des v.a.r. dont les lois admettent pour densité (parrapport à la mesure de Lebesgue) fn et f . Si pour presque tout x de Ron a limn→∞ fn(x) = f (x), alors Xn
L→ X .
143
![Page 350: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/350.jpg)
Convergence en loi et densités
• Dans les cas discret et absolument continue, la convergence en loi peutégalement se montrer à partir des fonctions de masse et de densité.
Théorème
1. Soit Xn et X des v.a.r. à valeurs dans un espace E fini oudénombrable. Alors Xn
L→ X si et seulement si
∀j ∈ E , limn→∞
P(Xn = j) = P(X = j).
2. Soit Xn et X des v.a.r. dont les lois admettent pour densité (parrapport à la mesure de Lebesgue) fn et f . Si pour presque tout x de Ron a limn→∞ fn(x) = f (x), alors Xn
L→ X .
143
![Page 351: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/351.jpg)
• La convergence en loi est préservée par certaines opérationsarithmétiques.
Théorème (Slutsky)
Soit (Xn)n∈N et (Yn)n∈N deux suites de v.a.r., X une v.a.r. et a un réel.On a :
1. Si XnL→ X et Yn
L→ a alors
Xn + YnL→ X + a, XnYn
L→ aX etXn
Yn
L→ X
a(si a 6= 0).
2. Si g : R→ R est continue en tout point de R alors g(Xn)L→ g(X ).
• Attention : les résultats ne sont plus vraies si Yn converge vers unevariable aléatoire Y .
144
![Page 352: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/352.jpg)
• La convergence en loi est préservée par certaines opérationsarithmétiques.
Théorème (Slutsky)
Soit (Xn)n∈N et (Yn)n∈N deux suites de v.a.r., X une v.a.r. et a un réel.On a :
1. Si XnL→ X et Yn
L→ a alors
Xn + YnL→ X + a, XnYn
L→ aX etXn
Yn
L→ X
a(si a 6= 0).
2. Si g : R→ R est continue en tout point de R alors g(Xn)L→ g(X ).
• Attention : les résultats ne sont plus vraies si Yn converge vers unevariable aléatoire Y .
144
![Page 353: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/353.jpg)
• La convergence en loi est préservée par certaines opérationsarithmétiques.
Théorème (Slutsky)
Soit (Xn)n∈N et (Yn)n∈N deux suites de v.a.r., X une v.a.r. et a un réel.On a :
1. Si XnL→ X et Yn
L→ a alors
Xn + YnL→ X + a, XnYn
L→ aX etXn
Yn
L→ X
a(si a 6= 0).
2. Si g : R→ R est continue en tout point de R alors g(Xn)L→ g(X ).
• Attention : les résultats ne sont plus vraies si Yn converge vers unevariable aléatoire Y .
144
![Page 354: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/354.jpg)
Relation entre les convergences
Théorème
Si XnP→ X alors Xn
L→ X .
• Réciproque fausse : il suffit de prendre X ∼ N (0, 1) et Xn = (−1)nX .• La réciproque devient vraie lorsque Xn converge en loi vers une variable
constante a. On aXn
L→ a⇐⇒ XnP→ a.
• On peut résumer les relations entre les différents modes deconvergence par le diagramme suivant :
ProbaLp
p.s.
Loi
145
![Page 355: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/355.jpg)
Relation entre les convergences
Théorème
Si XnP→ X alors Xn
L→ X .
• Réciproque fausse : il suffit de prendre X ∼ N (0, 1) et Xn = (−1)nX .
• La réciproque devient vraie lorsque Xn converge en loi vers une variableconstante a. On a
XnL→ a⇐⇒ Xn
P→ a.
• On peut résumer les relations entre les différents modes deconvergence par le diagramme suivant :
ProbaLp
p.s.
Loi
145
![Page 356: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/356.jpg)
Relation entre les convergences
Théorème
Si XnP→ X alors Xn
L→ X .
• Réciproque fausse : il suffit de prendre X ∼ N (0, 1) et Xn = (−1)nX .• La réciproque devient vraie lorsque Xn converge en loi vers une variable
constante a. On aXn
L→ a⇐⇒ XnP→ a.
• On peut résumer les relations entre les différents modes deconvergence par le diagramme suivant :
ProbaLp
p.s.
Loi
145
![Page 357: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/357.jpg)
Relation entre les convergences
Théorème
Si XnP→ X alors Xn
L→ X .
• Réciproque fausse : il suffit de prendre X ∼ N (0, 1) et Xn = (−1)nX .• La réciproque devient vraie lorsque Xn converge en loi vers une variable
constante a. On aXn
L→ a⇐⇒ XnP→ a.
• On peut résumer les relations entre les différents modes deconvergence par le diagramme suivant :
ProbaLp
p.s.
Loi
145
![Page 358: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/358.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
146
![Page 359: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/359.jpg)
Présentation
• X1, . . . ,Xn i.i.d. admettant une espérance µ = E[X1].
• Intuitivement, lorsque n augmente la moyenne empirique
Xn =1n
n∑i=1
Xi
doit se "rapprocher" de µ.
• Les lois des grands nombres et le théorème central limite permettentde préciser rigoureusement ce rapprochement.
147
![Page 360: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/360.jpg)
Présentation
• X1, . . . ,Xn i.i.d. admettant une espérance µ = E[X1].
• Intuitivement, lorsque n augmente la moyenne empirique
Xn =1n
n∑i=1
Xi
doit se "rapprocher" de µ.
• Les lois des grands nombres et le théorème central limite permettentde préciser rigoureusement ce rapprochement.
147
![Page 361: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/361.jpg)
Présentation
• X1, . . . ,Xn i.i.d. admettant une espérance µ = E[X1].
• Intuitivement, lorsque n augmente la moyenne empirique
Xn =1n
n∑i=1
Xi
doit se "rapprocher" de µ.
• Les lois des grands nombres et le théorème central limite permettentde préciser rigoureusement ce rapprochement.
147
![Page 362: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/362.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
148
![Page 363: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/363.jpg)
Un exemple
• Soit X1, . . . ,Xn n v.a.r. indépendantes de loi Bernoulli de paramètre p.• Question : est-ce que Xn converge en probabilité vers p ?
• On a d’après Bienaymé-Chebychev ∀ε > 0
P(∣∣Xn − p
∣∣ ≥ ε) ≤ p(1− p)
nε2→ 0 quand n→∞.
• Réponse : XnP→ p.
Lois faibles et fortes
• Les lois des grands nombres permettent de généraliser ce type derésultats à d’autres lois que la loi de Bernoulli.
• On parle de lois faibles des grands nombres pour des convergences enprobabilité. Pour des convergences presque sûre, on parlera de loisfortes des grands nombres.
149
![Page 364: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/364.jpg)
Un exemple
• Soit X1, . . . ,Xn n v.a.r. indépendantes de loi Bernoulli de paramètre p.• Question : est-ce que Xn converge en probabilité vers p ?• On a d’après Bienaymé-Chebychev ∀ε > 0
P(∣∣Xn − p
∣∣ ≥ ε) ≤ p(1− p)
nε2→ 0 quand n→∞.
• Réponse : XnP→ p.
Lois faibles et fortes
• Les lois des grands nombres permettent de généraliser ce type derésultats à d’autres lois que la loi de Bernoulli.
• On parle de lois faibles des grands nombres pour des convergences enprobabilité. Pour des convergences presque sûre, on parlera de loisfortes des grands nombres.
149
![Page 365: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/365.jpg)
Un exemple
• Soit X1, . . . ,Xn n v.a.r. indépendantes de loi Bernoulli de paramètre p.• Question : est-ce que Xn converge en probabilité vers p ?• On a d’après Bienaymé-Chebychev ∀ε > 0
P(∣∣Xn − p
∣∣ ≥ ε) ≤ p(1− p)
nε2→ 0 quand n→∞.
• Réponse : XnP→ p.
Lois faibles et fortes
• Les lois des grands nombres permettent de généraliser ce type derésultats à d’autres lois que la loi de Bernoulli.
• On parle de lois faibles des grands nombres pour des convergences enprobabilité. Pour des convergences presque sûre, on parlera de loisfortes des grands nombres.
149
![Page 366: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/366.jpg)
Un exemple
• Soit X1, . . . ,Xn n v.a.r. indépendantes de loi Bernoulli de paramètre p.• Question : est-ce que Xn converge en probabilité vers p ?• On a d’après Bienaymé-Chebychev ∀ε > 0
P(∣∣Xn − p
∣∣ ≥ ε) ≤ p(1− p)
nε2→ 0 quand n→∞.
• Réponse : XnP→ p.
Lois faibles et fortes
• Les lois des grands nombres permettent de généraliser ce type derésultats à d’autres lois que la loi de Bernoulli.
• On parle de lois faibles des grands nombres pour des convergences enprobabilité. Pour des convergences presque sûre, on parlera de loisfortes des grands nombres.
149
![Page 367: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/367.jpg)
2 lois faibles des grands nombres
Loi faible dans L1
Soit (Xn)n∈N une suite de v.a.r. 2 à 2 indépendantes, de même loi et quiadmettent une espérance. On note E[X1] = µ. On a
1n
n∑i=1
XiL1→ µ.
Loi faible dans L2
Soit (Xn)n∈N une suite de v.a.r. 2 à 2 non corrélées, de même loi et quiadmettent une variance. On note E[X1] = µ. On a
1n
n∑i=1
XiL2→ µ.
• On pourra consulter [Foata and Fuchs, 2003], chapitre 17, pour lapreuve de ces résultats.
150
![Page 368: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/368.jpg)
2 lois faibles des grands nombres
Loi faible dans L1
Soit (Xn)n∈N une suite de v.a.r. 2 à 2 indépendantes, de même loi et quiadmettent une espérance. On note E[X1] = µ. On a
1n
n∑i=1
XiL1→ µ.
Loi faible dans L2
Soit (Xn)n∈N une suite de v.a.r. 2 à 2 non corrélées, de même loi et quiadmettent une variance. On note E[X1] = µ. On a
1n
n∑i=1
XiL2→ µ.
• On pourra consulter [Foata and Fuchs, 2003], chapitre 17, pour lapreuve de ces résultats.
150
![Page 369: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/369.jpg)
2 lois faibles des grands nombres
Loi faible dans L1
Soit (Xn)n∈N une suite de v.a.r. 2 à 2 indépendantes, de même loi et quiadmettent une espérance. On note E[X1] = µ. On a
1n
n∑i=1
XiL1→ µ.
Loi faible dans L2
Soit (Xn)n∈N une suite de v.a.r. 2 à 2 non corrélées, de même loi et quiadmettent une variance. On note E[X1] = µ. On a
1n
n∑i=1
XiL2→ µ.
• On pourra consulter [Foata and Fuchs, 2003], chapitre 17, pour lapreuve de ces résultats.
150
![Page 370: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/370.jpg)
Loi forte des grands nombres
• Elle s’obtient en supposant l’indépendance mutuelle.
Loi forte des grands nombres
Soit (Xn)n∈N une suite de v.a.r. indépendantes, de même loi et quiadmettent une espérance. On note E[X1] = µ. On a
1n
n∑i=1
Xip.s.→ µ.
Application
• X1, . . . ,Xn i.i.d de loi E(λ) avec λ > 0 (inconnu).
• LFGN =⇒ Xnp.s.→ 1/λ.
• Opérations sur les convergences p.s. : 1/Xnp.s.→ λ.
151
![Page 371: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/371.jpg)
Loi forte des grands nombres
• Elle s’obtient en supposant l’indépendance mutuelle.
Loi forte des grands nombres
Soit (Xn)n∈N une suite de v.a.r. indépendantes, de même loi et quiadmettent une espérance. On note E[X1] = µ. On a
1n
n∑i=1
Xip.s.→ µ.
Application
• X1, . . . ,Xn i.i.d de loi E(λ) avec λ > 0 (inconnu).
• LFGN =⇒ Xnp.s.→ 1/λ.
• Opérations sur les convergences p.s. : 1/Xnp.s.→ λ.
151
![Page 372: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/372.jpg)
Loi forte des grands nombres
• Elle s’obtient en supposant l’indépendance mutuelle.
Loi forte des grands nombres
Soit (Xn)n∈N une suite de v.a.r. indépendantes, de même loi et quiadmettent une espérance. On note E[X1] = µ. On a
1n
n∑i=1
Xip.s.→ µ.
Application
• X1, . . . ,Xn i.i.d de loi E(λ) avec λ > 0 (inconnu).
• LFGN =⇒ Xnp.s.→ 1/λ.
• Opérations sur les convergences p.s. : 1/Xnp.s.→ λ.
151
![Page 373: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/373.jpg)
Loi forte des grands nombres
• Elle s’obtient en supposant l’indépendance mutuelle.
Loi forte des grands nombres
Soit (Xn)n∈N une suite de v.a.r. indépendantes, de même loi et quiadmettent une espérance. On note E[X1] = µ. On a
1n
n∑i=1
Xip.s.→ µ.
Application
• X1, . . . ,Xn i.i.d de loi E(λ) avec λ > 0 (inconnu).
• LFGN =⇒ Xnp.s.→ 1/λ.
• Opérations sur les convergences p.s. : 1/Xnp.s.→ λ.
151
![Page 374: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/374.jpg)
Méthode de Monte-Carlo
• Soit f :]0, 1[→ R intégrable. On cherche à approcher I =∫ 10 f (x) dx .
• Pour X de loi uniforme sur [0, 1], on a
I =
∫ 1
0f (x) dx = E[f (X )].
• LFGN : Soit (Xn)n une suite de v.a.r i.i.d de loi uniforme sur [0, 1].Alors (f (Xn))n une suite de v.a.r i.i.d et on a
1n
n∑i=1
f (Xi )p.s.→ E[f (X )] = I .
Algorithme de Monte-Carlo
1. Générer n (grand) observations suivant une loi uniforme sur [0, 1] ;
2. Approcher I par 1n
∑ni=1 f (Xi ).
152
![Page 375: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/375.jpg)
Méthode de Monte-Carlo
• Soit f :]0, 1[→ R intégrable. On cherche à approcher I =∫ 10 f (x) dx .
• Pour X de loi uniforme sur [0, 1], on a
I =
∫ 1
0f (x) dx = E[f (X )].
• LFGN : Soit (Xn)n une suite de v.a.r i.i.d de loi uniforme sur [0, 1].Alors (f (Xn))n une suite de v.a.r i.i.d et on a
1n
n∑i=1
f (Xi )p.s.→ E[f (X )] = I .
Algorithme de Monte-Carlo
1. Générer n (grand) observations suivant une loi uniforme sur [0, 1] ;
2. Approcher I par 1n
∑ni=1 f (Xi ).
152
![Page 376: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/376.jpg)
Méthode de Monte-Carlo
• Soit f :]0, 1[→ R intégrable. On cherche à approcher I =∫ 10 f (x) dx .
• Pour X de loi uniforme sur [0, 1], on a
I =
∫ 1
0f (x) dx = E[f (X )].
• LFGN : Soit (Xn)n une suite de v.a.r i.i.d de loi uniforme sur [0, 1].Alors (f (Xn))n une suite de v.a.r i.i.d et on a
1n
n∑i=1
f (Xi )p.s.→ E[f (X )] = I .
Algorithme de Monte-Carlo
1. Générer n (grand) observations suivant une loi uniforme sur [0, 1] ;
2. Approcher I par 1n
∑ni=1 f (Xi ).
152
![Page 377: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/377.jpg)
Méthode de Monte-Carlo
• Soit f :]0, 1[→ R intégrable. On cherche à approcher I =∫ 10 f (x) dx .
• Pour X de loi uniforme sur [0, 1], on a
I =
∫ 1
0f (x) dx = E[f (X )].
• LFGN : Soit (Xn)n une suite de v.a.r i.i.d de loi uniforme sur [0, 1].Alors (f (Xn))n une suite de v.a.r i.i.d et on a
1n
n∑i=1
f (Xi )p.s.→ E[f (X )] = I .
Algorithme de Monte-Carlo
1. Générer n (grand) observations suivant une loi uniforme sur [0, 1] ;
2. Approcher I par 1n
∑ni=1 f (Xi ).
152
![Page 378: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/378.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
153
![Page 379: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/379.jpg)
Présentation
• Soit (Xn)n∈N une suite de v.a.r. indépendantes et de même loiN (µ, σ2).
• On rappelle que√nXn − µσ
∼ N (0, 1).
• Interprétation : L(Xn) = N (µ, σ2/n).
Approche TCL
• Le théorème central limite stipule que, sous des hypothèses très faibles,on peut étendre ce résultat (pour n grand) à "n’importe quelle” suitede variables aléatoires indépendantes.
• C’est l’un des résultats les plus impressionnants et les plus utilisés enprobabilités et statistique.
154
![Page 380: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/380.jpg)
Présentation
• Soit (Xn)n∈N une suite de v.a.r. indépendantes et de même loiN (µ, σ2).
• On rappelle que√nXn − µσ
∼ N (0, 1).
• Interprétation : L(Xn) = N (µ, σ2/n).
Approche TCL
• Le théorème central limite stipule que, sous des hypothèses très faibles,on peut étendre ce résultat (pour n grand) à "n’importe quelle” suitede variables aléatoires indépendantes.
• C’est l’un des résultats les plus impressionnants et les plus utilisés enprobabilités et statistique.
154
![Page 381: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/381.jpg)
Présentation
• Soit (Xn)n∈N une suite de v.a.r. indépendantes et de même loiN (µ, σ2).
• On rappelle que√nXn − µσ
∼ N (0, 1).
• Interprétation : L(Xn) = N (µ, σ2/n).
Approche TCL
• Le théorème central limite stipule que, sous des hypothèses très faibles,on peut étendre ce résultat (pour n grand) à "n’importe quelle” suitede variables aléatoires indépendantes.
• C’est l’un des résultats les plus impressionnants et les plus utilisés enprobabilités et statistique.
154
![Page 382: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/382.jpg)
Le TCL
Théorème Central Limite (TCL)
Soit (Xn)n∈N une suite de variables aléatoires indépendantes, de même loi,et telles que E[X 2
i ] < +∞. On note E[Xi ] = µ, V[Xi ] = σ2 etXn = 1
n
∑ni=1 Xi . On a alors
√nXn − µσ
L→ N (0, 1) quand n→∞.
• Les hypothèses sont faibles : on demande juste des v.a.r i.i.d. quiadmettent une variance.• Conséquence : si n est suffisamment grand, on pourra approcher la loi
de Xn par la loi N (µ, σ2/n).• On pourra écrire L(Xn) ≈ N (µ, σ2/n) mais pas
L(Xn)L→ N (µ, σ2/n).
155
![Page 383: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/383.jpg)
Le TCL
Théorème Central Limite (TCL)
Soit (Xn)n∈N une suite de variables aléatoires indépendantes, de même loi,et telles que E[X 2
i ] < +∞. On note E[Xi ] = µ, V[Xi ] = σ2 etXn = 1
n
∑ni=1 Xi . On a alors
√nXn − µσ
L→ N (0, 1) quand n→∞.
• Les hypothèses sont faibles : on demande juste des v.a.r i.i.d. quiadmettent une variance.
• Conséquence : si n est suffisamment grand, on pourra approcher la loide Xn par la loi N (µ, σ2/n).
• On pourra écrire L(Xn) ≈ N (µ, σ2/n) mais pas
L(Xn)L→ N (µ, σ2/n).
155
![Page 384: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/384.jpg)
Le TCL
Théorème Central Limite (TCL)
Soit (Xn)n∈N une suite de variables aléatoires indépendantes, de même loi,et telles que E[X 2
i ] < +∞. On note E[Xi ] = µ, V[Xi ] = σ2 etXn = 1
n
∑ni=1 Xi . On a alors
√nXn − µσ
L→ N (0, 1) quand n→∞.
• Les hypothèses sont faibles : on demande juste des v.a.r i.i.d. quiadmettent une variance.• Conséquence : si n est suffisamment grand, on pourra approcher la loi
de Xn par la loi N (µ, σ2/n).
• On pourra écrire L(Xn) ≈ N (µ, σ2/n) mais pas
L(Xn)L→ N (µ, σ2/n).
155
![Page 385: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/385.jpg)
Le TCL
Théorème Central Limite (TCL)
Soit (Xn)n∈N une suite de variables aléatoires indépendantes, de même loi,et telles que E[X 2
i ] < +∞. On note E[Xi ] = µ, V[Xi ] = σ2 etXn = 1
n
∑ni=1 Xi . On a alors
√nXn − µσ
L→ N (0, 1) quand n→∞.
• Les hypothèses sont faibles : on demande juste des v.a.r i.i.d. quiadmettent une variance.• Conséquence : si n est suffisamment grand, on pourra approcher la loi
de Xn par la loi N (µ, σ2/n).• On pourra écrire L(Xn) ≈ N (µ, σ2/n) mais pas
L(Xn)L→ N (µ, σ2/n).
155
![Page 386: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/386.jpg)
Eléments de preuve
• Bien que ce résultat soit impressionnant, on peut voir la preuve commeun "simple" exercice sur les fonctions caractéristiques (voir[Jacod and Protter, 2003] pour des compléments.
• On note ϕ la fonction caractéristique des variables aléatoires Xi − µ et
Yn =√nXn − µσ
.
• On obtient des propriétés de la fonction caractéristique
ϕYn(t) =
(ϕ
(t
σ√n
))n
.
• De plusϕ(0) = 1, ϕ′(0) = 0 et ϕ′′(0) = −σ2.
156
![Page 387: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/387.jpg)
• On déduit
ϕ(u) = 1− σ2u2
2+ o(u2)
etϕYn(t) = exp
(n log(1− t2/2n + o(1/n))
).
• Par conséquentlimn→∞
ϕYn(t) = exp(−t2/2)
et t 7→ exp(−t2/2) est la fonction caractéristique de la loi N (0, 1).
• D’après le théorème de Paul Levy, on conclut YnL→ N (0, 1).
157
![Page 388: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/388.jpg)
• On déduit
ϕ(u) = 1− σ2u2
2+ o(u2)
etϕYn(t) = exp
(n log(1− t2/2n + o(1/n))
).
• Par conséquentlimn→∞
ϕYn(t) = exp(−t2/2)
et t 7→ exp(−t2/2) est la fonction caractéristique de la loi N (0, 1).
• D’après le théorème de Paul Levy, on conclut YnL→ N (0, 1).
157
![Page 389: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/389.jpg)
• On déduit
ϕ(u) = 1− σ2u2
2+ o(u2)
etϕYn(t) = exp
(n log(1− t2/2n + o(1/n))
).
• Par conséquentlimn→∞
ϕYn(t) = exp(−t2/2)
et t 7→ exp(−t2/2) est la fonction caractéristique de la loi N (0, 1).
• D’après le théorème de Paul Levy, on conclut YnL→ N (0, 1).
157
![Page 390: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/390.jpg)
Exemple : loi de Bernoulli
• Soit (Xn)n∈N une suite de v.a.r. i.i.d. de loi de Bernoulli de paramètrep ∈]0, 1[.
• On a d’après la loi forte des grands nombres
Xnp.s.→ p quand n→∞
et d’après le théorème central limite
√n
Xn − p√p(1− p)
L→ N (0, 1) quand n→∞.
158
![Page 391: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/391.jpg)
Exemple : loi de Bernoulli
• Soit (Xn)n∈N une suite de v.a.r. i.i.d. de loi de Bernoulli de paramètrep ∈]0, 1[.
• On a d’après la loi forte des grands nombres
Xnp.s.→ p quand n→∞
et d’après le théorème central limite
√n
Xn − p√p(1− p)
L→ N (0, 1) quand n→∞.
158
![Page 392: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/392.jpg)
Exemple : loi de Bernoulli
• Soit (Xn)n∈N une suite de v.a.r. i.i.d. de loi de Bernoulli de paramètrep ∈]0, 1[.
• On a d’après la loi forte des grands nombres
Xnp.s.→ p quand n→∞
et d’après le théorème central limite
√n
Xn − p√p(1− p)
L→ N (0, 1) quand n→∞.
158
![Page 393: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/393.jpg)
Illustration
0
5
10
15
20
0.3 0.4 0.5 0.6 0.7
0
5
10
15
20
0.3 0.4 0.5 0.6 0.7
0
5
10
15
20
0.3 0.4 0.5 0.6 0.7
0
5
10
15
20
0.3 0.4 0.5 0.6 0.7
Figure 1 – Approximation TCL pour le modèle de Bernoulli B(1/2) avecn = 50, 100, 200, 500. 159
![Page 394: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/394.jpg)
Slutsky
• Par continuité, on a√(Xn)(1− Xn)
P→√p(1− p),
et donc √p(1− p)√
(Xn)(1− Xn)
P→ 1.
• On obtient donc d’après Slutsky
√n
Xn − p√Xn(1− Xn)
=√n
Xn − p√p(1− p)
×√p(1− p)√
(Xn)(1− Xn)
L→ N (0, 1).
Remarque importanteCe type de raisonnement est très souvent utilisé pour trouver desintervalles de confiance asymptotique.
160
![Page 395: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/395.jpg)
Slutsky
• Par continuité, on a√(Xn)(1− Xn)
P→√p(1− p),
et donc √p(1− p)√
(Xn)(1− Xn)
P→ 1.
• On obtient donc d’après Slutsky
√n
Xn − p√Xn(1− Xn)
=√n
Xn − p√p(1− p)
×√p(1− p)√
(Xn)(1− Xn)
L→ N (0, 1).
Remarque importanteCe type de raisonnement est très souvent utilisé pour trouver desintervalles de confiance asymptotique.
160
![Page 396: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/396.jpg)
Slutsky
• Par continuité, on a√(Xn)(1− Xn)
P→√p(1− p),
et donc √p(1− p)√
(Xn)(1− Xn)
P→ 1.
• On obtient donc d’après Slutsky
√n
Xn − p√Xn(1− Xn)
=√n
Xn − p√p(1− p)
×√p(1− p)√
(Xn)(1− Xn)
L→ N (0, 1).
Remarque importanteCe type de raisonnement est très souvent utilisé pour trouver desintervalles de confiance asymptotique.
160
![Page 397: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/397.jpg)
Exemple : loi exponentielle
• Soit (Xn)n∈N une suite de v.a.r. i.i.d. de loi exponentielle de paramètreλ > 0.
• On a d’après la loi forte des grands nombres
Xnp.s.→ 1
λet
1Xn
p.s.→ λ quand n→∞
et d’après le théorème central limite
√nXn − 1/λ
1/λL→ N (0, 1) quand n→∞.
Problème
• Comment obtenir un TCL pour 1/Xn ?
• La delta méthode permet d’y parvenir.
161
![Page 398: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/398.jpg)
Exemple : loi exponentielle
• Soit (Xn)n∈N une suite de v.a.r. i.i.d. de loi exponentielle de paramètreλ > 0.
• On a d’après la loi forte des grands nombres
Xnp.s.→ 1
λet
1Xn
p.s.→ λ quand n→∞
et d’après le théorème central limite
√nXn − 1/λ
1/λL→ N (0, 1) quand n→∞.
Problème
• Comment obtenir un TCL pour 1/Xn ?
• La delta méthode permet d’y parvenir.
161
![Page 399: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/399.jpg)
Exemple : loi exponentielle
• Soit (Xn)n∈N une suite de v.a.r. i.i.d. de loi exponentielle de paramètreλ > 0.
• On a d’après la loi forte des grands nombres
Xnp.s.→ 1
λet
1Xn
p.s.→ λ quand n→∞
et d’après le théorème central limite
√nXn − 1/λ
1/λL→ N (0, 1) quand n→∞.
Problème
• Comment obtenir un TCL pour 1/Xn ?
• La delta méthode permet d’y parvenir.
161
![Page 400: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/400.jpg)
Delta méthode
• Elle permet (notamment) d’étendre le TCL à des estimateurs g(Xn)
qui s’écrivent comme une fonction de la moyenne empirique.
Théorème (Delta méthode)
Soit (Xn)n une suite de v.a.r. et (vn) une suite de réels qui tend vers +∞.On suppose qu’il existe un réel a et une variable X tels que
vn(Xn − a)L→ X .
Si g est une fonction dérivable au point a, alors
vng((Xn)− g(a))L→ g ′(a)X .
En particulier, si X ∼ N (0, σ2) et g ′(a) 6= 0, alors
vn(g(Xn)− g(a))L→ N(0, (σg ′(a))2).
162
![Page 401: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/401.jpg)
Delta méthode
• Elle permet (notamment) d’étendre le TCL à des estimateurs g(Xn)
qui s’écrivent comme une fonction de la moyenne empirique.
Théorème (Delta méthode)
Soit (Xn)n une suite de v.a.r. et (vn) une suite de réels qui tend vers +∞.On suppose qu’il existe un réel a et une variable X tels que
vn(Xn − a)L→ X .
Si g est une fonction dérivable au point a, alors
vng((Xn)− g(a))L→ g ′(a)X .
En particulier, si X ∼ N (0, σ2) et g ′(a) 6= 0, alors
vn(g(Xn)− g(a))L→ N(0, (σg ′(a))2).
162
![Page 402: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/402.jpg)
Delta méthode
• Elle permet (notamment) d’étendre le TCL à des estimateurs g(Xn)
qui s’écrivent comme une fonction de la moyenne empirique.
Théorème (Delta méthode)
Soit (Xn)n une suite de v.a.r. et (vn) une suite de réels qui tend vers +∞.On suppose qu’il existe un réel a et une variable X tels que
vn(Xn − a)L→ X .
Si g est une fonction dérivable au point a, alors
vng((Xn)− g(a))L→ g ′(a)X .
En particulier, si X ∼ N (0, σ2) et g ′(a) 6= 0, alors
vn(g(Xn)− g(a))L→ N(0, (σg ′(a))2).
162
![Page 403: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/403.jpg)
Application : loi exponentielle
• Pour le modèle exponentiel, on a montré grâce au TCL√n(Xn − 1/λ)
L→ N(0,
1λ2
)quand n→∞.
• On applique la delta méthode avec g(u) = 1/u :√n
(1Xn− λ)L→ N
(0, λ2) quand n→∞,
ou encore √n
λ
(1Xn− λ)L→ N (0, 1) quand n→∞.
• Donc, en note λ = 1/Xn, d’après Slutsky,√n
λ
(λ− λ
)L→ N (0, 1) quand n→∞.
163
![Page 404: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/404.jpg)
Application : loi exponentielle
• Pour le modèle exponentiel, on a montré grâce au TCL√n(Xn − 1/λ)
L→ N(0,
1λ2
)quand n→∞.
• On applique la delta méthode avec g(u) = 1/u :√n
(1Xn− λ)L→ N
(0, λ2) quand n→∞,
ou encore √n
λ
(1Xn− λ)L→ N (0, 1) quand n→∞.
• Donc, en note λ = 1/Xn, d’après Slutsky,√n
λ
(λ− λ
)L→ N (0, 1) quand n→∞.
163
![Page 405: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/405.jpg)
Les différents modes de convergence
Convergence presque sûre ou convergence forte
La convergence en probabilité
La convergence en moyenne d’ordre p
La convergence en loi
Lois des grands nombres et Théorème Central Limite
Lois des grands nombres
Le théorème central limite
Bibliographie
164
![Page 406: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/406.jpg)
Références i
Foata, D. and Fuchs, A. (2003).Calcul des probabilités.Dunod, 2e edition.
Jacod, J. and Protter, P. (2003).L’essentiel en théorie des probabilités.Cassini.
Rouvière, L. (2015).Probabilités générales.Polycopié de cours, https ://perso.univ-rennes2.fr/laurent.rouviere.
165
![Page 407: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/407.jpg)
Quatrième partie IV
Critères de performanceasymptotiques, intervalles de
confiance et estimation multivariée
166
![Page 408: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/408.jpg)
Critères asymptotiques
Estimation par intervalles
Estimation multivariée
Biais, variance, risque quadratique
Critères asymptotiques
Borne de Cramer-Rao
167
![Page 409: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/409.jpg)
Rappel
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ univarié.
• θ = θ(X1, . . . ,Xn) = θn un estimateur de θ.
• Critère de performance pour θn : biais, variance, risque quadratique,VUMSB...
Dans cette partie
• Critères de performance asymptotiques ;
• Estimation par intervalles ;
• Estimation multivariée (θ ∈ Rp).
168
![Page 410: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/410.jpg)
Rappel
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ univarié.
• θ = θ(X1, . . . ,Xn) = θn un estimateur de θ.
• Critère de performance pour θn : biais, variance, risque quadratique,VUMSB...
Dans cette partie
• Critères de performance asymptotiques ;
• Estimation par intervalles ;
• Estimation multivariée (θ ∈ Rp).
168
![Page 411: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/411.jpg)
Rappel
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ univarié.
• θ = θ(X1, . . . ,Xn) = θn un estimateur de θ.
• Critère de performance pour θn : biais, variance, risque quadratique,VUMSB...
Dans cette partie
• Critères de performance asymptotiques ;
• Estimation par intervalles ;
• Estimation multivariée (θ ∈ Rp).
168
![Page 412: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/412.jpg)
Rappel
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ univarié.
• θ = θ(X1, . . . ,Xn) = θn un estimateur de θ.
• Critère de performance pour θn : biais, variance, risque quadratique,VUMSB...
Dans cette partie
• Critères de performance asymptotiques ;
• Estimation par intervalles ;
• Estimation multivariée (θ ∈ Rp).
168
![Page 413: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/413.jpg)
Rappel
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ Θ univarié.
• θ = θ(X1, . . . ,Xn) = θn un estimateur de θ.
• Critère de performance pour θn : biais, variance, risque quadratique,VUMSB...
Dans cette partie
• Critères de performance asymptotiques ;
• Estimation par intervalles ;
• Estimation multivariée (θ ∈ Rp).
168
![Page 414: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/414.jpg)
Critères asymptotiques
Estimation par intervalles
Estimation multivariée
Biais, variance, risque quadratique
Critères asymptotiques
Borne de Cramer-Rao
169
![Page 415: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/415.jpg)
Pourquoi ?
PostulatOn veut définir des estimateurs qui soient de plus en plus précis lorsque laquantité d’information augmente.
• La quantité d’information à disposition du statisticien peut êtrereprésentée par le nombre d’observations n.
• On cherche donc des estimateurs de plus en plus précis lorsque n
augmente.
• Mathématiquement, on va donc chercher des estimateurs θn quiconvergent (en probabilité, presque sûrement, en loi...) vers θ.
170
![Page 416: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/416.jpg)
Pourquoi ?
PostulatOn veut définir des estimateurs qui soient de plus en plus précis lorsque laquantité d’information augmente.
• La quantité d’information à disposition du statisticien peut êtrereprésentée par le nombre d’observations n.
• On cherche donc des estimateurs de plus en plus précis lorsque n
augmente.
• Mathématiquement, on va donc chercher des estimateurs θn quiconvergent (en probabilité, presque sûrement, en loi...) vers θ.
170
![Page 417: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/417.jpg)
Pourquoi ?
PostulatOn veut définir des estimateurs qui soient de plus en plus précis lorsque laquantité d’information augmente.
• La quantité d’information à disposition du statisticien peut êtrereprésentée par le nombre d’observations n.
• On cherche donc des estimateurs de plus en plus précis lorsque n
augmente.
• Mathématiquement, on va donc chercher des estimateurs θn quiconvergent (en probabilité, presque sûrement, en loi...) vers θ.
170
![Page 418: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/418.jpg)
Pourquoi ?
PostulatOn veut définir des estimateurs qui soient de plus en plus précis lorsque laquantité d’information augmente.
• La quantité d’information à disposition du statisticien peut êtrereprésentée par le nombre d’observations n.
• On cherche donc des estimateurs de plus en plus précis lorsque n
augmente.
• Mathématiquement, on va donc chercher des estimateurs θn quiconvergent (en probabilité, presque sûrement, en loi...) vers θ.
170
![Page 419: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/419.jpg)
Consistance
Définition
On dit que l’estimateur θn est consistant (ou convergent) si θ P→ θ,c’est-à-dire
∀ε > 0 limn→∞
Pθ(|θn − θ| ≥ ε) = 0.
Définition
Soit (vn)n une suite de réels positifs telle que vn →∞. On dit que θn estasymptotiquent normal, de vitesse vn si
vn(θn − θ)L→ N (0, σθ)
où σθ est positif.
171
![Page 420: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/420.jpg)
Consistance
Définition
On dit que l’estimateur θn est consistant (ou convergent) si θ P→ θ,c’est-à-dire
∀ε > 0 limn→∞
Pθ(|θn − θ| ≥ ε) = 0.
Définition
Soit (vn)n une suite de réels positifs telle que vn →∞. On dit que θn estasymptotiquent normal, de vitesse vn si
vn(θn − θ)L→ N (0, σθ)
où σθ est positif.
171
![Page 421: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/421.jpg)
Outils consistance
• Bienaymé-Tchebychev.
• Loi forte des grands nombres.
• Opérations sur les convergences en probabilité.
Exemple
• Modèle de Bernoulli : pn = Xn est consistant.
• Modèle exponentiel : λn = 1/Xn est consistant.
172
![Page 422: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/422.jpg)
Outils consistance
• Bienaymé-Tchebychev.
• Loi forte des grands nombres.
• Opérations sur les convergences en probabilité.
Exemple
• Modèle de Bernoulli : pn = Xn est consistant.
• Modèle exponentiel : λn = 1/Xn est consistant.
172
![Page 423: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/423.jpg)
Outils normalité asymptotique
• Théorème central limite.
• Delta méthode.
Exemple
• Modèle de Bernoulli : pn = Xn est asymptotiquement normal à lavitesse
√n : √
n(pn − p)L→ N (0, p(1− p)).
• Modèle exponentiel : λn = 1/Xn est asymptotiquement normal à lavitesse
√n : √
n(λn − λ)L→ N (0, λ2).
173
![Page 424: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/424.jpg)
Outils normalité asymptotique
• Théorème central limite.
• Delta méthode.
Exemple
• Modèle de Bernoulli : pn = Xn est asymptotiquement normal à lavitesse
√n : √
n(pn − p)L→ N (0, p(1− p)).
• Modèle exponentiel : λn = 1/Xn est asymptotiquement normal à lavitesse
√n : √
n(λn − λ)L→ N (0, λ2).
173
![Page 425: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/425.jpg)
Critères asymptotiques
Estimation par intervalles
Estimation multivariée
Biais, variance, risque quadratique
Critères asymptotiques
Borne de Cramer-Rao
174
![Page 426: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/426.jpg)
Motivations
• Donner une seule valeur pour estimer un paramètre peut se révélertrop ambitieux.
• Exemple : on traite 100 patients à l’aide d’un traitement. 72 guérissent.Affirmer que la performance est de 72% lorsque on prend le traitement(alors qu’on ne l’a testé que sur 100 athlètes) est un peu fort.
• Il peut parfois être plus raisonnable de donner une réponse dans legenre, la performance se trouve dans l’intervalle [70%, 74%] avec uneconfiance de 90%.
175
![Page 427: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/427.jpg)
Motivations
• Donner une seule valeur pour estimer un paramètre peut se révélertrop ambitieux.
• Exemple : on traite 100 patients à l’aide d’un traitement. 72 guérissent.Affirmer que la performance est de 72% lorsque on prend le traitement(alors qu’on ne l’a testé que sur 100 athlètes) est un peu fort.
• Il peut parfois être plus raisonnable de donner une réponse dans legenre, la performance se trouve dans l’intervalle [70%, 74%] avec uneconfiance de 90%.
175
![Page 428: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/428.jpg)
Motivations
• Donner une seule valeur pour estimer un paramètre peut se révélertrop ambitieux.
• Exemple : on traite 100 patients à l’aide d’un traitement. 72 guérissent.Affirmer que la performance est de 72% lorsque on prend le traitement(alors qu’on ne l’a testé que sur 100 athlètes) est un peu fort.
• Il peut parfois être plus raisonnable de donner une réponse dans legenre, la performance se trouve dans l’intervalle [70%, 74%] avec uneconfiance de 90%.
175
![Page 429: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/429.jpg)
Intervalle de confiance
• X1, . . . ,Xn un échantillon i.i.d. de loi Pθ avec θ ∈ Θ inconnu.
Définition
Soit α ∈]0, 1[. On appelle intervalle de confiance pour θ tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions telles que :
P(θ ∈ [An,Bn]) = 1− α.
Si limn→∞ P(θ ∈ [An,Bn]) = 1− α, on dit que [An,Bn] est un intervallede confiance asymptotique pour θ au niveau 1− α.
Remarque importante
• An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sont aléatoires !
• Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).
176
![Page 430: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/430.jpg)
Intervalle de confiance
• X1, . . . ,Xn un échantillon i.i.d. de loi Pθ avec θ ∈ Θ inconnu.
Définition
Soit α ∈]0, 1[. On appelle intervalle de confiance pour θ tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions telles que :
P(θ ∈ [An,Bn]) = 1− α.
Si limn→∞ P(θ ∈ [An,Bn]) = 1− α, on dit que [An,Bn] est un intervallede confiance asymptotique pour θ au niveau 1− α.
Remarque importante
• An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sont aléatoires !
• Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).
176
![Page 431: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/431.jpg)
Intervalle de confiance
• X1, . . . ,Xn un échantillon i.i.d. de loi Pθ avec θ ∈ Θ inconnu.
Définition
Soit α ∈]0, 1[. On appelle intervalle de confiance pour θ tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions telles que :
P(θ ∈ [An,Bn]) = 1− α.
Si limn→∞ P(θ ∈ [An,Bn]) = 1− α, on dit que [An,Bn] est un intervallede confiance asymptotique pour θ au niveau 1− α.
Remarque importante
• An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sont aléatoires !
• Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).
176
![Page 432: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/432.jpg)
Intervalle de confiance
• X1, . . . ,Xn un échantillon i.i.d. de loi Pθ avec θ ∈ Θ inconnu.
Définition
Soit α ∈]0, 1[. On appelle intervalle de confiance pour θ tout intervalle dela forme [An,Bn], où An et Bn sont des fonctions telles que :
P(θ ∈ [An,Bn]) = 1− α.
Si limn→∞ P(θ ∈ [An,Bn]) = 1− α, on dit que [An,Bn] est un intervallede confiance asymptotique pour θ au niveau 1− α.
Remarque importante
• An = An(X1, . . . ,Xn) et Bn = Bn(X1, . . . ,Xn) sont aléatoires !
• Les logiciels renverront les réels an = An(x1, . . . , xn) etbn = Bn(x1, . . . , xn).
176
![Page 433: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/433.jpg)
Construction d’un IC
• Inégalité de Bienaymé-Tchebychev (intervalle de confiance par excés) :
P(θ ∈ [An,Bn]) ≥ 1− α.
• Utilisation d’une fonction pivotable pour le paramètre θ : fonctionmesurable des observations et du paramètre inconnu mais dont la loine dépend pas de θ.
Méthode
1. se donner un niveau 1− α.2. trouver un estimateur θn de θ dont on connait la loi afin de construire une
fonction pivotable.
177
![Page 434: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/434.jpg)
Construction d’un IC
• Inégalité de Bienaymé-Tchebychev (intervalle de confiance par excés) :
P(θ ∈ [An,Bn]) ≥ 1− α.
• Utilisation d’une fonction pivotable pour le paramètre θ : fonctionmesurable des observations et du paramètre inconnu mais dont la loine dépend pas de θ.
Méthode
1. se donner un niveau 1− α.2. trouver un estimateur θn de θ dont on connait la loi afin de construire une
fonction pivotable.
177
![Page 435: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/435.jpg)
Construction d’un IC
• Inégalité de Bienaymé-Tchebychev (intervalle de confiance par excés) :
P(θ ∈ [An,Bn]) ≥ 1− α.
• Utilisation d’une fonction pivotable pour le paramètre θ : fonctionmesurable des observations et du paramètre inconnu mais dont la loine dépend pas de θ.
Méthode
1. se donner un niveau 1− α.2. trouver un estimateur θn de θ dont on connait la loi afin de construire une
fonction pivotable.
177
![Page 436: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/436.jpg)
Construction d’IC
• Un intervalle de confiance pour un paramètre inconnu θ se construitgénéralement à partir d’un estimateur de θ dont on connait la loi.
• A partir de la loi de θ, on cherche deux bornes An et Bn telles que
P(θ ∈ [An,Bn]) = 1− α.
RemarqueA priori, plus α est petit, plus l’intervalle aura un grande amplitude.
178
![Page 437: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/437.jpg)
Construction d’IC
• Un intervalle de confiance pour un paramètre inconnu θ se construitgénéralement à partir d’un estimateur de θ dont on connait la loi.
• A partir de la loi de θ, on cherche deux bornes An et Bn telles que
P(θ ∈ [An,Bn]) = 1− α.
RemarqueA priori, plus α est petit, plus l’intervalle aura un grande amplitude.
178
![Page 438: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/438.jpg)
Construction d’IC
• Un intervalle de confiance pour un paramètre inconnu θ se construitgénéralement à partir d’un estimateur de θ dont on connait la loi.
• A partir de la loi de θ, on cherche deux bornes An et Bn telles que
P(θ ∈ [An,Bn]) = 1− α.
RemarqueA priori, plus α est petit, plus l’intervalle aura un grande amplitude.
178
![Page 439: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/439.jpg)
Exemple
• X1, . . . ,Xn i.i.d. de loi normale N (µ, 1).• On suppose la variance connue et on cherche un IC pour µ.
Construction de l’IC
• Estimateur : µ = Xn.
• Loi de l’estimateur : L(µ) = N (µ, 1/n).
• On déduit
P(µ− q1−α/2
1√n≤ µ ≤ µ+ q1−α/2
1√n
)= 1− α.
• Un intervalle de confiance de niveau 1− α est donc donné par[µ− q1−α/2
1√n, µ+ q1−α/2
1√n
].
179
![Page 440: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/440.jpg)
Exemple
• X1, . . . ,Xn i.i.d. de loi normale N (µ, 1).• On suppose la variance connue et on cherche un IC pour µ.
Construction de l’IC
• Estimateur : µ = Xn.
• Loi de l’estimateur : L(µ) = N (µ, 1/n).
• On déduit
P(µ− q1−α/2
1√n≤ µ ≤ µ+ q1−α/2
1√n
)= 1− α.
• Un intervalle de confiance de niveau 1− α est donc donné par[µ− q1−α/2
1√n, µ+ q1−α/2
1√n
].
179
![Page 441: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/441.jpg)
Exemple
• X1, . . . ,Xn i.i.d. de loi normale N (µ, 1).• On suppose la variance connue et on cherche un IC pour µ.
Construction de l’IC
• Estimateur : µ = Xn.
• Loi de l’estimateur : L(µ) = N (µ, 1/n).
• On déduit
P(µ− q1−α/2
1√n≤ µ ≤ µ+ q1−α/2
1√n
)= 1− α.
• Un intervalle de confiance de niveau 1− α est donc donné par[µ− q1−α/2
1√n, µ+ q1−α/2
1√n
].
179
![Page 442: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/442.jpg)
Exemple
• X1, . . . ,Xn i.i.d. de loi normale N (µ, 1).• On suppose la variance connue et on cherche un IC pour µ.
Construction de l’IC
• Estimateur : µ = Xn.
• Loi de l’estimateur : L(µ) = N (µ, 1/n).
• On déduit
P(µ− q1−α/2
1√n≤ µ ≤ µ+ q1−α/2
1√n
)= 1− α.
• Un intervalle de confiance de niveau 1− α est donc donné par[µ− q1−α/2
1√n, µ+ q1−α/2
1√n
].
179
![Page 443: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/443.jpg)
Exemple
• X1, . . . ,Xn i.i.d. de loi normale N (µ, 1).• On suppose la variance connue et on cherche un IC pour µ.
Construction de l’IC
• Estimateur : µ = Xn.
• Loi de l’estimateur : L(µ) = N (µ, 1/n).
• On déduit
P(µ− q1−α/2
1√n≤ µ ≤ µ+ q1−α/2
1√n
)= 1− α.
• Un intervalle de confiance de niveau 1− α est donc donné par[µ− q1−α/2
1√n, µ+ q1−α/2
1√n
].
179
![Page 444: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/444.jpg)
Quantiles
• q1−α/2 désigne le quantile d’ordre 1− α/2 de la loi normale N (0, 1)
défini parP(X ≤ q1−α/2
)= 1− α
2.
DéfinitionPlus généralement, le quantile d’ordre α d’une variable aléatoire X estdéfini par le réel qα vérifiant
qα = infxx : F (x) ≥ α.
• Les quantiles sont généralement renvoyés par les logiciels statistique :> c(qnorm(0.975),qnorm(0.95),qnorm(0.5))[1] 1.959964 1.644854 0
180
![Page 445: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/445.jpg)
Quantiles
• q1−α/2 désigne le quantile d’ordre 1− α/2 de la loi normale N (0, 1)
défini parP(X ≤ q1−α/2
)= 1− α
2.
DéfinitionPlus généralement, le quantile d’ordre α d’une variable aléatoire X estdéfini par le réel qα vérifiant
qα = infxx : F (x) ≥ α.
• Les quantiles sont généralement renvoyés par les logiciels statistique :> c(qnorm(0.975),qnorm(0.95),qnorm(0.5))[1] 1.959964 1.644854 0
180
![Page 446: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/446.jpg)
Quantiles
• q1−α/2 désigne le quantile d’ordre 1− α/2 de la loi normale N (0, 1)
défini parP(X ≤ q1−α/2
)= 1− α
2.
DéfinitionPlus généralement, le quantile d’ordre α d’une variable aléatoire X estdéfini par le réel qα vérifiant
qα = infxx : F (x) ≥ α.
• Les quantiles sont généralement renvoyés par les logiciels statistique :> c(qnorm(0.975),qnorm(0.95),qnorm(0.5))[1] 1.959964 1.644854 0
180
![Page 447: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/447.jpg)
Exemple
• n = 50 observation issues d’une loi N (µ, 1) :
> head(X)[1] 3.79 5.28 6.08 2.65 5.43 5.51
• Estimation de µ :
> mean(X)[1] 4.55
• Intervalle de confiance de niveau 95% :
> binf <- mean(X)-qnorm(0.975)*1/sqrt(50)> bsup <- mean(X)+qnorm(0.975)*1/sqrt(50)> c(binf,bsup)[1] 4.269766 4.824128
181
![Page 448: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/448.jpg)
Exemple
• n = 50 observation issues d’une loi N (µ, 1) :
> head(X)[1] 3.79 5.28 6.08 2.65 5.43 5.51
• Estimation de µ :
> mean(X)[1] 4.55
• Intervalle de confiance de niveau 95% :
> binf <- mean(X)-qnorm(0.975)*1/sqrt(50)> bsup <- mean(X)+qnorm(0.975)*1/sqrt(50)> c(binf,bsup)[1] 4.269766 4.824128
181
![Page 449: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/449.jpg)
Intervalle de confiance pour une proportion
• X1, . . . ,Xn i.i.d. de loi B(p).• On cherche un intervalle de confiance asymptotique pour p.
Construction de l’IC
• Estimateur : pn = Xn.
• Loi asymptotique de l’estimateur :
√n(pn − p)
L→ N (0, p(1− p)).
• On déduit
P
(pn − q1−α/2
√p(1− p)
n≤ µ ≤ pn + q1−α/2
√p(1− p)
n
)→ 1−α.
182
![Page 450: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/450.jpg)
Intervalle de confiance pour une proportion
• X1, . . . ,Xn i.i.d. de loi B(p).• On cherche un intervalle de confiance asymptotique pour p.
Construction de l’IC
• Estimateur : pn = Xn.
• Loi asymptotique de l’estimateur :
√n(pn − p)
L→ N (0, p(1− p)).
• On déduit
P
(pn − q1−α/2
√p(1− p)
n≤ µ ≤ pn + q1−α/2
√p(1− p)
n
)→ 1−α.
182
![Page 451: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/451.jpg)
Intervalle de confiance pour une proportion
• X1, . . . ,Xn i.i.d. de loi B(p).• On cherche un intervalle de confiance asymptotique pour p.
Construction de l’IC
• Estimateur : pn = Xn.
• Loi asymptotique de l’estimateur :
√n(pn − p)
L→ N (0, p(1− p)).
• On déduit
P
(pn − q1−α/2
√p(1− p)
n≤ µ ≤ pn + q1−α/2
√p(1− p)
n
)→ 1−α.
182
![Page 452: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/452.jpg)
Intervalle de confiance pour une proportion
• X1, . . . ,Xn i.i.d. de loi B(p).• On cherche un intervalle de confiance asymptotique pour p.
Construction de l’IC
• Estimateur : pn = Xn.
• Loi asymptotique de l’estimateur :
√n(pn − p)
L→ N (0, p(1− p)).
• On déduit
P
(pn − q1−α/2
√p(1− p)
n≤ µ ≤ pn + q1−α/2
√p(1− p)
n
)→ 1−α.
182
![Page 453: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/453.jpg)
Première version de l’IC
• Un intervalle de confiance asymptotique de niveau 1− α est doncdonné par[
pn − q1−α/2
√p(1− p)
n, pn + q1−α/2
√p(1− p)
n
].
• Problème : l’IC dépend de p qui est inconnu !• Solution : Slutsky =⇒
√n
pn − p√pn(1− pn)
L→ N (0, 1).
ConclusionUn intervalle de confiance asymptotique de niveau 1− α est donné par[
pn − q1−α/2
√pn(1− pn)
n, pn + q1−α/2
√pn(1− pn)
n
].
183
![Page 454: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/454.jpg)
Première version de l’IC
• Un intervalle de confiance asymptotique de niveau 1− α est doncdonné par[
pn − q1−α/2
√p(1− p)
n, pn + q1−α/2
√p(1− p)
n
].
• Problème : l’IC dépend de p qui est inconnu !
• Solution : Slutsky =⇒√n
pn − p√pn(1− pn)
L→ N (0, 1).
ConclusionUn intervalle de confiance asymptotique de niveau 1− α est donné par[
pn − q1−α/2
√pn(1− pn)
n, pn + q1−α/2
√pn(1− pn)
n
].
183
![Page 455: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/455.jpg)
Première version de l’IC
• Un intervalle de confiance asymptotique de niveau 1− α est doncdonné par[
pn − q1−α/2
√p(1− p)
n, pn + q1−α/2
√p(1− p)
n
].
• Problème : l’IC dépend de p qui est inconnu !• Solution : Slutsky =⇒
√n
pn − p√pn(1− pn)
L→ N (0, 1).
ConclusionUn intervalle de confiance asymptotique de niveau 1− α est donné par[
pn − q1−α/2
√pn(1− pn)
n, pn + q1−α/2
√pn(1− pn)
n
].
183
![Page 456: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/456.jpg)
Première version de l’IC
• Un intervalle de confiance asymptotique de niveau 1− α est doncdonné par[
pn − q1−α/2
√p(1− p)
n, pn + q1−α/2
√p(1− p)
n
].
• Problème : l’IC dépend de p qui est inconnu !• Solution : Slutsky =⇒
√n
pn − p√pn(1− pn)
L→ N (0, 1).
ConclusionUn intervalle de confiance asymptotique de niveau 1− α est donné par[
pn − q1−α/2
√pn(1− pn)
n, pn + q1−α/2
√pn(1− pn)
n
].
183
![Page 457: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/457.jpg)
• n = 500 observation issues d’une loi B(p).
• Estimation de p :> phat <- mean(X)> phat[1] 0.756
• Intervalle de confiance asymptotique de niveau 95% :> binf <- phat-qnorm(0.975)*sqrt(phat*(1-phat)/n)> bsup <- phat+qnorm(0.975)*sqrt(phat*(1-phat)/n)> c(binf,bsup)[1] 0.718354 0.793646
Fonction prop.testOn peut récupérer un IC plus précis à l’aide de la fonction prop.test :
> prop.test(sum(X),n,correct=FALSE)$conf.int[1] 0.7164952 0.7916011attr(,"conf.level")[1] 0.95
184
![Page 458: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/458.jpg)
• n = 500 observation issues d’une loi B(p).• Estimation de p :
> phat <- mean(X)> phat[1] 0.756
• Intervalle de confiance asymptotique de niveau 95% :> binf <- phat-qnorm(0.975)*sqrt(phat*(1-phat)/n)> bsup <- phat+qnorm(0.975)*sqrt(phat*(1-phat)/n)> c(binf,bsup)[1] 0.718354 0.793646
Fonction prop.testOn peut récupérer un IC plus précis à l’aide de la fonction prop.test :
> prop.test(sum(X),n,correct=FALSE)$conf.int[1] 0.7164952 0.7916011attr(,"conf.level")[1] 0.95
184
![Page 459: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/459.jpg)
• n = 500 observation issues d’une loi B(p).• Estimation de p :
> phat <- mean(X)> phat[1] 0.756
• Intervalle de confiance asymptotique de niveau 95% :> binf <- phat-qnorm(0.975)*sqrt(phat*(1-phat)/n)> bsup <- phat+qnorm(0.975)*sqrt(phat*(1-phat)/n)> c(binf,bsup)[1] 0.718354 0.793646
Fonction prop.testOn peut récupérer un IC plus précis à l’aide de la fonction prop.test :
> prop.test(sum(X),n,correct=FALSE)$conf.int[1] 0.7164952 0.7916011attr(,"conf.level")[1] 0.95
184
![Page 460: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/460.jpg)
Loi normale (cas réel)
• X1, . . . ,Xn i.i.d de loi N (µ, σ2).
• On a vu qu’un IC pour µ est donné par[µ− q1−α/2
σ√n, µ+ q1−α/2
σ√n
].
Problème
• Dans la vraie vie, σ est inconnu !
• L’intervalle de confiance n’est donc pas calculable.
185
![Page 461: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/461.jpg)
Loi normale (cas réel)
• X1, . . . ,Xn i.i.d de loi N (µ, σ2).
• On a vu qu’un IC pour µ est donné par[µ− q1−α/2
σ√n, µ+ q1−α/2
σ√n
].
Problème
• Dans la vraie vie, σ est inconnu !
• L’intervalle de confiance n’est donc pas calculable.
185
![Page 462: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/462.jpg)
Idée
1. Estimer σ2 par
σ2 =1n
n∑i=1
(Xi − Xn)2
2. Et considérer l’IC :[µ− q1−α/2
σ√n, µ+ q1−α/2
σ√n
]. (2)
Problème
• On a bien
L(√
nXn − µσ
)= N (0, 1)
• mais
L(√
nXn − µσ
)6= N (0, 1)
186
![Page 463: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/463.jpg)
Idée
1. Estimer σ2 par
σ2 =1n
n∑i=1
(Xi − Xn)2
2. Et considérer l’IC :[µ− q1−α/2
σ√n, µ+ q1−α/2
σ√n
]. (2)
Problème
• On a bien
L(√
nXn − µσ
)= N (0, 1)
• mais
L(√
nXn − µσ
)6= N (0, 1)
186
![Page 464: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/464.jpg)
Idée
1. Estimer σ2 par
σ2 =1n
n∑i=1
(Xi − Xn)2
2. Et considérer l’IC :[µ− q1−α/2
σ√n, µ+ q1−α/2
σ√n
]. (2)
Problème
• On a bien
L(√
nXn − µσ
)= N (0, 1)
• mais
L(√
nXn − µσ
)6= N (0, 1)
186
![Page 465: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/465.jpg)
Idée
1. Estimer σ2 par
σ2 =1n
n∑i=1
(Xi − Xn)2
2. Et considérer l’IC :[µ− q1−α/2
σ√n, µ+ q1−α/2
σ√n
]. (2)
Problème
• On a bien
L(√
nXn − µσ
)= N (0, 1)
• mais
L(√
nXn − µσ
)6= N (0, 1) 186
![Page 466: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/466.jpg)
• Pour avoir la loi de√nXn − µσ
6= N (0, 1)
avec
σ2 =1n
n∑i=1
(Xi − Xn)2
• il faut définir d’autres lois de probabilité.
187
![Page 467: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/467.jpg)
La loi normale (Rappel)
Définition
• Une v.a.r X suit une loi normale de paramètres µ ∈ R et σ2 > 0 admetpour densité
f (x) =1√2πσ
exp
(−(x − µ)2
2σ2
).
Propriétés
• E[X ] = µ et V[X ] = σ2.
• Si X ∼ N(µ, σ2) alors
X − µσ
∼ N (0, 1).
188
![Page 468: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/468.jpg)
La loi normale (Rappel)
Définition
• Une v.a.r X suit une loi normale de paramètres µ ∈ R et σ2 > 0 admetpour densité
f (x) =1√2πσ
exp
(−(x − µ)2
2σ2
).
Propriétés
• E[X ] = µ et V[X ] = σ2.
• Si X ∼ N(µ, σ2) alors
X − µσ
∼ N (0, 1).
188
![Page 469: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/469.jpg)
Loi du χ2
Définition
• Soit X1, . . . ,Xn n variables aléatoires réelles indépendantes de loiN (0, 1). La variable Y = X 2
1 + . . .+ X 2n suit une loi du Chi-Deux à n
degrés de liberté. Elle est notée χ2(n).
• E[Y ] = n et V[Y ] = 2n.
3 ddl 10 ddl
0 10 20 30 0 10 20 30
0.00
0.05
0.10
0.15
0.20
0.25
189
![Page 470: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/470.jpg)
Loi de Student
Définition
• Soient X et Y deux v.a.r. indépendantes de loi N (0, 1) et χ2(n). Alorsla v.a.r.
T =X√Y /n
suit une loi de student à n degrés de liberté. On note T (n).
• E[T ] = 0 et V[T ] = n/(n − 2).
• Lorsque n est grand la loi de student à n degrés de liberté peut êtreapprochée par la loi N (0, 1).
190
![Page 471: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/471.jpg)
Loi de Student
Définition
• Soient X et Y deux v.a.r. indépendantes de loi N (0, 1) et χ2(n). Alorsla v.a.r.
T =X√Y /n
suit une loi de student à n degrés de liberté. On note T (n).
• E[T ] = 0 et V[T ] = n/(n − 2).
• Lorsque n est grand la loi de student à n degrés de liberté peut êtreapprochée par la loi N (0, 1).
190
![Page 472: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/472.jpg)
Loi de Student
Définition
• Soient X et Y deux v.a.r. indépendantes de loi N (0, 1) et χ2(n). Alorsla v.a.r.
T =X√Y /n
suit une loi de student à n degrés de liberté. On note T (n).
• E[T ] = 0 et V[T ] = n/(n − 2).
• Lorsque n est grand la loi de student à n degrés de liberté peut êtreapprochée par la loi N (0, 1).
190
![Page 473: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/473.jpg)
10 ddl 100 ddl
2 ddl 5 ddl
−4 −2 0 2 4 −4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.0
0.1
0.2
0.3
0.4
LégendeDensités des lois de student à 2, 5, 10 et 100 degrés de liberté (bleu) etdensité de la loi N (0, 1) (rouge).
191
![Page 474: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/474.jpg)
Loi de Fisher
Définition
• Soient X et Y deux v.a.r indépendantes de lois χ2(m) et χ2(n). Alorsla v.a.r
F =X/m
Y /m
suit une loi de Fisher à m et n degrés de liberté. On note F(m, n).
• Si F ∼ F(m, n) alors 1/F ∼ F(n,m).
(5,2) ddl (10,4) ddl
0.0 2.5 5.0 7.5 10.0 0.0 2.5 5.0 7.5 10.0
0.0
0.2
0.4
0.6
Figure 2 – Densités F(5, 2) et F(10, 4)
192
![Page 475: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/475.jpg)
Loi de Fisher
Définition
• Soient X et Y deux v.a.r indépendantes de lois χ2(m) et χ2(n). Alorsla v.a.r
F =X/m
Y /m
suit une loi de Fisher à m et n degrés de liberté. On note F(m, n).
• Si F ∼ F(m, n) alors 1/F ∼ F(n,m).
(5,2) ddl (10,4) ddl
0.0 2.5 5.0 7.5 10.0 0.0 2.5 5.0 7.5 10.0
0.0
0.2
0.4
0.6
Figure 2 – Densités F(5, 2) et F(10, 4)192
![Page 476: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/476.jpg)
Théorème de Cochran
• X1, . . . ,Xn i.i.d. de loi N (µ, σ2).• On note
S2 =1
n − 1
n∑i=1
(Xi − Xn)2.
Théorème de CochranOn a alors
1. (n − 1)S2
σ2 ∼ χ2(n − 1).
2. Xn et S2 sont indépendantes.
3. On déduit√nXn − µ
S∼ T (n − 1).
RemarqueLes résultats 1 et 3 sont très importants pour construire des IC.
193
![Page 477: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/477.jpg)
Théorème de Cochran
• X1, . . . ,Xn i.i.d. de loi N (µ, σ2).• On note
S2 =1
n − 1
n∑i=1
(Xi − Xn)2.
Théorème de CochranOn a alors
1. (n − 1)S2
σ2 ∼ χ2(n − 1).
2. Xn et S2 sont indépendantes.
3. On déduit√nXn − µ
S∼ T (n − 1).
RemarqueLes résultats 1 et 3 sont très importants pour construire des IC.
193
![Page 478: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/478.jpg)
Théorème de Cochran
• X1, . . . ,Xn i.i.d. de loi N (µ, σ2).• On note
S2 =1
n − 1
n∑i=1
(Xi − Xn)2.
Théorème de CochranOn a alors
1. (n − 1)S2
σ2 ∼ χ2(n − 1).
2. Xn et S2 sont indépendantes.
3. On déduit√nXn − µ
S∼ T (n − 1).
RemarqueLes résultats 1 et 3 sont très importants pour construire des IC.
193
![Page 479: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/479.jpg)
Théorème de Cochran
• X1, . . . ,Xn i.i.d. de loi N (µ, σ2).• On note
S2 =1
n − 1
n∑i=1
(Xi − Xn)2.
Théorème de CochranOn a alors
1. (n − 1)S2
σ2 ∼ χ2(n − 1).
2. Xn et S2 sont indépendantes.
3. On déduit√nXn − µ
S∼ T (n − 1).
RemarqueLes résultats 1 et 3 sont très importants pour construire des IC. 193
![Page 480: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/480.jpg)
IC pour la loi gaussienne
IC pour µOn déduit du résultat précédent qu’un IC de niveau 1− α pour µ estdonné par [
Xn − t1−α/2S√n, Xn + t1−α/2
S√n
],
où t1−α/2 est le quantile d’ordre 1− α/2 de la loi de Student à n − 1 ddl.
IC pour σ2
Un IC de niveau 1− α pour σ2 est donné par[(n − 1)S2
χ1−α/2,
(n − 1)S2
χα/2
]où χ1−α/2 et χα/2 sont les quantiles d’ordre 1− α/2 et α/2 de loiχ2(n − 1).
194
![Page 481: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/481.jpg)
IC pour la loi gaussienne
IC pour µOn déduit du résultat précédent qu’un IC de niveau 1− α pour µ estdonné par [
Xn − t1−α/2S√n, Xn + t1−α/2
S√n
],
où t1−α/2 est le quantile d’ordre 1− α/2 de la loi de Student à n − 1 ddl.
IC pour σ2
Un IC de niveau 1− α pour σ2 est donné par[(n − 1)S2
χ1−α/2,
(n − 1)S2
χα/2
]où χ1−α/2 et χα/2 sont les quantiles d’ordre 1− α/2 et α/2 de loiχ2(n − 1).
194
![Page 482: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/482.jpg)
Exemple : modèle Gaussien - IC pour µ
• n = 50 observations issues d’une loi N (µ, σ2) :
> head(X)[1] 3.79 5.28 6.08 2.65 5.43 5.51
• Estimation de µ :
> mean(X)[1] 4.55
• Estimation de σ2 :
> S <- var(X)> S[1] 0.783302
195
![Page 483: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/483.jpg)
Exemple : modèle Gaussien - IC pour µ
• n = 50 observations issues d’une loi N (µ, σ2) :
> head(X)[1] 3.79 5.28 6.08 2.65 5.43 5.51
• Estimation de µ :
> mean(X)[1] 4.55
• Estimation de σ2 :
> S <- var(X)> S[1] 0.783302
195
![Page 484: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/484.jpg)
Exemple : modèle Gaussien - IC pour µ
• n = 50 observations issues d’une loi N (µ, σ2) :
> head(X)[1] 3.79 5.28 6.08 2.65 5.43 5.51
• Estimation de µ :
> mean(X)[1] 4.55
• Estimation de σ2 :
> S <- var(X)> S[1] 0.783302
195
![Page 485: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/485.jpg)
• Intervalle de confiance de niveau 95% :
> binf <- mean(X)-qt(0.975,49)*sqrt(S)/sqrt(50)> bsup <- mean(X)+qt(0.975,49)*sqrt(S)/sqrt(50)> c(binf,bsup)[1] 4.295420 4.798474
• On peut obtenir directement l’intervalle de confiance à l’aide de lafonction t.test
> t.test(X)$conf.int[1] 4.295420 4.798474attr(,"conf.level")[1] 0.95
196
![Page 486: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/486.jpg)
• Intervalle de confiance de niveau 95% :
> binf <- mean(X)-qt(0.975,49)*sqrt(S)/sqrt(50)> bsup <- mean(X)+qt(0.975,49)*sqrt(S)/sqrt(50)> c(binf,bsup)[1] 4.295420 4.798474
• On peut obtenir directement l’intervalle de confiance à l’aide de lafonction t.test
> t.test(X)$conf.int[1] 4.295420 4.798474attr(,"conf.level")[1] 0.95
196
![Page 487: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/487.jpg)
Exemple : modèle gaussien - IC pour σ2
• On obtient l’IC pour σ2 à l’aide de la formule[(n − 1)S2
χ1−α/2,
(n − 1)S2
χα/2
]
• On peut donc le calculer sur R :
> binf <- 49*S/qchisq(0.975,49)> bsup <- 49*S/qchisq(0.025,49)> c(binf,bsup)[1] 0.5465748 1.2163492
197
![Page 488: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/488.jpg)
Exemple : modèle gaussien - IC pour σ2
• On obtient l’IC pour σ2 à l’aide de la formule[(n − 1)S2
χ1−α/2,
(n − 1)S2
χα/2
]
• On peut donc le calculer sur R :
> binf <- 49*S/qchisq(0.975,49)> bsup <- 49*S/qchisq(0.025,49)> c(binf,bsup)[1] 0.5465748 1.2163492
197
![Page 489: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/489.jpg)
Critères asymptotiques
Estimation par intervalles
Estimation multivariée
Biais, variance, risque quadratique
Critères asymptotiques
Borne de Cramer-Rao
198
![Page 490: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/490.jpg)
Jusqu’à présent
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ R.
• La loi Pθ dépend donc d’un seul paramètre (à estimer).
• Dans de nombreux problèmes concrets, les choses sont plus complexes.
• Il faut donc envisager le cas où on dispose de plus d’un paramètre.
199
![Page 491: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/491.jpg)
Jusqu’à présent
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ R.
• La loi Pθ dépend donc d’un seul paramètre (à estimer).
• Dans de nombreux problèmes concrets, les choses sont plus complexes.
• Il faut donc envisager le cas où on dispose de plus d’un paramètre.
199
![Page 492: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/492.jpg)
Jusqu’à présent
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ R.
• La loi Pθ dépend donc d’un seul paramètre (à estimer).
• Dans de nombreux problèmes concrets, les choses sont plus complexes.
• Il faut donc envisager le cas où on dispose de plus d’un paramètre.
199
![Page 493: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/493.jpg)
Cadre
• Pour simplifier on se place dans le cas d’un paramètre bivarié.• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) inconnu dans R2.
Estimateur
Un estimateur θ = (θ1, θ2) est une fonction mesurable de X1, . . . ,Xn
indépendante de θ à valeurs dans R2.
Exemple : le modèle gaussien
• θ = (µ, σ2)
• θ = (µ,S2) tels que
µ = Xn et S2 =1
n − 1
n∑i=1
(Xi − Xn)2.
200
![Page 494: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/494.jpg)
Cadre
• Pour simplifier on se place dans le cas d’un paramètre bivarié.• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) inconnu dans R2.
Estimateur
Un estimateur θ = (θ1, θ2) est une fonction mesurable de X1, . . . ,Xn
indépendante de θ à valeurs dans R2.
Exemple : le modèle gaussien
• θ = (µ, σ2)
• θ = (µ,S2) tels que
µ = Xn et S2 =1
n − 1
n∑i=1
(Xi − Xn)2.
200
![Page 495: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/495.jpg)
Cadre
• Pour simplifier on se place dans le cas d’un paramètre bivarié.• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) inconnu dans R2.
Estimateur
Un estimateur θ = (θ1, θ2) est une fonction mesurable de X1, . . . ,Xn
indépendante de θ à valeurs dans R2.
Exemple : le modèle gaussien
• θ = (µ, σ2)
• θ = (µ,S2) tels que
µ = Xn et S2 =1
n − 1
n∑i=1
(Xi − Xn)2.
200
![Page 496: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/496.jpg)
Critères asymptotiques
Estimation par intervalles
Estimation multivariée
Biais, variance, risque quadratique
Critères asymptotiques
Borne de Cramer-Rao
201
![Page 497: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/497.jpg)
• Pour le biais, on travaille composante par composante :
E[θ] =
(E[θ1]
E[θ2]
)et b(θ) = E[θ]− θ =
(b(θ1)
b(θ2)
).
• θ = (θ1, θ2) est un vecteur aléatoire ! Il ne va donc pas posséder devariance mais une matrice de variance covariance :
Σθ =
(V[θ1] cov(θ1, θ2)
cov(θ2, θ1) V[θ2]
).
202
![Page 498: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/498.jpg)
Exemple : le modèle gaussien
• θ = (µ, σ2) et θ = (Xn, S2).
• On a b(θ) = (0, 0).
• D’après Cochran, on déduit
Σθ =
(σ2
n 00 2σ4
n−1
).
203
![Page 499: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/499.jpg)
Exemple : le modèle gaussien
• θ = (µ, σ2) et θ = (Xn, S2).
• On a b(θ) = (0, 0).
• D’après Cochran, on déduit
Σθ =
(σ2
n 00 2σ4
n−1
).
203
![Page 500: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/500.jpg)
Exemple : le modèle gaussien
• θ = (µ, σ2) et θ = (Xn, S2).
• On a b(θ) = (0, 0).
• D’après Cochran, on déduit
Σθ =
(σ2
n 00 2σ4
n−1
).
203
![Page 501: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/501.jpg)
Risque quadratique
• Il existe également un risque quadratique en estimation multivariée.
Définition
On appelle risque quadratique de θ = (θ1, θ2) le réel positif
R(θ, θ) = Eθ‖θ − θ‖2
Propriété
R(θ, θ) = ‖Eθ(θ)− θ‖2 + Eθ‖θ − Eθθ‖2.
• On a toujours une décomposition "biais/variance".
204
![Page 502: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/502.jpg)
Risque quadratique
• Il existe également un risque quadratique en estimation multivariée.
Définition
On appelle risque quadratique de θ = (θ1, θ2) le réel positif
R(θ, θ) = Eθ‖θ − θ‖2
Propriété
R(θ, θ) = ‖Eθ(θ)− θ‖2 + Eθ‖θ − Eθθ‖2.
• On a toujours une décomposition "biais/variance".
204
![Page 503: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/503.jpg)
Risque quadratique
• Il existe également un risque quadratique en estimation multivariée.
Définition
On appelle risque quadratique de θ = (θ1, θ2) le réel positif
R(θ, θ) = Eθ‖θ − θ‖2
Propriété
R(θ, θ) = ‖Eθ(θ)− θ‖2 + Eθ‖θ − Eθθ‖2.
• On a toujours une décomposition "biais/variance".
204
![Page 504: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/504.jpg)
Critères asymptotiques
Estimation par intervalles
Estimation multivariée
Biais, variance, risque quadratique
Critères asymptotiques
Borne de Cramer-Rao
205
![Page 505: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/505.jpg)
Consistance
Définition
On dit que l’estimateur θ est consistant (ou convergent) si θ P→ θ,c’est-à-dire
∀ε > 0 limn→∞
Pθ(‖θ − θ‖ ≥ ε) = 0.
• La valeur absolue est juste remplacée par la norme euclidienne.
• En pratique, ce n’est pas difficile : en effet θ P→ θ si et seulement siθ1
P→ θ1 et θ2P→ θ2.
Exemple : le modèle gaussien
θ = (Xn,S2) est consistant.
206
![Page 506: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/506.jpg)
Consistance
Définition
On dit que l’estimateur θ est consistant (ou convergent) si θ P→ θ,c’est-à-dire
∀ε > 0 limn→∞
Pθ(‖θ − θ‖ ≥ ε) = 0.
• La valeur absolue est juste remplacée par la norme euclidienne.
• En pratique, ce n’est pas difficile : en effet θ P→ θ si et seulement siθ1
P→ θ1 et θ2P→ θ2.
Exemple : le modèle gaussien
θ = (Xn,S2) est consistant.
206
![Page 507: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/507.jpg)
Consistance
Définition
On dit que l’estimateur θ est consistant (ou convergent) si θ P→ θ,c’est-à-dire
∀ε > 0 limn→∞
Pθ(‖θ − θ‖ ≥ ε) = 0.
• La valeur absolue est juste remplacée par la norme euclidienne.
• En pratique, ce n’est pas difficile : en effet θ P→ θ si et seulement siθ1
P→ θ1 et θ2P→ θ2.
Exemple : le modèle gaussien
θ = (Xn,S2) est consistant.
206
![Page 508: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/508.jpg)
Consistance
Définition
On dit que l’estimateur θ est consistant (ou convergent) si θ P→ θ,c’est-à-dire
∀ε > 0 limn→∞
Pθ(‖θ − θ‖ ≥ ε) = 0.
• La valeur absolue est juste remplacée par la norme euclidienne.
• En pratique, ce n’est pas difficile : en effet θ P→ θ si et seulement siθ1
P→ θ1 et θ2P→ θ2.
Exemple : le modèle gaussien
θ = (Xn,S2) est consistant.
206
![Page 509: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/509.jpg)
Normalité asymptotique
Définition
Soit (vn)n une suite de réels positifs telle que vn →∞. On dit queθ = (θ1, θ2) est asymptotiquent normal, de vitesse vn si
vn(θ − θ)L→ N (0,Σθ)
où Σθ est une matrice symétrique 2× 2 définie positive.
• La loi limite est une loi gaussienne multivariée.
• Il existe une version multivariée du TCL et de la delta méthode. Cesont les principaux outils pour montrer la normalité asymptotiqued’estimateurs multivariés.
207
![Page 510: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/510.jpg)
Normalité asymptotique
Définition
Soit (vn)n une suite de réels positifs telle que vn →∞. On dit queθ = (θ1, θ2) est asymptotiquent normal, de vitesse vn si
vn(θ − θ)L→ N (0,Σθ)
où Σθ est une matrice symétrique 2× 2 définie positive.
• La loi limite est une loi gaussienne multivariée.
• Il existe une version multivariée du TCL et de la delta méthode. Cesont les principaux outils pour montrer la normalité asymptotiqued’estimateurs multivariés.
207
![Page 511: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/511.jpg)
Normalité asymptotique
Définition
Soit (vn)n une suite de réels positifs telle que vn →∞. On dit queθ = (θ1, θ2) est asymptotiquent normal, de vitesse vn si
vn(θ − θ)L→ N (0,Σθ)
où Σθ est une matrice symétrique 2× 2 définie positive.
• La loi limite est une loi gaussienne multivariée.
• Il existe une version multivariée du TCL et de la delta méthode. Cesont les principaux outils pour montrer la normalité asymptotiqued’estimateurs multivariés.
207
![Page 512: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/512.jpg)
Vecteurs gaussiens (rappels)
Définition
• X = (X1,X2) est un vecteur aléatoire gaussien si toute combinaisonlinéaire de ses marginales α1X1 + α2X2 est une variable aléatoire réellegaussienne.
• On note X ∼ N (µ,Σ) où µ ∈ R2 est l’espérance de X et Σ est lamatrice (2× 2) de variance covariance de X .
Propriété
Soit X un vecteur gaussien de loi N (µ,Σ). Alors X admet une densité siet seulement si det(Σ) 6= 0. Elle est donnée par
f (x) =1
2π√
det(Σ)exp
(−12
(x − µ)′Σ−1(x − µ)
).
208
![Page 513: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/513.jpg)
Vecteurs gaussiens (rappels)
Définition
• X = (X1,X2) est un vecteur aléatoire gaussien si toute combinaisonlinéaire de ses marginales α1X1 + α2X2 est une variable aléatoire réellegaussienne.
• On note X ∼ N (µ,Σ) où µ ∈ R2 est l’espérance de X et Σ est lamatrice (2× 2) de variance covariance de X .
Propriété
Soit X un vecteur gaussien de loi N (µ,Σ). Alors X admet une densité siet seulement si det(Σ) 6= 0. Elle est donnée par
f (x) =1
2π√
det(Σ)exp
(−12
(x − µ)′Σ−1(x − µ)
).
208
![Page 514: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/514.jpg)
Vecteurs gaussiens (rappels)
Définition
• X = (X1,X2) est un vecteur aléatoire gaussien si toute combinaisonlinéaire de ses marginales α1X1 + α2X2 est une variable aléatoire réellegaussienne.
• On note X ∼ N (µ,Σ) où µ ∈ R2 est l’espérance de X et Σ est lamatrice (2× 2) de variance covariance de X .
Propriété
Soit X un vecteur gaussien de loi N (µ,Σ). Alors X admet une densité siet seulement si det(Σ) 6= 0. Elle est donnée par
f (x) =1
2π√
det(Σ)exp
(−12
(x − µ)′Σ−1(x − µ)
).
208
![Page 515: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/515.jpg)
TCL et delta méthode multivariés
TCL
Soit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ R2 et dematrice de variance covariance (2× 2) Σ, alors
√n(Xn − µ)
L→ N (0,Σ).
Delta méthode
Si vn(θ − θ)L→ X ∼ N (0,Σ) et si h : Rd → Rm admet des dérivées
partielles au point θ, alors
vn(h(θ)− h(θ))L→ DhθX
où Dhθ est la matrice m × d de terme (Dhθ)ij = ∂hi∂θj
(θ).
209
![Page 516: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/516.jpg)
TCL et delta méthode multivariés
TCL
Soit (Xn)n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ R2 et dematrice de variance covariance (2× 2) Σ, alors
√n(Xn − µ)
L→ N (0,Σ).
Delta méthode
Si vn(θ − θ)L→ X ∼ N (0,Σ) et si h : Rd → Rm admet des dérivées
partielles au point θ, alors
vn(h(θ)− h(θ))L→ DhθX
où Dhθ est la matrice m × d de terme (Dhθ)ij = ∂hi∂θj
(θ).
209
![Page 517: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/517.jpg)
Critères asymptotiques
Estimation par intervalles
Estimation multivariée
Biais, variance, risque quadratique
Critères asymptotiques
Borne de Cramer-Rao
210
![Page 518: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/518.jpg)
Rappels - cas univarié
• X1, . . . ,Xn i.i.d de loi Pθ avec θ ∈ R.
Inégalité de Cramér-Rao
Si θ est un estimateur sans biais de θ alors
Vθ[θ] ≥ 1nI (θ)
où
I (θ) = Eθ
[(∂
∂θlog(L(X , θ))
)2].
211
![Page 519: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/519.jpg)
Retour au cas multivarié
• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) ∈ R2.
• On désigne par L(x , θ) la vraisemblance de θ pour une observation x .
Exemple : le modèle gaussien
• θ = (µ, σ2).
• La vraisemblance est
L(x , µ, σ2) =1√2πσ2
exp
(−(x − µ)2
2σ2
).
212
![Page 520: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/520.jpg)
Retour au cas multivarié
• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) ∈ R2.
• On désigne par L(x , θ) la vraisemblance de θ pour une observation x .
Exemple : le modèle gaussien
• θ = (µ, σ2).
• La vraisemblance est
L(x , µ, σ2) =1√2πσ2
exp
(−(x − µ)2
2σ2
).
212
![Page 521: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/521.jpg)
Retour au cas multivarié
• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) ∈ R2.
• On désigne par L(x , θ) la vraisemblance de θ pour une observation x .
Exemple : le modèle gaussien
• θ = (µ, σ2).
• La vraisemblance est
L(x , µ, σ2) =1√2πσ2
exp
(−(x − µ)2
2σ2
).
212
![Page 522: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/522.jpg)
Matrice d’information de Fisher
DéfinitionLa matrice d’information de Fisher (si elle existe) au point θ est la matricede dimension 2× 2 de terme général
I (θ)i ,j =Eθ
[∂
∂θilog(L(X , θ))
∂
∂θjlog(L(X , θ))
]=− Eθ
[∂2
∂θi∂θjlog(L(X , θ))
]avec 1 ≤ i , j ≤ 2.
ExemplePour le modèle gaussien, la matrice d’information de Fisher est donnée par
I (θ) =
(1σ2 00 1
2σ4
)avec θ = (µ, σ2).
213
![Page 523: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/523.jpg)
Matrice d’information de Fisher
DéfinitionLa matrice d’information de Fisher (si elle existe) au point θ est la matricede dimension 2× 2 de terme général
I (θ)i ,j =Eθ
[∂
∂θilog(L(X , θ))
∂
∂θjlog(L(X , θ))
]=− Eθ
[∂2
∂θi∂θjlog(L(X , θ))
]avec 1 ≤ i , j ≤ 2.
ExemplePour le modèle gaussien, la matrice d’information de Fisher est donnée par
I (θ) =
(1σ2 00 1
2σ4
)avec θ = (µ, σ2).
213
![Page 524: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/524.jpg)
Borne de Cramer Rao
• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) ∈ R2.
Théorème
Si elle existe, la borne de Cramer-Rao du modèle précédent est 1n I (θ)−1.
C’est-à-dire que pour tout estimateur sans biais θ de θ, on a
Σθ ≥sdp1nI (θ)−1.
Remarques
• L’inégalité est à prendre au sens des matrices semi définies positives :
∀u ∈ R2, u′Σθu ≥ u′(1nI (θ)−1
)u.
• Interprétation similaire au cas univarié : la BCR vue comme unematrice de variance covariance optimale pour un estimateur sans biais.
214
![Page 525: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/525.jpg)
Borne de Cramer Rao
• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) ∈ R2.
Théorème
Si elle existe, la borne de Cramer-Rao du modèle précédent est 1n I (θ)−1.
C’est-à-dire que pour tout estimateur sans biais θ de θ, on a
Σθ ≥sdp1nI (θ)−1.
Remarques
• L’inégalité est à prendre au sens des matrices semi définies positives :
∀u ∈ R2, u′Σθu ≥ u′(1nI (θ)−1
)u.
• Interprétation similaire au cas univarié : la BCR vue comme unematrice de variance covariance optimale pour un estimateur sans biais.
214
![Page 526: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/526.jpg)
Borne de Cramer Rao
• X1, . . . ,Xn i.i.d de loi Pθ avec θ = (θ1, θ2) ∈ R2.
Théorème
Si elle existe, la borne de Cramer-Rao du modèle précédent est 1n I (θ)−1.
C’est-à-dire que pour tout estimateur sans biais θ de θ, on a
Σθ ≥sdp1nI (θ)−1.
Remarques
• L’inégalité est à prendre au sens des matrices semi définies positives :
∀u ∈ R2, u′Σθu ≥ u′(1nI (θ)−1
)u.
• Interprétation similaire au cas univarié : la BCR vue comme unematrice de variance covariance optimale pour un estimateur sans biais.
214
![Page 527: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/527.jpg)
Retour au modèle gaussien
• θ = (Xn,S2n ) est sans biais.
• Sa matrice de variance covariance est donnée par
Σθ =
(σ2
n 00 2σ4
n−1
).
• La BCR vaut
1nI (θ)−1 =
1n
(1σ2 00 1
2σ4
)−1
=
(σ2
n 00 2σ4
n
).
• Conclusion : θ n’est pas VUMSB (mais il n’est pas loin).
215
![Page 528: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/528.jpg)
Retour au modèle gaussien
• θ = (Xn,S2n ) est sans biais.
• Sa matrice de variance covariance est donnée par
Σθ =
(σ2
n 00 2σ4
n−1
).
• La BCR vaut
1nI (θ)−1 =
1n
(1σ2 00 1
2σ4
)−1
=
(σ2
n 00 2σ4
n
).
• Conclusion : θ n’est pas VUMSB (mais il n’est pas loin).
215
![Page 529: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/529.jpg)
Retour à l’emv
• L’emv possède, sous certaines hypothèses, de bonnes propriétés.
"Propriété"
Sous certaines hypothèses de régularité sur la loi Pθ, l’emv θMV de θ est
• consistant ;
• asymptotiquement normal :
√n(θMV − θ)
L→ N (0, I (θ)−1).
En pratique...
• Les hypothèses de ce résultat sont techniques et généralement difficilesà vérifier.
• Il est souvent plus simple d’obtenir ce résultat en travaillant sur l’emv(c’est ce qu’il faudra faire).
216
![Page 530: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/530.jpg)
Retour à l’emv
• L’emv possède, sous certaines hypothèses, de bonnes propriétés.
"Propriété"
Sous certaines hypothèses de régularité sur la loi Pθ, l’emv θMV de θ est
• consistant ;
• asymptotiquement normal :
√n(θMV − θ)
L→ N (0, I (θ)−1).
En pratique...
• Les hypothèses de ce résultat sont techniques et généralement difficilesà vérifier.
• Il est souvent plus simple d’obtenir ce résultat en travaillant sur l’emv(c’est ce qu’il faudra faire). 216
![Page 531: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/531.jpg)
Cinquième partie V
Approche paramétrique vs nonparamétrique pour les modèles de
densité et de régression
217
![Page 532: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/532.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
218
![Page 533: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/533.jpg)
Dans ce chapitre
• Nous étudions deux problèmes classiques de la théorie de l’estimation :la densité et la régression.
• A travers ces deux problèmes, nous étudions le compromis entre leserreurs d’estimation et d’approximation.
• Ce compromis sera notamment étudié en confrontant l’approcheparamétrique à l’approche non paramétrique.
219
![Page 534: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/534.jpg)
Dans ce chapitre
• Nous étudions deux problèmes classiques de la théorie de l’estimation :la densité et la régression.
• A travers ces deux problèmes, nous étudions le compromis entre leserreurs d’estimation et d’approximation.
• Ce compromis sera notamment étudié en confrontant l’approcheparamétrique à l’approche non paramétrique.
219
![Page 535: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/535.jpg)
Dans ce chapitre
• Nous étudions deux problèmes classiques de la théorie de l’estimation :la densité et la régression.
• A travers ces deux problèmes, nous étudions le compromis entre leserreurs d’estimation et d’approximation.
• Ce compromis sera notamment étudié en confrontant l’approcheparamétrique à l’approche non paramétrique.
219
![Page 536: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/536.jpg)
L’estimation de densité.
• Les données x1, . . . , xn telles que xi ∈ R.
• L’échantillon : X1, . . . ,Xn i.i.d. de loi P inconnue.
• On suppose que P admet une densité f (qui est donc inconnue).
Le problèmeEstimer f .
Performance d’un estimateur
On mesurera la performance d’un estimateur f (.) = f (.,X1, . . . ,Xn) parson risque quadratique ponctuel :
R(f (x)) = E((f (x)− f (x))2) = b2(f (x)) + V(f (x)).
220
![Page 537: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/537.jpg)
L’estimation de densité.
• Les données x1, . . . , xn telles que xi ∈ R.
• L’échantillon : X1, . . . ,Xn i.i.d. de loi P inconnue.
• On suppose que P admet une densité f (qui est donc inconnue).
Le problèmeEstimer f .
Performance d’un estimateur
On mesurera la performance d’un estimateur f (.) = f (.,X1, . . . ,Xn) parson risque quadratique ponctuel :
R(f (x)) = E((f (x)− f (x))2) = b2(f (x)) + V(f (x)).
220
![Page 538: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/538.jpg)
L’estimation de densité.
• Les données x1, . . . , xn telles que xi ∈ R.
• L’échantillon : X1, . . . ,Xn i.i.d. de loi P inconnue.
• On suppose que P admet une densité f (qui est donc inconnue).
Le problèmeEstimer f .
Performance d’un estimateur
On mesurera la performance d’un estimateur f (.) = f (.,X1, . . . ,Xn) parson risque quadratique ponctuel :
R(f (x)) = E((f (x)− f (x))2) = b2(f (x)) + V(f (x)).
220
![Page 539: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/539.jpg)
Exemple
X3 X4
X1 X2
−2 0 2 4 −2 0 2 4
0.0
0.2
0.4
0.6
0.0
0.2
0.4
0.6
221
![Page 540: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/540.jpg)
Exemple
X3 X4
X1 X2
−2 0 2 4 −2 0 2 4
0.0
0.2
0.4
0.6
0.0
0.2
0.4
0.6
221
![Page 541: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/541.jpg)
Le problème de la régression
• Données : (x1, y1), . . . , (xn, yn). On veut expliquer les sorties yi ∈ Rpar les entrées xi ∈ Rp.
• Les données sont des réalisations de v.a. (X1,Y1), . . . , (Xn,Yn) i.i.d.telles qu’il existe une fonction inconnue m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ2).
Le problèmeEstimer m.
Performance d’un estimateur
On mesurera la performance d’un estimateur m(.) = m(.,X1, . . . ,Xn) parson risque quadratique ponctuel :
R(m(x)) = E((m(x)−m(x))2) = b2(m(x)) + V(m(x)).
222
![Page 542: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/542.jpg)
Le problème de la régression
• Données : (x1, y1), . . . , (xn, yn). On veut expliquer les sorties yi ∈ Rpar les entrées xi ∈ Rp.• Les données sont des réalisations de v.a. (X1,Y1), . . . , (Xn,Yn) i.i.d.
telles qu’il existe une fonction inconnue m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ2).
Le problèmeEstimer m.
Performance d’un estimateur
On mesurera la performance d’un estimateur m(.) = m(.,X1, . . . ,Xn) parson risque quadratique ponctuel :
R(m(x)) = E((m(x)−m(x))2) = b2(m(x)) + V(m(x)).
222
![Page 543: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/543.jpg)
Le problème de la régression
• Données : (x1, y1), . . . , (xn, yn). On veut expliquer les sorties yi ∈ Rpar les entrées xi ∈ Rp.• Les données sont des réalisations de v.a. (X1,Y1), . . . , (Xn,Yn) i.i.d.
telles qu’il existe une fonction inconnue m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ2).
Le problèmeEstimer m.
Performance d’un estimateur
On mesurera la performance d’un estimateur m(.) = m(.,X1, . . . ,Xn) parson risque quadratique ponctuel :
R(m(x)) = E((m(x)−m(x))2) = b2(m(x)) + V(m(x)).
222
![Page 544: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/544.jpg)
Le problème de la régression
• Données : (x1, y1), . . . , (xn, yn). On veut expliquer les sorties yi ∈ Rpar les entrées xi ∈ Rp.• Les données sont des réalisations de v.a. (X1,Y1), . . . , (Xn,Yn) i.i.d.
telles qu’il existe une fonction inconnue m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ2).
Le problèmeEstimer m.
Performance d’un estimateur
On mesurera la performance d’un estimateur m(.) = m(.,X1, . . . ,Xn) parson risque quadratique ponctuel :
R(m(x)) = E((m(x)−m(x))2) = b2(m(x)) + V(m(x)). 222
![Page 545: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/545.jpg)
Exemple
Y3 Y4
Y1 Y2
−4 0 4 −4 0 4
−2
−1
0
1
2
−2
−1
0
1
2
223
![Page 546: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/546.jpg)
Exemple
Y3 Y4
Y1 Y2
−4 0 4 −4 0 4
−2
−1
0
1
2
−2
−1
0
1
2
223
![Page 547: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/547.jpg)
Exemple
Y3 Y4
Y1 Y2
−4 0 4 −4 0 4
−2
−1
0
1
2
−2
−1
0
1
2
223
![Page 548: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/548.jpg)
• Dans les deux cas, le problème est d’estimer une fonction.
• Poser un modèle revient à supposer que cette fonction appartient à uncertain espace F .
Définition
• Si F est de dimension finie, le modèle est paramétrique.
• Si F est de dimension infinie, le modèle est non paramétrique.
A priori
• Non paramétrique : plus flexible mais précision d’estimation plus faible.
• Paramétrique : meilleure précision d’estimation mais plus rigide.
224
![Page 549: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/549.jpg)
• Dans les deux cas, le problème est d’estimer une fonction.
• Poser un modèle revient à supposer que cette fonction appartient à uncertain espace F .
Définition
• Si F est de dimension finie, le modèle est paramétrique.
• Si F est de dimension infinie, le modèle est non paramétrique.
A priori
• Non paramétrique : plus flexible mais précision d’estimation plus faible.
• Paramétrique : meilleure précision d’estimation mais plus rigide.
224
![Page 550: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/550.jpg)
• Dans les deux cas, le problème est d’estimer une fonction.
• Poser un modèle revient à supposer que cette fonction appartient à uncertain espace F .
Définition
• Si F est de dimension finie, le modèle est paramétrique.
• Si F est de dimension infinie, le modèle est non paramétrique.
A priori
• Non paramétrique : plus flexible mais précision d’estimation plus faible.
• Paramétrique : meilleure précision d’estimation mais plus rigide.
224
![Page 551: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/551.jpg)
• Dans les deux cas, le problème est d’estimer une fonction.
• Poser un modèle revient à supposer que cette fonction appartient à uncertain espace F .
Définition
• Si F est de dimension finie, le modèle est paramétrique.
• Si F est de dimension infinie, le modèle est non paramétrique.
A priori
• Non paramétrique : plus flexible mais précision d’estimation plus faible.
• Paramétrique : meilleure précision d’estimation mais plus rigide.
224
![Page 552: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/552.jpg)
F
f
f
• Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.• Erreur d’approximation : erreur commise par le choix de P.
CommentaireCes deux termes varient généralement en sens inverse.
225
![Page 553: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/553.jpg)
F
f
f
• Erreur d’estimation : erreur commise par le choix d’une loi dans P parrapport au meilleur choix.• Erreur d’approximation : erreur commise par le choix de P.
CommentaireCes deux termes varient généralement en sens inverse.
225
![Page 554: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/554.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
226
![Page 555: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/555.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
227
![Page 556: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/556.jpg)
• X1, . . . ,Xn i.i.d. de densité f inconnue.
• On suppose que f ∈ F = fθ, θ ∈ Θ avec Θ de dimension finie.
Exemple : le modèle Gaussien
• On suppose f ∈ F = fµ,σ2 , µ ∈ R, σ2 > 0.• Le problème : estimer µ et σ2.
228
![Page 557: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/557.jpg)
• On peut estimer ces paramètres par maximum de vraisemblance :
µ = Xn et σ2 =1n
n∑i=1
(Xi − Xn)2.
• On montre "facilement" que
E[(µ− µ)2] = O
(1n
)et E[(σ2 − σ2)2] = O
(1n
).
• En notant θ = (µ, σ2), on déduit
E[‖θ − θ‖2] = O
(1n
).
Remarque
1/n est la vitesse paramétrique classique pour l’erreur quadratique.
229
![Page 558: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/558.jpg)
• On peut estimer ces paramètres par maximum de vraisemblance :
µ = Xn et σ2 =1n
n∑i=1
(Xi − Xn)2.
• On montre "facilement" que
E[(µ− µ)2] = O
(1n
)et E[(σ2 − σ2)2] = O
(1n
).
• En notant θ = (µ, σ2), on déduit
E[‖θ − θ‖2] = O
(1n
).
Remarque
1/n est la vitesse paramétrique classique pour l’erreur quadratique.
229
![Page 559: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/559.jpg)
• On peut estimer ces paramètres par maximum de vraisemblance :
µ = Xn et σ2 =1n
n∑i=1
(Xi − Xn)2.
• On montre "facilement" que
E[(µ− µ)2] = O
(1n
)et E[(σ2 − σ2)2] = O
(1n
).
• En notant θ = (µ, σ2), on déduit
E[‖θ − θ‖2] = O
(1n
).
Remarque
1/n est la vitesse paramétrique classique pour l’erreur quadratique.
229
![Page 560: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/560.jpg)
• On peut estimer ces paramètres par maximum de vraisemblance :
µ = Xn et σ2 =1n
n∑i=1
(Xi − Xn)2.
• On montre "facilement" que
E[(µ− µ)2] = O
(1n
)et E[(σ2 − σ2)2] = O
(1n
).
• En notant θ = (µ, σ2), on déduit
E[‖θ − θ‖2] = O
(1n
).
Remarque
1/n est la vitesse paramétrique classique pour l’erreur quadratique.
229
![Page 561: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/561.jpg)
Exemple
> df <- data.frame(X=rnorm(100))> ggplot(df)+aes(x=X,y=0)+geom_point()+theme_bw()
−0.50
−0.25
0.00
0.25
0.50
−2 −1 0 1 2
• On estime µ et σ2 :
> theta <- c(mean(df$X),var(X))> theta[1] -0.1567617 1.0088300
230
![Page 562: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/562.jpg)
• On trace l’estimateur et on le compare à la densité à estimer :
> x <- seq(-3.5,3.5,by=0.01); dens <- dnorm(x,mean=0,sd=1)> est <- dnorm(x,mean=theta[1],sd=sqrt(theta[2]))> df1 <- data.frame(x,dens,est); df2 <- melt(df1,id.vars="x")> names(df2)[2] <- "fonction"> ggplot(df2)+aes(x=x,y=value,color=fonction)+geom_line(size=1)+theme_bw()
0.0
0.1
0.2
0.3
0.4
−2 0 2
x
value
fonction
dens
est
231
![Page 563: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/563.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
232
![Page 564: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/564.jpg)
Des moyennes locales
• En l’absence d’hypothèse paramétrique forte, on se base sur ce qui sepasse au voisinage de x pour estimer f (x).
• L’histogramme est un estimateur non paramétrique bien connu.
L’histogramme
• P = I1, . . . , IK une partition de R en K intervalles.
• L’histogramme est défini par
f (x) =1
nλ(I (x))
n∑i=1
1Xi∈I (x),
où I (x) désigne l’intervalle qui contient x et λ(I ) la longueur del’intervalle I .
233
![Page 565: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/565.jpg)
Des moyennes locales
• En l’absence d’hypothèse paramétrique forte, on se base sur ce qui sepasse au voisinage de x pour estimer f (x).
• L’histogramme est un estimateur non paramétrique bien connu.
L’histogramme
• P = I1, . . . , IK une partition de R en K intervalles.
• L’histogramme est défini par
f (x) =1
nλ(I (x))
n∑i=1
1Xi∈I (x),
où I (x) désigne l’intervalle qui contient x et λ(I ) la longueur del’intervalle I .
233
![Page 566: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/566.jpg)
Des moyennes locales
• En l’absence d’hypothèse paramétrique forte, on se base sur ce qui sepasse au voisinage de x pour estimer f (x).
• L’histogramme est un estimateur non paramétrique bien connu.
L’histogramme
• P = I1, . . . , IK une partition de R en K intervalles.
• L’histogramme est défini par
f (x) =1
nλ(I (x))
n∑i=1
1Xi∈I (x),
où I (x) désigne l’intervalle qui contient x et λ(I ) la longueur del’intervalle I .
233
![Page 567: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/567.jpg)
Exemple
> ggplot(df)+aes(x=X,y=..density..)+geom_histogram(bins=20,fill="blue")+geom_line(data=df1,aes(x=x,y=dens),color="red",size=2)+theme_bw()
0.0
0.1
0.2
0.3
0.4
−2 0 2
X
..den
sity..
234
![Page 568: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/568.jpg)
Estimateurs à noyau
• L’histogramme n’est pas continu.
• L’estimateur à noyau permet de pallier à ce problème en ne fixant pasde partition.
• L’idée est d’utiliser une fenêtre glissante.
235
![Page 569: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/569.jpg)
Estimateurs à noyau
• L’histogramme n’est pas continu.
• L’estimateur à noyau permet de pallier à ce problème en ne fixant pasde partition.
• L’idée est d’utiliser une fenêtre glissante.
235
![Page 570: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/570.jpg)
Estimateurs à noyau
• L’histogramme n’est pas continu.
• L’estimateur à noyau permet de pallier à ce problème en ne fixant pasde partition.
• L’idée est d’utiliser une fenêtre glissante.
235
![Page 571: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/571.jpg)
• n = 20 observations.
• On veut estimer la densité en x .
• On considère une fenêtre [x − h, x + h].
• On fait comme pour l’histogramme
f (x) =1
2nh
n∑i=1
1Xi∈[x−h,x+h].
236
![Page 572: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/572.jpg)
• n = 20 observations.
• On veut estimer la densité en x .
• On considère une fenêtre [x − h, x + h].
x
• On fait comme pour l’histogramme
f (x) =1
2nh
n∑i=1
1Xi∈[x−h,x+h].
236
![Page 573: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/573.jpg)
• n = 20 observations.
• On veut estimer la densité en x .
• On considère une fenêtre [x − h, x + h].
x + hx − h x
• On fait comme pour l’histogramme
f (x) =1
2nh
n∑i=1
1Xi∈[x−h,x+h].
236
![Page 574: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/574.jpg)
• n = 20 observations.
• On veut estimer la densité en x .
• On considère une fenêtre [x − h, x + h].
x + hx − h x
• On fait comme pour l’histogramme
f (x) =1
2nh
n∑i=1
1Xi∈[x−h,x+h].
236
![Page 575: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/575.jpg)
• On peut réécrire cet estimateur
f (x) =1
2nh
n∑i=1
1Xi∈[x−h,x+h] =1nh
n∑i=1
121−1≤ x−Xi
h≤1
=1nh
n∑i=1
K
(x − Xi
h
)
avec K (u) = 121[−1,1](u).
237
![Page 576: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/576.jpg)
Estimateur à noyau de la densité
Définition [Parzen, 1962]
Etant donné h > 0 et K : R→ R intégrable et tel que∫K (u) du = 1,
l’estimateur à noyau de la densité est défini par
f (x) =1nh
n∑i=1
K
(x − Xi
h
).
RemarqueL’utilisateur doit choisir deux paramètres : un réel positif h et un noyau K
238
![Page 577: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/577.jpg)
Estimateur à noyau de la densité
Définition [Parzen, 1962]
Etant donné h > 0 et K : R→ R intégrable et tel que∫K (u) du = 1,
l’estimateur à noyau de la densité est défini par
f (x) =1nh
n∑i=1
K
(x − Xi
h
).
RemarqueL’utilisateur doit choisir deux paramètres : un réel positif h et un noyau K
238
![Page 578: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/578.jpg)
Exemples de noyau
Les noyaux suivants sont les plus utilisés :
• Uniforme :K (u) =
121[−1,1](u).
• Gaussien :
K (u) =1√2π
exp
(−u2
2
).
• Epanechnikov :
K (u) =34
(1− u2)1[−1,1](u).
239
![Page 579: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/579.jpg)
> X <- rnorm(500)> df <- data.frame(X)> ggplot(df)+aes(X)+geom_density(kernel=c("gaussian"),color="blue",size=1)+
geom_density(kernel=c("rectangular"),color="red",size=1)+geom_density(kernel=c("epanechnikov"),color="black",size=1)+theme_classic()
0.0
0.1
0.2
0.3
0.4
−2 0 2
X
dens
ity
ConclusionLe choix du noyau n’est généralement pas primordial sur la performancede l’estimateur.
240
![Page 580: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/580.jpg)
> X <- rnorm(500)> df <- data.frame(X)> ggplot(df)+aes(X)+geom_density(bw=0.4,color="blue",size=1)+
geom_density(bw=0.01,color="red",size=1)+geom_density(bw=3,color="magenta",size=1)+theme_classic()
0.0
0.2
0.4
0.6
0.8
−2 0 2
X
dens
ity
ConclusionLe choix de la fenêtre h est crucial sur la performance de l’estimateur.
241
![Page 581: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/581.jpg)
Choix de h
• h grand : fenêtre grande =⇒ beaucoup d’observations dans les fenêtres=⇒ densités proches ∀x =⇒ biais fort, variance faible.
• h petit : fenêtre petite =⇒ peu d’observations dans les fenêtres =⇒densités instables ∀x =⇒ biais faible, variance forte.
Conclusion
• Le paramètre h régule le compromis biais/variance de l’estimateur ànoyau.
• On sait le quantifier mathématiquement.
242
![Page 582: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/582.jpg)
Choix de h
• h grand : fenêtre grande =⇒ beaucoup d’observations dans les fenêtres=⇒ densités proches ∀x =⇒ biais fort, variance faible.
• h petit : fenêtre petite =⇒ peu d’observations dans les fenêtres =⇒densités instables ∀x =⇒ biais faible, variance forte.
Conclusion
• Le paramètre h régule le compromis biais/variance de l’estimateur ànoyau.
• On sait le quantifier mathématiquement.
242
![Page 583: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/583.jpg)
Choix de h
• h grand : fenêtre grande =⇒ beaucoup d’observations dans les fenêtres=⇒ densités proches ∀x =⇒ biais fort, variance faible.
• h petit : fenêtre petite =⇒ peu d’observations dans les fenêtres =⇒densités instables ∀x =⇒ biais faible, variance forte.
Conclusion
• Le paramètre h régule le compromis biais/variance de l’estimateur ànoyau.
• On sait le quantifier mathématiquement.
242
![Page 584: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/584.jpg)
Contrôle de la variance
ThéorèmeOn suppose que :
• f est bornée.
• K est tel que∫K (u) du = 1,
∫uK (u) du = 0 et
∫K (u)2 du < +∞.
On a alors ∀x ∈ R,∀h > 0 et ∀n ≥ 1
V[f (x)] = O
(1nh
).
RemarqueOn retrouve bien que la variance est faible lorsque h est grand etréciproquement.
243
![Page 585: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/585.jpg)
Contrôle de la variance
ThéorèmeOn suppose que :
• f est bornée.
• K est tel que∫K (u) du = 1,
∫uK (u) du = 0 et
∫K (u)2 du < +∞.
On a alors ∀x ∈ R,∀h > 0 et ∀n ≥ 1
V[f (x)] = O
(1nh
).
RemarqueOn retrouve bien que la variance est faible lorsque h est grand etréciproquement.
243
![Page 586: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/586.jpg)
Contrôle du biais
• Pour le terme de biais, il faut supposer un peu de régularité sur ladensité à estimer.
ThéorèmeOn suppose que
• la densité f est dérivable et que sa dérivée est Lipschitzienne :
|f ′(x)− f ′(y)| ≤ L|x − y |, ∀x , y ∈ R ;
• K est tel que∫u2K (u) du < +∞.
On a alors ∀x ∈ R|b(f (x))| = O(h2).
RemarqueOn retrouve bien le biais est faible lorsque h est petit et réciproquement.
244
![Page 587: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/587.jpg)
Contrôle du biais
• Pour le terme de biais, il faut supposer un peu de régularité sur ladensité à estimer.
ThéorèmeOn suppose que
• la densité f est dérivable et que sa dérivée est Lipschitzienne :
|f ′(x)− f ′(y)| ≤ L|x − y |, ∀x , y ∈ R ;
• K est tel que∫u2K (u) du < +∞.
On a alors ∀x ∈ R|b(f (x))| = O(h2).
RemarqueOn retrouve bien le biais est faible lorsque h est petit et réciproquement. 244
![Page 588: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/588.jpg)
Risque quadratique
Corollaire (convergence L2)Sous les hypothèse des deux théorèmes précédents, on déduit que sih→ 0 et nh→ +∞ alors le risque quadratique de f (x) tend vers 0(convergence en moyenne d’ordre 2).
Corollaire (choix de h)Le h? qui minimise l’erreur quadratique vérifie
h? = Cn−15 .
Pour cette valeur de h, on a
R(f (x)) = E[(f (x)− f (x))2] = O(n−
45
).
245
![Page 589: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/589.jpg)
Risque quadratique
Corollaire (convergence L2)Sous les hypothèse des deux théorèmes précédents, on déduit que sih→ 0 et nh→ +∞ alors le risque quadratique de f (x) tend vers 0(convergence en moyenne d’ordre 2).
Corollaire (choix de h)Le h? qui minimise l’erreur quadratique vérifie
h? = Cn−15 .
Pour cette valeur de h, on a
R(f (x)) = E[(f (x)− f (x))2] = O(n−
45
).
245
![Page 590: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/590.jpg)
Remarque importante
Modèle param non-param
Vitesse n−1 n−45
0.0000
0.0025
0.0050
0.0075
0.0100
0 2500 5000 7500 10000
n
vitesse
modele
param
non_param
Conclusion
• La convergence est moins rapide dans les modèles non-paramétrique.
• C’est le prix à payer pour plus de flexibilité.
246
![Page 591: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/591.jpg)
Remarque importante
Modèle param non-param
Vitesse n−1 n−45
0.0000
0.0025
0.0050
0.0075
0.0100
0 2500 5000 7500 10000
n
vitesse
modele
param
non_param
Conclusion
• La convergence est moins rapide dans les modèles non-paramétrique.
• C’est le prix à payer pour plus de flexibilité. 246
![Page 592: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/592.jpg)
• La théorie nous dit que le h optimal est
h? = Cn−15 .
• Ce résultat n’est quasiment d’aucune utilité pratique.
• En pratique, il existe un grand nombre de procédures automatiques(plus ou moins performantes selon les cas) permettant de sélectionnerh.
247
![Page 593: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/593.jpg)
• La théorie nous dit que le h optimal est
h? = Cn−15 .
• Ce résultat n’est quasiment d’aucune utilité pratique.
• En pratique, il existe un grand nombre de procédures automatiques(plus ou moins performantes selon les cas) permettant de sélectionnerh.
247
![Page 594: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/594.jpg)
• La théorie nous dit que le h optimal est
h? = Cn−15 .
• Ce résultat n’est quasiment d’aucune utilité pratique.
• En pratique, il existe un grand nombre de procédures automatiques(plus ou moins performantes selon les cas) permettant de sélectionnerh.
247
![Page 595: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/595.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
248
![Page 596: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/596.jpg)
Présentation du modèle
• Les données : (x1, y1), . . . , (xn, yn) où yi ∈ R et xi ∈ R (poursimplifier).
• L’échantillon (x1,Y1) . . . , (xn,Yn) i.i.d. (on suppose que les xi sontdéterministes).
• Le problème : expliquer les sorties Yi par les entrées Xi .
• La fonction de régression : c’est la fonction m : R→ R telle que
Yi = m(xi ) + εi
où les termes d’erreurs εi sont i.i.d. de loi N (0, σ2).
• Le problème statistique : estimer m.
249
![Page 597: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/597.jpg)
Présentation du modèle
• Les données : (x1, y1), . . . , (xn, yn) où yi ∈ R et xi ∈ R (poursimplifier).
• L’échantillon (x1,Y1) . . . , (xn,Yn) i.i.d. (on suppose que les xi sontdéterministes).
• Le problème : expliquer les sorties Yi par les entrées Xi .
• La fonction de régression : c’est la fonction m : R→ R telle que
Yi = m(xi ) + εi
où les termes d’erreurs εi sont i.i.d. de loi N (0, σ2).
• Le problème statistique : estimer m.
249
![Page 598: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/598.jpg)
Exemples
Y3 Y4
Y1 Y2
−4 0 4 −4 0 4
−2
−1
0
1
2
−2
−1
0
1
2
250
![Page 599: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/599.jpg)
Un exemple concret
• On souhaite expliquer la concentration en ozone par la température à12h.
• n = 112 observations :
> ozone %>% select(maxO3,T12) %>% head()maxO3 T12
20010601 87 18.520010602 82 18.420010603 92 17.620010604 114 19.720010605 94 20.520010606 80 19.8
251
![Page 600: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/600.jpg)
Représentation du nuage
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+theme_classic()
40
80
120
160
15 20 25 30
T12
max
O3
252
![Page 601: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/601.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
253
![Page 602: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/602.jpg)
Le modèle linéaire
• On fait l’hypothèse que la fonction de régression est linéaire :
m(x) = β0 + β1x , β0 ∈ R, β1 ∈ R.
• Paramètres inconnus à estimer : β = (β0, β1) ∈ R2 =⇒ modèleparamétrique.
254
![Page 603: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/603.jpg)
Le modèle linéaire
• On fait l’hypothèse que la fonction de régression est linéaire :
m(x) = β0 + β1x , β0 ∈ R, β1 ∈ R.
• Paramètres inconnus à estimer : β = (β0, β1) ∈ R2
=⇒ modèleparamétrique.
254
![Page 604: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/604.jpg)
Le modèle linéaire
• On fait l’hypothèse que la fonction de régression est linéaire :
m(x) = β0 + β1x , β0 ∈ R, β1 ∈ R.
• Paramètres inconnus à estimer : β = (β0, β1) ∈ R2 =⇒ modèleparamétrique.
254
![Page 605: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/605.jpg)
Ajustement linéaire d’un nuage de points
Notations
• n observations y1, . . . , yn de la variable à expliquer (maxO3).
• n observations x1, . . . , xn de la variable explicative (T12).
1
2
3
4
0.00 0.25 0.50 0.75 1.00
X
Y
255
![Page 606: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/606.jpg)
Ajustement linéaire d’un nuage de points
Notations
• n observations y1, . . . , yn de la variable à expliquer (maxO3).
• n observations x1, . . . , xn de la variable explicative (T12).
1
2
3
4
0.00 0.25 0.50 0.75 1.00
X
Y
255
![Page 607: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/607.jpg)
Ajustement linéaire d’un nuage de points
Notations
• n observations y1, . . . , yn de la variable à expliquer (maxO3).
• n observations x1, . . . , xn de la variable explicative (T12).
1
2
3
4
0.00 0.25 0.50 0.75 1.00
X
Y
255
![Page 608: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/608.jpg)
Ajustement linéaire d’un nuage de points
Notations
• n observations y1, . . . , yn de la variable à expliquer (maxO3).
• n observations x1, . . . , xn de la variable explicative (T12).
1
2
3
4
0.00 0.25 0.50 0.75 1.00
X
Y
255
![Page 609: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/609.jpg)
Ajustement linéaire d’un nuage de points
Notations
• n observations y1, . . . , yn de la variable à expliquer (maxO3).
• n observations x1, . . . , xn de la variable explicative (T12).
1
2
3
4
0.00 0.25 0.50 0.75 1.00
X
Y
Le problèmeTrouver la droite qui ajuste au mieux le nuage de points. 255
![Page 610: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/610.jpg)
• On cherche y = β0 + β1x qui ajuste au mieux le nuage des points.
• Toutes les observations mesurées ne se trouvent pas sur une droite :
yi = β0 + β1xi + εi .
256
![Page 611: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/611.jpg)
• On cherche y = β0 + β1x qui ajuste au mieux le nuage des points.
• Toutes les observations mesurées ne se trouvent pas sur une droite :
yi = β0 + β1xi + εi .
1
2
3
4
0.00 0.25 0.50 0.75 1.00
X
Y
256
![Page 612: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/612.jpg)
• On cherche y = β0 + β1x qui ajuste au mieux le nuage des points.• Toutes les observations mesurées ne se trouvent pas sur une droite :
yi = β0 + β1xi + εi .
1
2
3
4
0.00 0.25 0.50 0.75 1.00
X
Y
IdéeChercher à minimiser les erreurs ou les bruits εi .
256
![Page 613: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/613.jpg)
Le critère des moindres carrés
Critère des MC
On cherche β = (β0, β1) qui minimise
n∑i=1
ε2i =n∑
i=1
(yi − β0 − β1xi )2.
SolutionLa solution est donnée par :
β0 = y − β1x et β1 =
∑ni=1(yi − y)(xi − x)∑n
i=1(xi − x)2
à condition que tous les xi ne soient pas égaux.
257
![Page 614: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/614.jpg)
Le critère des moindres carrés
Critère des MC
On cherche β = (β0, β1) qui minimise
n∑i=1
ε2i =n∑
i=1
(yi − β0 − β1xi )2.
SolutionLa solution est donnée par :
β0 = y − β1x et β1 =
∑ni=1(yi − y)(xi − x)∑n
i=1(xi − x)2
à condition que tous les xi ne soient pas égaux.
257
![Page 615: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/615.jpg)
Application à l’ozone
> modele.lin <- lm(maxO3~T12,data=ozone)> modele.linCoefficients:(Intercept) T12
-27.420 5.469> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+theme_classic()+
geom_smooth(method="lm")
40
80
120
160
15 20 25 30
T12
maxO
3
258
![Page 616: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/616.jpg)
Les estimateurs des MCO
Rappels
• Le modèleYi = β0 + β1xi + εi , i = 1, . . . , n,
où les εi sont i.i.d. de loi N (0, σ2).
• Les estimateurs des MCO :
β0 = Y − β1x et β1 =
∑ni=1(Yi − Y )(xi − x)∑n
i=1(xi − x)2 .
Propriétés
• Biais : E[β0] = β0 et E[β1] = β1.
• Variance :
V(β0) = σ2∑n
i=1 x2i
n∑n
i=1(xi − x)2 et V(β1) =σ2∑n
i=1(xi − x)2 .
259
![Page 617: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/617.jpg)
Les estimateurs des MCO
Rappels
• Le modèleYi = β0 + β1xi + εi , i = 1, . . . , n,
où les εi sont i.i.d. de loi N (0, σ2).
• Les estimateurs des MCO :
β0 = Y − β1x et β1 =
∑ni=1(Yi − Y )(xi − x)∑n
i=1(xi − x)2 .
Propriétés
• Biais : E[β0] = β0 et E[β1] = β1.
• Variance :
V(β0) = σ2∑n
i=1 x2i
n∑n
i=1(xi − x)2 et V(β1) =σ2∑n
i=1(xi − x)2 . 259
![Page 618: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/618.jpg)
Quelques remarques
• Les estimateurs des MCO sont sans biais.
• Sous des hypothèses peu contraignantes, on montre que leur varianceest en 1/n. On déduit
R(β0) = O
(1n
)et R(β1) = O
(1n
).
ConclusionLes estimateurs des MCO atteignent la vitesse paramétrique classique en1/n.
• On peut également obtenir la loi des estimateurs β0 et β1.
• On déduit de cette loi des intervalles de confiance et des procédures detests statistiques.
260
![Page 619: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/619.jpg)
Quelques remarques
• Les estimateurs des MCO sont sans biais.
• Sous des hypothèses peu contraignantes, on montre que leur varianceest en 1/n. On déduit
R(β0) = O
(1n
)et R(β1) = O
(1n
).
ConclusionLes estimateurs des MCO atteignent la vitesse paramétrique classique en1/n.
• On peut également obtenir la loi des estimateurs β0 et β1.
• On déduit de cette loi des intervalles de confiance et des procédures detests statistiques.
260
![Page 620: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/620.jpg)
Quelques remarques
• Les estimateurs des MCO sont sans biais.
• Sous des hypothèses peu contraignantes, on montre que leur varianceest en 1/n. On déduit
R(β0) = O
(1n
)et R(β1) = O
(1n
).
ConclusionLes estimateurs des MCO atteignent la vitesse paramétrique classique en1/n.
• On peut également obtenir la loi des estimateurs β0 et β1.
• On déduit de cette loi des intervalles de confiance et des procédures detests statistiques.
260
![Page 621: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/621.jpg)
IC et tests pour l’ozone
• Intervalles de confiance :
> confint(modele.lin)2.5 % 97.5 %
(Intercept) -45.321901 -9.517371T12 4.651219 6.286151
• Tests statistique :
> summary(modele.lin)$coefficientsEstimate Std. Error t value Pr(>|t|)
(Intercept) -27.419636 9.0334940 -3.03533 2.999431e-03T12 5.468685 0.4124939 13.25761 1.512025e-24
261
![Page 622: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/622.jpg)
IC et tests pour l’ozone
• Intervalles de confiance :
> confint(modele.lin)2.5 % 97.5 %
(Intercept) -45.321901 -9.517371T12 4.651219 6.286151
• Tests statistique :
> summary(modele.lin)$coefficientsEstimate Std. Error t value Pr(>|t|)
(Intercept) -27.419636 9.0334940 -3.03533 2.999431e-03T12 5.468685 0.4124939 13.25761 1.512025e-24
261
![Page 623: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/623.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
262
![Page 624: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/624.jpg)
• En l’absence d’hypothèse paramétrique (forte), on regarde ce qui sepasse au voisinage du point où on cherche à estimer la fonction derégression.
• Les méthodes non paramétriques consistent donc à définir desvoisinages et à faire des moyennes locales à l’intérieur des voisinages :
mn(x) =n∑
i=1
Wni (x)Yi
où Wni (x) représente le poids à accorder à la ième observation pourestimer m en x .
• Nous illustrons ce principe à travers l’estimateur de Nadaraya Watson[Nadaraya, 1964, Watson, 1964] (on aurait aussi pu faire l’algorithmedes plus proches voisins).
263
![Page 625: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/625.jpg)
• En l’absence d’hypothèse paramétrique (forte), on regarde ce qui sepasse au voisinage du point où on cherche à estimer la fonction derégression.
• Les méthodes non paramétriques consistent donc à définir desvoisinages et à faire des moyennes locales à l’intérieur des voisinages :
mn(x) =n∑
i=1
Wni (x)Yi
où Wni (x) représente le poids à accorder à la ième observation pourestimer m en x .
• Nous illustrons ce principe à travers l’estimateur de Nadaraya Watson[Nadaraya, 1964, Watson, 1964] (on aurait aussi pu faire l’algorithmedes plus proches voisins).
263
![Page 626: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/626.jpg)
• En l’absence d’hypothèse paramétrique (forte), on regarde ce qui sepasse au voisinage du point où on cherche à estimer la fonction derégression.
• Les méthodes non paramétriques consistent donc à définir desvoisinages et à faire des moyennes locales à l’intérieur des voisinages :
mn(x) =n∑
i=1
Wni (x)Yi
où Wni (x) représente le poids à accorder à la ième observation pourestimer m en x .
• Nous illustrons ce principe à travers l’estimateur de Nadaraya Watson[Nadaraya, 1964, Watson, 1964] (on aurait aussi pu faire l’algorithmedes plus proches voisins).
263
![Page 627: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/627.jpg)
La méthode
• (x1,Y1), . . . , (xn,Yn) i.i.d.
• But : estimer m tel que Y = m(x) + ε.
264
![Page 628: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/628.jpg)
La méthode
• (x1,Y1), . . . , (xn,Yn) i.i.d.• But : estimer m tel que Y = m(x) + ε.
x
264
![Page 629: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/629.jpg)
La méthode
• (x1,Y1), . . . , (xn,Yn) i.i.d.• But : estimer m tel que Y = m(x) + ε.
xx − h x + h
264
![Page 630: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/630.jpg)
La méthode
• (x1,Y1), . . . , (xn,Yn) i.i.d.• But : estimer m tel que Y = m(x) + ε.
xx − h x + h
264
![Page 631: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/631.jpg)
• L’estimateur s’écrit
mn(x) =
n∑i=1
1x−h≤Xi≤x+hYi
n∑i=1
1x−h≤Xi≤x+h
=
n∑i=1
1∣∣∣Xi−x
h
∣∣∣≤1Yi
n∑i=1
1∣∣∣Xi−x
h
∣∣∣≤1
.
Définition
Soit h > 0 et K : R→ R+. L’estimateur à noyau de fenêtre h et de noyauK est défini par
mn(x) =
n∑i=1
K
(Xi − x
h
)Yi
n∑i=1
K
(Xi − x
h
) .
265
![Page 632: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/632.jpg)
• L’estimateur s’écrit
mn(x) =
n∑i=1
1x−h≤Xi≤x+hYi
n∑i=1
1x−h≤Xi≤x+h
=
n∑i=1
1∣∣∣Xi−x
h
∣∣∣≤1Yi
n∑i=1
1∣∣∣Xi−x
h
∣∣∣≤1
.
Définition
Soit h > 0 et K : R→ R+. L’estimateur à noyau de fenêtre h et de noyauK est défini par
mn(x) =
n∑i=1
K
(Xi − x
h
)Yi
n∑i=1
K
(Xi − x
h
) .
265
![Page 633: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/633.jpg)
Noyau et fenêtre
• Noyau usuel :1. Uniforme : K (x) = 1|x|≤1 ;2. Gaussien : K (x) = exp(−|x |2) ;3. Epanechnikov : K (x) = 3
4 (1− x2)1|x|≤1.
• Le choix de h est crucial pour la qualité de l’estimation :1. h grand : estimateur « constant », variance faible, biais fort ;2. h petit : « interpolation », variance forte, biais faible ;
266
![Page 634: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/634.jpg)
Noyau et fenêtre
• Noyau usuel :1. Uniforme : K (x) = 1|x|≤1 ;2. Gaussien : K (x) = exp(−|x |2) ;3. Epanechnikov : K (x) = 3
4 (1− x2)1|x|≤1.
• Le choix de h est crucial pour la qualité de l’estimation :1. h grand : estimateur « constant », variance faible, biais fort ;2. h petit : « interpolation », variance forte, biais faible ;
266
![Page 635: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/635.jpg)
Un exemple
• On génère un échantillon (XI ,YI ), i = 1, . . . , n = 200 selon
Yi = sin(Xi ) + εi , i = 1, . . . , n
avec Xi uniforme sur [−2π, 2π], εi de loi gaussienne N (0, 0.22).
> n <- 200; set.seed(1234)> X <- runif(n,-2*pi,2*pi)> set.seed(5678)> eps <- rnorm(n,0,0.2)> Y <- sin(X)+eps> df <- data.frame(X=X,Y=Y)> x <- seq(-2*pi,2*pi,by=0.01)> df1 <- data.frame(x=x,y=sin(x))> ggplot(df1)+aes(x=x,y=y)+
geom_line(size=1)+geom_point(data=df,aes(x=X,y=Y))
−1.5
−1.0
−0.5
0.0
0.5
1.0
−4 0 4
x
y
267
![Page 636: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/636.jpg)
• La fonction locpoly du package kernSmooth permet de construire desestimateurs à noyau.
> h1 <- 0.5;h2 <- 3;h3 <- 0.01> fx1 <-locpoly(X,Y,bandwidth=h1)> fx2 <-locpoly(X,Y,bandwidth=h2)> fx3 <-locpoly(X,Y,bandwidth=h3)> df1 <- data.frame(x=x,y=sin(x))> df2 <- data.frame(x=fx1$x,
"H0.5"=fx1$y,"H3"=fx2$y,"H0.01"=fx3$y)
> df22 <- melt(df2,id.vars=1)> names(df22)[2:3] <- c("fenêtre",
"y")> ggplot(df22)+aes(x=x,y=y)+
geom_line(aes(color=fenêtre,lty=fenêtre))+geom_line(data=df1,aes(x=x,y=y),size=1)
−1.5
−1.0
−0.5
0.0
0.5
1.0
−4 0 4
x
y
fenêtre
H0.5
H3
H0.01
268
![Page 637: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/637.jpg)
Propriétés des estimateurs
• Là encore, on peut quantifier le compromis biais/variance.
• On considère le noyau uniforme et on suppose que m est dérivable etque sa dérivée est Lipschitzienne :
|m′(x)−m′(y)| ≤ L|x − y ], ∀x , ∀y ∈ R.
ThéorèmeSous les hypothèses ci-dessus, on a
|b(mn(x))| = O(h2) et V[mn(x)] = O
(1nh
).
269
![Page 638: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/638.jpg)
Propriétés des estimateurs
• Là encore, on peut quantifier le compromis biais/variance.
• On considère le noyau uniforme et on suppose que m est dérivable etque sa dérivée est Lipschitzienne :
|m′(x)−m′(y)| ≤ L|x − y ], ∀x , ∀y ∈ R.
ThéorèmeSous les hypothèses ci-dessus, on a
|b(mn(x))| = O(h2) et V[mn(x)] = O
(1nh
).
269
![Page 639: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/639.jpg)
• Toutes les remarques faites pour l’estimateur à noyau de la densitésont valables pour l’estimateur de Nadaraya Watson.
• Le h optimal est de l’ordre de n−1/5. Pour cette valeur de h, le risquequadratique est de l’ordre de n−4/5.
• On obtient donc une vitesse de convergence plus lente que pour lesestimateurs paramétriques.
• C’est le prix à payer pour un modèle plus flexible.
270
![Page 640: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/640.jpg)
• Toutes les remarques faites pour l’estimateur à noyau de la densitésont valables pour l’estimateur de Nadaraya Watson.
• Le h optimal est de l’ordre de n−1/5. Pour cette valeur de h, le risquequadratique est de l’ordre de n−4/5.
• On obtient donc une vitesse de convergence plus lente que pour lesestimateurs paramétriques.
• C’est le prix à payer pour un modèle plus flexible.
270
![Page 641: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/641.jpg)
• Toutes les remarques faites pour l’estimateur à noyau de la densitésont valables pour l’estimateur de Nadaraya Watson.
• Le h optimal est de l’ordre de n−1/5. Pour cette valeur de h, le risquequadratique est de l’ordre de n−4/5.
• On obtient donc une vitesse de convergence plus lente que pour lesestimateurs paramétriques.
• C’est le prix à payer pour un modèle plus flexible.
270
![Page 642: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/642.jpg)
• Toutes les remarques faites pour l’estimateur à noyau de la densitésont valables pour l’estimateur de Nadaraya Watson.
• Le h optimal est de l’ordre de n−1/5. Pour cette valeur de h, le risquequadratique est de l’ordre de n−4/5.
• On obtient donc une vitesse de convergence plus lente que pour lesestimateurs paramétriques.
• C’est le prix à payer pour un modèle plus flexible.
270
![Page 643: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/643.jpg)
Retour à l’ozone
Paramétrique (linéaire)
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+geom_smooth(method="lm",size=1)+theme_classic()
40
80
120
160
15 20 25 30
T12
max
O3
Non paramétrique
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+geom_smooth(,size=1)+theme_classic()
50
100
150
15 20 25 30
T12
max
O3
271
![Page 644: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/644.jpg)
Le modèle de densité
Approche paramétrique : le modèle Gaussien
Approche non paramétrique : l’estimateur à noyau
Le modèle de régression
Approche paramétrique : le modèle de régression linéaire
Approche non paramétrique : l’estimateur à noyau
Bibliographie
272
![Page 645: Statistique - GitHub Pages · 20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec 20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec 20010605 94 17.4](https://reader034.fdocument.pub/reader034/viewer/2022051905/5ff6d207b0606842e019b766/html5/thumbnails/645.jpg)
Références i
Nadaraya, E. A. (1964).On estimating regression.Theory of Probability and its Applications, 9.
Parzen, E. (1962).On estimation of a probability density function and mode.Ann. Math. Stat., 33 :1065–1076.
Watson, G. S. (1964).Smooth regression analysis.Sankhya : The Indian Journal of Statistics, Series A, 26 :359–372.
273