MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire?...
Transcript of MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire?...
1/158
MSV31 – StatistiquesI Statistiques descriptives
I EstimateursI tests statistiques
Vincent [email protected]
IBGBI – 4eme etageCours L2 Bio. 2019 – 2020
Vincent Runge Statistiques 1 / 158
2/158
Plan du cours
1 Introduction
2 Des statistiques pour quoi faire?
3 Statistiques descriptives
4 Estimateurs et estimations
5 Tests statistiques
Vincent Runge Statistiques 2 / 158
3/158
1. Introduction
Plan
1 Introduction
2 Des statistiques pour quoi faire?
3 Statistiques descriptives
4 Estimateurs et estimations
5 Tests statistiques
Vincent Runge Statistiques 3 / 158
4/158
1. Introduction Qu’est-ce que la statistique?
Plan
1 IntroductionQu’est-ce que la statistique?Courte histoire des mathematiquesStatistiques dans l’histoire des mathematiques
Vincent Runge Statistiques 4 / 158
5/158
1. Introduction Qu’est-ce que la statistique?
Qu’est-ce que la statistique?
Statistique : ensemble des methodes de reduction des donnees
Definition V. Runge
Ses objectifs:
Reveler la structure des donnees
Permettre une prise de decision eclairee
Rendre possible la validation d’une theorie scientifique
Vincent Runge Statistiques 5 / 158
5/158
1. Introduction Qu’est-ce que la statistique?
Qu’est-ce que la statistique?
Statistique : ensemble des methodes de reduction des donnees
Definition V. Runge
Complements:
I La science statistique fait le lien entre l’abstraction mathematique etla realite physique du monde
I Science en hyper-croissance + numerisation du monde
Vincent Runge Statistiques 5 / 158
6/158
1. Introduction Courte histoire des mathematiques
Plan
1 IntroductionQu’est-ce que la statistique?Courte histoire des mathematiquesStatistiques dans l’histoire des mathematiques
Vincent Runge Statistiques 6 / 158
7/158
1. Introduction Courte histoire des mathematiques
Courte histoire des mathematiques
I Les statistiques sont une branche recente des mathematiques
I Grece antique (VIeme a IVeme siecles avant JC)
Arithmetique et geometrie
Naissance de la demonstration
Thales, Euclide, Pythagore, Archimede
Figure: Les Elements d’Euclide et la machine d’Anticythere
Vincent Runge Statistiques 7 / 158
7/158
1. Introduction Courte histoire des mathematiques
Courte histoire des mathematiques
I Mathematique arabes (∼ 800 a 1500)
Systeme decimal indo-arabe
Developpement de l’algebre, des algorithmes, de la trigonometrie
Al-Khawarizmi, Al-Kashi
Figure: Al-Khawarizmi (780 (Ouzbekistan) – 850 (Bagdad)). Son nom a donne lemot algorithme. Le titre d’un de ses ouvrages est a l’origine du mot algebre
Vincent Runge Statistiques 7 / 158
7/158
1. Introduction Courte histoire des mathematiques
Courte histoire des mathematiques
I Renaissance europeenne
Traduction des textes arabesResolution d’equation et nombres complexes
I XVIIeme XVIIIeme siecles. Epoque des Lumieres
Debut de l’analyse (derivee, integrale, equation differentielle)Mathematisation de la physique (Newton)L’Encyclopedie (Jean le Rond d’Alembert)
Figure: Isaac Newton (1642– 1727); Leonhard Euler (1707 – 1783); Joseph-LouisLagrange (1736 – 1813); Carl Friedrich Gauss (1777–1855)
Vincent Runge Statistiques 7 / 158
7/158
1. Introduction Courte histoire des mathematiques
Courte histoire des mathematiques
I XIXeme siecle. Professionnalisation des mathematiques
Mise en equation du monde (Navier-stokes, Maxwell)
Equation de la chaleur et series de Fourier
Decouverte par le calcul de Neptune (par Le Verrier)
...
Figure: Augustin Louis Cauchy (1789 – 1857); Bernhard Riemann (1826 – 1866);Georg Cantor (1845 – 1918)
Vincent Runge Statistiques 7 / 158
7/158
1. Introduction Courte histoire des mathematiques
Courte histoire des mathematiques
I XXeme siecle. Developpement exponentiel des mathematiques
Theorie des probabilites, theorie du chaos
Analyse fonctionnelle, analyse numerique
Optimisation, controle optimal, calcul variationnel
Theorie de l’information, cryptographie
... ... ... ... ... ...
Figure: David Hilbert (1862–1943); Andrei Kolmogorov (1903-1987); John vonNeumann (1903–1957); Paul Erdos (1913–1996)
Vincent Runge Statistiques 7 / 158
8/158
1. Introduction Courte histoire des mathematiques
Il reste beaucoup a faire...
1) congres international des mathematiciens, tenu a Paris en aout 1900,David Hilbert propose 23 problemes pour le XXeme siecle
2) Prix du millenaire de l’institut Clay (106$ par probleme)
Hypothese de Riemann
Conjecture de Poincare (resolu)
Probleme ouvert P = NP
Conjecture de Hodge
Conjecture de Birch et Swinnerton-Dyer
Equations de Navier-Stokes
Equations de Yang-Mills
Vincent Runge Statistiques 8 / 158
9/158
1. Introduction Statistiques dans l’histoire des mathematiques
Plan
1 IntroductionQu’est-ce que la statistique?Courte histoire des mathematiquesStatistiques dans l’histoire des mathematiques
Vincent Runge Statistiques 9 / 158
10/158
1. Introduction Statistiques dans l’histoire des mathematiques
Statistiques dans l’histoire des mathematiques
Et les statistiques ? I 3 grandes periodes historiques
I ? – XIXeme siecle. Statistiques descriptives
”Statistique” = recensement betails...Chine, Egypte (XVIIIeme siecle avant JC)
Statistique = Staatskunde (service de l’Etat) XVIIIeme siecle= collecte de donnees tenue par les intendants de l’Etat
William Playfair (1759–1823)Commercial and Political Atlas
(1786). Le 1er histogramme connu
Karl Pearson impose (1893) l’ecart-type (standard deviation) σ
Statistiques descriptives → Analyse des donnees (XXeme siecle)
Vincent Runge Statistiques 10 / 158
10/158
1. Introduction Statistiques dans l’histoire des mathematiques
Statistiques dans l’histoire des mathematiques
Et les statistiques ? I 3 grandes periodes historiques
I 1880 – 1925. Debut des statistiques inferentielles/mathematiques
Rationalisation de la production (industrielle et agricole)
Gestion des empires coloniaux, recensements,...
Developpement des sondages d’opinion
Vincent Runge Statistiques 10 / 158
10/158
1. Introduction Statistiques dans l’histoire des mathematiques
Statistiques dans l’histoire des mathematiques
Et les statistiques ? I 3 grandes periodes historiques
I 1880 – 1925. Debut des statistiques inferentielles/mathematiques
Election USA (1936)
I Magazine hebdomadaireLiterary Digest
I Sondage 2 300 000 reponses :Landon 55% vs Roosevelt 45%.En theorie erreur < 0.1%
I Roosevelt reelu avec 61% !
Vincent Runge Statistiques 10 / 158
10/158
1. Introduction Statistiques dans l’histoire des mathematiques
Statistiques dans l’histoire des mathematiques
Et les statistiques ? I 3 grandes periodes historiques
I 1880 – 1925. Debut des statistiques inferentielles/mathematiques
Election USA (1936)
I Magazine hebdomadaireLiterary Digest
I Sondage 2 300 000 reponses :Landon 55% vs Roosevelt 45%.En theorie erreur < 0.1%
I Roosevelt reelu avec 61% !
+ Probleme : Echantillon = lecteur du journal + listes de proprietaires devoitures et d’abonnes au telephone
Vincent Runge Statistiques 10 / 158
10/158
1. Introduction Statistiques dans l’histoire des mathematiques
Statistiques dans l’histoire des mathematiques
Et les statistiques ? I 3 grandes periodes historiques
I 1950 – aujourd’hui. Statistiques en grandes dimensions
Influence de l’informatique
Big data
Analyse exploratoire des donnees (multi-d)Efficacite des algorithmes
Apprentissage automatique
Machine LearningDeep LearningIntelligence artificielle
Vincent Runge Statistiques 10 / 158
11/158
1. Introduction Statistiques dans l’histoire des mathematiques
Statistiques dans l’histoire des mathematiques
I Statistiques en grandes dimensions. Exemple
Reseaux de neurones ≈ Intelligence artificielle
Vincent Runge Statistiques 11 / 158
11/158
1. Introduction Statistiques dans l’histoire des mathematiques
Statistiques dans l’histoire des mathematiques
I Analyse des donnees (cf statistique descriptive). Exemple
Analyse en composante principale (ACP)
Projeter au mieux les grandes dimensions sur la dimension 2 (pourvisualiser, analyser,...).
Vincent Runge Statistiques 11 / 158
12/158
1. Introduction Statistiques dans l’histoire des mathematiques
De nombreux nouveaux metiers :
Computer scientist, data scientist, data analyst, bio-informaticien,astro-statisticien, machine learning engineer, data mining expert, AIResearcher...
Statut :
Au debut peu consideree, la statistique est aujourd’hui en tres forteexpansion et integree au bagage standard du mathematicien
Aujourd’hui :
Plus de distinction nette entre mathematiques appliquees etmathematiques pures
Vincent Runge Statistiques 12 / 158
13/158
2. Des statistiques pour quoi faire?
Plan
1 Introduction
2 Des statistiques pour quoi faire?
3 Statistiques descriptives
4 Estimateurs et estimations
5 Tests statistiques
Vincent Runge Statistiques 13 / 158
14/158
2. Des statistiques pour quoi faire? Mission du statisticien
Plan
2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!
Vincent Runge Statistiques 14 / 158
15/158
2. Des statistiques pour quoi faire? Mission du statisticien
Mission du statisticien
+ Experience statistique classique
Planification de l’experience
Recueil des donnees
Organisation des donnees (statistiques descriptives)
Analyse des donnees (statistiques inferentielles)
Vincent Runge Statistiques 15 / 158
16/158
2. Des statistiques pour quoi faire? Exemples
Plan
2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!
Vincent Runge Statistiques 16 / 158
17/158
2. Des statistiques pour quoi faire? Exemples
Exemples
+ Tester une hypothese
Statistiques routieres
Efficacite des images violentes pour les spots de prevention routiere ?
Baisse de la mortalite sur la route avec la limitation a 80km/h ?
Efficacite du casque pour les cyclistes ?
Sante
Dangerosite du glyphosate pour la sante ?
Evaluer l’impact des OGM sur la sante
Balance benefice/risque d’un vaccin
Vincent Runge Statistiques 17 / 158
18/158
2. Des statistiques pour quoi faire? Exemples
+ La maıtrise des statistiques est essentielle au biologiste, al’economiste, au sociologue, au physicien...
Biologie
Combien de souris sacrifier pour prouver une hypothese? Ou quands’arreter de les sacrifier?
Economie
Mesurer l’effet economique des Jeux Olympiques?
Sociologie
Performance et mesure d’inegalite des systemes d’education?
Physique fondamentale
Separer le bruit des ondes gravitationnelles?
Vincent Runge Statistiques 18 / 158
19/158
2. Des statistiques pour quoi faire? Statistiques et probabilites
Plan
2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!
Vincent Runge Statistiques 19 / 158
20/158
2. Des statistiques pour quoi faire? Statistiques et probabilites
Statistiques et probabilites
La statisique se base sur une modelisation probabiliste des donnees
On observe une variable aleatoire X de loi partiellement inconnueplusieurs fois
On veut en tirer des conclusions globales (intrinseques) sur X
+ Exemple : jete de desOn jette 100 fois un de avec pour resultats
numero 1 2 3 4 5 6
probabilite theorique 1/6 1/6 1/6 1/6 1/6 1/6
occurrences sur 100 lances 13 16 15 30 14 12
Le de est-il equilibre?+ Autre exemple : Petits pois de Mendel
Vincent Runge Statistiques 20 / 158
21/158
2. Des statistiques pour quoi faire? Objectifs du cours!
Plan
2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!
Vincent Runge Statistiques 21 / 158
22/158
2. Des statistiques pour quoi faire? Objectifs du cours!
Objectifs du cours!
Statistiques= 4 types de problemes= Statistique exploratoire, Estimation, Classification, Regression.
Nos 3 objectifs :
I Statistiques descriptives
Objectif : ”voir” un ensemble de donnees
Statistiques inferentielles
I Estimation statistiqueObjectif : generaliser ”au mieux” du ”petit nombre au grand nombre”I Tests statistiquesObjectif : Prendre une decision raisonnee
Vincent Runge Statistiques 22 / 158
23/158
2. Des statistiques pour quoi faire? Objectifs du cours!
References internet
1 Correlations bizarres :http://tylervigen.com/spurious-correlations
2 Chaıne Youtube : la statistique expliquee a mon chat3 MOOC FUN. Introduction a la statistique avec R
Vincent Runge Statistiques 23 / 158
24/158
3. Statistiques descriptives
Plan
1 Introduction
2 Des statistiques pour quoi faire?
3 Statistiques descriptives
4 Estimateurs et estimations
5 Tests statistiques
Vincent Runge Statistiques 24 / 158
25/158
3. Statistiques descriptives
C’est quoi les statistiques descriptives?
1) C’est determiner le cadre d’etude :
Population, echantillon
Type de variable
2) construire des resumes (de 3 types) :
Indicateurs de position
Indicateurs de dispersion
Representations graphiques
+ La statistique descriptive se concentre sur le cas de la dimension 1.Une observation = un nombre.
Vincent Runge Statistiques 25 / 158
26/158
3. Statistiques descriptives Cadre d’Etude
Plan
3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques
Vincent Runge Statistiques 26 / 158
27/158
3. Statistiques descriptives Cadre d’Etude
Vocabulaire
Population : ensemble (grand, voire infini) d’individus ou d’objets dememe natureEchantillon : sous-ensemble de la populationVariable : une caracteristique de la population pouvant prendredifferentes modalitesModalite : toute valeur que peut prendre une variableSerie statistique : Ensemble des donnees recueillies pour une variabledonnee
Complements
On utilise parfois le mot caractere a la place de variable
Le mode est la modalite la plus presente
Vincent Runge Statistiques 27 / 158
28/158
3. Statistiques descriptives Cadre d’Etude
Types de variables
Variable quantitative : les modalites sont des nombres
discrete : elles prennent un nombre fini ou denombrable de valeurscontinue : elles prennent toutes les valeurs d’un intervalle des reels
Variable qualitative : les modalites ne sont pas des nombres
ordinale : elles peuvent etre ordonneesnominale : elles ne peuvent pas etre ordonnees
Vincent Runge Statistiques 28 / 158
29/158
3. Statistiques descriptives Cadre d’Etude
Exercice
Exercice 1 : les variables suivantes sont-elles quantitatives ouqualitatives. Discretes, continues, ordinales ou nominales ?
Les marques de smartphone des etudiants de l’Universite d’Evry
La nationalite des touristes visitant le musee Picasso de Paris
L’age des utilisateurs du site www.arte.tv
La taille des poissons peches par une equipe de biologistes marins
Les notes sur 20 obtenues a ce cours de Statistiques
Le niveau de satisfaction des utilisateurs d’un service de livraison (5niveaux : faible – moyen – bon – tres bon – excellent)
Exercice 2 : Definir la population, un echantillon (possible), la variableetudiee et les modalites de chaque exemple precedent.
Vincent Runge Statistiques 29 / 158
30/158
3. Statistiques descriptives Les differentes moyennes
Plan
3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques
Vincent Runge Statistiques 30 / 158
31/158
3. Statistiques descriptives Les differentes moyennes
Les differentes moyennes
Moyenne arithmetique
x =1
n
n∑i=1
xi .
+ La moyenne arithmetique a le desavantage d’etre sensible aux valeursextremes : on la dit alors peu robuste. Si dans la serie 1, 2, 3 uneerreur de saisie est faite et 3 devient 30, la moyenne passera de 2 a 11!(mais la mediane est inchangee)
Vincent Runge Statistiques 31 / 158
32/158
3. Statistiques descriptives Les differentes moyennes
Les differentes moyennes
Moyenne geometrique
xG = n√x1 × . . .× xn
Moyenne harmonique
xH =n
1x1
+ · · ·+ 1xn
Moyenne quadratique
xQ =
√√√√1
n
n∑i=1
x2i
I Theoreme : Si x1, ..., xn > 0, alors
min(x1, . . . , xn) ≤ xH ≤ xG ≤ x ≤ xQ ≤ max(x1, . . . , xn)
Vincent Runge Statistiques 32 / 158
33/158
3. Statistiques descriptives Les differentes moyennes
Les differentes moyennes
Theoreme : Si x1, ..., xn > 0, alors
min(x1, . . . , xn) ≤ xH ≤ xG ≤ x ≤ xQ ≤ max(x1, . . . , xn)
Figure: Moyennes de x1 et x2: harmonique OH, geometrique OG , arithmetiqueOA et quadratique OQ
Vincent Runge Statistiques 33 / 158
34/158
3. Statistiques descriptives Les differentes moyennes
Exercice
I Calcul de rendement
Votre banquier vous propose de placer 1000e pendant 5 ans aux tauxannuels progressifs de 1%, 2%, 3%, 4% et 5%. Il annonce que lepourcentage annuel moyen est de 3%. Le croyez-vous?
I Vitesse moyenne
Un cycliste parcourt un kilometre a l’aller et un autre au retour auxvitesses respectives de 30 km/h puis 20 km/h. Quelle est sa vitessemoyenne?
I Des cables
On sait que la resistance d’un cable est proportionnel a sa section.Par quel diametre de cable faut-il replacer 3 cables de diametres3 cm, 5 cm, et 7 cm?
Vincent Runge Statistiques 34 / 158
35/158
3. Statistiques descriptives Indicateurs de dispersion
Plan
3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques
Vincent Runge Statistiques 35 / 158
36/158
3. Statistiques descriptives Indicateurs de dispersion
Variance et ecart-type
Pour les donnees x1, ..., xn la dispersion est mesuree par la variance Var
Var =1
n
n∑i=1
(xi − x)2
Theoreme de Konig-Huygens
Var = x2 − x2
avec
x2 =1
n
n∑i=1
x2i et x =
1
n
n∑i=1
xi
On a par ailleurs l’ecart-type σ defini par σ2 = Var :
σ =
√√√√1
n
n∑i=1
(xi − x)2
Vincent Runge Statistiques 36 / 158
37/158
3. Statistiques descriptives Indicateurs de dispersion
Propriete de la variance
Donnees de taille n1, moyenne x1 et variance σ21
Donnees de taille n2, moyenne x2 et variance σ22
Donnees de taille n1 + n2, moyenne x variance σ2
σ2 =n1σ
21 + n2σ
22
n1 + n2+
n1(x1 − x)2 + n2(x2 − x)2
n1 + n2
C’est la somme de la moyenne (ponderee) des variances et de la variance(ponderee) des moyennes.
x =n1x1 + n2x2
n1 + n2
On ecrit aussi
σ2 = (Var(x1),Var(x2)) + Var(x1, x2) ,
Vincent Runge Statistiques 37 / 158
38/158
3. Statistiques descriptives Indicateurs de dispersion
Propriete de la variance
On introduit la suite xkk=1...(n1+n2) dans laquelle les n1 premiersnombres sont issus de la premiere collection. On calcule
(n1 + n2)σ2 =
n1∑k=1
(xk − x)2 +
n1+n2∑k=n1+1
(xk − x)2
=
n1∑k=1
((xk − x1) + (x1 − x))2 +
n1+n2∑k=n1+1
((xk − x2) + (x2 − x))2
= n1σ21 + 2
n1∑k=1
(xk − x1)(x1 − x) + n1(x1 − x)2
+n2σ22 + 2
n1+n2∑k=n1+1
(xk − x2)(x2 − x) + n2(x2 − x)2 ,
en utilisant la definition des moyennes x1 et x2 chacune des deux sommesrestantes s’annule et le resultat est demontre.
Vincent Runge Statistiques 38 / 158
39/158
3. Statistiques descriptives Indicateurs de dispersion
Analyse de la variance ANOVA (Hors programme)
Interpretation de la formule
σ2 = variance intrapopulation + variance interpopulation
σ2 =n1σ
21 + n2σ
22
n1 + n2+
n1(x1 − x)2 + n2(x2 − x)2
n1 + n2.
(n1 + n2)σ2 = SCE = somme des carres des ecarts
SCEtotal = SCEresidu + SCEfacteur
I EtudierSCEfacteur
SCEresidupour savoir si x1 et x2 sont ”les memes”!
I C’est une possibilite de test statistique...
Vincent Runge Statistiques 39 / 158
40/158
3. Statistiques descriptives Indicateurs de dispersion
Ecart moyen
e =1
n
n∑i=1
|xi − x |
+ : facile a comprendre que σ2
- : il est peu utilise : probleme algebrique du calcul + problemestatistique
Donnees de taille n1, moyenne x1 et ecart moyen e1
Donnees de taille n2, moyenne x2 et ecart moyen e2
Donnee n1 + n2, moyenne x ecart moyen = ?
Vincent Runge Statistiques 40 / 158
41/158
3. Statistiques descriptives Indicateurs de dispersion
Les moments
Moments centres d’ordre r
mr =1
n
n∑k=1
(xk − x)r
coefficient d’asymetrie de Fisher (skewness) :
γ1 =m3
σ3
coefficient d’aplatissement de Fisher (kurtosis) :
γ2 =m4
σ4− 3
I Distribution etalee vers la droite si γ1 > 0, vers la gauche si γ1 < 0.I Pour γ2, la soustraction par 3 correspond a une comparaison avec laserie etalon (issue d’une loi normale pour laquelle γ2 = 0).
Vincent Runge Statistiques 41 / 158
42/158
3. Statistiques descriptives Indicateurs de dispersion
Exercice : Transformation affine
Soient a et b des nombres reels. On a :
x =1
n
n∑i=1
xi et Var(x) =1
n
n∑i=1
(xi − x)2
Monter que pour les donnees yi = axi + b on obtient les formules:
y = ax + b
Var(y) = a2Var(x)
L’ecart moyen ne possede pas de telle propriete
Vincent Runge Statistiques 42 / 158
43/158
3. Statistiques descriptives Indicateurs de dispersion
Remarque de vocabulaire
les moyennes
On parle de
Moyenne observee pour x , xG , xH ...
Esperance de la variable aleatoire X pour E[X ]
Moyenne empirique (pour un estimateur...voir plus loin...)
les variances
On parle de
Variance observee pour Var en statistiques descriptives
Variance de la variable aleatoire X pour V (X )
Variance empirique (pour un estimateur...voir plus loin...)
I DANGER!!! Le vocabulaire de la statistique est tres instable, on utilisesouvent le meme mot de ”moyenne” pour des notions differentes...
Vincent Runge Statistiques 43 / 158
44/158
3. Statistiques descriptives Ordonner
Plan
3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques
Vincent Runge Statistiques 44 / 158
45/158
3. Statistiques descriptives Ordonner
Quantiles
On note x(1), x(2), ..., x(n), avec des indices entres parentheses, les donneestriees par ordre croissant.
Par exemple 7, 3, 2, 4, 7 on aura x(1) = 2, x(2) = 3, x(3) = 4, x(4) = 7 etx(5) = 7
Le quantile d’ordre α ∈ ]0, 1[, note qα, est defini comme etant ”la pluspetite valeur” de la serie permettant d’avoir au moins αn nombresinferieurs (ou egaux) a lui-meme.
qα =
x(dαne) si αn 6∈ N
x(αn) + x(αn+1)
2si αn ∈ N
avec d·e designant l’operation partie entiere superieure.
Vincent Runge Statistiques 45 / 158
46/158
3. Statistiques descriptives Ordonner
Quantiles
Principaux quantiles
4 parts egales, on a 3 quartiles (Q1,Q2,Q3) = (q 14, q 2
4, q 3
4)
10 parts egales, on a 9 deciles (D1, ...,D9) = (q 110, ..., q 9
10)
100 parts egales, on a 99 centiles (C1, ...,C99) = (q 1100, ..., q 99
100)
La mediane
Indicateur de position centrale Me :
Me = Q2 = D5 = C50 = q 12
Vincent Runge Statistiques 46 / 158
47/158
3. Statistiques descriptives Ordonner
De nouveaux indicateurs de dispersion
Interquartiles
Intervalle interquartile :
IIQ = [Q1,Q3]
Ecart interquartile :IQ = Q3 − Q1
Etendue
e = maxi=1,...,n
xi − mini=1,...,n
xi = e(n) − e(1)
Vincent Runge Statistiques 47 / 158
48/158
3. Statistiques descriptives Ordonner
Exercice
Soient les deux series statistiques triees suivantes
(1) : 1 2 3 11 12 13 21 22 23 31 32 33 34
(2) : 1 2 3 11 12 13 21 22 23 31 32 33
Determiner les 3 quartiles de ces deux series, l’ecart interquartile etl’etendue. Voir que l’introduction du cas αn ∈ N est justifiee par laserie (2)
Vincent Runge Statistiques 48 / 158
49/158
3. Statistiques descriptives Representations graphiques
Plan
3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques
Vincent Runge Statistiques 49 / 158
50/158
3. Statistiques descriptives Representations graphiques
Boıte a moustaches (boxplot)
Le long d’un axe gradue, on represente un rectangle delimite par lesquartiles Q1 et Q3 et coupe en deux par un trait a hauteur de Me;
Cette boıte est completee par des moustaches (des traits reliant laboıte) s’arretant (selon la definition choisie):
au minimum et au maximum des xia D1 et D9 ou C2 et C98
a la valeur x(a) realisant le minimum des x(i) dans [Q1 − 1.5 IQ,Q1] etx(b) realisant le maximum des x(i) dans [Q3,Q3 + 1.5 IQ]
La derniere definition est souvent preferee. Les valeurs en dehors desmoustaches sont reperees par des croix ou des ronds. Ce sont desvaleurs dites extremes (outliers).
Vincent Runge Statistiques 50 / 158
51/158
3. Statistiques descriptives Representations graphiques
Boıte a moustaches (boxplot)
Figure: Nombre d’heures de sommeil pour 20 lyceens pendant une semaine.
Vincent Runge Statistiques 51 / 158
52/158
3. Statistiques descriptives Representations graphiques
Histogrammes
I Rectangles adjacents, uniquement pour les variables continuesI Aire de chaque rectangle proportionnelle a l’effectif de la classe
En notant hi la hauteur de la classe i ([ai−1, ai [) d’effectif ni , defini parni = #xk tels que xk ∈ [ai−1, ai [, on obtient
hi =ni
ai − ai−1
Histogramme des differents taux de fecondite de tous les pays (225)estimes en 2013 (source: World Factbook)
Figure: Histogramme des taux de fecondite dans le monde.Vincent Runge Statistiques 52 / 158
53/158
3. Statistiques descriptives Representations graphiques
Diagrammes en batons
I Batons adjacents, uniquement pour les variables discretesI Hauteur de chaque baton proportionnelle au nombre d’occurrences de lamodalite placee sous le baton
Exemple : On jette 20 fois de suite un de equilibre a 6 faces et on reportele resultat sur le diagramme suivant
Figure: Resultat de 20 lances d’un de equilibre
Vincent Runge Statistiques 53 / 158
54/158
3. Statistiques descriptives Representations graphiques
Fonction de repartition empirique
I = Graphique des frequences cumuleesI Pour n donnees,
F (x) =nombre d’elements ≤ x
n
Figure: (gauche) fonction de repartition des taux de fecondite. (droite) fonctionde repartition des 20 lances de de
Vincent Runge Statistiques 54 / 158
55/158
3. Statistiques descriptives Representations graphiques
Tableaux
I Tableau de contingenceI On croise deux variables d’une population
Figure: Repartition couleur des yeux et type de cheveux dans une classe de 30eleves
+ Objectif : detection d’eventuelles dependances entre variables
Vincent Runge Statistiques 55 / 158
56/158
3. Statistiques descriptives Representations graphiques
Aller plus loin...
La statistique descriptive est unidimensionnelle+ On organise les reels x1, ..., xnL’analyse de donnee est multidimensionnelle+ On organise les donnees (x11, ...x1p), ..., (xn1, ...xnp)De nouvelles questions emergent:
Comment mesurer la liaison entre 2 variables?
Comment visualiser des donnees en dimension 10?
Vincent Runge Statistiques 56 / 158
57/158
4. Estimateurs et estimations
Plan
1 Introduction
2 Des statistiques pour quoi faire?
3 Statistiques descriptives
4 Estimateurs et estimations
5 Tests statistiques
Vincent Runge Statistiques 57 / 158
58/158
4. Estimateurs et estimations Generer l’aleatoire
Plan
4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes
Vincent Runge Statistiques 58 / 158
59/158
4. Estimateurs et estimations Generer l’aleatoire
Generer des donnees de loi uniforme X ∼ U([0, 1])
I Une variable aleatoire X = (Ω, ω ∈ Ω, P(X = ω))Ω est l’univers, l’ensemble des valeurs possibles pour X
Sources d’aleatoires (generer X ∼ U([0, 1]) loi uniforme)
L’aleatoire dans la nature https://www.random.org/
Bruit atmospherique genere par les eclairs! (capte par une simpleradio)
ou l’instant d’une desintegration radioactive
Les algorithmes (!) pseudo-aleatoires (tres tres utilises)
Vincent Runge Statistiques 59 / 158
60/158
4. Estimateurs et estimations Generer l’aleatoire
Exemples d’algorithmes pseudo-aleatoires
I Generateur congruentiel lineaire (Lehmer 1948)
xn+1 = (axn + c) mod m
Set the seed x0 using the current system time in microsecondsx0 < − as.numeric(Sys.time()) * 1000
Figure: Le generateur d’UNIX et GCC. a = 1103515245, c = 12345, m = 231
Ici : seed = x0 = 99, 216 = 65536 valeurs. xi/(231) ∈ [0, 1[
I Etat de l’art : algorithme Mersenne Twister(Makoto Matsumoto et Takuji Nishimura 1997)
utilise par Python, Ruby, R, PHP, MATLAB, Stata, C++
Vincent Runge Statistiques 60 / 158
61/158
4. Estimateurs et estimations Generer l’aleatoire
Comparaisons
source : https://www.random.org/
Vincent Runge Statistiques 61 / 158
62/158
4. Estimateurs et estimations L’echantillonnage et problematique
Plan
4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes
Vincent Runge Statistiques 62 / 158
63/158
4. Estimateurs et estimations L’echantillonnage et problematique
L’echantillonnage
Definitions
Echantillon aleatoire : variables aleatoires (X1, ...,Xn) avec Xi = XEchantillon : realisations x1, ..., xn des variables X1, ...,Xn
Modelisation : Xi ∼ L(θ) (loi qui depend d’un parametre θ)
Estimateur : variable aleatoire T = f (X1, ...,Xn)Estimation : realisation t de T : t = f (x1, ..., xn)
I Hypothese : Les variables aleatoires X1, ...,Xn sont independantes etidentiquement distribuees (on note i.i.d.). Elles ont toutes la meme loique la variable aleatoire X appelee variable aleatoire parente.
Vincent Runge Statistiques 63 / 158
64/158
4. Estimateurs et estimations L’echantillonnage et problematique
Problematique de l’estimation
Notre objectif
Soit X une variable aleatoire de loi L(θ)
Soit x1, ..., xn une observation de l’echantillon X1, ...,Xn, copies de X
Comment estimer θ a partir de x1, ..., xn ?
Deux etapes :
I Estimation ponctuelle
I Estimation par intervalle de confiance
Vincent Runge Statistiques 64 / 158
65/158
4. Estimateurs et estimations Estimation ponctuelle
Plan
4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes
Vincent Runge Statistiques 65 / 158
66/158
4. Estimateurs et estimations Estimation ponctuelle
Exemples a connaıtre
Moyenne empirique :
X =1
n
n∑i=1
Xi
Variance empirique : S2 =1
n
n∑i=1
(Xi − X
)2=
1
n
n∑i=1
X 2i − X
2
Variance empirique corrigee : S?2 =1
n − 1
n∑i=1
(Xi − X
)2=
n
n − 1S2
Vincent Runge Statistiques 66 / 158
67/158
4. Estimateurs et estimations Estimation ponctuelle
Definition
Estimateur ponctuel= estimateur dont la realisation est une estimation du parametre θ
Notation
On note generalement θ ou θn l’estimateur (=une variable aleatoire) de θ.
θ = θn = f (X1, ...,Xn)
Vincent Runge Statistiques 67 / 158
68/158
4. Estimateurs et estimations Estimation ponctuelle
Proprietes d’un estimateur
Definitions
On appelle biais d’un estimateur la quantite :
b(θn) = E[θn]− θ
I Un estimateur est dit sans biais si
b(θn) = 0
I Un estimateur est dit asymptotiquement sans biais si
limn→+∞
b(θn) = 0
Vincent Runge Statistiques 68 / 158
69/158
4. Estimateurs et estimations Estimation ponctuelle
Proprietes d’un estimateur
Definitions
On appelle erreur quadratique moyenne la quantite :
EQM(θn) = E[(θn − θ)2] = V (θn) + [b(θn)]2
I Un estimateur est dit consistant (ou convergent en moyennequadratique) si :
limn→∞
EQM(θn) = 0
Remarque
Pour montrer qu’un estimateur sans biais est consistant, il suffit demontrer que lim
n→∞Var(θn) = 0
Vincent Runge Statistiques 69 / 158
70/158
4. Estimateurs et estimations Estimation ponctuelle
Exercice
Soit (X1, ...,Xn) un echantillon de loi quelconque tel queE[Xi ] = µ et V (Xi ) = σ2
Montrer que X = 1n
∑ni=1 Xi est un estimateur sans biais et
consistant de µ
Montrer que S2 = 1n
∑ni=1
(Xi − X
)2est un estimateur biaise de σ2
En deduire un estimateur sans biais de σ2
Vincent Runge Statistiques 70 / 158
71/158
4. Estimateurs et estimations Estimation ponctuelle
Estimateur de la moyenne
Moyenne empirique
X =1
n
n∑i=1
Xi
Proprietes
Soit (X1, ...,Xn) un echantillon aleatoire tel que E[Xi ] = µ et V (Xi ) = σ2
E[X ] = µ et V (X ) =σ2
n
Remarque
X est un estimateur sans biais et consistant de µ
Vincent Runge Statistiques 71 / 158
72/158
4. Estimateurs et estimations Estimation ponctuelle
Estimateur de la variance
Variance empirique et variance empirique corrigee
S2 =1
n
n∑i=1
(Xi − X
)2et S?2 =
1
n − 1
n∑i=1
(Xi − X
)2
Proprietes
Soit (X1, ...,Xn) un echantillon tel que E[Xi ] = µ et V (Xi ) = σ2
E[S2] =n − 1
nσ2 et V (S2) =
n − 1
n3((n − 1)µ4 − (n − 3)σ2)
Remarque
S?2 =n
n − 1S2 est un estimateur sans biais et consistant de σ2
Vincent Runge Statistiques 72 / 158
73/158
4. Estimateurs et estimations Estimation ponctuelle
Maximum de vraisemblance (Hors programme)
I Existe-il une methode generale pour choisir l’estimateur des parametresd’un loi?+ Oui! C’est la methode du maximum de vraisemblance!(maximum likelihood)
Pour une densite de probabilite f = f (x , θ).Exemple distribution exponentielle:
f (x , θ) =
θe−θx si x ≥ 00 si x < 0
Exemple distribution normale:
f (x , θ = (µ, σ2)) =1√
2πσ2e−
(x−µ)2
2σ2
L(x1, ..., xn, θ) = f (x1, θ)× · · · × f (xn, θ)
Resoudre maxθ L(x1, ..., xn, θ)ou d
dθL(x1, ..., xn, θ) = 0 ou ddθ log(L(x1, ..., xn, θ)) = 0
Vincent Runge Statistiques 73 / 158
74/158
4. Estimateurs et estimations Estimation ponctuelle
Maximum de vraisemblance (Hors programme)
Exemple avec la loi exponentielle:Avec
f (x , θ) =
θe−θx si x ≥ 00 si x < 0
On obtient (par integration par parties) :
E[X ] =
∫ +∞
x=0θxe−θxdx =
1
θ
Une bonne idee (?) serait d’utiliser θ = 1X
. Mais est-ce un bon choix?
Vincent Runge Statistiques 74 / 158
75/158
4. Estimateurs et estimations Estimation ponctuelle
Maximum de vraisemblance (Hors programme)
Exemple avec la loi exponentielle : f (x , θ) =
θe−θx si x ≥ 00 si x < 0
L(x1, ..., xn, θ) =n∏
i=1
θ exp(−θxi ) = θn exp
(−θ
n∑i=1
xi
)= θn exp (−θnx)
Et on a :d
dθ(log(L)) =
d
dθ(n log(θ)− θnx) =
n
θ− nx
Ainsid
dθ(log(L)) = 0 ⇐⇒ θ =
1
x
Un meilleur estimateur qui minimise l’erreur quadratique moyenne sera
θ =n − 2
n
1
X
Vincent Runge Statistiques 75 / 158
76/158
4. Estimateurs et estimations Estimation par intervalle
Plan
4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes
Vincent Runge Statistiques 76 / 158
77/158
4. Estimateurs et estimations Estimation par intervalle
Estimation par intervalle
Principe
Trouver une variable aleatoire B(θ) de loi connu (independante de θ)
pour laquelle le parametre θ inconnu intervient
Recherche les quantiles qα2
et q1−α2
qui permettent d’ecrireP(qα
2< B(θ) < q1−α
2) = 1− α
Transformer l’inegalite en une inegalite du typeP(B1 < θ < B2) = 1− α
I Les bornes B1 et B2 de l’intervalle sont des variables aleatoiresI [B1,B2] est un intervalle de probabilite de niveau 1− α pour θ
Vincent Runge Statistiques 77 / 158
78/158
4. Estimateurs et estimations Estimation par intervalle
Estimation par intervalle
Definition
Soient B1 = f1(X1, ...,Xn) et B2 = f2(X1, ...,Xn).[B1,B2] est un intervalle de probabilite de niveau 1− α du parametre θsi :
P(B1 < θ < B2) = 1− α
Definition
Un intervalle de confiance de niveau 1− α du parametre θ est unerealisation [b1, b2] de l’intervalle [B1,B2].
Vincent Runge Statistiques 78 / 158
79/158
4. Estimateurs et estimations Estimation par intervalle
Exercice
Pour determiner la teneur en potassium d’une solution, on effectue desdosages a l’aide d’une technique experimentale donnee.On admet que le resultat d’un dosage est une variable aleatoire suivantune distribution normale N (µ, σ2) dont l’esperance µ est la valeur que l’oncherche a determiner, et dont l’ecart-type σ est de 1 mg/litre si l’onsuppose que le protocole experimental a ete suivi scrupuleusement.Les resultats pour cinq dosages independants sont les suivants (enmg/litre): 74.0, 71.6, 73.4, 74.3, 72.2.
Determiner a partir de ces mesures un intervalle de confiance pour µavec un coefficient de securite de 95%.
Quelle taille d’echantillon est necessaire pour avoir un intervalle pluspetit que 0.1. (en mg/litre) ?
Vincent Runge Statistiques 79 / 158
80/158
4. Estimateurs et estimations Estimation par intervalle
Estimation par intervalle de la moyenne
Famille gaussienne, variance connue
Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 connu.L’intervalle :
IC(1−α) =
[X − q1−α/2
σ√n,X + q1−α/2
σ√n
]est un intervalle de probabilite de niveau (1− α) pour µ
Avec q1−α/2 le quantile d’ordre 1− α/2 de la loi normale centree reduite.
I Que faire si la variance est inconnue?
Vincent Runge Statistiques 80 / 158
80/158
4. Estimateurs et estimations Estimation par intervalle
Estimation par intervalle de la moyenne
Famille gaussienne, variance connue
Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 connu.L’intervalle :
IC(1−α) =
[X − q1−α/2
σ√n,X + q1−α/2
σ√n
]est un intervalle de probabilite de niveau (1− α) pour µ
Avec q1−α/2 le quantile d’ordre 1− α/2 de la loi normale centree reduite.
I Que faire si la variance est inconnue?
Vincent Runge Statistiques 80 / 158
81/158
4. Estimateurs et estimations Estimation par intervalle
Loi du χ2
Definition
Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees de loi normale centree reduite: Xi ∼ N (0, 1)La variable aleatoire Y = X 2
1 + ...+X 2n suit une loi continue appelee loi du
χ2 a n degres de liberte :
Y =n∑
i=1
X 2i ∼ χ2
n
.
Proprietes
Si Y1 ∼ χ2n1
et Y2 ∼ χ2n2
avec Y1 ⊥⊥ Y2, alors Y = Y1 + Y2 ∼ χ2n1+n2
Si Y ∼ χ2n, alors E[Y ] = n et V (Y ) = 2n
Vincent Runge Statistiques 81 / 158
82/158
4. Estimateurs et estimations Estimation par intervalle
Loi du χ2
Densite
f (x) =1
2n/2Γ(n/2)x (n−2)/2e−x/2
0 2 4 6 8
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
0 2 4 6 8
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
0 2 4 6 8
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
0 2 4 6 8
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
0 2 4 6 8
0.0
0.2
0.4
0.6
0.8
1.0
x
f(x)
0 2 4 6 8
0.0
0.2
0.4
0.6
0.8
1.0
k=1k=2k=3k=4k=5
Vincent Runge Statistiques 82 / 158
83/158
4. Estimateurs et estimations Estimation par intervalle
Loi de Student
Definition
Soient X et Y deux variables aleatoires independantes telles queX ∼ N (0, 1) et Y ∼ χ2
n. La variable aleatoire T = X√Y /n
suit une loi
continue appelee loi de Student a n degres de liberte :
T =X√Y /n
∼ tn
Proprietes
E[T ] = 0
V (T ) = nn−2 si n > 2
Vincent Runge Statistiques 83 / 158
84/158
4. Estimateurs et estimations Estimation par intervalle
Loi de Student
Densite
C’est une loi ”proche” de la loi normale centree reduite
f (x) =Γ(n+1
2 )√nπΓ(n2 )(1 + x2
n )n+1
2
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
x
f(x)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
x
f(x)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
x
f(x)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
x
f(x)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
x
f(x)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
k=1k=2k=5k=10k=1e+05
Vincent Runge Statistiques 84 / 158
85/158
4. Estimateurs et estimations Estimation par intervalle
Theoreme de Cochran
Theoreme
Soit (X1, ...,Xn) un echantillon de la variable aleatoire X ouX ∼ N (µ, σ2).On sait que
X ∼ N(µ, σ
2
n
)Q2
σ2 = 1σ2
∑ni=1
(Xi − X
)2 ∼ χ2n−1
Q2 et X sont independants.
Ainsi avec U = X−µσ√n∼ N (0, 1) et V = Q2
σ2 ∼ χ2n−1 on obtient
T =U√V
n−1
∼ tn−1 etU√V
n−1
=X − µ
S∗√n
∼ tn−1
Vincent Runge Statistiques 85 / 158
85/158
4. Estimateurs et estimations Estimation par intervalle
Theoreme de Cochran
Theoreme
Soit (X1, ...,Xn) un echantillon de la variable aleatoire X ouX ∼ N (µ, σ2).On sait que
X ∼ N(µ, σ
2
n
)Q2
σ2 = 1σ2
∑ni=1
(Xi − X
)2 ∼ χ2n−1
Q2 et X sont independants.
Ainsi avec U = X−µσ√n∼ N (0, 1) et V = Q2
σ2 ∼ χ2n−1 on obtient
T =U√V
n−1
∼ tn−1 etU√V
n−1
=X − µ
S∗√n
∼ tn−1
Vincent Runge Statistiques 85 / 158
86/158
4. Estimateurs et estimations Estimation par intervalle
Estimation par intervalle de la moyenne
Famille gaussienne, variance inconnue
Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 inconnu.L’intervalle :
IC(1−α) =
[X − q
tn−1
1−α/2
S∗√n,X + q
tn−1
1−α/2
S∗√n
]est un intervalle de probabilite de niveau (1− α) pour µ
Avec qtn−1
1−α/2 le quantile d’ordre 1− α/2 de la loi de Student a n − 1degres de liberte.
Vincent Runge Statistiques 86 / 158
87/158
4. Estimateurs et estimations Estimation par intervalle
Estimation par intervalle
Pour determiner la concentration en glucose d’un echantillon sanguin, oneffectue des dosages a l aide d’une technique experimentale donnee. Onconsidere que le resultat de chaque dosage est une variable aleatoirenormale. On effectue 10 dosages independants, qui donnent les resultatssuivants (en g/l) :
0.96, 1.04, 1.08, 0.92, 1.04, 1.18, 0.99, 0.99, 1.25, 1.08
Calculer une estimation de la concentration en glucose de cetechantillon.
Calculer un interval de confiance de cette concentration de niveau95%.
Vincent Runge Statistiques 87 / 158
88/158
4. Estimateurs et estimations Estimation par intervalle
Estimation par intervalle de la variance
Famille gaussienne, variance inconnue
Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). On suppose σ2 inconnu.L’intervalle :
IC(1−α)(σ2) =
(n − 1)S∗2
qχ2n−1
1−α2
,(n − 1)S∗2
qχ2n−1α2
est un intervalle de probabilite de niveau (1− α) pour σ2.
(n − 1)S∗2
σ2∼ χ2
n−1
Avec qχ2n−1
1−α2
le quantile d’ordre 1− α/2 et qχ2n−1α2
le quantile d’ordre α/2 de
la loi du Khi-2 a n − 1 degres de liberte.Vincent Runge Statistiques 88 / 158
89/158
4. Estimateurs et estimations Le theoreme central limite
Plan
4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes
Vincent Runge Statistiques 89 / 158
90/158
4. Estimateurs et estimations Le theoreme central limite
Le theoreme central limite
Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees d’esperance µ et de variance σ2 :
S =n∑
i=1
XiL−→N
(nµ, nσ2
)
⇔ Z =X − µ
σ√n
L−→N (0, 1)
Vincent Runge Statistiques 90 / 158
91/158
4. Estimateurs et estimations Le theoreme central limite
Le theoreme central limite
⇔ Z =X − µ
σ√n
L−→N (0, 1)
Xi ∼ B(m = 3, p = 0.5) Xi ∼ U([0, 1])
Vincent Runge Statistiques 91 / 158
92/158
4. Estimateurs et estimations Le theoreme central limite
Exercice
I Jouer a pile ou faceVous relevez 100 resultats pile-face lors du lance successif de 100 pieces.La variable aleatoire associee X = 1
n
∑ni=1 Xi avec Xi ∼ B(p) donne une
realisation de x = 0.4.
Construire un intervalle de confiance a 95% autour de cetteproportion observee.
Pensez vous que la piece soit equilibree?
Reponse :L’intervalle de confiance a construire avec une approximation de p par xest : [
x − 1.96
√x(1− x)√
n, x + 1.96
√x(1− x)√
n
]= [0.304, 0.496]
Vincent Runge Statistiques 92 / 158
93/158
4. Estimateurs et estimations Propagation des incertitudes
Plan
4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes
Vincent Runge Statistiques 93 / 158
94/158
4. Estimateurs et estimations Propagation des incertitudes
Propagation des incertitudes
Il est courant de vouloir estimer la variance s2f du resultat d’un calcul
impliquant plusieurs mesures (variables aleatoires)
f = f (X ,Y ,Z , ...)
Cela generalise le calcul de la variance pour X = X1+···Xnn
Formule de la variance
Si f = f (X ,Y ,Z , ...) et les variables aleatoires X , Y , Z ,... sontindependantes, alors
s2f =
(∂f
∂x
)2
s2x +
(∂f
∂y
)2
s2y +
(∂f
∂z
)2
s2z + · · ·
Vincent Runge Statistiques 94 / 158
95/158
4. Estimateurs et estimations Propagation des incertitudes
Propagation des incertitudes
source :https://en.wikipedia.org/wiki/Propagation_of_uncertainty
Vincent Runge Statistiques 95 / 158
96/158
5. Tests statistiques
Plan
1 Introduction
2 Des statistiques pour quoi faire?
3 Statistiques descriptives
4 Estimateurs et estimations
5 Tests statistiques
Vincent Runge Statistiques 96 / 158
97/158
5. Tests statistiques Exemples introductifs
Plan
5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2
Vincent Runge Statistiques 97 / 158
98/158
5. Tests statistiques Exemples introductifs
Exemple introductif 1
I Esperance de souris
On suppose que l’esperance de vie de souris de laboratoire suit unevariable aleatoire gaussienne dont l’esperance est de µ = 2 ans dansdes conditions normales. Son ecart-type est une quantite connueegale a σ = 0.5 an (6 mois).
Un specialiste propose une alimentation qui - selon lui - augmente laduree de vie moyenne de ces souris. Pour s’en assurer un laboratoiresoumet 10 souris au regime propose. A la fin de l’experience, lesdurees de vie de ces 10 souris sont les suivantes (en annees):3.1, 2.0, 1.6, 3.2, 2.3, 1.7, 2.7, 3.2, 1.4, 2.2.
I Proposer un test au niveau 5% permettant de determiner si le regimepropose par le specialiste a un effet significatif ou non.
Vincent Runge Statistiques 98 / 158
99/158
5. Tests statistiques Exemples introductifs
Exemple introductif 1
Resolution: ce qu’on peut faire...
I La moyenne observee est egale a x = 2.34I On fait l’hypothese que µ = 2I On teste par le calcul P(X > 2.34) =?
Notre objectif est de s’apercevoir si, dans les conditions normales, il estabsurde/peu probable d’observer les donnees qu’on a.
Z ∼ N (0, 1), et on obtient P(Z > 2.34−20.5√
10
) = 0.0157638, que conclure?
Vincent Runge Statistiques 99 / 158
100/158
5. Tests statistiques Exemples introductifs
Exemple introductif 2
I Une temperature de crabe
On note X la temperature interieure (en C ) d’une espece de crabesdu Pacifique prise a une temperature ambiante de 24.3C . Onsuppose que X suit une loi normale N (µ, σ2) dont on ne connaıt pasles parametres.
On a mesure cette temperature sur un echantillon de 21 crabes prisau hasard :
24.6, 26.1, 25.1, 27.3, 24.0, 24.5, ...
On donne∑
i xi = 526.9 et∑
i x2i = 13255.53.
I Proposer un test au niveau 5% permettant de determiner si cetteespece de crabes possede sa propre temperature interieure ou si cettederniere est la meme que la temperature ambiante.
Vincent Runge Statistiques 100 / 158
101/158
5. Tests statistiques Exemples introductifs
Exemple introductif 2
Resolution: ce qu’on peut faire...
I La moyenne observee est egale a x ≈ 25.09 et l’estimation de lavariance empirique corrigee s ≈ 1.33I On fait l’hypothese que µ = 24.3CI On teste par le calcul P(X > 25.09) =?
T ∼ t20, et on obtient P(T > 25.09−24.31.33√
21
= 2.7220) = 0.006565, que
conclure?
Difference importante : On ne cherche pas ici a voir qu’un parametrereel est plus grand que ce qu’on pensait, mais seulement qu’il differed’une valeur de reference.
Vincent Runge Statistiques 101 / 158
102/158
5. Tests statistiques Exemples introductifs
Definitions
A la vue des deux exemples precedents on peut definir:
Une hypothese statistique est un enonce (”litteraire”) portant surles caracteristiques d’une population (parametre ou forme d’unedistribution).
Un test statistique est une procedure (”calculatoire”) permettant detrancher entre deux hypotheses basees sur l’observation de donnees.
Vincent Runge Statistiques 102 / 158
103/158
5. Tests statistiques Principe
Plan
5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2
Vincent Runge Statistiques 103 / 158
104/158
5. Tests statistiques Principe
Principe
(a) Choisir un niveau de risque du test α
(b) Choisir les hypotheses a tester (H0 et H1) selon le probleme a resoudre
(c) Determiner la variable (aleatoire) de test (Statistique de test)
(d) Determiner la region de rejet
(e) Calculer la realisation et la p-valeur associee
(f) Conclure
Vincent Runge Statistiques 104 / 158
105/158
5. Tests statistiques Principe
(a) Risques d’erreurs
Resultats possibles
Decision Ne pas rejeter H0 Rejeter H0
Realite (conclure H0) (conclure H1)
H0 vraie OK Erreur de type I
H1 vraie Erreur de type II OK
Definitions
Risque de premiere espece : α = P(rejeter H0|H0 vraie)(= probabilite de commettre une erreur de type I)
Risque de seconde espece : β = P(ne pas rejeter H0|H1 vraie)(= probabilite de commettre une erreur de type II)
Puissance : P = 1− β = P(rejeter H0|H1 vraie)(probabilite de prendre la bonne decision en rejetant H0)
Vincent Runge Statistiques 105 / 158
106/158
5. Tests statistiques Principe
(a) Focus sur α
Choix du niveau du test
Le niveau de signification du test est le risque de premiere espece αconsenti.
Le niveau de signification du test est souvent fixe a 0.05 ou 0.01,mais ce seuil est arbitraire et toute autre valeur peut etre choisie.
Vincent Runge Statistiques 106 / 158
107/158
5. Tests statistiques Principe
(b) Les Hypotheses H0 et H1
Hypothese nulle et hypothese alternative
L’hypothese nulle (notee H0) est l’hypothese privilegiee. C’est cellequi est supposee vraie par defaut.
L’hypothese alternative (notee H1) contredit l’hypothese nulle.C’est l’hypothese que l’on cherche a montrer.
I Asymetrie : On cherche a montrer que H0 est fausse, c’est-a-dire trespeu probable. Cette hypothese sera conservee dans le cas contraire.
I Ne pas rejeter, ce n’est pas accepter : On ne peut jamais montrer laverite d’une hypothese avec certitude
Vincent Runge Statistiques 107 / 158
108/158
5. Tests statistiques Principe
(b) Hypothese simple/composite
Exemple d’hypotheses simples
H : θ = θ0
Exemple d’hypotheses composites (i.e. plusieurs θ dans l’hypothese)
H : θ < θ0
H : θ > θ0
H : θ 6= θ0
H : θ ∈ [a, b]
Vincent Runge Statistiques 108 / 158
109/158
5. Tests statistiques Principe
(b) Tests unilateraux / bilateraux
Cas tres courants :
Test unilateral (a droite)
H0 : θ = θ0
H1 : θ > θ0
Test bilateral
H0 : θ = θ0
H1 : θ 6= θ0
Vincent Runge Statistiques 109 / 158
110/158
5. Tests statistiques Principe
(c) Statistique de test
Definition
Une statistique de test est une statistique (dont la loi est connue sousH0) qui permet de mesurer l’ecart a l’hypothese nulle.
Vincent Runge Statistiques 110 / 158
111/158
5. Tests statistiques Principe
(d) Region de rejet
Definition
La Region de rejet est l’ensemble Rα (depend du choix de α) des valeurs(de la statistique de test) pour lesquelles l’hypothese nulle est rejetee.
Vincent Runge Statistiques 111 / 158
112/158
5. Tests statistiques Principe
Risques d’erreurs
Figure: Erreur de type I et II et region critique de la forme Ralpha =]−∞, a]
Vincent Runge Statistiques 112 / 158
113/158
5. Tests statistiques Principe
Tests unilateraux / bilateraux
Test unilateral (a droite)
H0 : θ = θ0
H1 : θ > θ0
Test bilateral
H0 : θ = θ0
H1 : θ 6= θ0
Vincent Runge Statistiques 113 / 158
114/158
5. Tests statistiques Principe
(e) Degre de signification (p-valeur)
Definition
Le degre de signification (ou p-valeur) est defini par :
p = minα|t ∈ Rα
Test unilateral a droite Test unilateral a gauche Test bilateral
p = P(T > t|H0) p = P(T < t|H0) p = P(|T | > |t||H0)
Remarques
La p-valeur est la probabilite d’obtenir une valeur de la statistique detest au moins aussi extreme que celle observee lorsque H0 est vraie
Concretement, on rejette H0 lorsque p < α
Vincent Runge Statistiques 114 / 158
115/158
5. Tests statistiques Principe
(e) Degre de signification
Figure: p-valeur associee a la realisation t de la statistique de decision pour untest unilateral a gauche.
Vincent Runge Statistiques 115 / 158
116/158
5. Tests statistiques Principe
Etude de la puissance
Remarque
Le calcul de la puissance ne peut se faire que si l’on connaıt ladistribution de la statistique de test sous l’hypothese alternative (H1)
L’etude de la puissance permet de determiner, pour une alternativedonnee, le nombre d’observations necessaires pour conclure H1 (avecune certaine puissance)
L’etude de la puissance permet de determiner, pour un nombred’observations donnees, l’effet minimum pouvant etre montre (avecune certaine puissance)
Vincent Runge Statistiques 116 / 158
117/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
Plan
5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2
Vincent Runge Statistiques 117 / 158
118/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
Test sur l’esperance d’un echantillon gaussien
Cas 1 : variance connue (test z)
Modelisation : X1, ...,Xn iid avec Xi ∼ N (µ, σ20), σ2
0 connue.
Hypothese nulle : H0 : µ = µ0, H1 : ? (plusieurs choix selonl’enonce)
Statistique de test :X − µ0
σ0√n
∼H0
N (0, 1)
Vincent Runge Statistiques 118 / 158
119/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
(Ex 1) Test sur l’esperance d’un echantillon gaussien
I Esperance de souris
On suppose que l’esperance de vie de souris de laboratoire suit unevariable aleatoire gaussienne dont l’esperance est de µ = 2 ans dansdes conditions normales. Son ecart-type est une quantite connueegale a σ = 0.5 an (6 mois).
Un specialiste propose une alimentation qui - selon lui - augmente laduree de vie moyenne de ces souris. Pour s’en assurer un laboratoiresoumet 10 souris au regime propose. A la fin de l’experience, lesdurees de vie de ces 10 souris sont les suivantes (en annees):3.1, 2.0, 1.6, 3.2, 2.3, 1.7, 2.7, 3.2, 1.4, 2.2.
I Proposer un test au niveau 5% permettant de determiner si le regimepropose par le specialiste a un effet significatif ou non.
Vincent Runge Statistiques 119 / 158
120/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
Test sur l’esperance d’un echantillon gaussien
Cas 2 : variance inconnue (test de Student ou test t)
Modelisation : X1, ...,Xn iid avec Xi ∼ N (µ, σ2), σ2 inconnue.
Hypothese nulle : H0 : µ = µ0, H1 : ? (plusieurs choix selonl’enonce)
Statistique de test :X − µ0
S?√n
∼H0
tn−1
Vincent Runge Statistiques 120 / 158
121/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
(Ex 2) Test sur l’esperance d’un echantillon gaussien
I Une temperature de crabe
On note X la temperature interieure (en C ) d’une espece de crabesdu Pacifique prise a une temperature ambiante de 24.3C . Onsuppose que X suit une loi normale N (µ, σ2) dont on ne connaıt pasles parametres.
On a mesure cette temperature sur un echantillon de 21 crabes prisau hasard : 24.6, 26.1, 25.1, 27.3, 24.0, 24.5, ...On donne
∑i xi = 526.9 et
∑i x
2i = 13255.53.
I Proposer un test au niveau 5% permettant de determiner si cetteespece de crabes possede sa propre temperature interieure ou si cettederniere est la meme que la temperature ambiante.I On suppose qu’en realite la temperature moyenne des crabes est de25C . Quelle est la puissance du test construit pour detecter une telledifference ?
Vincent Runge Statistiques 121 / 158
122/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
Test sur l’esperance d’un echantillon de loi quelconque - ngrand
Modelisation : X1, ...,Xn iid avec Xi ∼ L inconnue.
Hypothese nulle : H0 : µ = µ0, H1 : ? (plusieurs choix selonl’enonce)
Statistique de test :
Si σ20 connue
X − µ0σ0√n
L→H0
N (0, 1) (TLC)
Si σ20 inconnue
X − µ0
S?√n
L→H0
N (0, 1) (TLC)
Vincent Runge Statistiques 122 / 158
123/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
(Ex 3) Test sur l’esperance d’un echantillon de loiquelconque
Le delai de survie, pour un certain type de cancer, peut etre modelisepar une variable aleatoire de loi exponentielle. L’esperance de vie avecle traitement de reference est de 4 ans.
Un nouveau traitement est teste dans le cadre d’un essai clinique surn = 60 patients. On observe un delai de survie moyen de 4.7 ans.
I Peut-on conclure que le nouveau traitement est significativementmeilleur que le traitement de reference ?
Vincent Runge Statistiques 123 / 158
124/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
Test sur un pourcentage - n grand
Modelisation : X1, ...,Xn iid avec Xi ∼ B(p), p inconnue.
Hypothese nulle : H0 : p = p0, , H1 : ? (plusieurs choix selonl’enonce)
Statistique de test (p = X ) :
p − p0√p0(1−p0)
n
L→H0
N (0, 1) (TLC)
Remarque
Tester un pourcentage revient a tester l’esperance d’une Bernoulli
Vincent Runge Statistiques 124 / 158
125/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
(Ex 4) Test sur un pourcentage - n grand
Le pourcentage d’anomalies chromosomiques dans les naissancesd’une population donnee, etait de 1% il y a 10 ans.
On effectue un depistage systematique (obtention des caryotypes apartir de prelevements de sang) sur 500 naissances tirees au sort dansla population actuelle. On observe 7 caryotypes anormaux.
I Le pourcentage d’anomalies chromosomique est-il significativementdifferent d’il y a 10 ans.I On suppose que le pourcentage d’anomalies est en realite passe de 1 a1,2%. Sur l’observation des 500 naissances, quelle probabilite a-t-on dedetecter cette difference ?
Vincent Runge Statistiques 125 / 158
126/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
Test sur un pourcentage - n petit
Modelisation : X1, ...,Xn iid avec Xi ∼ B(p), p inconnue.
Hypothese nulle : H0 : p = p0
Statistique de test :
np =∑
Xi ∼H0
B(n, p0)
Remarque
Avec une loi discrete on ne peut plus trouver tous les quantiles exactement.
Vincent Runge Statistiques 126 / 158
127/158
5. Tests statistiques Tests sur l’esperance d’un echantillon
(Ex 5) Test sur un pourcentage - n petit
On croise des descendants directs du croisement [fleurs rouges × fleursblanches]. Sous l’hypothese que le gene ’rouge’ est dominant, laprobabilite p d’obtenir une plante a fleurs blanches est de 1/4 alors quesous l’hypothese que le gene ’blanc’ est dominant, la probabilite pd’obtenir une plante a fleurs blanche est de 3/4.Sur n = 23 croisements (supposes independants), on a observe 8 plantes afleurs blanches.
1 L’hypothese admise jusqu’a present est que le gene ’rouge’ estdominant. Un geneticien aimerait montrer qu’en realite, c’est le gene’blanc’ qui est dominant. Tester cette hypothese au niveau α = 5%.
2 Quelle est la puissance du test construit ?
Vincent Runge Statistiques 127 / 158
128/158
5. Tests statistiques Tests sur la variance d’un echantillon
Plan
5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2
Vincent Runge Statistiques 128 / 158
129/158
5. Tests statistiques Tests sur la variance d’un echantillon
Tests sur la variance d’un echantillon gaussien
Hypotheses :X1, ...,Xn iid avec Xi ∼ N (µ, σ2)
Hypothese nulle : H0 : σ2 = σ20
Statistique de test :(n − 1)S?2
σ20
∼H0
χ2n−1
Si H1 : σ2 > σ20, alors on cherche u tel que P( (n−1)S?2
σ20
> u) = α
Si H1 : σ2 < σ20, alors on cherche u tel que P( (n−1)S?2
σ20
< u) = α
Si H1 : σ2 6= σ20, alors on cherche u1 et u2 tels que
P( (n−1)S?2
σ20
< u1) = P( (n−1)S?2
σ20
> u2) = α2
Vincent Runge Statistiques 129 / 158
130/158
5. Tests statistiques Tests sur la variance d’un echantillon
(Ex 6) Test sur la variance
Une nouvelle technique de dosage du glucose sanguin vient d’etre mise aupoint. Pour un meme echantillon de sang, sept dosages effectues a l’aidede cette nouvelle technique ont donne les resultats suivants (en g/l) :
1.17 1.16 1.16 1.19 1.21 1.19 1.18
On admet que les sept mesures sont des variables aleatoires independanteset identiquement distribuees de loi N (µ, σ2) ou σ2 caracterise la precisiondu procede. La technique utilisee jusqu’alors etait caracterisee par unecart-type de 0.05 mg/l. Peut-on dire que la nouvelle technique est plusprecise que l’ancienne ?
Vincent Runge Statistiques 130 / 158
131/158
5. Tests statistiques Tests de comparaison de deux echantillons
Plan
5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2
Vincent Runge Statistiques 131 / 158
132/158
5. Tests statistiques Tests de comparaison de deux echantillons
Test sur l’esperance de deux echantillons independants
Independance des echantillons
Deux echantillons sont independants s’ils sont constitues independammentl’un de l’autre
Remarque
Les sujets de l’echantillon 1 ne sont pas les memes que les sujets del’echantillon 2
Les effectifs des echantillons 1 et 2 ne sont pas necessairement lesmemes
Vincent Runge Statistiques 132 / 158
133/158
5. Tests statistiques Tests de comparaison de deux echantillons
Comparaison des esperances de deux echantillons gaussiens
Test de Student
Modelisation :X1, ...,Xn1 iid avec Xi ∼ N (µ1, σ
21)
Y1, ...,Yn2 iid avec Yi ∼ N (µ2, σ22)
σ21 = σ2
2 = σ2 inconnue.
Hypothese nulle : H0 : µ1 = µ2
Statistique de test :
X − Y√( 1n1
+ 1n2
)(n1−1)S?2
1 +(n2−1)S?22
n1+n2−2
∼H0
tn1+n2−2
Vincent Runge Statistiques 133 / 158
134/158
5. Tests statistiques Tests de comparaison de deux echantillons
(Ex 7) Comparaison des esperances de deux echantillonsgaussiens
On a preleve une solution plusieurs fois en utilisant deux pipettes calibreesde meme volume. On a pese le contenu du volume delivre par la pipette.Les resultats des differents pipettages, qui sont supposes normalementdistribues, sont exprimes en grammes.
Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984
Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023
On suppose que les variances sont les memes dans les deux groupes.
Les quantites moyennes prelevees par chacune des deux pipettessont-elles identiques ? (comparer les esperances)
Vincent Runge Statistiques 134 / 158
135/158
5. Tests statistiques Tests de comparaison de deux echantillons
Comparaison des esperances de deux echantillons - n1 et n2
grands
Modelisation :X1, ...,Xn1 iid avec Xi ∼ L1
Y1, ...,Yn2 iid avec Yi ∼ L2
Hypothese nulle : H0 : µ1 = µ2
Statistique de test :
X − Y√S?2
1n1
+S?2
2n2
L→H0
N (0, 1) (TLC)
Vincent Runge Statistiques 135 / 158
136/158
5. Tests statistiques Tests de comparaison de deux echantillons
(Ex 8) Comparaison des esperances de deux echantillons -n1 et n2 grands
Dans le but d’etudier l’influence eventuelle de la lumiere sur la croissancedu poisson Lebistes Reticulus, on a eleve deux lots de ce poisson dans desconditions d’eclairage differentes. Au 95eme jour, on a mesure (en mm) leslongueurs xi des poissons. On a obtenu les resultats suivants :
Lot 1 (180 individus) : eclairage a 400 lux∑xi = 3780
∑x2i = 84884
Lot 2 (90 individus) : eclairage a 3 000 lux.∑yi = 2043
∑y2i = 46586
Que peut-on conclure ?
Vincent Runge Statistiques 136 / 158
137/158
5. Tests statistiques Tests de comparaison de deux echantillons
Comparaison de deux pourcentages - n1 et n2 grands
Modelisation :X1, ...,Xn1 iid avec Xi ∼ B(p1)Y1, ...,Yn2 iid avec Yi ∼ B(p2)
Hypothese nulle : H0 : p1 = p2 = p
Statistique de test :
p1 − p2√( 1n1
+ 1n2
)p(1− p)
L→H0
N (0, 1) (TLC)
ou
p =n1p1 + n2p2
n1 + n2
Remarque
Ce test est equivalent au test du khi-2 (voir plus loin)
Vincent Runge Statistiques 137 / 158
138/158
5. Tests statistiques Tests de comparaison de deux echantillons
(Ex 9) Comparaison de deux pourcentages - n1 et n2
grands
Dans un groupe de 200 malades, on a constitue par tirage au sort uneserie soumise a un nouveau traitement A et une serie soumise autraitement classique B. On a :
Traitement A : nA = 102 ; 20 echecs soit pA = 19.6%Traitement B : nB = 98 ; 29 echecs soit pB = 29, 6%
Au niveau α = 5%, les traitements A et B ont-ils un taux d’echecssignificativement different ?
Vincent Runge Statistiques 138 / 158
139/158
5. Tests statistiques Tests de comparaison de deux echantillons
Comparaison des esperances de deux echantillons apparies
Echantillons apparies
Deux echantillons sont apparies s’il existe une correspondance entre lesobservations du premier echantillon et les observations du second.
Exemple
Mesure avant traitement et apres traitement (chez les memes sujets)
Vincent Runge Statistiques 139 / 158
140/158
5. Tests statistiques Tests de comparaison de deux echantillons
Comparaison des esperances de deux echantillons apparies
Modelisation :X1, ...,Xn iid avec Xi ∼ N (µ1, σ
21)
Y1, ...,Yn iid avec Yi ∼ N (µ2, σ22)
Soit Di = Xi − Yi
Hypothese nulle : H0 : µd = 0
Statistique de test
n petitD − µd
S?d√n
∼H0
tn−1
n grand, loi quelconque
D − µd
S?d√n
L→H0
N (0, 1)
Vincent Runge Statistiques 140 / 158
141/158
5. Tests statistiques Tests de comparaison de deux echantillons
(Ex 10) Comparaison des esperances de deux echantillonsapparies
On veut comparer chez 10 malades la pression arterielle systoliquemoyenne apres administration d’un nouveau medicament hypotenseur etapres administration du traitement de reference. Le tableau suivant donneles resultats :
Malade 1 2 3 4 5 6 7 8 9 10
Reference 17 15 15 13 12 17 15 16 19 11
Nouveau traitement 16 11 12 13 14 11 13 13 17 10
On suppose les observations normalement distribuees. Le nouveaumedicament est-il efficace ?
Vincent Runge Statistiques 141 / 158
142/158
5. Tests statistiques Tests de comparaison de deux echantillons
Comparaison des variances de deux echantillons gaussiens
Modelisation :X1, ...,Xn1 iid avec Xi ∼ N (µ1, σ
21)
Y1, ...,Yn2 iid avec Yi ∼ N (µ2, σ22)
Hypothese nulle : H0 : σ21 = σ2
2
Statistique de test :
S?21
S?22
∼H0
F(n1 − 1, n2 − 1)
Vincent Runge Statistiques 142 / 158
143/158
5. Tests statistiques Tests de comparaison de deux echantillons
Loi de Fisher
Definition
Soient Y1 et Y2 deux variables aleatoires independantes telles queY1 ∼ χ2
n1et Y2 ∼ χ2
n2. La variable aleatoire Z = (Y1/n1)/(Y2/n2) suit
une loi continue appelee loi de Fisher a n1 et n2 degres de liberte :
Z =Y1/n1
Y2/n2∼ F(n1, n2)
Remarques
Z1 ∼ F(n2, n1)⇒ Z2 = 1/Z1 ∼ F(n1, n2)
T ∼ tn ⇒ Z = T 2 ∼ F(1, n)
Vincent Runge Statistiques 143 / 158
144/158
5. Tests statistiques Tests de comparaison de deux echantillons
Loi de Fisher
Densite
f (x) =Γ(n1+n2
2
)Γ(n12
)Γ(n22
)nn1/21 n
n2/22
xn1/2−1
(n2 + n1x)
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
x
f(x)
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
x
f(x)
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
x
f(x)
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
x
f(x)
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
x
f(x)
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
d1=1 // d2=1d1=2 // d2=1d1=5 // d2=2d1=100 // d2=1d1=100 // d2=100
Vincent Runge Statistiques 144 / 158
145/158
5. Tests statistiques Tests de comparaison de deux echantillons
(Ex 11) Comparaison des variances de deux echantillonsgaussiens
On a preleve une solution plusieurs fois en utilisant deux pipettes calibreesde meme volume. On a pese le contenu du volume delivre par la pipette.Les resultats des differents pipettages, qui sont supposes normalementdistribues, sont exprimes en grammes.
Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984
Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023
On suppose que les variances sont les memes dans les deux groupes.
Les deux pipettes ont-elles la meme precision de mesure ? (comparerles variances)
Vincent Runge Statistiques 145 / 158
146/158
5. Tests statistiques Tests du Khi-2
Plan
5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2
Vincent Runge Statistiques 146 / 158
147/158
5. Tests statistiques Tests du Khi-2
Loi du χ2 (Rappel)
Definition
Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees de loi normale centree reduite: Xi ∼ N (0, 1)La variable aleatoire Y = X 2
1 + ...+X 2n suit une loi continue appelee loi du
χ2 a n degres de liberte :
Y =n∑
i=1
X 2i ∼ χ2
n
.
Proprietes
Si Y1 ∼ χ2n1
et Y2 ∼ χ2n2
avec Y1 ⊥⊥ Y2, alors Y = Y1 + Y2 ∼ χ2n1+n2
Si Y ∼ χ2n, alors E[Y ] = n et V (Y ) = 2n
Vincent Runge Statistiques 147 / 158
148/158
5. Tests statistiques Tests du Khi-2
(Ex 12) Test d’adequation
Le tableau ci-dessous donne les resultats d’une des experiences de Mendelportant sur des pois : A est le phenotype ’graines spheriques’, a lephenotype ’graines ridees’ ; B le phenotype ’albumen jaune’ et b est lephenotype ’albumen vert’.
AB Ab aB ab
315 103 101 32
On se demande si la distribution observee est compatible avec ladistribution theorique 9/16, 3/16, 3/16, 1/16.
Vincent Runge Statistiques 148 / 158
149/158
5. Tests statistiques Tests du Khi-2
Test d’adequation
Modelisation: X1, ...,Xn sont des variables aleatoires discretes iid avaleurs dans les classes E = x1, x2, . . . , xk.Hypotheses testees :
H0 : X ∼ LH1 : X ne suit pas la loi L
Statistique de test :
Dk,n =k∑
i=1
(Ni − npi )2
npi
L→H0
χ2k−1
avec P(X = xi ) = pi et Ni le nombre d’observations dans la classe xi .
Vincent Runge Statistiques 149 / 158
150/158
5. Tests statistiques Tests du Khi-2
Test d’adequation
Remarques
L’approximation de la distribution de Dk,n par χ2k−1 n’est valable que si :
n est grand
npi ≥ 5 pour tout i (si npi < 5, on regroupe des classes de valeurpour se ramener a un cas ou npi ≥ 5)
Vincent Runge Statistiques 150 / 158
151/158
5. Tests statistiques Tests du Khi-2
Test d’adequation a une famille de lois
Degres de liberte
Lorsque la loi theorique (c’est-a-dire les pi ) depend d’un ou plusieursparametres inconnu (par exemple N (µ, σ2), P(λ)), il est possibled’estimer ces parametres a partir des memes donnees que celles utiliseespour le test d’adequation. Dans ce cas, le nombre de degres de liberte deDk,n est diminue d’autant que de parametres estimes.
Vincent Runge Statistiques 151 / 158
152/158
5. Tests statistiques Tests du Khi-2
(Ex 13) Test d’adequation a une famille de lois
On souhaite etudier la contamination du lait par des spores de clostridia.Pour cela on analyse des tubes de 1 ml de lait et, pour chaque tube, oncompte le nombre X de spores presents. L’analyse est effectuee sur unechantillon de n = 100 tubes provenant du meme lait.
Nombre de spores 0 1 2 3
Nombre de tubes 64 25 9 2
1 Donner une estimation du nombre moyen de spores par ml de lait.
2 Peut-on considerer au vu des observations que le nombre de sporescontenu dans un ml de lait suit une loi de Poisson (repondre a l’aided’un test de niveau 5%) ?
Vincent Runge Statistiques 152 / 158
153/158
5. Tests statistiques Tests du Khi-2
(Ex 14) Test d’independance
Le tableau ci-dessous indique le resultat de l’examen de 6800 sujets classesd’apres la couleur de leurs yeux et celle de leurs cheveux :
YeuxCheveux Blonds Bruns Noirs Roux Total
Bleus 1768 807 189 47 2811Gris ou verts 946 1387 746 53 3132Bruns 115 438 288 16 857
Total 2829 2632 1223 116 6800
Existe-t-il une liaison entre ces deux caracteres ? De maniere equivalente,la repartition de la couleur des yeux est-elle la meme quelle que soit lacouleur des cheveux ou, reciproquement, la repartition de la couleur descheveux est-elle la meme quelle que soit la couleur des yeux ?
Vincent Runge Statistiques 153 / 158
154/158
5. Tests statistiques Tests du Khi-2
Test d’independance
X et Y sont deux variables aleatoires discretes a valeurs dansE = x1, . . . , xk et F = y1, . . . , y`Hypotheses testees :
H0 : X et Y sont independantes,H1 : X et Y ne sont pas independantes.
Statistique de test :
Dk,`,n =k∑
i=1
∑j=1
(Nij −
Ni+N+j
n
)2
Ni+N+j
n
L→H0
χ2(k−1)(`−1)
Vincent Runge Statistiques 154 / 158
155/158
5. Tests statistiques Tests du Khi-2
Test d’independance
Remarques
L’approximation de la distribution de Dk,`,n par un χ2(k−1)(`−1) n’est
valable que si :
n est grandNi+N+j
n ≥ 5 pour tout couple (i , j)
Vincent Runge Statistiques 155 / 158
156/158
5. Tests statistiques Tests du Khi-2
(Ex 15) Test d’homogeneite
On veut comparer les reactions produites par deux vaccins BCG designespar A et B. Un groupe de 348 enfants a ete divise par tirage au sort en 2series qui ont ete vaccinees, l’une par A, l’autre par B. Les resultatsfigurent dans le tableau suivant :
Vaccin Reaction Reaction Ulceration Abces Totallegere moyenne
A 12 156 8 1 177B 29 135 6 1 171
Total 41 291 14 2 348
Existe-t-il une difference entre les deux vaccins ou, de maniere equivalente,la repartition des reactions est-elle la meme pour les deux vaccins ?
Vincent Runge Statistiques 156 / 158
157/158
5. Tests statistiques Tests du Khi-2
Test d’homogeneite
Independance : deux variables mesurees conjointement sont-ellesindependantes?Homogeneite : Les differentes series mesurees proviennent-elles de lameme distribution?
Proposition
Un test d’homogeneite est identique a un test d’independance
Vincent Runge Statistiques 157 / 158
158/158
5. Tests statistiques Tests du Khi-2
Remerciements
+ Un grand merci a Cyril Dalmassohttp://www.math-evry.cnrs.fr/members/cdalmasso/welcome
Pour les slides (en particulier la section Tests statistiques”)
Les exercices de TD
Vincent Runge Statistiques 158 / 158