MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire?...

1/158

MSV31 – StatistiquesI Statistiques descriptives

I EstimateursI tests statistiques

Vincent [email protected]

IBGBI – 4eme etageCours L2 Bio. 2019 – 2020

Vincent Runge Statistiques 1 / 158

2/158

Plan du cours

1 Introduction

2 Des statistiques pour quoi faire?

3 Statistiques descriptives

4 Estimateurs et estimations

5 Tests statistiques


3/158

1. Introduction

Plan

1 Introduction






4/158

1. Introduction Qu’est-ce que la statistique?

Plan

1 IntroductionQu’est-ce que la statistique?Courte histoire des mathematiquesStatistiques dans l’histoire des mathematiques


5/158


Qu’est-ce que la statistique?

Statistique : ensemble des methodes de reduction des donnees

Definition V. Runge

Ses objectifs:

Reveler la structure des donnees

Permettre une prise de decision eclairee

Rendre possible la validation d’une theorie scientifique


5/158


Qu’est-ce que la statistique?

Statistique : ensemble des methodes de reduction des donnees

Definition V. Runge

Complements:

I La science statistique fait le lien entre l’abstraction mathematique etla realite physique du monde

I Science en hyper-croissance + numerisation du monde


6/158

1. Introduction Courte histoire des mathematiques

Plan



7/158


Courte histoire des mathematiques

I Les statistiques sont une branche recente des mathematiques

I Grece antique (VIeme a IVeme siecles avant JC)

Arithmetique et geometrie

Naissance de la demonstration

Thales, Euclide, Pythagore, Archimede

Figure: Les Elements d’Euclide et la machine d’Anticythere


7/158



I Mathematique arabes (∼ 800 a 1500)

Systeme decimal indo-arabe

Developpement de l’algebre, des algorithmes, de la trigonometrie

Al-Khawarizmi, Al-Kashi

Figure: Al-Khawarizmi (780 (Ouzbekistan) – 850 (Bagdad)). Son nom a donne lemot algorithme. Le titre d’un de ses ouvrages est a l’origine du mot algebre


7/158



I Renaissance europeenne

Traduction des textes arabesResolution d’equation et nombres complexes

I XVIIeme XVIIIeme siecles. Epoque des Lumieres

Debut de l’analyse (derivee, integrale, equation differentielle)Mathematisation de la physique (Newton)L’Encyclopedie (Jean le Rond d’Alembert)

Figure: Isaac Newton (1642– 1727); Leonhard Euler (1707 – 1783); Joseph-LouisLagrange (1736 – 1813); Carl Friedrich Gauss (1777–1855)


7/158



I XIXeme siecle. Professionnalisation des mathematiques

Mise en equation du monde (Navier-stokes, Maxwell)

Equation de la chaleur et series de Fourier

Decouverte par le calcul de Neptune (par Le Verrier)

...

Figure: Augustin Louis Cauchy (1789 – 1857); Bernhard Riemann (1826 – 1866);Georg Cantor (1845 – 1918)


7/158



I XXeme siecle. Developpement exponentiel des mathematiques

Theorie des probabilites, theorie du chaos

Analyse fonctionnelle, analyse numerique

Optimisation, controle optimal, calcul variationnel

Theorie de l’information, cryptographie

... ... ... ... ... ...

Figure: David Hilbert (1862–1943); Andrei Kolmogorov (1903-1987); John vonNeumann (1903–1957); Paul Erdos (1913–1996)


8/158


Il reste beaucoup a faire...

1) congres international des mathematiciens, tenu a Paris en aout 1900,David Hilbert propose 23 problemes pour le XXeme siecle

2) Prix du millenaire de l’institut Clay (106$ par probleme)

Hypothese de Riemann

Conjecture de Poincare (resolu)

Probleme ouvert P = NP

Conjecture de Hodge

Conjecture de Birch et Swinnerton-Dyer

Equations de Navier-Stokes

Equations de Yang-Mills


9/158

1. Introduction Statistiques dans l’histoire des mathematiques

Plan



10/158


Statistiques dans l’histoire des mathematiques

Et les statistiques ? I 3 grandes periodes historiques

I ? – XIXeme siecle. Statistiques descriptives

”Statistique” = recensement betails...Chine, Egypte (XVIIIeme siecle avant JC)

Statistique = Staatskunde (service de l’Etat) XVIIIeme siecle= collecte de donnees tenue par les intendants de l’Etat

William Playfair (1759–1823)Commercial and Political Atlas

(1786). Le 1er histogramme connu

Karl Pearson impose (1893) l’ecart-type (standard deviation) σ

Statistiques descriptives → Analyse des donnees (XXeme siecle)


10/158




I 1880 – 1925. Debut des statistiques inferentielles/mathematiques

Rationalisation de la production (industrielle et agricole)

Gestion des empires coloniaux, recensements,...

Developpement des sondages d’opinion


10/158





Election USA (1936)

I Magazine hebdomadaireLiterary Digest

I Sondage 2 300 000 reponses :Landon 55% vs Roosevelt 45%.En theorie erreur < 0.1%

I Roosevelt reelu avec 61% !


10/158





Election USA (1936)

I Magazine hebdomadaireLiterary Digest

I Sondage 2 300 000 reponses :Landon 55% vs Roosevelt 45%.En theorie erreur < 0.1%

I Roosevelt reelu avec 61% !

+ Probleme : Echantillon = lecteur du journal + listes de proprietaires devoitures et d’abonnes au telephone


10/158




I 1950 – aujourd’hui. Statistiques en grandes dimensions

Influence de l’informatique

Big data

Analyse exploratoire des donnees (multi-d)Efficacite des algorithmes

Apprentissage automatique

Machine LearningDeep LearningIntelligence artificielle


11/158



I Statistiques en grandes dimensions. Exemple

Reseaux de neurones ≈ Intelligence artificielle


11/158



I Analyse des donnees (cf statistique descriptive). Exemple

Analyse en composante principale (ACP)

Projeter au mieux les grandes dimensions sur la dimension 2 (pourvisualiser, analyser,...).


12/158


De nombreux nouveaux metiers :

Computer scientist, data scientist, data analyst, bio-informaticien,astro-statisticien, machine learning engineer, data mining expert, AIResearcher...

Statut :

Au debut peu consideree, la statistique est aujourd’hui en tres forteexpansion et integree au bagage standard du mathematicien

Aujourd’hui :

Plus de distinction nette entre mathematiques appliquees etmathematiques pures


13/158

2. Des statistiques pour quoi faire?

Plan

1 Introduction






14/158

2. Des statistiques pour quoi faire? Mission du statisticien

Plan

2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!


15/158

2. Des statistiques pour quoi faire? Mission du statisticien

Mission du statisticien

+ Experience statistique classique

Planification de l’experience

Recueil des donnees

Organisation des donnees (statistiques descriptives)

Analyse des donnees (statistiques inferentielles)


16/158

2. Des statistiques pour quoi faire? Exemples

Plan



17/158


Exemples

+ Tester une hypothese

Statistiques routieres

Efficacite des images violentes pour les spots de prevention routiere ?

Baisse de la mortalite sur la route avec la limitation a 80km/h ?

Efficacite du casque pour les cyclistes ?

Sante

Dangerosite du glyphosate pour la sante ?

Evaluer l’impact des OGM sur la sante

Balance benefice/risque d’un vaccin


18/158


+ La maıtrise des statistiques est essentielle au biologiste, al’economiste, au sociologue, au physicien...

Biologie

Combien de souris sacrifier pour prouver une hypothese? Ou quands’arreter de les sacrifier?

Economie

Mesurer l’effet economique des Jeux Olympiques?

Sociologie

Performance et mesure d’inegalite des systemes d’education?

Physique fondamentale

Separer le bruit des ondes gravitationnelles?


19/158

2. Des statistiques pour quoi faire? Statistiques et probabilites

Plan



20/158

2. Des statistiques pour quoi faire? Statistiques et probabilites

Statistiques et probabilites

La statisique se base sur une modelisation probabiliste des donnees

On observe une variable aleatoire X de loi partiellement inconnueplusieurs fois

On veut en tirer des conclusions globales (intrinseques) sur X

+ Exemple : jete de desOn jette 100 fois un de avec pour resultats

numero 1 2 3 4 5 6

probabilite theorique 1/6 1/6 1/6 1/6 1/6 1/6

occurrences sur 100 lances 13 16 15 30 14 12

Le de est-il equilibre?+ Autre exemple : Petits pois de Mendel


21/158

2. Des statistiques pour quoi faire? Objectifs du cours!

Plan



22/158


Objectifs du cours!

Statistiques= 4 types de problemes= Statistique exploratoire, Estimation, Classification, Regression.

Nos 3 objectifs :

I Statistiques descriptives

Objectif : ”voir” un ensemble de donnees

Statistiques inferentielles

I Estimation statistiqueObjectif : generaliser ”au mieux” du ”petit nombre au grand nombre”I Tests statistiquesObjectif : Prendre une decision raisonnee


23/158


References internet

1 Correlations bizarres :http://tylervigen.com/spurious-correlations

2 Chaıne Youtube : la statistique expliquee a mon chat3 MOOC FUN. Introduction a la statistique avec R


http://tylervigen.com/spurious-correlations

24/158

3. Statistiques descriptives

Plan

1 Introduction






25/158

3. Statistiques descriptives

C’est quoi les statistiques descriptives?

1) C’est determiner le cadre d’etude :

Population, echantillon

Type de variable

2) construire des resumes (de 3 types) :

Indicateurs de position

Indicateurs de dispersion

Representations graphiques

+ La statistique descriptive se concentre sur le cas de la dimension 1.Une observation = un nombre.


26/158

3. Statistiques descriptives Cadre d’Etude

Plan

3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques


27/158


Vocabulaire

Population : ensemble (grand, voire infini) d’individus ou d’objets dememe natureEchantillon : sous-ensemble de la populationVariable : une caracteristique de la population pouvant prendredifferentes modalitesModalite : toute valeur que peut prendre une variableSerie statistique : Ensemble des donnees recueillies pour une variabledonnee

Complements

On utilise parfois le mot caractere a la place de variable

Le mode est la modalite la plus presente


28/158


Types de variables

Variable quantitative : les modalites sont des nombres

discrete : elles prennent un nombre fini ou denombrable de valeurscontinue : elles prennent toutes les valeurs d’un intervalle des reels

Variable qualitative : les modalites ne sont pas des nombres

ordinale : elles peuvent etre ordonneesnominale : elles ne peuvent pas etre ordonnees


29/158


Exercice

Exercice 1 : les variables suivantes sont-elles quantitatives ouqualitatives. Discretes, continues, ordinales ou nominales ?

Les marques de smartphone des etudiants de l’Universite d’Evry

La nationalite des touristes visitant le musee Picasso de Paris

L’age des utilisateurs du site www.arte.tv

La taille des poissons peches par une equipe de biologistes marins

Les notes sur 20 obtenues a ce cours de Statistiques

Le niveau de satisfaction des utilisateurs d’un service de livraison (5niveaux : faible – moyen – bon – tres bon – excellent)

Exercice 2 : Definir la population, un echantillon (possible), la variableetudiee et les modalites de chaque exemple precedent.


30/158

3. Statistiques descriptives Les differentes moyennes

Plan



31/158


Les differentes moyennes

Moyenne arithmetique

x =1

n

n∑i=1

xi .

+ La moyenne arithmetique a le desavantage d’etre sensible aux valeursextremes : on la dit alors peu robuste. Si dans la serie 1, 2, 3 uneerreur de saisie est faite et 3 devient 30, la moyenne passera de 2 a 11!(mais la mediane est inchangee)


32/158



Moyenne geometrique

xG = n√x1 × . . .× xn

Moyenne harmonique

xH =n

1x1

+ · · ·+ 1xn

Moyenne quadratique

xQ =

√√√√1

n

n∑i=1

x2i

I Theoreme : Si x1, ..., xn > 0, alors

min(x1, . . . , xn) ≤ xH ≤ xG ≤ x ≤ xQ ≤ max(x1, . . . , xn)


33/158



Theoreme : Si x1, ..., xn > 0, alors

min(x1, . . . , xn) ≤ xH ≤ xG ≤ x ≤ xQ ≤ max(x1, . . . , xn)

Figure: Moyennes de x1 et x2: harmonique OH, geometrique OG , arithmetiqueOA et quadratique OQ


34/158


Exercice

I Calcul de rendement

Votre banquier vous propose de placer 1000e pendant 5 ans aux tauxannuels progressifs de 1%, 2%, 3%, 4% et 5%. Il annonce que lepourcentage annuel moyen est de 3%. Le croyez-vous?

I Vitesse moyenne

Un cycliste parcourt un kilometre a l’aller et un autre au retour auxvitesses respectives de 30 km/h puis 20 km/h. Quelle est sa vitessemoyenne?

I Des cables

On sait que la resistance d’un cable est proportionnel a sa section.Par quel diametre de cable faut-il replacer 3 cables de diametres3 cm, 5 cm, et 7 cm?


35/158

3. Statistiques descriptives Indicateurs de dispersion

Plan



36/158


Variance et ecart-type

Pour les donnees x1, ..., xn la dispersion est mesuree par la variance Var

Var =1

n

n∑i=1

(xi − x)2

Theoreme de Konig-Huygens

Var = x2 − x2

avec

x2 =1

n

n∑i=1

x2i et x =

1

n

n∑i=1

xi

On a par ailleurs l’ecart-type σ defini par σ2 = Var :

σ =

√√√√1

n

n∑i=1

(xi − x)2


37/158


Propriete de la variance

Donnees de taille n1, moyenne x1 et variance σ21

Donnees de taille n2, moyenne x2 et variance σ22

Donnees de taille n1 + n2, moyenne x variance σ2

σ2 =n1σ

21 + n2σ

22

n1 + n2+

n1(x1 − x)2 + n2(x2 − x)2

n1 + n2

C’est la somme de la moyenne (ponderee) des variances et de la variance(ponderee) des moyennes.

x =n1x1 + n2x2

n1 + n2

On ecrit aussi

σ2 = (Var(x1),Var(x2)) + Var(x1, x2) ,


38/158


Propriete de la variance

On introduit la suite xkk=1...(n1+n2) dans laquelle les n1 premiersnombres sont issus de la premiere collection. On calcule

(n1 + n2)σ2 =

n1∑k=1

(xk − x)2 +

n1+n2∑k=n1+1

(xk − x)2

=

n1∑k=1

((xk − x1) + (x1 − x))2 +

n1+n2∑k=n1+1

((xk − x2) + (x2 − x))2

= n1σ21 + 2

n1∑k=1

(xk − x1)(x1 − x) + n1(x1 − x)2

+n2σ22 + 2

n1+n2∑k=n1+1

(xk − x2)(x2 − x) + n2(x2 − x)2 ,

en utilisant la definition des moyennes x1 et x2 chacune des deux sommesrestantes s’annule et le resultat est demontre.


39/158


Analyse de la variance ANOVA (Hors programme)

Interpretation de la formule

σ2 = variance intrapopulation + variance interpopulation

σ2 =n1σ

21 + n2σ

22

n1 + n2+

n1(x1 − x)2 + n2(x2 − x)2

n1 + n2.

(n1 + n2)σ2 = SCE = somme des carres des ecarts

SCEtotal = SCEresidu + SCEfacteur

I EtudierSCEfacteur

SCEresidupour savoir si x1 et x2 sont ”les memes”!

I C’est une possibilite de test statistique...


40/158


Ecart moyen

e =1

n

n∑i=1

|xi − x |

+ : facile a comprendre que σ2

- : il est peu utilise : probleme algebrique du calcul + problemestatistique

Donnees de taille n1, moyenne x1 et ecart moyen e1

Donnees de taille n2, moyenne x2 et ecart moyen e2

Donnee n1 + n2, moyenne x ecart moyen = ?


41/158


Les moments

Moments centres d’ordre r

mr =1

n

n∑k=1

(xk − x)r

coefficient d’asymetrie de Fisher (skewness) :

γ1 =m3

σ3

coefficient d’aplatissement de Fisher (kurtosis) :

γ2 =m4

σ4− 3

I Distribution etalee vers la droite si γ1 > 0, vers la gauche si γ1 < 0.I Pour γ2, la soustraction par 3 correspond a une comparaison avec laserie etalon (issue d’une loi normale pour laquelle γ2 = 0).


42/158


Exercice : Transformation affine

Soient a et b des nombres reels. On a :

x =1

n

n∑i=1

xi et Var(x) =1

n

n∑i=1

(xi − x)2

Monter que pour les donnees yi = axi + b on obtient les formules:

y = ax + b

Var(y) = a2Var(x)

L’ecart moyen ne possede pas de telle propriete


43/158


Remarque de vocabulaire

les moyennes

On parle de

Moyenne observee pour x , xG , xH ...

Esperance de la variable aleatoire X pour E[X ]

Moyenne empirique (pour un estimateur...voir plus loin...)

les variances

On parle de

Variance observee pour Var en statistiques descriptives

Variance de la variable aleatoire X pour V (X )

Variance empirique (pour un estimateur...voir plus loin...)

I DANGER!!! Le vocabulaire de la statistique est tres instable, on utilisesouvent le meme mot de ”moyenne” pour des notions differentes...


44/158

3. Statistiques descriptives Ordonner

Plan



45/158


Quantiles

On note x(1), x(2), ..., x(n), avec des indices entres parentheses, les donneestriees par ordre croissant.

Par exemple 7, 3, 2, 4, 7 on aura x(1) = 2, x(2) = 3, x(3) = 4, x(4) = 7 etx(5) = 7

Le quantile d’ordre α ∈ ]0, 1[, note qα, est defini comme etant ”la pluspetite valeur” de la serie permettant d’avoir au moins αn nombresinferieurs (ou egaux) a lui-meme.

qα =

x(dαne) si αn 6∈ N

x(αn) + x(αn+1)

2si αn ∈ N

avec d·e designant l’operation partie entiere superieure.


46/158


Quantiles

Principaux quantiles

4 parts egales, on a 3 quartiles (Q1,Q2,Q3) = (q 14, q 2

4, q 3

4)

10 parts egales, on a 9 deciles (D1, ...,D9) = (q 110, ..., q 9

10)

100 parts egales, on a 99 centiles (C1, ...,C99) = (q 1100, ..., q 99

100)

La mediane

Indicateur de position centrale Me :

Me = Q2 = D5 = C50 = q 12


47/158


De nouveaux indicateurs de dispersion

Interquartiles

Intervalle interquartile :

IIQ = [Q1,Q3]

Ecart interquartile :IQ = Q3 − Q1

Etendue

e = maxi=1,...,n

xi − mini=1,...,n

xi = e(n) − e(1)


48/158


Exercice

Soient les deux series statistiques triees suivantes

(1) : 1 2 3 11 12 13 21 22 23 31 32 33 34

(2) : 1 2 3 11 12 13 21 22 23 31 32 33

Determiner les 3 quartiles de ces deux series, l’ecart interquartile etl’etendue. Voir que l’introduction du cas αn ∈ N est justifiee par laserie (2)


49/158

3. Statistiques descriptives Representations graphiques

Plan



50/158


Boıte a moustaches (boxplot)

Le long d’un axe gradue, on represente un rectangle delimite par lesquartiles Q1 et Q3 et coupe en deux par un trait a hauteur de Me;

Cette boıte est completee par des moustaches (des traits reliant laboıte) s’arretant (selon la definition choisie):

au minimum et au maximum des xia D1 et D9 ou C2 et C98

a la valeur x(a) realisant le minimum des x(i) dans [Q1 − 1.5 IQ,Q1] etx(b) realisant le maximum des x(i) dans [Q3,Q3 + 1.5 IQ]

La derniere definition est souvent preferee. Les valeurs en dehors desmoustaches sont reperees par des croix ou des ronds. Ce sont desvaleurs dites extremes (outliers).


51/158


Boıte a moustaches (boxplot)

Figure: Nombre d’heures de sommeil pour 20 lyceens pendant une semaine.


52/158


Histogrammes

I Rectangles adjacents, uniquement pour les variables continuesI Aire de chaque rectangle proportionnelle a l’effectif de la classe

En notant hi la hauteur de la classe i ([ai−1, ai [) d’effectif ni , defini parni = #xk tels que xk ∈ [ai−1, ai [, on obtient

hi =ni

ai − ai−1

Histogramme des differents taux de fecondite de tous les pays (225)estimes en 2013 (source: World Factbook)

Figure: Histogramme des taux de fecondite dans le monde.Vincent Runge Statistiques 52 / 158

53/158


Diagrammes en batons

I Batons adjacents, uniquement pour les variables discretesI Hauteur de chaque baton proportionnelle au nombre d’occurrences de lamodalite placee sous le baton

Exemple : On jette 20 fois de suite un de equilibre a 6 faces et on reportele resultat sur le diagramme suivant

Figure: Resultat de 20 lances d’un de equilibre


54/158


Fonction de repartition empirique

I = Graphique des frequences cumuleesI Pour n donnees,

F (x) =nombre d’elements ≤ x

n

Figure: (gauche) fonction de repartition des taux de fecondite. (droite) fonctionde repartition des 20 lances de de


55/158


Tableaux

I Tableau de contingenceI On croise deux variables d’une population

Figure: Repartition couleur des yeux et type de cheveux dans une classe de 30eleves

+ Objectif : detection d’eventuelles dependances entre variables


56/158


Aller plus loin...

La statistique descriptive est unidimensionnelle+ On organise les reels x1, ..., xnL’analyse de donnee est multidimensionnelle+ On organise les donnees (x11, ...x1p), ..., (xn1, ...xnp)De nouvelles questions emergent:

Comment mesurer la liaison entre 2 variables?

Comment visualiser des donnees en dimension 10?


57/158

4. Estimateurs et estimations

Plan

1 Introduction






58/158

4. Estimateurs et estimations Generer l’aleatoire

Plan

4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes


59/158


Generer des donnees de loi uniforme X ∼ U([0, 1])

I Une variable aleatoire X = (Ω, ω ∈ Ω, P(X = ω))Ω est l’univers, l’ensemble des valeurs possibles pour X

Sources d’aleatoires (generer X ∼ U([0, 1]) loi uniforme)

L’aleatoire dans la nature https://www.random.org/

Bruit atmospherique genere par les eclairs! (capte par une simpleradio)

ou l’instant d’une desintegration radioactive

Les algorithmes (!) pseudo-aleatoires (tres tres utilises)


https://www.random.org/

60/158


Exemples d’algorithmes pseudo-aleatoires

I Generateur congruentiel lineaire (Lehmer 1948)

xn+1 = (axn + c) mod m

Set the seed x0 using the current system time in microsecondsx0 < − as.numeric(Sys.time()) * 1000

Figure: Le generateur d’UNIX et GCC. a = 1103515245, c = 12345, m = 231

Ici : seed = x0 = 99, 216 = 65536 valeurs. xi/(231) ∈ [0, 1[

I Etat de l’art : algorithme Mersenne Twister(Makoto Matsumoto et Takuji Nishimura 1997)

utilise par Python, Ruby, R, PHP, MATLAB, Stata, C++


61/158


Comparaisons

source : https://www.random.org/


https://www.random.org/

62/158

4. Estimateurs et estimations L’echantillonnage et problematique

Plan



63/158


L’echantillonnage

Definitions

Echantillon aleatoire : variables aleatoires (X1, ...,Xn) avec Xi = XEchantillon : realisations x1, ..., xn des variables X1, ...,Xn

Modelisation : Xi ∼ L(θ) (loi qui depend d’un parametre θ)

Estimateur : variable aleatoire T = f (X1, ...,Xn)Estimation : realisation t de T : t = f (x1, ..., xn)

I Hypothese : Les variables aleatoires X1, ...,Xn sont independantes etidentiquement distribuees (on note i.i.d.). Elles ont toutes la meme loique la variable aleatoire X appelee variable aleatoire parente.


64/158


Problematique de l’estimation

Notre objectif

Soit X une variable aleatoire de loi L(θ)

Soit x1, ..., xn une observation de l’echantillon X1, ...,Xn, copies de X

Comment estimer θ a partir de x1, ..., xn ?

Deux etapes :

I Estimation ponctuelle

I Estimation par intervalle de confiance


65/158

4. Estimateurs et estimations Estimation ponctuelle

Plan



66/158


Exemples a connaıtre

Moyenne empirique :

X =1

n

n∑i=1

Xi

Variance empirique : S2 =1

n

n∑i=1

(Xi − X

)2=

1

n

n∑i=1

X 2i − X

2

Variance empirique corrigee : S?2 =1

n − 1

n∑i=1

(Xi − X

)2=

n

n − 1S2


67/158


Definition

Estimateur ponctuel= estimateur dont la realisation est une estimation du parametre θ

Notation

On note generalement θ ou θn l’estimateur (=une variable aleatoire) de θ.

θ = θn = f (X1, ...,Xn)


68/158


Proprietes d’un estimateur

Definitions

On appelle biais d’un estimateur la quantite :

b(θn) = E[θn]− θ

I Un estimateur est dit sans biais si

b(θn) = 0

I Un estimateur est dit asymptotiquement sans biais si

limn→+∞

b(θn) = 0


69/158


Proprietes d’un estimateur

Definitions

On appelle erreur quadratique moyenne la quantite :

EQM(θn) = E[(θn − θ)2] = V (θn) + [b(θn)]2

I Un estimateur est dit consistant (ou convergent en moyennequadratique) si :

limn→∞

EQM(θn) = 0

Remarque

Pour montrer qu’un estimateur sans biais est consistant, il suffit demontrer que lim

n→∞Var(θn) = 0


70/158


Exercice

Soit (X1, ...,Xn) un echantillon de loi quelconque tel queE[Xi ] = µ et V (Xi ) = σ2

Montrer que X = 1n

∑ni=1 Xi est un estimateur sans biais et

consistant de µ

Montrer que S2 = 1n

∑ni=1

(Xi − X

)2est un estimateur biaise de σ2

En deduire un estimateur sans biais de σ2


71/158


Estimateur de la moyenne

Moyenne empirique

X =1

n

n∑i=1

Xi

Proprietes

Soit (X1, ...,Xn) un echantillon aleatoire tel que E[Xi ] = µ et V (Xi ) = σ2

E[X ] = µ et V (X ) =σ2

n

Remarque

X est un estimateur sans biais et consistant de µ


72/158


Estimateur de la variance

Variance empirique et variance empirique corrigee

S2 =1

n

n∑i=1

(Xi − X

)2et S?2 =

1

n − 1

n∑i=1

(Xi − X

)2

Proprietes

Soit (X1, ...,Xn) un echantillon tel que E[Xi ] = µ et V (Xi ) = σ2

E[S2] =n − 1

nσ2 et V (S2) =

n − 1

n3((n − 1)µ4 − (n − 3)σ2)

Remarque

S?2 =n

n − 1S2 est un estimateur sans biais et consistant de σ2


73/158


Maximum de vraisemblance (Hors programme)

I Existe-il une methode generale pour choisir l’estimateur des parametresd’un loi?+ Oui! C’est la methode du maximum de vraisemblance!(maximum likelihood)

Pour une densite de probabilite f = f (x , θ).Exemple distribution exponentielle:

f (x , θ) =

θe−θx si x ≥ 00 si x < 0

Exemple distribution normale:

f (x , θ = (µ, σ2)) =1√

2πσ2e−

(x−µ)2

2σ2

L(x1, ..., xn, θ) = f (x1, θ)× · · · × f (xn, θ)

Resoudre maxθ L(x1, ..., xn, θ)ou d

dθL(x1, ..., xn, θ) = 0 ou ddθ log(L(x1, ..., xn, θ)) = 0


74/158



Exemple avec la loi exponentielle:Avec

f (x , θ) =


On obtient (par integration par parties) :

E[X ] =

∫ +∞

x=0θxe−θxdx =

1

θ

Une bonne idee (?) serait d’utiliser θ = 1X

. Mais est-ce un bon choix?


75/158



Exemple avec la loi exponentielle : f (x , θ) =


L(x1, ..., xn, θ) =n∏

i=1

θ exp(−θxi ) = θn exp

(−θ

n∑i=1

xi

)= θn exp (−θnx)

Et on a :d

dθ(log(L)) =

d

dθ(n log(θ)− θnx) =

n

θ− nx

Ainsid

dθ(log(L)) = 0 ⇐⇒ θ =

1

x

Un meilleur estimateur qui minimise l’erreur quadratique moyenne sera

θ =n − 2

n

1

X


76/158

4. Estimateurs et estimations Estimation par intervalle

Plan



77/158


Estimation par intervalle

Principe

Trouver une variable aleatoire B(θ) de loi connu (independante de θ)

pour laquelle le parametre θ inconnu intervient

Recherche les quantiles qα2

et q1−α2

qui permettent d’ecrireP(qα

2< B(θ) < q1−α

2) = 1− α

Transformer l’inegalite en une inegalite du typeP(B1 < θ < B2) = 1− α

I Les bornes B1 et B2 de l’intervalle sont des variables aleatoiresI [B1,B2] est un intervalle de probabilite de niveau 1− α pour θ


78/158



Definition

Soient B1 = f1(X1, ...,Xn) et B2 = f2(X1, ...,Xn).[B1,B2] est un intervalle de probabilite de niveau 1− α du parametre θsi :

P(B1 < θ < B2) = 1− α

Definition

Un intervalle de confiance de niveau 1− α du parametre θ est unerealisation [b1, b2] de l’intervalle [B1,B2].


79/158


Exercice

Pour determiner la teneur en potassium d’une solution, on effectue desdosages a l’aide d’une technique experimentale donnee.On admet que le resultat d’un dosage est une variable aleatoire suivantune distribution normale N (µ, σ2) dont l’esperance µ est la valeur que l’oncherche a determiner, et dont l’ecart-type σ est de 1 mg/litre si l’onsuppose que le protocole experimental a ete suivi scrupuleusement.Les resultats pour cinq dosages independants sont les suivants (enmg/litre): 74.0, 71.6, 73.4, 74.3, 72.2.

Determiner a partir de ces mesures un intervalle de confiance pour µavec un coefficient de securite de 95%.

Quelle taille d’echantillon est necessaire pour avoir un intervalle pluspetit que 0.1. (en mg/litre) ?


80/158


Estimation par intervalle de la moyenne

Famille gaussienne, variance connue

Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 connu.L’intervalle :

IC(1−α) =

[X − q1−α/2

σ√n,X + q1−α/2

σ√n

]est un intervalle de probabilite de niveau (1− α) pour µ

Avec q1−α/2 le quantile d’ordre 1− α/2 de la loi normale centree reduite.

I Que faire si la variance est inconnue?


81/158


Loi du χ2

Definition

Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees de loi normale centree reduite: Xi ∼ N (0, 1)La variable aleatoire Y = X 2

1 + ...+X 2n suit une loi continue appelee loi du

χ2 a n degres de liberte :

Y =n∑

i=1

X 2i ∼ χ2

n

.

Proprietes

Si Y1 ∼ χ2n1

et Y2 ∼ χ2n2

avec Y1 ⊥⊥ Y2, alors Y = Y1 + Y2 ∼ χ2n1+n2

Si Y ∼ χ2n, alors E[Y ] = n et V (Y ) = 2n


82/158


Loi du χ2

Densite

f (x) =1

2n/2Γ(n/2)x (n−2)/2e−x/2

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

k=1k=2k=3k=4k=5


83/158


Loi de Student

Definition

Soient X et Y deux variables aleatoires independantes telles queX ∼ N (0, 1) et Y ∼ χ2

n. La variable aleatoire T = X√Y /n

suit une loi

continue appelee loi de Student a n degres de liberte :

T =X√Y /n

∼ tn

Proprietes

E[T ] = 0

V (T ) = nn−2 si n > 2


84/158


Loi de Student

Densite

C’est une loi ”proche” de la loi normale centree reduite

f (x) =Γ(n+1

2 )√nπΓ(n2 )(1 + x2

n )n+1

2

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

k=1k=2k=5k=10k=1e+05


85/158


Theoreme de Cochran

Theoreme

Soit (X1, ...,Xn) un echantillon de la variable aleatoire X ouX ∼ N (µ, σ2).On sait que

X ∼ N(µ, σ

2

n

)Q2

σ2 = 1σ2

∑ni=1

(Xi − X

)2 ∼ χ2n−1

Q2 et X sont independants.

Ainsi avec U = X−µσ√n∼ N (0, 1) et V = Q2

σ2 ∼ χ2n−1 on obtient

T =U√V

n−1

∼ tn−1 etU√V

n−1

=X − µ

S∗√n

∼ tn−1


86/158


Estimation par intervalle de la moyenne

Famille gaussienne, variance inconnue

Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 inconnu.L’intervalle :

IC(1−α) =

[X − q

tn−1

1−α/2

S∗√n,X + q

tn−1

1−α/2

S∗√n

]est un intervalle de probabilite de niveau (1− α) pour µ

Avec qtn−1

1−α/2 le quantile d’ordre 1− α/2 de la loi de Student a n − 1degres de liberte.


87/158



Pour determiner la concentration en glucose d’un echantillon sanguin, oneffectue des dosages a l aide d’une technique experimentale donnee. Onconsidere que le resultat de chaque dosage est une variable aleatoirenormale. On effectue 10 dosages independants, qui donnent les resultatssuivants (en g/l) :

0.96, 1.04, 1.08, 0.92, 1.04, 1.18, 0.99, 0.99, 1.25, 1.08

Calculer une estimation de la concentration en glucose de cetechantillon.

Calculer un interval de confiance de cette concentration de niveau95%.


88/158


Estimation par intervalle de la variance

Famille gaussienne, variance inconnue

Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). On suppose σ2 inconnu.L’intervalle :

IC(1−α)(σ2) =

(n − 1)S∗2

qχ2n−1

1−α2

,(n − 1)S∗2

qχ2n−1α2

est un intervalle de probabilite de niveau (1− α) pour σ2.

(n − 1)S∗2

σ2∼ χ2

n−1

Avec qχ2n−1

1−α2

le quantile d’ordre 1− α/2 et qχ2n−1α2

le quantile d’ordre α/2 de

la loi du Khi-2 a n − 1 degres de liberte.Vincent Runge Statistiques 88 / 158

89/158

4. Estimateurs et estimations Le theoreme central limite

Plan



90/158


Le theoreme central limite

Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees d’esperance µ et de variance σ2 :

S =n∑

i=1

XiL−→N

(nµ, nσ2

)

⇔ Z =X − µ

σ√n

L−→N (0, 1)


91/158


Le theoreme central limite

⇔ Z =X − µ

σ√n

L−→N (0, 1)

Xi ∼ B(m = 3, p = 0.5) Xi ∼ U([0, 1])


92/158


Exercice

I Jouer a pile ou faceVous relevez 100 resultats pile-face lors du lance successif de 100 pieces.La variable aleatoire associee X = 1

n

∑ni=1 Xi avec Xi ∼ B(p) donne une

realisation de x = 0.4.

Construire un intervalle de confiance a 95% autour de cetteproportion observee.

Pensez vous que la piece soit equilibree?

Reponse :L’intervalle de confiance a construire avec une approximation de p par xest : [

x − 1.96

√x(1− x)√

n, x + 1.96

√x(1− x)√

n

]= [0.304, 0.496]


93/158

4. Estimateurs et estimations Propagation des incertitudes

Plan



94/158


Propagation des incertitudes

Il est courant de vouloir estimer la variance s2f du resultat d’un calcul

impliquant plusieurs mesures (variables aleatoires)

f = f (X ,Y ,Z , ...)

Cela generalise le calcul de la variance pour X = X1+···Xnn

Formule de la variance

Si f = f (X ,Y ,Z , ...) et les variables aleatoires X , Y , Z ,... sontindependantes, alors

s2f =

(∂f

∂x

)2

s2x +

(∂f

∂y

)2

s2y +

(∂f

∂z

)2

s2z + · · ·


95/158


Propagation des incertitudes

source :https://en.wikipedia.org/wiki/Propagation_of_uncertainty


https://en.wikipedia.org/wiki/Propagation_of_uncertainty

96/158

5. Tests statistiques

Plan

1 Introduction






97/158

5. Tests statistiques Exemples introductifs

Plan

5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2


98/158


Exemple introductif 1

I Esperance de souris

On suppose que l’esperance de vie de souris de laboratoire suit unevariable aleatoire gaussienne dont l’esperance est de µ = 2 ans dansdes conditions normales. Son ecart-type est une quantite connueegale a σ = 0.5 an (6 mois).

Un specialiste propose une alimentation qui - selon lui - augmente laduree de vie moyenne de ces souris. Pour s’en assurer un laboratoiresoumet 10 souris au regime propose. A la fin de l’experience, lesdurees de vie de ces 10 souris sont les suivantes (en annees):3.1, 2.0, 1.6, 3.2, 2.3, 1.7, 2.7, 3.2, 1.4, 2.2.

I Proposer un test au niveau 5% permettant de determiner si le regimepropose par le specialiste a un effet significatif ou non.


99/158



Resolution: ce qu’on peut faire...

I La moyenne observee est egale a x = 2.34I On fait l’hypothese que µ = 2I On teste par le calcul P(X > 2.34) =?

Notre objectif est de s’apercevoir si, dans les conditions normales, il estabsurde/peu probable d’observer les donnees qu’on a.

Z ∼ N (0, 1), et on obtient P(Z > 2.34−20.5√

10

) = 0.0157638, que conclure?


100/158



I Une temperature de crabe

On note X la temperature interieure (en C ) d’une espece de crabesdu Pacifique prise a une temperature ambiante de 24.3C . Onsuppose que X suit une loi normale N (µ, σ2) dont on ne connaıt pasles parametres.

On a mesure cette temperature sur un echantillon de 21 crabes prisau hasard :

24.6, 26.1, 25.1, 27.3, 24.0, 24.5, ...

On donne∑

i xi = 526.9 et∑

i x2i = 13255.53.

I Proposer un test au niveau 5% permettant de determiner si cetteespece de crabes possede sa propre temperature interieure ou si cettederniere est la meme que la temperature ambiante.


101/158



Resolution: ce qu’on peut faire...

I La moyenne observee est egale a x ≈ 25.09 et l’estimation de lavariance empirique corrigee s ≈ 1.33I On fait l’hypothese que µ = 24.3CI On teste par le calcul P(X > 25.09) =?

T ∼ t20, et on obtient P(T > 25.09−24.31.33√

21

= 2.7220) = 0.006565, que

conclure?

Difference importante : On ne cherche pas ici a voir qu’un parametrereel est plus grand que ce qu’on pensait, mais seulement qu’il differed’une valeur de reference.


102/158


Definitions

A la vue des deux exemples precedents on peut definir:

Une hypothese statistique est un enonce (”litteraire”) portant surles caracteristiques d’une population (parametre ou forme d’unedistribution).

Un test statistique est une procedure (”calculatoire”) permettant detrancher entre deux hypotheses basees sur l’observation de donnees.


103/158

5. Tests statistiques Principe

Plan



104/158


Principe

(a) Choisir un niveau de risque du test α

(b) Choisir les hypotheses a tester (H0 et H1) selon le probleme a resoudre

(c) Determiner la variable (aleatoire) de test (Statistique de test)

(d) Determiner la region de rejet

(e) Calculer la realisation et la p-valeur associee

(f) Conclure


105/158


(a) Risques d’erreurs

Resultats possibles

Decision Ne pas rejeter H0 Rejeter H0

Realite (conclure H0) (conclure H1)

H0 vraie OK Erreur de type I

H1 vraie Erreur de type II OK

Definitions

Risque de premiere espece : α = P(rejeter H0|H0 vraie)(= probabilite de commettre une erreur de type I)

Risque de seconde espece : β = P(ne pas rejeter H0|H1 vraie)(= probabilite de commettre une erreur de type II)

Puissance : P = 1− β = P(rejeter H0|H1 vraie)(probabilite de prendre la bonne decision en rejetant H0)


106/158


(a) Focus sur α

Choix du niveau du test

Le niveau de signification du test est le risque de premiere espece αconsenti.

Le niveau de signification du test est souvent fixe a 0.05 ou 0.01,mais ce seuil est arbitraire et toute autre valeur peut etre choisie.


107/158


(b) Les Hypotheses H0 et H1

Hypothese nulle et hypothese alternative

L’hypothese nulle (notee H0) est l’hypothese privilegiee. C’est cellequi est supposee vraie par defaut.

L’hypothese alternative (notee H1) contredit l’hypothese nulle.C’est l’hypothese que l’on cherche a montrer.

I Asymetrie : On cherche a montrer que H0 est fausse, c’est-a-dire trespeu probable. Cette hypothese sera conservee dans le cas contraire.

I Ne pas rejeter, ce n’est pas accepter : On ne peut jamais montrer laverite d’une hypothese avec certitude


108/158


(b) Hypothese simple/composite

Exemple d’hypotheses simples

H : θ = θ0

Exemple d’hypotheses composites (i.e. plusieurs θ dans l’hypothese)

H : θ < θ0

H : θ > θ0

H : θ 6= θ0

H : θ ∈ [a, b]


109/158


(b) Tests unilateraux / bilateraux

Cas tres courants :

Test unilateral (a droite)

H0 : θ = θ0

H1 : θ > θ0

Test bilateral

H0 : θ = θ0

H1 : θ 6= θ0


110/158


(c) Statistique de test

Definition

Une statistique de test est une statistique (dont la loi est connue sousH0) qui permet de mesurer l’ecart a l’hypothese nulle.


111/158


(d) Region de rejet

Definition

La Region de rejet est l’ensemble Rα (depend du choix de α) des valeurs(de la statistique de test) pour lesquelles l’hypothese nulle est rejetee.


112/158


Risques d’erreurs

Figure: Erreur de type I et II et region critique de la forme Ralpha =]−∞, a]


113/158


Tests unilateraux / bilateraux

Test unilateral (a droite)

H0 : θ = θ0

H1 : θ > θ0

Test bilateral

H0 : θ = θ0

H1 : θ 6= θ0


114/158


(e) Degre de signification (p-valeur)

Definition

Le degre de signification (ou p-valeur) est defini par :

p = minα|t ∈ Rα

Test unilateral a droite Test unilateral a gauche Test bilateral

p = P(T > t|H0) p = P(T < t|H0) p = P(|T | > |t||H0)

Remarques

La p-valeur est la probabilite d’obtenir une valeur de la statistique detest au moins aussi extreme que celle observee lorsque H0 est vraie

Concretement, on rejette H0 lorsque p < α


115/158


(e) Degre de signification

Figure: p-valeur associee a la realisation t de la statistique de decision pour untest unilateral a gauche.


116/158


Etude de la puissance

Remarque

Le calcul de la puissance ne peut se faire que si l’on connaıt ladistribution de la statistique de test sous l’hypothese alternative (H1)

L’etude de la puissance permet de determiner, pour une alternativedonnee, le nombre d’observations necessaires pour conclure H1 (avecune certaine puissance)

L’etude de la puissance permet de determiner, pour un nombred’observations donnees, l’effet minimum pouvant etre montre (avecune certaine puissance)


117/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

Plan



118/158


Test sur l’esperance d’un echantillon gaussien

Cas 1 : variance connue (test z)

Modelisation : X1, ...,Xn iid avec Xi ∼ N (µ, σ20), σ2

0 connue.

Hypothese nulle : H0 : µ = µ0, H1 : ? (plusieurs choix selonl’enonce)

Statistique de test :X − µ0

σ0√n

∼H0

N (0, 1)


119/158


(Ex 1) Test sur l’esperance d’un echantillon gaussien

I Esperance de souris

On suppose que l’esperance de vie de souris de laboratoire suit unevariable aleatoire gaussienne dont l’esperance est de µ = 2 ans dansdes conditions normales. Son ecart-type est une quantite connueegale a σ = 0.5 an (6 mois).

Un specialiste propose une alimentation qui - selon lui - augmente laduree de vie moyenne de ces souris. Pour s’en assurer un laboratoiresoumet 10 souris au regime propose. A la fin de l’experience, lesdurees de vie de ces 10 souris sont les suivantes (en annees):3.1, 2.0, 1.6, 3.2, 2.3, 1.7, 2.7, 3.2, 1.4, 2.2.

I Proposer un test au niveau 5% permettant de determiner si le regimepropose par le specialiste a un effet significatif ou non.


120/158


Test sur l’esperance d’un echantillon gaussien

Cas 2 : variance inconnue (test de Student ou test t)

Modelisation : X1, ...,Xn iid avec Xi ∼ N (µ, σ2), σ2 inconnue.


Statistique de test :X − µ0

S?√n

∼H0

tn−1


121/158


(Ex 2) Test sur l’esperance d’un echantillon gaussien

I Une temperature de crabe

On note X la temperature interieure (en C ) d’une espece de crabesdu Pacifique prise a une temperature ambiante de 24.3C . Onsuppose que X suit une loi normale N (µ, σ2) dont on ne connaıt pasles parametres.

On a mesure cette temperature sur un echantillon de 21 crabes prisau hasard : 24.6, 26.1, 25.1, 27.3, 24.0, 24.5, ...On donne

∑i xi = 526.9 et

∑i x

2i = 13255.53.

I Proposer un test au niveau 5% permettant de determiner si cetteespece de crabes possede sa propre temperature interieure ou si cettederniere est la meme que la temperature ambiante.I On suppose qu’en realite la temperature moyenne des crabes est de25C . Quelle est la puissance du test construit pour detecter une telledifference ?


122/158


Test sur l’esperance d’un echantillon de loi quelconque - ngrand

Modelisation : X1, ...,Xn iid avec Xi ∼ L inconnue.


Statistique de test :

Si σ20 connue

X − µ0σ0√n

L→H0

N (0, 1) (TLC)

Si σ20 inconnue

X − µ0

S?√n

L→H0

N (0, 1) (TLC)


123/158


(Ex 3) Test sur l’esperance d’un echantillon de loiquelconque

Le delai de survie, pour un certain type de cancer, peut etre modelisepar une variable aleatoire de loi exponentielle. L’esperance de vie avecle traitement de reference est de 4 ans.

Un nouveau traitement est teste dans le cadre d’un essai clinique surn = 60 patients. On observe un delai de survie moyen de 4.7 ans.

I Peut-on conclure que le nouveau traitement est significativementmeilleur que le traitement de reference ?


124/158


Test sur un pourcentage - n grand

Modelisation : X1, ...,Xn iid avec Xi ∼ B(p), p inconnue.

Hypothese nulle : H0 : p = p0, , H1 : ? (plusieurs choix selonl’enonce)

Statistique de test (p = X ) :

p − p0√p0(1−p0)

n

L→H0

N (0, 1) (TLC)

Remarque

Tester un pourcentage revient a tester l’esperance d’une Bernoulli


125/158


(Ex 4) Test sur un pourcentage - n grand

Le pourcentage d’anomalies chromosomiques dans les naissancesd’une population donnee, etait de 1% il y a 10 ans.

On effectue un depistage systematique (obtention des caryotypes apartir de prelevements de sang) sur 500 naissances tirees au sort dansla population actuelle. On observe 7 caryotypes anormaux.

I Le pourcentage d’anomalies chromosomique est-il significativementdifferent d’il y a 10 ans.I On suppose que le pourcentage d’anomalies est en realite passe de 1 a1,2%. Sur l’observation des 500 naissances, quelle probabilite a-t-on dedetecter cette difference ?


126/158


Test sur un pourcentage - n petit

Modelisation : X1, ...,Xn iid avec Xi ∼ B(p), p inconnue.

Hypothese nulle : H0 : p = p0


np =∑

Xi ∼H0

B(n, p0)

Remarque

Avec une loi discrete on ne peut plus trouver tous les quantiles exactement.


127/158


(Ex 5) Test sur un pourcentage - n petit

On croise des descendants directs du croisement [fleurs rouges × fleursblanches]. Sous l’hypothese que le gene ’rouge’ est dominant, laprobabilite p d’obtenir une plante a fleurs blanches est de 1/4 alors quesous l’hypothese que le gene ’blanc’ est dominant, la probabilite pd’obtenir une plante a fleurs blanche est de 3/4.Sur n = 23 croisements (supposes independants), on a observe 8 plantes afleurs blanches.

1 L’hypothese admise jusqu’a present est que le gene ’rouge’ estdominant. Un geneticien aimerait montrer qu’en realite, c’est le gene’blanc’ qui est dominant. Tester cette hypothese au niveau α = 5%.

2 Quelle est la puissance du test construit ?


128/158

5. Tests statistiques Tests sur la variance d’un echantillon

Plan



129/158


Tests sur la variance d’un echantillon gaussien

Hypotheses :X1, ...,Xn iid avec Xi ∼ N (µ, σ2)

Hypothese nulle : H0 : σ2 = σ20

Statistique de test :(n − 1)S?2

σ20

∼H0

χ2n−1

Si H1 : σ2 > σ20, alors on cherche u tel que P( (n−1)S?2

σ20

> u) = α

Si H1 : σ2 < σ20, alors on cherche u tel que P( (n−1)S?2

σ20

< u) = α

Si H1 : σ2 6= σ20, alors on cherche u1 et u2 tels que

P( (n−1)S?2

σ20

< u1) = P( (n−1)S?2

σ20

> u2) = α2


130/158


(Ex 6) Test sur la variance

Une nouvelle technique de dosage du glucose sanguin vient d’etre mise aupoint. Pour un meme echantillon de sang, sept dosages effectues a l’aidede cette nouvelle technique ont donne les resultats suivants (en g/l) :

1.17 1.16 1.16 1.19 1.21 1.19 1.18

On admet que les sept mesures sont des variables aleatoires independanteset identiquement distribuees de loi N (µ, σ2) ou σ2 caracterise la precisiondu procede. La technique utilisee jusqu’alors etait caracterisee par unecart-type de 0.05 mg/l. Peut-on dire que la nouvelle technique est plusprecise que l’ancienne ?


131/158

5. Tests statistiques Tests de comparaison de deux echantillons

Plan



132/158


Test sur l’esperance de deux echantillons independants

Independance des echantillons

Deux echantillons sont independants s’ils sont constitues independammentl’un de l’autre

Remarque

Les sujets de l’echantillon 1 ne sont pas les memes que les sujets del’echantillon 2

Les effectifs des echantillons 1 et 2 ne sont pas necessairement lesmemes


133/158


Comparaison des esperances de deux echantillons gaussiens

Test de Student

Modelisation :X1, ...,Xn1 iid avec Xi ∼ N (µ1, σ

21)

Y1, ...,Yn2 iid avec Yi ∼ N (µ2, σ22)

σ21 = σ2

2 = σ2 inconnue.

Hypothese nulle : H0 : µ1 = µ2


X − Y√( 1n1

+ 1n2

)(n1−1)S?2

1 +(n2−1)S?22

n1+n2−2

∼H0

tn1+n2−2


134/158


(Ex 7) Comparaison des esperances de deux echantillonsgaussiens

On a preleve une solution plusieurs fois en utilisant deux pipettes calibreesde meme volume. On a pese le contenu du volume delivre par la pipette.Les resultats des differents pipettages, qui sont supposes normalementdistribues, sont exprimes en grammes.

Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984

Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023

On suppose que les variances sont les memes dans les deux groupes.

Les quantites moyennes prelevees par chacune des deux pipettessont-elles identiques ? (comparer les esperances)


135/158


Comparaison des esperances de deux echantillons - n1 et n2

grands

Modelisation :X1, ...,Xn1 iid avec Xi ∼ L1

Y1, ...,Yn2 iid avec Yi ∼ L2

Hypothese nulle : H0 : µ1 = µ2


X − Y√S?2

1n1

+S?2

2n2

L→H0

N (0, 1) (TLC)


136/158


(Ex 8) Comparaison des esperances de deux echantillons -n1 et n2 grands

Dans le but d’etudier l’influence eventuelle de la lumiere sur la croissancedu poisson Lebistes Reticulus, on a eleve deux lots de ce poisson dans desconditions d’eclairage differentes. Au 95eme jour, on a mesure (en mm) leslongueurs xi des poissons. On a obtenu les resultats suivants :

Lot 1 (180 individus) : eclairage a 400 lux∑xi = 3780

∑x2i = 84884

Lot 2 (90 individus) : eclairage a 3 000 lux.∑yi = 2043

∑y2i = 46586

Que peut-on conclure ?


137/158


Comparaison de deux pourcentages - n1 et n2 grands

Modelisation :X1, ...,Xn1 iid avec Xi ∼ B(p1)Y1, ...,Yn2 iid avec Yi ∼ B(p2)

Hypothese nulle : H0 : p1 = p2 = p


p1 − p2√( 1n1

+ 1n2

)p(1− p)

L→H0

N (0, 1) (TLC)

ou

p =n1p1 + n2p2

n1 + n2

Remarque

Ce test est equivalent au test du khi-2 (voir plus loin)


138/158


(Ex 9) Comparaison de deux pourcentages - n1 et n2

grands

Dans un groupe de 200 malades, on a constitue par tirage au sort uneserie soumise a un nouveau traitement A et une serie soumise autraitement classique B. On a :

Traitement A : nA = 102 ; 20 echecs soit pA = 19.6%Traitement B : nB = 98 ; 29 echecs soit pB = 29, 6%

Au niveau α = 5%, les traitements A et B ont-ils un taux d’echecssignificativement different ?


139/158


Comparaison des esperances de deux echantillons apparies

Echantillons apparies

Deux echantillons sont apparies s’il existe une correspondance entre lesobservations du premier echantillon et les observations du second.

Exemple

Mesure avant traitement et apres traitement (chez les memes sujets)


140/158


Comparaison des esperances de deux echantillons apparies

Modelisation :X1, ...,Xn iid avec Xi ∼ N (µ1, σ

21)

Y1, ...,Yn iid avec Yi ∼ N (µ2, σ22)

Soit Di = Xi − Yi

Hypothese nulle : H0 : µd = 0

Statistique de test

n petitD − µd

S?d√n

∼H0

tn−1

n grand, loi quelconque

D − µd

S?d√n

L→H0

N (0, 1)


141/158


(Ex 10) Comparaison des esperances de deux echantillonsapparies

On veut comparer chez 10 malades la pression arterielle systoliquemoyenne apres administration d’un nouveau medicament hypotenseur etapres administration du traitement de reference. Le tableau suivant donneles resultats :

Malade 1 2 3 4 5 6 7 8 9 10

Reference 17 15 15 13 12 17 15 16 19 11

Nouveau traitement 16 11 12 13 14 11 13 13 17 10

On suppose les observations normalement distribuees. Le nouveaumedicament est-il efficace ?


142/158


Comparaison des variances de deux echantillons gaussiens

Modelisation :X1, ...,Xn1 iid avec Xi ∼ N (µ1, σ

21)

Y1, ...,Yn2 iid avec Yi ∼ N (µ2, σ22)

Hypothese nulle : H0 : σ21 = σ2

2


S?21

S?22

∼H0

F(n1 − 1, n2 − 1)


143/158


Loi de Fisher

Definition

Soient Y1 et Y2 deux variables aleatoires independantes telles queY1 ∼ χ2

n1et Y2 ∼ χ2

n2. La variable aleatoire Z = (Y1/n1)/(Y2/n2) suit

une loi continue appelee loi de Fisher a n1 et n2 degres de liberte :

Z =Y1/n1

Y2/n2∼ F(n1, n2)

Remarques

Z1 ∼ F(n2, n1)⇒ Z2 = 1/Z1 ∼ F(n1, n2)

T ∼ tn ⇒ Z = T 2 ∼ F(1, n)


144/158


Loi de Fisher

Densite

f (x) =Γ(n1+n2

2

)Γ(n12

)Γ(n22

)nn1/21 n

n2/22

xn1/2−1

(n2 + n1x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

d1=1 // d2=1d1=2 // d2=1d1=5 // d2=2d1=100 // d2=1d1=100 // d2=100


145/158


(Ex 11) Comparaison des variances de deux echantillonsgaussiens

On a preleve une solution plusieurs fois en utilisant deux pipettes calibreesde meme volume. On a pese le contenu du volume delivre par la pipette.Les resultats des differents pipettages, qui sont supposes normalementdistribues, sont exprimes en grammes.

Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984

Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023

On suppose que les variances sont les memes dans les deux groupes.

Les deux pipettes ont-elles la meme precision de mesure ? (comparerles variances)


146/158

5. Tests statistiques Tests du Khi-2

Plan



147/158


Loi du χ2 (Rappel)

Definition

Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees de loi normale centree reduite: Xi ∼ N (0, 1)La variable aleatoire Y = X 2

1 + ...+X 2n suit une loi continue appelee loi du

χ2 a n degres de liberte :

Y =n∑

i=1

X 2i ∼ χ2

n

.

Proprietes

Si Y1 ∼ χ2n1

et Y2 ∼ χ2n2

avec Y1 ⊥⊥ Y2, alors Y = Y1 + Y2 ∼ χ2n1+n2

Si Y ∼ χ2n, alors E[Y ] = n et V (Y ) = 2n


148/158


(Ex 12) Test d’adequation

Le tableau ci-dessous donne les resultats d’une des experiences de Mendelportant sur des pois : A est le phenotype ’graines spheriques’, a lephenotype ’graines ridees’ ; B le phenotype ’albumen jaune’ et b est lephenotype ’albumen vert’.

AB Ab aB ab

315 103 101 32

On se demande si la distribution observee est compatible avec ladistribution theorique 9/16, 3/16, 3/16, 1/16.


149/158


Test d’adequation

Modelisation: X1, ...,Xn sont des variables aleatoires discretes iid avaleurs dans les classes E = x1, x2, . . . , xk.Hypotheses testees :

H0 : X ∼ LH1 : X ne suit pas la loi L


Dk,n =k∑

i=1

(Ni − npi )2

npi

L→H0

χ2k−1

avec P(X = xi ) = pi et Ni le nombre d’observations dans la classe xi .


150/158


Test d’adequation

Remarques

L’approximation de la distribution de Dk,n par χ2k−1 n’est valable que si :

n est grand

npi ≥ 5 pour tout i (si npi < 5, on regroupe des classes de valeurpour se ramener a un cas ou npi ≥ 5)


151/158


Test d’adequation a une famille de lois

Degres de liberte

Lorsque la loi theorique (c’est-a-dire les pi ) depend d’un ou plusieursparametres inconnu (par exemple N (µ, σ2), P(λ)), il est possibled’estimer ces parametres a partir des memes donnees que celles utiliseespour le test d’adequation. Dans ce cas, le nombre de degres de liberte deDk,n est diminue d’autant que de parametres estimes.


152/158


(Ex 13) Test d’adequation a une famille de lois

On souhaite etudier la contamination du lait par des spores de clostridia.Pour cela on analyse des tubes de 1 ml de lait et, pour chaque tube, oncompte le nombre X de spores presents. L’analyse est effectuee sur unechantillon de n = 100 tubes provenant du meme lait.

Nombre de spores 0 1 2 3

Nombre de tubes 64 25 9 2

1 Donner une estimation du nombre moyen de spores par ml de lait.

2 Peut-on considerer au vu des observations que le nombre de sporescontenu dans un ml de lait suit une loi de Poisson (repondre a l’aided’un test de niveau 5%) ?


153/158


(Ex 14) Test d’independance

Le tableau ci-dessous indique le resultat de l’examen de 6800 sujets classesd’apres la couleur de leurs yeux et celle de leurs cheveux :

YeuxCheveux Blonds Bruns Noirs Roux Total

Bleus 1768 807 189 47 2811Gris ou verts 946 1387 746 53 3132Bruns 115 438 288 16 857

Total 2829 2632 1223 116 6800

Existe-t-il une liaison entre ces deux caracteres ? De maniere equivalente,la repartition de la couleur des yeux est-elle la meme quelle que soit lacouleur des cheveux ou, reciproquement, la repartition de la couleur descheveux est-elle la meme quelle que soit la couleur des yeux ?


154/158


Test d’independance

X et Y sont deux variables aleatoires discretes a valeurs dansE = x1, . . . , xk et F = y1, . . . , y`Hypotheses testees :

H0 : X et Y sont independantes,H1 : X et Y ne sont pas independantes.


Dk,`,n =k∑

i=1

∑j=1

(Nij −

Ni+N+j

n

)2

Ni+N+j

n

L→H0

χ2(k−1)(`−1)


155/158


Test d’independance

Remarques

L’approximation de la distribution de Dk,`,n par un χ2(k−1)(`−1) n’est

valable que si :

n est grandNi+N+j

n ≥ 5 pour tout couple (i , j)


156/158


(Ex 15) Test d’homogeneite

On veut comparer les reactions produites par deux vaccins BCG designespar A et B. Un groupe de 348 enfants a ete divise par tirage au sort en 2series qui ont ete vaccinees, l’une par A, l’autre par B. Les resultatsfigurent dans le tableau suivant :

Vaccin Reaction Reaction Ulceration Abces Totallegere moyenne

A 12 156 8 1 177B 29 135 6 1 171

Total 41 291 14 2 348

Existe-t-il une difference entre les deux vaccins ou, de maniere equivalente,la repartition des reactions est-elle la meme pour les deux vaccins ?


157/158


Test d’homogeneite

Independance : deux variables mesurees conjointement sont-ellesindependantes?Homogeneite : Les differentes series mesurees proviennent-elles de lameme distribution?

Proposition

Un test d’homogeneite est identique a un test d’independance


158/158


Remerciements

+ Un grand merci a Cyril Dalmassohttp://www.math-evry.cnrs.fr/members/cdalmasso/welcome

Pour les slides (en particulier la section Tests statistiques”)

Les exercices de TD


http://www.math-evry.cnrs.fr/members/cdalmasso/welcome

MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire?...

Documents

Transcript of MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire?...