Statistique descriptive - fsnv.univ-bba.dz
Transcript of Statistique descriptive - fsnv.univ-bba.dz
1
Statistique descriptive
Introduction
La statistique est une meacutethode scientifique qui consiste agrave reacuteunir des donneacutees
chiffreacutees sur des ensembles nombreux puis agrave analyser agrave commenter et agrave criti-
quer ces donneacutees Il ne faut pas confondre la statistique qui est la science qui
vient drsquoecirctre deacutefinie et une statistique qui est un ensemble de donneacutees chiffreacutees
sur un sujet preacutecis
Les premiegraveres statistiques correctement eacutelaboreacutees ont eacuteteacute celles
des recensements deacutemographiques Ainsi le vocabulaire statistique est essen-
tiellement celui de la deacutemographie
Les ensembles eacutetudieacutes sont appeleacutes population Les eacuteleacutements de la population
sont appeleacutes individus ou uniteacutes statistiques La population est eacutetudieacutee selon un
ou plusieurs caractegraveres
Les statistiques descriptives peuvent se reacutesumer par le scheacutema suivant
Echantillonnage statistique
Pour recueillir des informations sur une population statistique lrsquoon dispose de
deux meacutethodes
La meacutethode exhaustive ou recensement ougrave chaque individu de la population
est eacutetudieacute selon le ou les caractegraveres eacutetudieacutes
La meacutethode des sondages ou eacutechantillonnage qui conduit agrave nrsquoexaminer
qursquoune fraction de la population un eacutechantillon
Deacutefinition
2
Lrsquoeacutechantillonnage repreacutesente lrsquoensemble des opeacuterations qui ont pour objet de
preacutelever un certain nombre drsquoindividus dans une population donneacutee
Pour que les reacutesultats observeacutes lors drsquoune eacutetude soient geacuteneacuteralisables agrave la popu-
lation statistique lrsquoeacutechantillon doit ecirctre repreacutesentatif de cette derniegravere crsquoest agrave
dire qursquoil doit refleacuteter fidegravelement sa composition et sa complexiteacute Seul
lrsquoeacutechantillonnage aleacuteatoire assure la repreacutesentativiteacute de lrsquoeacutechantillon
Un eacutechantillon est qualifieacute drsquoaleacuteatoire lorsque chaque individu de la population a
une probabiliteacute connue et non nulle drsquoappartenir agrave lrsquoeacutechantillon
Le cas particulier le plus connu est celui qui affecte agrave chaque individu la mecircme
probabiliteacute drsquoappartenir agrave lrsquoeacutechantillon
Echantillonnage aleacuteatoire simple
Lrsquoeacutechantillonnage aleacuteatoire simple est une meacutethode qui consiste agrave preacutelever au
hasard et de faccedilon indeacutependante n individus ou uniteacutes drsquoeacutechantillonnage drsquoune
population agrave N individus
Chaque individu possegravede ainsi la mecircme probabiliteacute de faire partie drsquoun eacutechantil-
lon de n individus et chacun des eacutechantillons possibles de taille n possegravede la
mecircme probabiliteacute drsquoecirctre constitueacute
Lrsquoeacutechantillonnage aleacuteatoire simple assure lrsquoindeacutependance des erreurs crsquoest-agrave-
dire lrsquoabsence drsquoautocorreacutelations parmi les donneacutees relatives agrave un mecircme carac-
tegravere Cette indeacutependance est indispensable agrave la validiteacute de plusieurs tests sta-
tistiques
Exemple
Les donneacutees meacuteteacuteorologiques ne sont pas indeacutependantes puisque les informa-
tions recueillies sont drsquoautant plus identiques qursquoelles sont rapprocheacutees dans le
temps et dans lrsquoespace
Il existe drsquoautres techniques drsquoeacutechantillonnage que nous ne deacutevelopperons pas
dans un premier temps dans ce cours comme lrsquoeacutechantillonnage systeacutema-
3
tique ou lrsquoeacutechantillonnage stratifieacute qui reacutepondent agrave des probleacutematiques biolo-
giques speacutecifiques
Les caractegraveres statistiques
Deacutefinition
On appelle caractegravere statistique simple toute application 119935 119927 ⟶ ℝ avec P un
ensemble fini appeleacute population tout eacuteleacutement 120654 de P srsquoappelle un individu
Deacutefinition
On appelle modaliteacute (نمط) toute valeur 119909119894 isin 119883(119875) telle que 119935(119927) =
119961120783 119961120784 119961120785 hellip 119961119946 hellip 119961119948 avec 119896 nombre de modaliteacutes diffeacuterentes de X
Remarque seuls les caractegraveres quantitatifs ont valeurs dans ℝ les caractegraveres
qualitatifs sy ramenant par un codage
Exemple
Lors des recensements les caractegraveres eacutetudieacutes sont lrsquoacircge le sexe la qualifica-
tion professionnelle etc Le caractegravere laquo sexe raquo preacutesente deux modaliteacutes alors
que pour la qualification professionnelle le nombre de modaliteacutes va deacutependre de
la preacutecision rechercheacutee
On peut scheacutematiser les caractegraveres par
Stade dune maladie (grave tregraves grave)
Intensiteacute dune douleur (faible moyen forte)
Qualita-
tif(s
Quantitatifs
Ordinales
Nominales
Discregravetes
Continue
Caractegraveres
Groupe sanguin (O A B AB)
Nombre de petits par porteacutee
Nombre de cellules dans une culture
Le poids la taille le taux de glyceacutemiehellip
4
bull Qualitatif cest-agrave-dire non numeacuterique
bull Quantitatif discret (nombre fini de valeurs)
continu (infiniteacute de valeurs)
Liens avec les concepts probabilistes
Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du
calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-
mologues (voir table ci-dessous)
probabiliteacutes statistique
Espace fondamental (univers) Population
Eacutepreuve Tirage (dun individu) expeacuteri-
mentation
Eacutevegravenement eacuteleacutementaire Individu observation
Variable aleacuteatoire Caractegravere (variable statis-
tique)
Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage
Nombre de reacutepeacutetition dune
eacutepreuve
Taille de leacutechantillon effec-
tif total
probabiliteacute Freacutequence observeacute
Loi de probabiliteacute Distribution observeacutee ou loi
empirique
Espeacuterance matheacutematique Moyenne observeacutee
Variance Variance observeacutee
Repreacutesentation des donneacutees
Il existe plusieurs niveaux de description statistique la repreacutesentation brute
des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations
graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-
megravetres caracteacuteristiques
Seacuteries statistiques
5
Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur
un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre
dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-
lon
Exemple
Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-
morphisme sexuel
( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-
ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la
queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50
macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus
Tableaux statistiques
Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )
de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-
ractegravere discret mais neacutecessite en revanche une transformation des donneacutees
dans le cas drsquoun caractegravere continu
6
Freacutequences absolues relatives et cumuleacutees
A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-
dus dans leacutechantillon de taille n
On appelle effectif (freacutequence absolue) de la modaliteacute xi le
nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946
On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel
que 119943119946 =119951119946
119951
Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave
100 fi
On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-
tifs partiels des valeur
1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896
119894
119896=1
On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre
119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901
119901=119894minus1
119901=1
119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896
On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le
nombre fi cum tel que
119891119894119888119906119898 = sum 119891119901
119901=119894
119901=1
Remarque
Caractegraveres quantitatifs discrets
Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-
tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate
sum 119899119894 = 119899 sum 119891119894 = 1
119896
119894=1
119894=119896
119894=1
7
Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de
cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-
vante
Caractegravere
X
xi nombre
de galles
par feuille
0 1 2 3 4 5 6 7 8 9 10 sum
ni nombre
de feuille
portant xi
galles
182 98 46 28 12 5 2 1 0 1 0 375
fi freacute-
quence
relative
0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1
fi cum
freacutequence
relative
cumuleacutee
0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1
Caractegraveres quantitatifs continus
Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de
freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
2
Lrsquoeacutechantillonnage repreacutesente lrsquoensemble des opeacuterations qui ont pour objet de
preacutelever un certain nombre drsquoindividus dans une population donneacutee
Pour que les reacutesultats observeacutes lors drsquoune eacutetude soient geacuteneacuteralisables agrave la popu-
lation statistique lrsquoeacutechantillon doit ecirctre repreacutesentatif de cette derniegravere crsquoest agrave
dire qursquoil doit refleacuteter fidegravelement sa composition et sa complexiteacute Seul
lrsquoeacutechantillonnage aleacuteatoire assure la repreacutesentativiteacute de lrsquoeacutechantillon
Un eacutechantillon est qualifieacute drsquoaleacuteatoire lorsque chaque individu de la population a
une probabiliteacute connue et non nulle drsquoappartenir agrave lrsquoeacutechantillon
Le cas particulier le plus connu est celui qui affecte agrave chaque individu la mecircme
probabiliteacute drsquoappartenir agrave lrsquoeacutechantillon
Echantillonnage aleacuteatoire simple
Lrsquoeacutechantillonnage aleacuteatoire simple est une meacutethode qui consiste agrave preacutelever au
hasard et de faccedilon indeacutependante n individus ou uniteacutes drsquoeacutechantillonnage drsquoune
population agrave N individus
Chaque individu possegravede ainsi la mecircme probabiliteacute de faire partie drsquoun eacutechantil-
lon de n individus et chacun des eacutechantillons possibles de taille n possegravede la
mecircme probabiliteacute drsquoecirctre constitueacute
Lrsquoeacutechantillonnage aleacuteatoire simple assure lrsquoindeacutependance des erreurs crsquoest-agrave-
dire lrsquoabsence drsquoautocorreacutelations parmi les donneacutees relatives agrave un mecircme carac-
tegravere Cette indeacutependance est indispensable agrave la validiteacute de plusieurs tests sta-
tistiques
Exemple
Les donneacutees meacuteteacuteorologiques ne sont pas indeacutependantes puisque les informa-
tions recueillies sont drsquoautant plus identiques qursquoelles sont rapprocheacutees dans le
temps et dans lrsquoespace
Il existe drsquoautres techniques drsquoeacutechantillonnage que nous ne deacutevelopperons pas
dans un premier temps dans ce cours comme lrsquoeacutechantillonnage systeacutema-
3
tique ou lrsquoeacutechantillonnage stratifieacute qui reacutepondent agrave des probleacutematiques biolo-
giques speacutecifiques
Les caractegraveres statistiques
Deacutefinition
On appelle caractegravere statistique simple toute application 119935 119927 ⟶ ℝ avec P un
ensemble fini appeleacute population tout eacuteleacutement 120654 de P srsquoappelle un individu
Deacutefinition
On appelle modaliteacute (نمط) toute valeur 119909119894 isin 119883(119875) telle que 119935(119927) =
119961120783 119961120784 119961120785 hellip 119961119946 hellip 119961119948 avec 119896 nombre de modaliteacutes diffeacuterentes de X
Remarque seuls les caractegraveres quantitatifs ont valeurs dans ℝ les caractegraveres
qualitatifs sy ramenant par un codage
Exemple
Lors des recensements les caractegraveres eacutetudieacutes sont lrsquoacircge le sexe la qualifica-
tion professionnelle etc Le caractegravere laquo sexe raquo preacutesente deux modaliteacutes alors
que pour la qualification professionnelle le nombre de modaliteacutes va deacutependre de
la preacutecision rechercheacutee
On peut scheacutematiser les caractegraveres par
Stade dune maladie (grave tregraves grave)
Intensiteacute dune douleur (faible moyen forte)
Qualita-
tif(s
Quantitatifs
Ordinales
Nominales
Discregravetes
Continue
Caractegraveres
Groupe sanguin (O A B AB)
Nombre de petits par porteacutee
Nombre de cellules dans une culture
Le poids la taille le taux de glyceacutemiehellip
4
bull Qualitatif cest-agrave-dire non numeacuterique
bull Quantitatif discret (nombre fini de valeurs)
continu (infiniteacute de valeurs)
Liens avec les concepts probabilistes
Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du
calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-
mologues (voir table ci-dessous)
probabiliteacutes statistique
Espace fondamental (univers) Population
Eacutepreuve Tirage (dun individu) expeacuteri-
mentation
Eacutevegravenement eacuteleacutementaire Individu observation
Variable aleacuteatoire Caractegravere (variable statis-
tique)
Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage
Nombre de reacutepeacutetition dune
eacutepreuve
Taille de leacutechantillon effec-
tif total
probabiliteacute Freacutequence observeacute
Loi de probabiliteacute Distribution observeacutee ou loi
empirique
Espeacuterance matheacutematique Moyenne observeacutee
Variance Variance observeacutee
Repreacutesentation des donneacutees
Il existe plusieurs niveaux de description statistique la repreacutesentation brute
des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations
graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-
megravetres caracteacuteristiques
Seacuteries statistiques
5
Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur
un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre
dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-
lon
Exemple
Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-
morphisme sexuel
( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-
ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la
queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50
macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus
Tableaux statistiques
Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )
de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-
ractegravere discret mais neacutecessite en revanche une transformation des donneacutees
dans le cas drsquoun caractegravere continu
6
Freacutequences absolues relatives et cumuleacutees
A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-
dus dans leacutechantillon de taille n
On appelle effectif (freacutequence absolue) de la modaliteacute xi le
nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946
On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel
que 119943119946 =119951119946
119951
Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave
100 fi
On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-
tifs partiels des valeur
1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896
119894
119896=1
On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre
119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901
119901=119894minus1
119901=1
119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896
On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le
nombre fi cum tel que
119891119894119888119906119898 = sum 119891119901
119901=119894
119901=1
Remarque
Caractegraveres quantitatifs discrets
Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-
tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate
sum 119899119894 = 119899 sum 119891119894 = 1
119896
119894=1
119894=119896
119894=1
7
Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de
cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-
vante
Caractegravere
X
xi nombre
de galles
par feuille
0 1 2 3 4 5 6 7 8 9 10 sum
ni nombre
de feuille
portant xi
galles
182 98 46 28 12 5 2 1 0 1 0 375
fi freacute-
quence
relative
0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1
fi cum
freacutequence
relative
cumuleacutee
0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1
Caractegraveres quantitatifs continus
Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de
freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
3
tique ou lrsquoeacutechantillonnage stratifieacute qui reacutepondent agrave des probleacutematiques biolo-
giques speacutecifiques
Les caractegraveres statistiques
Deacutefinition
On appelle caractegravere statistique simple toute application 119935 119927 ⟶ ℝ avec P un
ensemble fini appeleacute population tout eacuteleacutement 120654 de P srsquoappelle un individu
Deacutefinition
On appelle modaliteacute (نمط) toute valeur 119909119894 isin 119883(119875) telle que 119935(119927) =
119961120783 119961120784 119961120785 hellip 119961119946 hellip 119961119948 avec 119896 nombre de modaliteacutes diffeacuterentes de X
Remarque seuls les caractegraveres quantitatifs ont valeurs dans ℝ les caractegraveres
qualitatifs sy ramenant par un codage
Exemple
Lors des recensements les caractegraveres eacutetudieacutes sont lrsquoacircge le sexe la qualifica-
tion professionnelle etc Le caractegravere laquo sexe raquo preacutesente deux modaliteacutes alors
que pour la qualification professionnelle le nombre de modaliteacutes va deacutependre de
la preacutecision rechercheacutee
On peut scheacutematiser les caractegraveres par
Stade dune maladie (grave tregraves grave)
Intensiteacute dune douleur (faible moyen forte)
Qualita-
tif(s
Quantitatifs
Ordinales
Nominales
Discregravetes
Continue
Caractegraveres
Groupe sanguin (O A B AB)
Nombre de petits par porteacutee
Nombre de cellules dans une culture
Le poids la taille le taux de glyceacutemiehellip
4
bull Qualitatif cest-agrave-dire non numeacuterique
bull Quantitatif discret (nombre fini de valeurs)
continu (infiniteacute de valeurs)
Liens avec les concepts probabilistes
Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du
calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-
mologues (voir table ci-dessous)
probabiliteacutes statistique
Espace fondamental (univers) Population
Eacutepreuve Tirage (dun individu) expeacuteri-
mentation
Eacutevegravenement eacuteleacutementaire Individu observation
Variable aleacuteatoire Caractegravere (variable statis-
tique)
Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage
Nombre de reacutepeacutetition dune
eacutepreuve
Taille de leacutechantillon effec-
tif total
probabiliteacute Freacutequence observeacute
Loi de probabiliteacute Distribution observeacutee ou loi
empirique
Espeacuterance matheacutematique Moyenne observeacutee
Variance Variance observeacutee
Repreacutesentation des donneacutees
Il existe plusieurs niveaux de description statistique la repreacutesentation brute
des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations
graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-
megravetres caracteacuteristiques
Seacuteries statistiques
5
Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur
un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre
dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-
lon
Exemple
Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-
morphisme sexuel
( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-
ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la
queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50
macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus
Tableaux statistiques
Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )
de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-
ractegravere discret mais neacutecessite en revanche une transformation des donneacutees
dans le cas drsquoun caractegravere continu
6
Freacutequences absolues relatives et cumuleacutees
A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-
dus dans leacutechantillon de taille n
On appelle effectif (freacutequence absolue) de la modaliteacute xi le
nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946
On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel
que 119943119946 =119951119946
119951
Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave
100 fi
On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-
tifs partiels des valeur
1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896
119894
119896=1
On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre
119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901
119901=119894minus1
119901=1
119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896
On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le
nombre fi cum tel que
119891119894119888119906119898 = sum 119891119901
119901=119894
119901=1
Remarque
Caractegraveres quantitatifs discrets
Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-
tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate
sum 119899119894 = 119899 sum 119891119894 = 1
119896
119894=1
119894=119896
119894=1
7
Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de
cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-
vante
Caractegravere
X
xi nombre
de galles
par feuille
0 1 2 3 4 5 6 7 8 9 10 sum
ni nombre
de feuille
portant xi
galles
182 98 46 28 12 5 2 1 0 1 0 375
fi freacute-
quence
relative
0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1
fi cum
freacutequence
relative
cumuleacutee
0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1
Caractegraveres quantitatifs continus
Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de
freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
4
bull Qualitatif cest-agrave-dire non numeacuterique
bull Quantitatif discret (nombre fini de valeurs)
continu (infiniteacute de valeurs)
Liens avec les concepts probabilistes
Les concepts qui viennent decirctre preacutesenteacutes sont les homologues de concepts du
calcul des probabiliteacutes et il est possible de disposer en regard les concepts ho-
mologues (voir table ci-dessous)
probabiliteacutes statistique
Espace fondamental (univers) Population
Eacutepreuve Tirage (dun individu) expeacuteri-
mentation
Eacutevegravenement eacuteleacutementaire Individu observation
Variable aleacuteatoire Caractegravere (variable statis-
tique)
Eacutepreuves reacutepeacuteteacutees Eacutechantillonnage
Nombre de reacutepeacutetition dune
eacutepreuve
Taille de leacutechantillon effec-
tif total
probabiliteacute Freacutequence observeacute
Loi de probabiliteacute Distribution observeacutee ou loi
empirique
Espeacuterance matheacutematique Moyenne observeacutee
Variance Variance observeacutee
Repreacutesentation des donneacutees
Il existe plusieurs niveaux de description statistique la repreacutesentation brute
des donneacutees des preacutesentations par tableaux numeacuteriques des repreacutesentations
graphiques et des reacutesumeacutes numeacuteriques fournis par un petit nombre de para-
megravetres caracteacuteristiques
Seacuteries statistiques
5
Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur
un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre
dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-
lon
Exemple
Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-
morphisme sexuel
( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-
ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la
queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50
macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus
Tableaux statistiques
Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )
de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-
ractegravere discret mais neacutecessite en revanche une transformation des donneacutees
dans le cas drsquoun caractegravere continu
6
Freacutequences absolues relatives et cumuleacutees
A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-
dus dans leacutechantillon de taille n
On appelle effectif (freacutequence absolue) de la modaliteacute xi le
nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946
On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel
que 119943119946 =119951119946
119951
Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave
100 fi
On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-
tifs partiels des valeur
1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896
119894
119896=1
On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre
119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901
119901=119894minus1
119901=1
119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896
On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le
nombre fi cum tel que
119891119894119888119906119898 = sum 119891119901
119901=119894
119901=1
Remarque
Caractegraveres quantitatifs discrets
Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-
tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate
sum 119899119894 = 119899 sum 119891119894 = 1
119896
119894=1
119894=119896
119894=1
7
Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de
cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-
vante
Caractegravere
X
xi nombre
de galles
par feuille
0 1 2 3 4 5 6 7 8 9 10 sum
ni nombre
de feuille
portant xi
galles
182 98 46 28 12 5 2 1 0 1 0 375
fi freacute-
quence
relative
0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1
fi cum
freacutequence
relative
cumuleacutee
0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1
Caractegraveres quantitatifs continus
Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de
freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
5
Une seacuterie statistique correspond aux diffeacuterentes modaliteacutes dun caractegravere sur
un eacutechantillon dindividus appartenant agrave une population donneacutee Le nombre
dindividus qui constituent leacutechantillon eacutetudieacute sappelle la taille de leacutechantil-
lon
Exemple
Afin drsquoeacutetudier la structure de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) abattues par les chasseurs canadiens une eacutetude du di-
morphisme sexuel
( ن الذكر والأنث من نفس النوع الفروق بي ) de cette espegravece a eacuteteacute entreprise Parmi les ca-
ractegraveres mesureacutes figure la longueur de la rectrice centrale (plume de la
queue) Les reacutesultats observeacutes exprimeacutes en millimegravetres sur un eacutechantillon de 50
macircles juveacuteniles (الذكور الأحداث) sont noteacutes dans la seacuterie ci-dessus
Tableaux statistiques
Le tableau de distribution de freacutequences est un mode syntheacutetique (طريقة مزج )
de preacutesentation des donneacutees Sa constitution est immeacutediate dans le cas drsquoun ca-
ractegravere discret mais neacutecessite en revanche une transformation des donneacutees
dans le cas drsquoun caractegravere continu
6
Freacutequences absolues relatives et cumuleacutees
A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-
dus dans leacutechantillon de taille n
On appelle effectif (freacutequence absolue) de la modaliteacute xi le
nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946
On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel
que 119943119946 =119951119946
119951
Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave
100 fi
On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-
tifs partiels des valeur
1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896
119894
119896=1
On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre
119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901
119901=119894minus1
119901=1
119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896
On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le
nombre fi cum tel que
119891119894119888119906119898 = sum 119891119901
119901=119894
119901=1
Remarque
Caractegraveres quantitatifs discrets
Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-
tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate
sum 119899119894 = 119899 sum 119891119894 = 1
119896
119894=1
119894=119896
119894=1
7
Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de
cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-
vante
Caractegravere
X
xi nombre
de galles
par feuille
0 1 2 3 4 5 6 7 8 9 10 sum
ni nombre
de feuille
portant xi
galles
182 98 46 28 12 5 2 1 0 1 0 375
fi freacute-
quence
relative
0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1
fi cum
freacutequence
relative
cumuleacutee
0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1
Caractegraveres quantitatifs continus
Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de
freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
6
Freacutequences absolues relatives et cumuleacutees
A chaque modaliteacute xi du caractegravere X peut correspondre un ou plusieurs indivi-
dus dans leacutechantillon de taille n
On appelle effectif (freacutequence absolue) de la modaliteacute xi le
nombre ni ougrave ni est le nombre drsquoindividu 120596tel que 119935(120654) = 119961119946
On appelle freacutequence (freacutequence relative) de la modaliteacute xi le nombre fi tel
que 119943119946 =119951119946
119951
Le pourcentage est une freacutequence exprimeacutee en pour cent Il est eacutegal agrave
100 fi
On appelle effectif cumuleacute croissante de la modaliteacute xi la somme des effec-
tifs partiels des valeur
1199091 1199092 hellip 119909119894 119899119894 = 1198991 + 1198992 + ⋯ + 119899119894 = sum 119899119896
119894
119896=1
On appelle effectif cumuleacute deacutecroissante de la modaliteacute xi le nombre
119899119894 = 119899 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = sum 119899119901
119901=119894minus1
119901=1
119899119894 = 1198991 + 1198992 + ⋯ 119899119894minus1 + 119899119894 + ⋯ + 119899119896 minus (1198991 + 1198992 + ⋯ 119899119894minus1) = 119899119894 + ⋯ + 119899119896
On appelle freacutequences cumuleacutees ou freacutequences relatives cumuleacutees en xi le
nombre fi cum tel que
119891119894119888119906119898 = sum 119891119901
119901=119894
119901=1
Remarque
Caractegraveres quantitatifs discrets
Dans le cas drsquoun caractegravere quantitatif discret lrsquoeacutetablissement de la distribu-
tion des donneacutees observeacutees associeacutees avec leurs freacutequences est immeacutediate
sum 119899119894 = 119899 sum 119891119894 = 1
119896
119894=1
119894=119896
119894=1
7
Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de
cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-
vante
Caractegravere
X
xi nombre
de galles
par feuille
0 1 2 3 4 5 6 7 8 9 10 sum
ni nombre
de feuille
portant xi
galles
182 98 46 28 12 5 2 1 0 1 0 375
fi freacute-
quence
relative
0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1
fi cum
freacutequence
relative
cumuleacutee
0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1
Caractegraveres quantitatifs continus
Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de
freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
7
Exemple La ceacutecidomyie du hecirctre ( ذبابة شجرة الزان) provoque sur les feuilles de
cet arbre des galles dont la distribution de freacutequences observeacutees est la sui-
vante
Caractegravere
X
xi nombre
de galles
par feuille
0 1 2 3 4 5 6 7 8 9 10 sum
ni nombre
de feuille
portant xi
galles
182 98 46 28 12 5 2 1 0 1 0 375
fi freacute-
quence
relative
0485 0261 0123 0075 0032 0013 0005 0003 0 0003 0 1
fi cum
freacutequence
relative
cumuleacutee
0485 0746 0869 0944 0976 00989 0994 0997 0997 1 1
Caractegraveres quantitatifs continus
Dans le cas dun caractegravere quantitatif continu lrsquoeacutetablissement du tableau de
freacutequences implique drsquoeffectuer au preacutealable une reacutepartition en classes des
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
8
donneacutees Cela neacutecessite de deacutefinir le nombre de classes attendu et donc
lrsquoamplitude associeacutee agrave chaque classe ou intervalle de classe
En regravegle geacuteneacuterale on choisit des classes de mecircme amplitude Pour que la distri-
bution en freacutequence est un sens il faut que chaque classe comprenne un nombre
suffisant de valeurs (ni)
Diverses formules empiriques permettent drsquoeacutetablir le nombre de classes pour
un eacutechantillon de taille n
La regravegle de STURGE Nombre de classes = 1+ 33 log n
La regravegle de YULE Nombre de classes = 120784 120787radic119951120786
= 120784 120787radicradic119951
Lintervalle entre chaque classe est obtenu ensuite de la maniegravere suivante
Intervalle de classe = (X max - X min) Nombre de classes
Avec X max et X min respectivement la plus grande et la plus petite valeur
de X dans la seacuterie statistique
A partir de X min on obtient les limites de classes ou bornes de classes par addi-
tion successive de lrsquointervalle de classe En regravegle geacuteneacuterale on tente de faire
coiumlncider lrsquoindice de classe ou valeur centrale de la classe avec un nombre en-
tier ou ayant peu de deacutecimales
Exemple
Dans le cadre de lrsquoeacutetude de la population de geacutelinottes hup-
peacutees (Bonasa umbellus) les valeurs de la longueur de la rectrice principale peu-
vent ecirctre reacuteparties de la faccedilon suivante
Deacutefinition du nombre de classes
Regravegle de Sturge 1 + 33 log 50 = 660
Regravegle de Yule 25radic504
= 664 les deux valeurs sont tregraves peu diffeacuterentes
Deacutefinition de lrsquointervalle de classe 119868119862 =120783120789120786minus120783120786120782
66= 515 119898119898 que lon
arrondit agrave 5 mm par commoditeacute (faciliteacute)
Tableau de distribution des freacutequences
Caractegravere X longueur [140 145[ [145 150[ [150 155[ [155 160[ [160 165[ [165 170[ [170 175[
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
9
de la rectrice
xi bornes des classes
ci Valeurs meacutedianes des
classes (centres des
classes)
1425 1475 1525 1575 1625 1675 1725
ni nombre drsquoindividu par
classe
1 1 9 17 16 3 3
Ni effectif cumuleacutee 1 2 11 28 44 47 50
relative freacutequence if 002 002 018 034 032 006 006
fi cum freacutequence rela-
tive cumuleacutee 002 004 022 056 088 094 1
Repreacutesentations graphiques
Les repreacutesentations graphiques ont lrsquoavantage de renseigner immeacutediatement sur
lrsquoallure geacuteneacuterale de la distribution Elles facilitent lrsquointerpreacutetation des donneacutees
recueillies
Caractegraveres quantitatifs discrets
Pour les caractegraveres quantitatifs discrets la repreacutesentation graphique est
le diagramme en bacirctons ougrave la hauteur des bacirctons correspond agrave
lrsquoeffectif ni associeacute agrave chaque modaliteacute du caractegravere xi
Exemple
Caractegraveres quantitatifs continus
Pour les caractegraveres quantitatifs continus la repreacutesentation graphique
est lrsquohistogramme ougrave la hauteur du rectangle est proportionnelle agrave lrsquoeffectif ni
0
20
40
60
80
100
120
140
160
180
200
0 1 2 3 4 5 6 7 8 9 10
distribution du nombre de galles parhellip
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
10
Ceci nrsquoest vrai que si lrsquointervalle de classe est constant Dans ce cas lrsquoaire com-
prise sous lrsquohistogramme srsquoavegravere proportionnelle agrave lrsquoeffectif total En revanche
lorsque les intervalles de classe sont ineacutegaux des modifications srsquoimposent pour
conserver cette proportionnaliteacute Dans ce cas en ordonneacutee au lieu de porter
lrsquoeffectif on indique le rapport de la freacutequence sur lrsquointervalle de classe Ainsi
la superficie de chaque rectangle repreacutesente alors lrsquoeffectif associeacute agrave chaque
classe
Exemple
Indicateurs numeacuteriques
Le dernier niveau de description statistique est le reacutesumeacute numeacuterique drsquoune dis-
tribution statistique par des indicateurs numeacuteriques ou paramegravetres caracteacute-
ristiques
Indicateurs de position
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser lrsquoordre de grandeur des observations
La moyenne arithmeacutetique
Soit un eacutechantillon de n valeurs observeacutees x1 x2hellipxixn drsquoun caractegravere
quantitatif X on deacutefinit sa moyenne observeacutee comme la moyenne arithmeacute-
tique des n valeurs
0
2
4
6
8
10
12
14
16
18
1[145150[ [150155[ [155160[ [160165[ [165170[ [1170175[
=1
119899sum 119909119894
119899
119894=1
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
11
Remarque
Si les donneacutees observeacutees xi sont regroupeacutees en k classes
drsquoeffectif ni (caractegravere continu regroupeacute en classe ou caractegravere discret) il faut
les pondeacuterer par les effectifs correspondants
Exemple
Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la longueur
moyenne de la rectrice principale du macircle juveacutenile est
Dans le cas des donneacutees non groupeacutees
Dans le cas des donneacutees groupeacutees ougrave les valeurs xi correspondent
aux valeurs meacutedianes des classes
La meacutediane
La meacutediane Me est la valeur du caractegravere pour laquelle la freacutequence cumu-
leacutee est eacutegale agrave 05 ou 50 Elle correspond donc au centre de la seacuterie statis-
tique classeacutee par ordre croissant ou agrave la valeur pour laquelle 50 des valeurs
observeacutees sont supeacuterieures et 50 sont infeacuterieures
Cas discret
bull Si 119899 = 2119898 + 1(119894119898119901119886119894119903) 119872119890 = 119909119898+1
bull 119878119894 119899 = 2119898 (119901119886119894119903) 119872119890 =119909119898+119909119898+1
2
Cas continue
Avec
sum(119909119894 minus )
119899
119894=1
= 0
=1
119899sum 119899119894119909119894 119886119907119890119888
119899
119894=1
119899 = sum 119899119894
119896
119894=1
=153 + 165 + 1609 hellip + 158
50= 1589 119898119898
sum 119899119894119909119894 = 7960 119889prime119900119906
119899
119894=1
=7960
50
= 1592119898119898
119872119890 = 119909119898 + (119909119898+1 minus 119909119898) [
1198992
minus 119873119894
119899119894]
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
12
xm limite infeacuterieure de la classe dans laquelle se trouve le ne2 individu (classe
meacutediane)
xm+1 limite supeacuterieure de la classe dans laquelle se trouve le ne2 individu
(classe meacutediane)
ni effectif de la classe meacutediane
Ni effectif cumuleacute infeacuterieur agrave xm
n taille de lrsquoeacutechantillon
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de
la geacutelinotte huppeacutee la valeur de la meacutediane est
bull Cas des donneacutees non groupeacutees
119899 = 50 = 2 times 25 119886119897119900119903119904 119872119890 =11990925 + 11990926
2=
158 + 159
2= 1585 119898119898
bull Cas des donneacutees groupeacutees 119899
2= 25 119889119900119899119888 119872119890 isin [155160[ 119872119890 = 155 +
5
17(
50
2minus 11) = 15911 119898119898
Remarque
Si la distribution des valeurs est symeacutetrique la valeur de la meacutediane est
proche de la valeur de la moyenne arithmeacutetique 119872119890 asymp
Le mode
Le mode Mo drsquoune seacuterie statistique est la valeur du caractegravere la plus freacutequente
ou dominante dans leacutechantillon Le mode correspond agrave la classe de freacutequence
maximale dans la distribution des freacutequences
On peut identifier le mode comme la valeur meacutediane de la classe de freacutequence
maximale ou bien effectuer une interpolation linaire pour obtenir la valeur
exacte du mode comme suit
119872119900 = 119909119898 +119894∆119894
∆119904 + ∆119894
avec
119961119950 limite infeacuterieure de la classe drsquoeffectif maximal (Classe modale)
119946 Intervalle de classe (xm+1 ndash xm)
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
13
120491119946 Eacutecart drsquoeffectif entre la classe modale et la classe infeacuterieure la plus proche
120491119956 Eacutecart drsquoeffectif entre la classe modale et la classe supeacuterieure la plus proche
Exemple
Dans le cas de la distribution de la longueur de la rectrice centrale de la geacuteli-
notte huppeacutee la valeur du mode est
bull Valeur approcheacutee La classe de freacutequence maximale est [155160[
avec ni = 17 drsquoougrave Mo = 1575 mm
bull Valeur exacte
119872119900 = 155 +5 times 8
(1 + 8)= 15944 119898119898
Avec
119909119898 = 155119898119898 ∆119894= 17 minus 9 = 8 ∆119904= 17 minus 16 = 1119890119905 119894 = 5119898119898
Remarque
Une distribution de freacutequences peut preacutesenter un seul mode (distribution
unimodale) ou plusieurs modes (distribution bi ou trimodale)
Si la distribution des valeurs est symeacutetrique la valeur du mode est proche
de la valeur de la moyenne arithmeacutetique 119924119952 =
Comparaison des indicateurs de position
Avantages Inconveacutenients
Moy
enn
e a
rith
-
meacuteti
que
Facile agrave calculer
Reacutepond au principe des
moindres carreacutes
Fortement influenceacutee par les valeurs ex-
trecircmes de la va
Repreacutesente mal une population heacuteteacutero-
gegravene (polymodale)
Meacutediane Pas influenceacutee par les valeurs
extrecircmes de la va
Peu sensible aux variations
drsquoamplitude des classes
Calculable sur des caractegraveres
Se precircte mal aux calculs statistiques
Suppose lrsquoeacutequi-reacutepartition des donneacutees
Ne repreacutesente que la valeur qui seacutepare
lrsquoeacutechantillon en 2 parties eacutegales
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
14
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Mode Pas influenceacutee par les valeurs
extrecircmes de la va
Calculable sur des caractegraveres
cycliques (saison etc) ougrave la
moyenne a peu de significa-
tion
Bon indicateur de population
heacuteteacuterogegravene
Se precircte mal aux calculs statistiques
Tregraves sensible aux variations drsquoamplitude
des classes
Son calcul ne tient compte que des indi-
vidus dont les valeurs se rapprochent de
la classe modale
Indicateurs de dispersion
Ces paramegravetres ont pour objectif dans le cas dun caractegravere quantitatif de ca-
racteacuteriser la variabiliteacute des donneacutees dans lrsquoeacutechantillon Les indicateurs de dis-
persion fondamentaux sont la variance observeacutee et lrsquoeacutecart-type observeacute
La variance observeacutee
Soit un eacutechantillon de n valeurs observeacutees x1 x2 xixn drsquoun caractegravere
quantitatif X et soit sa moyenne observeacutee On deacutefinit la variance observeacutee
noteacutee 1199042 comme la moyenne arithmeacutetique des carreacutes des eacutecarts agrave la moyenne
1199042 =1
119899sum(119909119894 minus )2
119899
119894=1
Pour des commoditeacutes de calcul on se sert du theacuteoregraveme de Kœnig que nous deacute-
montrons dans un cas particulier
Voici pourquoi
Soit
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
15
119860 = sum(119909119894 minus )2
119899
119894=1
= sum(1199091198942 minus 2119909119894 + 2)
119899
119894=1
= sum 1199091198942
119899
119894=1
minus sum 2119909119894
119899
119894=1
+ sum 2 = sum 1199091198942
119899
119894=1
minus 2 sum 119909119894 + 1198992 119900119903 sum 119909119894 = 119899
119899
119894=1
119899
119894=1
119899
119894=1
119860 = sum 1199091198942 minus 21198992 + 1198992 = sum 119909119894
2 minus 1198992
119899
119894=1
119899
119894=1
La formule de la variance qui reacutesulte du theacuteoregraveme de Kœnig est donc
1198782 =1
119899sum 119909119894
2 minus 2
119899
119894=1
Dans le cas de donneacutees regroupeacutees en k classes deffectif ni (variable conti-
nue regroupeacutee en classes ou variable discregravete) la formule de la variance est la
suivante
1198782 =1
119899sum 119899119894(119909119894
2 minus 2)
119894=119896
119894=1
Pour des commoditeacutes de calcul on utilisera la formule
deacuteveloppeacutee suivante
1198782 =1
119899sum 119899119894119909119894
2 minus 2 119886119907119890119888 119899 = sum 119899119894
119894=119896
119894=1
119894=119896
119894=1
Lrsquoeacutecart-type observeacute correspond agrave la racine carreacutee de la variance observeacutee
119878 = radic1198782
Exemple
(1) Dans le cas de lrsquoeacutetude du dimorphisme sexuel de la geacutelinotte huppeacutee la va-
riance observeacutee de la longueur de la rectrice centrale du macircle juveacutenile est
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
16
cas des donneacutees non groupeacutees
sum 1199091198942 = 126347 et = 15886 mm 1198782 =
1
50(1263647) minus (15886)2
119894=119899
119894=1
= 3644 drsquoougrave 1198782 = 3644 et S = 604 mm
cas des donneacutees groupeacutees
sum 1198991198941199091198942 = 12690125 et = 15920 mm 1198782 =
1
50(12690125) minus (15920)2
119894=119899
119894=1
= 3561 drsquoougrave 1198782 = 3561 et S = 597 mm
Exercice Quelle est la variance et lrsquoeacutecart-type observeacutee du nombre moyen de
galles par feuille pour la ceacutecidomyie du hecirctre
Remarque
De part sa deacutefinition la variance est toujours un nombre positif Sa dimen-
sion est le carreacute de celle de la variable Il est toutefois difficile drsquoutiliser la va-
riance comme mesure de dispersion car le recours au carreacute conduit agrave un chan-
gement drsquouniteacutes
Elle nrsquoa donc pas de sens biologique direct contrairement agrave leacutecart-type qui
srsquoexprime dans les mecircmes uniteacutes que la moyenne
Le coefficient de variation
La variance et lrsquoeacutecart-type observeacutee sont des paramegravetres de dispersion abso-
lue qui mesurent la variation absolue des donneacutees indeacutependamment de lrsquoordre de
grandeur des donneacutees
Le coefficient de variation noteacute CV est un indice de dispersion relatif prenant
en compte ce biais et est eacutegal agrave
119862119881 =119878
100
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
17
Exprimeacute en pour cent il est indeacutependant du choix des uniteacutes de mesure permet-
tant la comparaison des distributions de freacutequence drsquouniteacute diffeacuterente
Exemple
Le coefficient de variation des longueurs de la rectrice centrale des geacutelinottes
huppeacutees macircles juveacuteniles est eacutegal agrave
119862119881 =609
15886100 = 383
Quel est le coefficient de variation du nombre de galles par feuille pour la ceacuteci-
domyie du hecirctre
Paramegravetres de forme
Nous deacutefinissons les paramegravetres de forme pour une variable statistique quanti-
tative discregravete ou
continue agrave valeurs reacuteelles
Coefficient dasymeacutetrie
a) Deacutefinition
Il existe plusieurs coefficients dasymeacutetrie Les principaux sont les suivants
Le coefficient dasymeacutetrie de Pearson fait intervenir le mode Mo
quand il existe il est deacutefinie par
Le coefficient dasymeacutetrie de Yule fait intervenir la meacutediane et les quartiles il
est deacutefini par
Le coefficient dasymeacutetrie de Fisher fait intervenir les moments centreacutes il est
deacutefini par
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
18
Lorsque le coefficient dasymeacutetrie est positif la distribution est plus eacutetaleacutee agrave
droite on dit quil y a obliciteacute agrave gauche
Lorsque le coefficient dasymeacutetrie est neacutegatif la distribution est plus eacutetaleacutee agrave
gauche on dit quil y a obliciteacute agrave droite
On utilise souvent un coefficient dasymeacutetrie de Pearson baseacute sur les moments
centers
Ce coefficient dasymeacutetrie est toujours positif Il est nul pour une distribution
agrave densiteacute de freacutequence symeacutetrique telle la loi de Gauss
b) Exemples
1deg Consideacuterons la variable statistique X de distribution
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
19
2deg Consideacuterons la variable statistique X de distribution
Coefficient daplatissement
Lagrave encore plusieurs deacutefinitions sont possible
Le coefficient daplatissement de Pearson est
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
20
Le coefficient daplatissement de Yule est
On peut se demander pourquoi ndash 3
Cest parce que en Probabiliteacutes on peut deacutemontrer que le coefficient dapla-
tissement de Pearson pour une variable aleacuteatoire reacuteelle qui suit une loi de Gauss
est eacutegal agrave 3
Il est alors naturel pour comparer lapplatissement dune distribution statis-
tique agrave laplatissement dune variable de Gauss dintroduire le coefficient F 2 =
β 2 ndash 3
Si F2 est eacutegal agrave 0 le polygone statistique de la variable reacuteduite a le mecircme apl
tissement quune courbe en cloche on dit que la variable est meacutesokurtique
Si F2 est gt 0 le polygone statistique de la variable reacuteduite est moins aplati
quune courbe en cloche on dit que la variable est leptokurtique
Si F2 est lt 0 le polygone statistique de la variable reacuteduite est plus aplati quune
courbe en cloche on dit que la variable est platykurtique
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
21
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
22
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
1
Lois continues
I Loi uniforme
1) Deacutefinition
La variable X est de loi uniforme sur le segment [a b] si et seulement si
119883 120088[119886119887] hArr 119891(119909) = 1
119887 minus 119886 119904119894 119886 le 119909 le 119887
0 119904119894119899119900119899
2) Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=
0 119904119894 119909 lt 119886
int1
119887 minus 119886119889119905 =
119909
119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 lt 119887
int1
119887 minus 119886119889119905 = 1 119904119894 119909 ge 119887
119887
119886
119865(119909) = 0 119904119894 119909 gt 119886
119909 minus 119886
119887 minus 119886 119904119894 119886 le 119909 le 119887
3) Espeacuterance et variance
119883 120088[119886119887] rArr 119864(119909) =
119886 + 119887
2
119881(119909) =(119887 minus 119886)2
12
119864(119909) = int119909119891(119909)119889119909 = int119909 times1
119887 minus 119886119889119909 =
1
119887 minus 119886[1199092
2]119886
119887
=119886 + 119887
2
119887
119886
119887
119886
119881(119909) = 119864(1198832) minus 1198642(119883) 119905119890119897 119902119906119890 119864(1198832) = int1199092 times1
119887 minus 119886119889119909
119887
119886
II Loi normale ou de Laplace-Gauss ou de Gauss
Loi normale geacuteneacuterale 120029(119950120648120784)
Deacutefinition
119883 119977(119898 1205902) 119900119906 119898 isin ℝ 119890119905 120590 gt 0 119904119904119894 119891(119909) =1
120590radic2120587119890minus121205902
(119909minus119898)2 forall119909 isin ℝ
Remarque 119950 = 119916(119935) 120648120784 = 119933(119935)
Graphe de f
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
2
Courbe en cloche
x = m axe de symeacutetrie
2 points drsquoinflexion (نقطتا انعطاف) 119909 = ∓120590
Fonction de reacutepartition
119865(119909) = 119875(119883 le 119909) = int119891(119905)119889119905
119909
minusinfin
=1
120590radic2120587119890minus121205902
(119909minus119898)2
Graphiquement
Proprieacuteteacutes regravegle des 3120590
119875(119898 minus 120590 lt 119883 lt 119898 + 120590) = 06827 cong 68
119875(119898 minus 2120590 lt 119883 lt 119898 + 2120590) = 09545 cong 95
119875(119898 minus 3120590 lt 119883 lt 119898 + 3120590) = 09973 cong 997
Loi normale centreacute reacuteduite 120029(120782120783)
Deacutefinition
x=m2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
x
y
t=x2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
x
y
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
3
119883 119977(01) 119904119904119894 119891(119909) =1
radic2120587119890minus121199112 forall119911 isin ℝ
Graphe
Fonction de reacutepartition
120651(119963) = 119927(119937 le 119963) = int120783
radic120784120645119942minus120783120784119957120784119941119957
119963
minusinfin
Graphiquement
Analytiquement
Lrsquointeacutegrale preacuteceacutedente a eacuteteacute calculeacutee par interpolation et donneacutee sous forme de table
statistique
Proprieacuteteacutes de 120651(119963)
i 120593(0) = 119875(119885 le 0) =1
2= 119875(119885 ge 0)
ii 120593(minus119911) = 1 minus 120593(119911)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
0 1
004
z
f(z)
t=z
P(Zltz)
2 3 4 5 6-1-2-3-4-5-6
008
012
016
02
-004
0 1
004
t
f(t)
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
4
120593(119885 le minus119911) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911)
iii 119878119894 119911 gt 0 rArr 120593(119911) gt1
2
119878119894 119911 lt 0 rArr 120593(119911) lt1
2
Lecture de la table
Lecture directe z donneacute rarr 119897119894119903119890 120593(119911) = 119875(119885 le 119911)
bull 119904119894 0 le 119911 lt 4 rarr 119897119894119903119890 120593(119911)119904119906119903 119897119886 119905119886119887119897119890
bull 119904119894 119911 ge 4 rarr 120593(119911) = 4
bull 119904119894 119911 lt 0 rarr 120593(119911) = 1 minus 120593(minus119911)
Lecture inverse 120593(119911) = 120572 119888119900119899119899119906 rarr 119897119894119903119890 119911
120593(119911) gt 120572 gt1
2rarr 119897119894119903119890 119911
Exemple
120593(119911) = 120572 = 06700 rarr 119911 = 044
120593(119911) = 120572 = 08930 rarr 119899prime119890119904119905 119901119886119904 119889119886119899119904 119897119886 119905119886119887119897119890
08925 lt 08930 lt 08944 rarr 120593(124) lt 120593(119911) lt 120593(125) 119900119906 120593(119911) = 120593(124) equiv
119897119886119907119886119897119890119906119903 119897119886 119901119897119906119904 119901119903119900119888ℎ119890 rarr 119911 = 124
120593(119911) = 120572 lt1
2rarr 119911
Exemple 120593(119911) = 025 lt1
2rarr 119911 lt 0119874119899 119888119886119897119888119906119897119890119903119886 120593(minus119911) = 1 minus 120593(119911)
= 1 minus 025 = 075
07486 lt 075 lt 07517 rarr 120593(067) lt 120593(minus119911) lt 120593(068)
120593(minus119911) = 120593(067) rarr minus119911 = 067 rarr 119911 = minus067
Theacuteoregraveme
119904119900119894119905 119883 119977(119898 1205902)
119885 =119883 minus119898
120590
rArr 119885 119977(01)
119883 119977(119898 1205902) rarr 119875(119883 le 119909) =
(119883 le 119909) ⟺ (119883 minus119898 le 119909 minus119898) ⟺ (119883 minus119898
120590le119909 minus119898
120590)
119875(119883 le 119909) = 119875(119885 le 119911) = 120593(119911) 119886119907119890119888 119911 =119909 minus119898
120590
119875(119883 ge 119909) = 119875(119885 ge 119911) = 1 minus 119875(119885 le 119911) = 1 minus 120593(119911) = 120593(minus119911)
Exemple
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
5
119883 119977(119898 1205902) 119898 = 2 1205902 = 9 rarr
119875(119883 le 5) =
1199090 = 119904119894 119875(119909 ge 1199090) = 005
119875(119883 le 5) = 119875 (119883 minus119898
120590le5 minus119898
120590) = 119875 (119885 le
5 minus 2
3) = 119875(119885 le 1) = 08413 119886119907119890119888 119885
119977(01)
119875(119883 ge 1199090) = 005 ⟺ 119875 (119885 ge1199090 minus 2
3) = 005 ⟺ 1 minus 119875 (119885 le
1199090 minus 2
3) = 005
⟺ 119875 (119885 le1199090 minus 2
3) = 095 ⟺
1199090 minus 2
3= 165 ⟺ 1199090 = 695
Espeacuterance et variance
119904119894 119885 119977(01) ⟹ 119864(119885) = 0119881(119885) = 0
119904119894 119883 119977(119898 1205902) ⟹ 119864(119883) = 119898
119881(119883) = 1205902
Approximation de la loi binomiale par la loi normale
Soit X une loi binomiale de paramegravetre n p 119883 ℬ(119899 119901)
Dans la pratique si 119899 gt 30 119899119901 ge 5 119890119905 119899119902 gt 5 ⟹ ℬ(119899 119901) cong 119977(119898 1205902) 119900119906 119898 =
119899119901 119890119905 1205902 = 119899119901119902
Exercice
Selon la loi de lrsquoheacutereacutediteacute Mendeacutelienne la population theacuteorique de sourds-muets de
naissance est p = 025 lorsque les parents sont des consanguins porteurs drsquoun certain gegravene
reacutecessif عندما يكون الوالدان قرينان يحملان جينا متنحيا On considegravere une population de nouveau-neacutes issus
de tels parents
1 Soit X le nombre drsquoenfants sourds-muets sur un eacutechantillon de 10 enfants calculer
119875(119883 gt 1) 119875(119883 ge 1)
2 Soit Y le nombre drsquoenfants sourds-muets sur un eacutechantillon de 300 enfants
bull Deacuteterminer la probabiliteacute drsquoavoir au moins 60 sourds-muets parmi les 300 enfants
bull Deacuteterminer le nombre y0 drsquoenfants tel que 119875(119884 gt 1199100) =1
2
Solution
1 119883 ℬ(119899 119901) 119886119907119890119888 119899 = 10 119890119905 119901 = 025
119875(119883 gt 1) = 1 minus 119875(119883 le 1) = 1 minus [119875(119883 = 0) + 119875(119883 = 1)] = 1 minus 0056 minus 0187 =
0757
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
6
119875(119883 = 0) = 119862100 (025)0(075)10 = 07510 = 0056
119875(119883 = 1) = 119862101 (025)1(075)9 = 10 times 025 times 0075 = 0187
2 Y nombre de sourds-muets sur un eacutechantillon de 300
119884 ℬ(300025) cong 119884 119977(119898 1205902) 119886119907119890119888 119898 = 119899119901 = 300 times 025 = 75 gt
5 119890119905 1205902 = 119899119901119902 = 300 times 025 times 075 = 5625
bull 119875(119884 ge 60) = 119875 (119885 ge60minus119898
120590) = 119875 (119885 ge
60minus75
75) = 119875(119885 ge minus2) = 119875(119885 le 2) =
120593(2) = 09772
bull 119875(119884 gt 1199100) =1
2⟺ 119875(119885 gt
1199100minus75
75) =
1
2⟺ 1minus 119875 (119885 le
1199100minus75
75) =
1
2⟺ 119875(119885 le
1199100minus75
75) = 05 ⟺
1199100minus75
75= 0 ⟺ 1199100 = 75
Loi de la somme
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898119894 1205901198942)
alors
119883 =sum119883119894 119977(sum119898119894 sum120590119894
2
119899
119894=1
119899
119894=1
)
119899
119894=1
119884 = 119886119883 + 119887 119977(119886119898 + 119887 11988621205902)
Eacutechantillonnage
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que 119883119894 119977(119898 1205902)
alors
bull 119883 = sum 119883119894 119899119894=1 119977(119899119898 1198991205902)
bull =1
119899sum 119883119894 119977(119898
1205902
119899) 119898119900119910119890119899119899119890 eacute119888ℎ119886119899119905119894119897119897119900119899119899119886119892119890119899
119894=1
Deacutefinition
La suite (1198831 1198832 hellip 119883119899) constitue un eacutechantillon aleacuteatoire drsquoune population de la loi
normale
Theacuteoregraveme central limite
Soit (119883119894)119894=1hellip119899 une suite de variables aleacuteatoires indeacutependantes telles que
119864(119883119894) = 119898 119890119905 119881(119883119894) = 1205902 forall119894 rArr119899gt30 sum119883119894
119899
119894=1
119977(119899119898 1198991205902) 119890119905
=1
119899sum119883119894 119977(119898
1205902
119899)
119899
119894=1
Remarque
119861(119899 119901) asymp 119875(119899119901)
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
7
119861(119899 119901) asymp 119977(119899119901 119899119901119902)
Lois relatives agrave la loi normale
Loi de Khi-deux 120652120784
La loi de Pearson ou loi de χ2 (Khi deux) trouve de nombreuses applications dans le cadre
de la comparaison de proportions des tests de conformiteacute drsquoune distribution observeacutee agrave une
distribution theacuteorique et le test drsquoindeacutependance de deux caractegraveres qualitatifs Ce sont
les test du khi-deux
Deacutefinition On appelle χ2 agrave n degreacutes de liberteacute la variable aleacuteatoire deacutefinie par
1205942 = 11988312 + 1198832
2 +⋯+ 1198831198992 119886119907119890119888 119883119894 119977(01)
Graphe
Espeacuterance et variance
119864(119883) = 119899 119890119905 119881(119883) = 2119899
Lecture de la table
La loi du khi-deux nrsquoest pas symeacutetrique
Exemple 119883 120594102
119886 = 119875(119883 ge 119886) = 095
119887 = 119875(119883 le 119887) = 095
119875(119883 ge 119887) = 005
119878119894 119899 gt 30 rArr 1205941198992 asymp 119977(119898 1205902)119886119907119890119888 119898 = 119899 119890119905 1205902 = 2119899
Theacuteoregraveme
119878119894
1198831 12059411989912
1198832 12059411989922
1198831119894119899119889eacute119901 1198832
rArr 1198831 + 1198832 1205941198991+11989922
Theacuteoregraveme
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
8
119878119900119894119905 119885 119977(01) 119890119905 119904119900119894119905 119883 = 1198852 rArr 119883 12059412
Loi de Student
La loi de Student (ou loi de Student-Fisher) est utiliseacutee lors des tests de comparaison de
paramegravetres comme la moyenne et dans lrsquoestimation de paramegravetres de la population agrave partir
de donneacutees sur un eacutechantillon (Test de Student) Student est le pseudonyme du statisticien
anglais Gosset qui travaillait comme conseiller agrave la brasserie Guinness et qui publia en
1908 sous ce nom une eacutetude portant sur cette variable aleacuteatoire
Deacutefinition
Soit X une variable aleacuteatoire suivant une loi normale reacuteduite 119977(01) et Y une variable
aleacuteatoire suivant une loi de khi-deux (Pearson) agrave n degreacutes de
liberteacute 12059412 X et Y eacutetant indeacutependantes on dit alors que 119879119899 =
119883
radic119884
119899
suit une loi de
Student agrave n degreacutes de liberteacute
Graphe
Espeacuterance et variance
119864(119879) = 0 119904119894 119899 gt 1 119881(119879) =119899
119899minus2 119904119894 119899 gt 2
Loi de Fisher-Snedecor
La loi de Fisher-Snedecor est utiliseacutee pour comparer deux variances observeacutees et sert
surtout dans les tregraves nombreux tests drsquoanalyse de variance et de covariance
Deacutefinition
Soit X et Y deux variables aleacuteatoires indeacutependantes suivant une loi de Pearson (khi-
deux) respectivement agrave n et m degreacutes de liberteacute
On dit que 119865 =119883119899frasl
119884119898frasl
F suit une loi de Fisher-Snedecor agrave n m degreacutes de liberteacute
Graphe
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
9
Espeacuterance et variance
119864(119865) =119898
119898 minus 2 119904119894 119898 gt 2 119881(119865) =
21198982(119899 +119898 minus 2)
119899(119898 minus 2)2(119898 minus 4) 119904119894 119898 gt 4
Exercice
Dans une certaine pathologie la dureacutee drsquohospitalisation est distribueacutee selon un 120594182
QCM
1 Lrsquoeacutecart-type de la dureacutee drsquohospitalisation est 6 jours
2 50 des sujets ont une dureacutee drsquohospitalisation supeacuterieure agrave 18 jours
3 Plus de 5 des patients restent hospitaliseacutes au moins 4 semaines
4 Plus de 10 des patients restent hospitaliseacutes au moins 4 semaines
5 Moins de 25 des patients restent hospitaliseacutes entre 3 et 4 semaines
Reacutepence
1 119881(119883) = 2119899 = 2 times 18 = 36 rarr 120590(119883) = radic36 = 6
2 119875(119883 gt 18) = 05 119891119886119906119909
119875(119883 gt 1199090) = 05 ⟶ 1199090 = 119898
119883 120594182 ⟶ 119864(119883) = 18 119895119900119906119903119904
119875(119883 gt 1199090) = 119875(119883 lt 1199090) = 05 ⟶ 1199090 = 119898eacute119889119894119886119899119890
119897119886 119897119900119894 1205942119899prime119890119904119905119901119886119904 119904119910119898eacute119905119903119894119902119906119890 119886119897119900119903119904 119872119890 ne 119898
Loi symeacutetrique Me= m=Mo
3 119875(119883 gt 119886) = 005
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
10
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
Seacuteries statistiques doubles (agrave deux variables)
Deacutefinition crsquoest lrsquoeacutetude simultaneacutee de 2 variables quantitatives X et Y drsquoune mecircme
population
A chaque individu i (1 le 119894 le 119899) correspond un couple (xi yi ) ougrave xi est la modaliteacute du caractegravere
X et yi la modaliteacute du caractegravere Y Lrsquoensemble des couples (xi yi) deacutefinit une seacuterie statistique
double
Exemple
Le poids X et la taille Y drsquoune personne
Repreacutesentation graphique
La seacuterie statistique double est repreacutesenteacutee par un nuage de points dans un repegravere du plan
constitueacute des points Mi (xi yi)
Exemple
X taille en cm 170 150 165 169 180
Y poids en kg 65 45 60 62 70
Ajustement lineacuteaire (droite de reacutegression)
On cherche une droite y = ax + b qui rapproche le mieux les points du nuage
Droite de reacutegression de y en x Dy(x)
0
10
20
30
40
50
60
70
80
145 150 155 160 165 170 175 180 185
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
Supposons les couples (xi yi) de variables (X Y) approximativement aligneacutes
La meacutethode des moindres carreacutes permet de deacuteterminer les coefficients et de la droite =
119909 + avec
=sum (119909119894 minus )(119910119894 minus )119894
sum (119909119894 minus )2119894
= minus =sum 119909119894
119899 =
sum 119910119894
119899
Droite de reacutegression de x en y Dx(y
Elle est obtenue en minimisant la somme des carreacutes des eacutecarts des points agrave la droite par rapport
agrave lrsquoaxe (OX) on obtient une droite drsquoeacutequation = 119886prime119910 + 119887prime avec
119886prime =sum (119909119894 minus )(119910119894 minus )119894
sum (119910119894 minus )2119894
119887prime = minus
y=ax+b
x=ay+b
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
Covariance
Deacutefinition
On appelle covariance de (XY) le nombre noteacute cov(XY) tel que
119888119900119907(119909 119910) =1
119899sum(119909119894 minus )(119910119894 minus )
119894
=1
119899sum 119909119894119910119894 minus
119894
Remarque
1) En posant X = Y on retrouve lrsquoexpression de la variance
2) =119888119900119907(119883119884)
1205901198832
119886prime =119888119900119907(119883119884)
1205901199102
Le coefficient de correacutelation
Il Est calculeacute agrave partir de lrsquoexpression
119903119883119884 =119888119900119907(119883 119884)
120590119883120590119884
Proposition
1) Si 119903119883119884 = 0 alors les caractegraveres associent aux variables (X Y) sont indeacutependant
2) Si 0 lt 119903119883119884 lt 1 alors la correacutelation est positive (x et y varient au mecircme sens)
3) Si minus1 lt 119903119883119884 lt 0 la correacutelation est neacutegative (x et y varient en sens contraire)
Remarque
bull 119886prime = 1199031198831198842
bull Si |119903119883119884| cong 1 rArr
la correacutelation est maximale 119883 et 119884 sont fortement correacuteleacutes (deacutependants)
On consideacuterera |119903119883119884| cong 1 119904119894 119903119883119884 ge 081
bull Si 119903119883119884 = 0 la correacutelation est nulle (119883 et 119884 sont indeacutependants)
bull On a = minus 119890119905 119887prime = minus 119886prime implique que Dx(Y) et DY(X) se correspondent en un
point 119866( ) appeleacute centre de graviteacute en formant un angle 120579
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
Exemple
Supposons un eacutechantillon aleacuteatoire de 4 firmes pharmaceutiques preacutesentant les deacutepenses de
recherche X et les profits Y suivants (en milliers de dollars)
X Y
40 50
40 60
30 40
50 50
Trouvez la droite de reacutegression et le coefficient de correacutelation
Calculons tout dabord X et Y
119909 =1
119899sum 119909119894 =
1
4(40 + 40 + 30 + 50) =
160
4= 40
119910 =1
119899sum 119910119894 =
1
4(50 + 60 + 40 + 50) =
200
4= 50
Compleacutetons le tableau suivant
119909119894 119910119894 119909 minus 119909 119910 minus 119910 (119909 minus 119909)2 (119910 minus 119910)2 (119909 minus ) (119910 minus 119910)
40 50 0 0 0 0 0
40 60 0 +10 0 +100 0
30 40 minus10 minus10 +100 +100 +100
50 50 +10 0 +100 0 0
sum 200 200 100
On a donc
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
sum(119909119894 minus 119909)2 = 200
sum(119910119894 minus 119910)2 = 200
sum(119909119894 minus 119909) (119910119894 minus 119910) = 100
Les coefficients de la droite de reacutegression sont
=sum(119909119894 minus 119909) (119910119894 minus 119910)
sum(119909119894 minus 119909)2=
100
200= 05
= 119910 minus 119909 = 50 minus 05 times 40 = 50 minus 20 = 30
Et le coefficient de correacutelation
119903119883119884 =sum(119909119894 minus 119909) (119910119894 minus 119910)
radicsum(119909119894 minus 119909)2 times radicsum(119910119894 minus 119910)2=
100
radic200 times radic200=
100
200= 05
La correacutelation est positive et de qualiteacute moyenne
Y
X 30 50
40
50
60
40 60
- Statistique
- Lois continues
- Correacutelation et regreacutession
-
- Statistique
- Lois continues
- Correacutelation et regreacutession
-