Chapitre 3 - Comparer plusieurs groupes
2 groupes >2 groupes
A B A B C
Est-ce que la moyenne des 2 groupes diffère ?
Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?
Comparer 2 groupes : le test t de Student
Approche similaire au test Z.
S’applique particulièrement pour de petits échantillons (n<30)
Suppose la normalité des distributions et l’égalité des variances
On pose H0: 1 - 2 = 0 pas de différence entre les moyennes
H1: 1 - 2 0 différence entre les moyennes
On calcule la statistique tc. La formule varie selon les caractéristiques
des échantillons.
Dégré de liberté (DDL) important car la forme de la distribution change
A spécifier lors du calcul de probabilité
2
22
1
21
21 )(
ns
ns
mmtobs
(1)
n1 et n2 inégaux et tous les deux > 30, ddl= n1 + n2 – 2
2
22
1
21
2121
ns
ns
mmmmZZobs
Pour rappel, test Z pour grands
échantillonsLa loi de Student converge vers la loi normale pour n grand
On utilise généralement le test t de student, même pour de grands échantillons, car il est plus robuste au déviations de normalité des échantillons
)(1
)(
22
21
21
ssn
mmtobs
(3)
n1 et n2 égaux (=n) quelque soit leur valeur, ddl= 2(n–1)
n1 et n2 inégaux ou tous les deux < 30, ddl= n1 + n2 – 2
)(2
)1()1(
)(
21
21
21
222
211
21
nnnn
nnsnsn
mmtobs
(2)
On compare tobs à la valeur critique de t pour un risque et pour un degré de liberté (ddl) déterminé
0
t
Test unilatéral (à droite)
t varie avec le ddl
Si tobs < t H0 acceptée
Si tobs > t H0 rejetée
0
t
Test bilatéral
t varie avec le ddl
Si ItobsI < ItIH0 acceptée
Si ItobsI > ItI H0 rejetée
On teste la différence de taille moyenne des filles de 2 amphis
Amphi 1
158163151…175168165
281.640.28
Amphi 2
159149153…178159167
251.660.32
nMoyenneEcart-type
n < 28, n inégaux formule (2)
)(2
)1()1(
)(
21
21
21
222
211
21
nnnn
nnsnsn
mmtobs
0.020
0.0897 0.0757
tobs=0.2427Test bilatéral
Exemple d’application
tobs=0.2427 < t/2= H0 acceptée
Pas de différence significative entre les tailles moyennes des 2 amphis
Valeurs données dans le tableau pour /2 !
Test ANOVA (ANalysis Of VAriance)C
om
pare
r p
lus
de 2
gro
up
es
1 2 3 k
X11 X12 . X1k
X21 . . .
. . . .
. . .
Xn11 . . Xnkk
grouprivière étang fossé
15 16 620 18 715 12 913 17 1418 13 1516 22 1222 14 118 18 1210 21 811 25 5
• Question de recherche : Est-ce que la taille des grenouilles vertes diffère entre les 3 types de milieux ?
• Question statistique : Est-ce que les différences de moyenne entre les 3 habitats sont dues au hasard ?
Comparaison de la taille des individus d’une espèce d’amphibien dans 3 milieux
On s’intéresse aux différentes sources de dispersion des données.
SCT SCI SCE
• Variance1
k
SCEVE
kN
SCIVI
n
ii XxSCT
1
2)(
k
j
nj
ijij xxSCI
1 1
2)(
k
jjj XxnSCE
1
2)(
• Somme des carrés
kN 1k1N• DDL
N=nombre total d’individusk= nombre de groupes
• Rapport des variances F
VI
VEFobs
Fobs suit une loi de Fisher-Snedecor à n-k et k-1 degrés de liberté, avec k = nombre de groupes, n = nombre total d’individus
On pose, H0 : m1 = m2 = … = mk H1 : la moyenne d’au moins un échantillon diffère des autres
On réalise un test unilatéral, car on teste VE (inter-groupe) > VI (intra-groupe)
On calcule F(n-k, k-1) pour le risque et les degré de liberté n-k et k-1 (la forme de la courbe change avec les ddl)
Si Fobs < F(n-k, k-1) H0 acceptée
Si Fobs > F(n-k, k-1) H0 rejetée
F
H0 H0
Critères d’application
- normalité des populations d’origine (testable)
- égalité des variances des différents groupes (testable)
Test de Kolmogorov-Smirnov, Liliefors, Shapiro-Wilk
Test de Levene
Mais test ANOVA robuste aux
- défauts de normalité si l’asymétrie et l’applatissement ne s’écartent pas trop de 0.
- Hétérogénéité des variances si les échantillons sont de même taille ou du même ordre de grandeur.
Pourquoi ne pas faire plusieurs tests t ?
Si =0.05 (1/20), signifie que l’on a 1 chance sur 20 d’observer une valeur dans la zone de réjection de H0.
Si 20 comparaisons, on s’attend à ce qu’une comparaison soit dans cet intervalle (par effet de l’échantillonnage)
On corrige donc le seuil lors de comparaisons multiples
Correction de Bonferroni
’=/n n=nombre de comparaisons
Procédure à suivre
• On peut tester les différences entre groupes pris deux à deux si et seulement si on observe une différence significative globale entre les groupes.
• doit être corrigé lorsque l’on effectue plusieurs comparaisons non indépendantes sur un jeu de données.
• On utilise des tests post hoc ou a posteriori qui prennent en compte le problème des comparaisons multiples (Bonferroni par exemple)
On compare l’effet de 3 régimes alimentaires sur la croissance d’une espèce de daphnie. On mesure la taille des individus après 3 semaines.
H0= les 3 régimes n’influencent pas la taille des daphnies ou
H0= les tailles moyennes dans les 3 groupes sont égales
H1= au moins un des groupes diffère des autres
0
5
10
15
20
Régime 1 Régime 2 Régime 3
Groupe expérimental
Tai
lle à
3 s
emai
nes
8.818.310.9
11.012.78.0
9.714.88.1
9.918.16.4
11.616.411.4
Régime 3Régime 2Régime 1
8.818.310.9
11.012.78.0
9.714.88.1
9.918.16.4
11.616.411.4
Régime 3Régime 2Régime 1
Exemple d’application
Régime 1 Régime 2 Régime 3
1 11.4 16.4 11.6
2 6.4 18.1 9.9
3 8.1 14.8 9.7
4 8.0 12.7 11.0
5 10.9 18.3 8.8
moyenne 9.0 16.1 10.2
SCintra=SC1+SC2+SC3 = 44.80
ddl intra = n-k = 15-3 = 12
SC1 = (11.4-9.0)²+(6.4-9.0)²+(8.1-9.0)²+(8.0-9.0)²+(10.9-9.0)² = 18.06SC2 = … = 22.00SC3 = … = 4.74
• Dispersion intra-groupe
Régime 1 Régime 2 Régime 3 Total
n 5 5 5
moyenne 8.95 16.07 10.20 11.74
SCinter = 5*(8.95-11.74)²+5*(16.07-11.74)²+5*(10.20-11.74)² = 144.38
ddlinter = k-1 = 3-1 = 2
• Dispersion inter-groupe
Inter-groupe
Intr
a-g
rou
pe
• Valeur seuil = F0.05 (1, 2)
avec 1= ddl inter-groupe 2= ddl intra-groupe
F0.05 (3, 4)=6.59 F0.01 (2, 4)=18.0Exemples :
F2,12= Fobs=(SCinter/ddlinter) / (SCintra/ddlintra)
= (144.38/2) / (44.80/12)
= 19.33
F0.05, 2,12= Fseuil = 3.88
FseuilFobs
Fobs > Fseuil
H0 est rejetée, H1 acceptéeAu moins un des 3 groupes diffère des autres
• Rapport des variances
Source de dispersion ddl SC CM F P
inter-groupe 2 144.386 72.193 19.337 0.000
intra-groupe 12 44.802 3.733
total 14 189.188
• Tableau d’ANOVA issu d’un logiciel
p <
H0 est rejetée, H1 acceptée
Au moins un des 3 groupes diffère des autres
Rejet d’une hypothèse nulle H0 correcte
Deux types de risques
z zobs
échantillon 1 échantillon 2
PopOn décide que les moyennes de deux échantillons sont différentes alors qu’elles ne le sont pas.
zobs est fonction de x1-x2
Les 2 échantillons sont issus d’une même population mais zobs > z
Acceptation d’une hypothèse nulle incorrecte
échantillon 1 échantillon 2
zzobs
population 1 population 2
On décide que les moyennes de deux échantillons ne sont pas différentes alors qu’elles le sont.
zobs est fonction de x1-x2
Les 2 échantillons ne sont pas issus d’une même population mais zobs < z
Du point de vue statistique, rejeter H0 ne signifie pas qu’il n’y a pas de différence (ou de relation). Simplement, si elle existe, celle-ci n’est pas détectée
Erreurs de type 1 et de type 2
Décision correcteeffet détecté
Erreur type IRisque
effet détectéeffet n’existe pas
Décision correcteeffet non détectéeffet n’existe pas
Erreur type IIRisque
effet non détecté
Rejet H0 Acceptation H0
Effet
Pas d’effet
On cherche souvent à éviter de conclure à un effet qui n’existe pas (erreur type 1).
Mais erreur type 2 peut avoir conséquencesProgramme de suivi d’une espèce en danger
Si conclusion erronée d’une diminution des populations (type 1)
Actions de conservation non nécessaires
Si conclusion erronée d’une stabilité des populations (type 2)
Risque d’extinction
Top Related