Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
1 Analyse de la variance multivariée Michel Tenenhaus.
-
Upload
gratien-delaporte -
Category
Documents
-
view
117 -
download
1
Transcript of 1 Analyse de la variance multivariée Michel Tenenhaus.
1
Analyse de la variance multivariée
Michel Tenenhaus
2
Les données
Variables dépendantes :
- Y1, Y2, …, Yp
Variables indépendantes :
- X1, X2, …, Xk
Les variables Xj sont quantitatives ou qualitatives.
3
Ventes d’oranges
Variables dépendantes :
- Q1 = Ventes de la première variété d’orange
- Q2 = Ventes de la deuxième variété d’orange
Variables indépendantes :
- Magasins (1 à 6)
- Jour de la semaine (1 à 6)
- P1 = Prix de la première variété
- P2 = Prix de la deuxième variété
Le modèle
11 1
MAGASIN JO
1
12 12
13 131 1 11 1 12 2 1
14 14
15 15
UR
1 1
2 2
3 3Q P P
4 4
5 5
6 0 6 0
21 2
MAGASIN JO
1
22 22
23 232 2 21 1 22 2 2
24 24
25 25
UR
1 1
2 2
3 3Q P P
4 4
5 5
6 0 6 0
5
Résultats pour Q1
Tests of Between-Subjects Effects
Dependent Variable: Q1
1225.368a 12 102.114 5.752 .000
373.677 1 373.677 21.049 .000
223.833 5 44.767 2.522 .058
433.097 5 86.619 4.879 .003
538.169 1 538.169 30.315 .000
39.542 1 39.542 2.227 .149
408.308 23 17.753
5391.693 36
1633.676 35
SourceCorrected Model
Intercept
STORE
DAY
P1
P2
Error
Total
Corrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = .750 (Adjusted R Squared = .620)a.
6
Résultats pour Q1
Parameter Estimates
Dependent Variable: Q1
51.700 9.791 5.280 .000 31.446 71.954
-7.645 2.692 -2.840 .009 -13.214 -2.077
-5.602 2.464 -2.273 .033 -10.700 -.505
-7.363 2.464 -2.988 .007 -12.460 -2.265
-4.365 2.488 -1.755 .093 -9.511 .781
-5.021 2.436 -2.061 .051 -10.060 1.898E-02
0a . . . . .
-5.830 2.519 -2.314 .030 -11.042 -.619
-4.900 2.447 -2.002 .057 -9.962 .162
2.270 2.540 .894 .381 -2.985 7.525
-2.652 2.447 -1.084 .290 -7.714 2.409
4.047 2.557 1.583 .127 -1.242 9.336
0a . . . . .
-.830 .151 -5.506 .000 -1.142 -.518
.149 .100 1.492 .149 -5.747E-02 .355
ParameterIntercept
[STORE=1]
[STORE=2]
[STORE=3]
[STORE=4]
[STORE=5]
[STORE=6]
[DAY=1]
[DAY=2]
[DAY=3]
[DAY=4]
[DAY=5]
[DAY=6]
P1
P2
B Std. Error t Sig. Lower Bound Upper Bound
95% Confidence Interval
This parameter is set to zero because it is redundant.a.
7
Résultats pour Q2
Tests of Between-Subjects Effects
Dependent Variable: Q2
2043.267a 12 170.272 5.540 .000
139.568 1 139.568 4.541 .044
155.099 5 31.020 1.009 .435
614.409 5 122.882 3.998 .009
83.923 1 83.923 2.730 .112
852.341 1 852.341 27.731 .000
706.941 23 30.737
7155.720 36
2750.208 35
SourceCorrected Model
Intercept
STORE
DAY
P1
P2
Error
Total
Corrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = .743 (Adjusted R Squared = .609)a.
8
Résultats pour Q2
Parameter Estimates
Dependent Variable: Q2
29.512 12.883 2.291 .031 2.861 56.163
-3.677 3.542 -1.038 .310 -11.004 3.651
1.991 3.242 .614 .545 -4.716 8.699
-3.716 3.242 -1.146 .264 -10.424 2.991
.297 3.273 .091 .928 -6.474 7.068
.879 3.206 .274 .786 -5.752 7.510
0a . . . . .
-4.333 3.315 -1.307 .204 -11.191 2.524
-8.072 3.220 -2.507 .020 -14.733 -1.411
4.549 3.343 1.361 .187 -2.366 11.464
-1.004 3.219 -.312 .758 -7.664 5.656
2.942 3.364 .875 .391 -4.017 9.901
0a . . . . .
.328 .198 1.652 .112 -8.261E-02 .738
-.691 .131 -5.266 .000 -.963 -.420
ParameterIntercept
[STORE=1]
[STORE=2]
[STORE=3]
[STORE=4]
[STORE=5]
[STORE=6]
[DAY=1]
[DAY=2]
[DAY=3]
[DAY=4]
[DAY=5]
[DAY=6]
P1
P2
B Std. Error t Sig. Lower Bound Upper Bound
95% Confidence Interval
This parameter is set to zero because it is redundant.a.
9
Analyse de la covariance multivariée
Pour chaque facteur ou covariable on recherche une
combinaison linéaire Z1 = a11Y1+…+a1pYp maximisant le F
correspondant dans le modèle reliant Z1 aux variables X.
On note 1 la statistique F aux degrés de liberté près :
1
Nb de degrés de liberté du dénominateurF
Nb de degrés de liberté du numérateur
1
Somme des carrés expliquée
Somme des carrés résiduelle
10
Exemple pour le facteur Store
Anova pour Z1 = a11Q1 + a12Q2 rendant maximum le F de Store
F maximum1
11
Analyse de la covariance multivariée
On recherche de la même manière une deuxième combinaison linéaire Z2 orthogonale à Z1 maximisant le F. On note 2 la statistique correspondante.
En itérant cette procédure on obtient p combinaisons linéaires Zh. et p valeurs h.
12
Exemple pour le facteur Store
Anova pour Z2 = a21Q1 + a22Q2 orthogonal à Z1
rendant maximum le F de Store
F maximum1 1 + 2
13
Statistique de Wilks
p
h 1 h
1( )1
Statistique de Wilks :
Transformation de Rao :1/ t
1/ t
1 rt 2uF
pq
où : q = Nombre de paramètres testés par Yj
v = n - k - 1r = v - (p - q + 1)/2u = (pq - 2)/4t = [(p2q2 - 4)/(p2 + q2 - 5)]1/2 si p2 + q2 - 5 > 0
= 1 sinon
14
Statistique de Wilks
Sous l’hypothèse testée H0 la statistique F suit approximativement une loi de Fisher-Snedecor à (pq, rt-2u) degrés de liberté.
La loi est exacte si min(p,q) 2.
15
Statistique de Wilks pour Store
1 = .574 , 2 = .159
p
h 1 h
1 1 1( ) 0.5481 1 .574 1 .159
q = nb de paramètres testés par Yj = 5
v = n - k - 1 = 36 - 12 -1 = 23 r = v - (p - q + 1)/2 = 23 - (2 - 5 +1)/2 = 24u = (pq - 2)/4 = (2*5 - 2)/4 = 2t = [(p2q2 - 4)/(p2 + q2 - 5)]1/2 = [(4*25 - 4)/(4 + 25 - 5]1/2 = 2
16
Utilisation du F de Rao pour la statistique de Wilks pour le facteur Score
1/ t
1/ t
1/ 2
1/ 2
1 rt 2uF
pq
1 .548 24 2 2 2
.548 2 5 1.544
On rejette H0 au risque si : F > F1- (pq, rt-2u)
Ici : pq = 2*5 = 10, rt - 2u = 24*2 - 2*2 = 44 min(p, q) = 2, d ’où loi exacte
17
Trace de Pillai
ph
h 1 h
V1
Trace de Pillai :
Transformation F :
2
1
V 2m s 1F
s V 2m s 1
où : s = min (p,q)
m1 = (|p - q| - 1)/2m2 = (v - p - 1)/2
18
Trace de Pillai
Sous l’hypothèse H0 la statistique F suit
approximativement une loi de Fisher-
Snedecor à (s(2m1 + s +1), s(2m2 + s + 1)
degrés de liberté.
19
Trace de Hotelling-Lawley
p
hh 1
U
Trace de Hotelling-Lawley :
Transformation F :
22
1
2(sm 1)F U
s (2m s 1
où : s = min (p,q)
m1 = (|p - q| - 1)/2m2 = (v - p - 1)/2
20
Trace de Hotelling-Lawley
Sous l’hypothèse H0 la statistique F suit
approximativement une loi de Fisher-
Snedecor à (s(2m1 + s +1), 2(sm2 + 1)
degrés de liberté.
21
Plus grande valeur propre de Roy
1
Plus grande valeur propre de Roy :
Transformation F :
v r 1F
r
où :v = n - k -1r = max(p, q)
22
Plus grande valeur propre de Roy
Sous l’hypothèse H0 la statistique F est une borne
supérieure d’une variable suivant approximativement une loi de Fisher-Snedecor à (r, v - r + q) degrés de liberté.
Le niveau de signification calculé est une borne inférieure du vrai niveau de signification.
23
Résultats SPSS
Multivariate Testsc
.504 11.155a 2.000 22.000 .000
.496 11.155a 2.000 22.000 .000
1.014 11.155a 2.000 22.000 .000
1.014 11.155a 2.000 22.000 .000
.502 1.542 10.000 46.000 .155
.548 1.544a 10.000 44.000 .156
.733 1.540 10.000 42.000 .159
.574 2.639b 5.000 23.000 .050
.722 2.597 10.000 46.000 .014
.343 3.111a 10.000 44.000 .004
1.725 3.622 10.000 42.000 .002
1.607 7.393b 5.000 23.000 .000
.612 17.347a 2.000 22.000 .000
.388 17.347a 2.000 22.000 .000
1.577 17.347a 2.000 22.000 .000
1.577 17.347a 2.000 22.000 .000
.588 15.674a 2.000 22.000 .000
.412 15.674a 2.000 22.000 .000
1.425 15.674a 2.000 22.000 .000
1.425 15.674a 2.000 22.000 .000
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
EffectIntercept
STORE
DAY
P1
P2
Value F Hypothesis df Error df Sig.
Exact statistica.
The statistic is an upper bound on F that yields a lower bound on the significance level.b.
Design: Intercept+STORE+DAY+P1+P2c.
24
Résultats SPSS
Tests of Between-Subjects Effects
1225.368a 12 102.114 5.752 .000
2043.267b 12 170.272 5.540 .000
373.677 1 373.677 21.049 .000
139.568 1 139.568 4.541 .044
223.833 5 44.767 2.522 .058
155.099 5 31.020 1.009 .435
433.097 5 86.619 4.879 .003
614.409 5 122.882 3.998 .009
538.169 1 538.169 30.315 .000
83.923 1 83.923 2.730 .112
39.542 1 39.542 2.227 .149
852.341 1 852.341 27.731 .000
408.308 23 17.753
706.941 23 30.737
5391.693 36
7155.720 36
1633.676 35
2750.208 35
Dependent VariableQ1
Q2
Q1
Q2
Q1
Q2
Q1
Q2
Q1
Q2
Q1
Q2
Q1
Q2
Q1
Q2
Q1
Q2
SourceCorrected Model
Intercept
STORE
DAY
P1
P2
Error
Total
Corrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = .750 (Adjusted R Squared = .620)a.
R Squared = .743 (Adjusted R Squared = .609)b.
25
Résultats SPSS pour « Store »
Estimated Marginal Means of Q1
STORE
654321
Est
ima
ted
Ma
rgin
al M
ea
ns
16
14
12
10
8
6
Estimated Marginal Means of Q2
STORE
654321
Est
ima
ted
Ma
rgin
al M
ea
ns
15
14
13
12
11
10
9
8
7
26
Résultats SPSS pour « Day »
Estimated Marginal Means of Q1
DAY
654321
Est
ima
ted
Ma
rgin
al M
ea
ns
16
14
12
10
8
6
4
Estimated Marginal Means of Q2
DAY
654321
Est
ima
ted
Ma
rgin
al M
ea
ns
18
16
14
12
10
8
6
4
2
27
Utilisation des corrélations partielles
Résultats : 2 22 h h 0hh 2
h h 0
R (Z ,X) R (Z ,X / H )r
1 1 R (Z ,X / H )
Calcul des statistiques en fonction des rh2 :
2h
h
2h
h
2h
2h h
21
21
Wilks : = (1 - r )
Pillai : V = r
rHotelling Lawley : U = ( )
1- r
rRoy :
1 r