Econométrie M1_Polycomplet
-
Upload
jose-ahanda-nguini -
Category
Documents
-
view
228 -
download
1
Transcript of Econométrie M1_Polycomplet
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 1/298
UNIVERSITÉ PARIS-SUD 11FA C ULT É J E AN M O NN E T
Droit É conomie Gestion
Enseignement A Distance CANEGE
M1 Master ETT
Econométrie
Enseignant responsable : Anne Plunket
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 2/298
La multicolinearite
Anne Plunket
www.adislab.net
1
1 La multicolinea
1.1 La multicolineari
Y i =
X 1i = 3X 2i o2
0 X 2
X 1
Figure 1: La multicolinearite parfaite
3
Un exemple :
in
• int le taux d’interet
• irt le taux d’inter et
• inf t le taux d’inflat
• α le taux constant d
La question est alo
colinearite parfaite su
des MCO est incapab
de la r egression, et le
sage d’erreur.
β k =
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 3/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 4/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 5/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 6/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 7/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 8/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 9/298
22 CHAPITRE 1. LA MULTICOLINÉARITÉ
1.7 Fiche de TD 1.2 : la multicolinéarité
Il s’agit d’un fichier qui donne les performances académique des écoles (api00). On chercheà expliquer ces performances par un certain nombre de variables telles que le nombre moyend’enfants par classe en maternelle (acs_k3), le niveau d’éducation des parents (avg_ed), le pour-centage des parents ayant le niveau lycée (grad_sch), le pourcentage des parents ayant un di-plome universitaire (col_grad), et le pourcentage de parents qui ont été à l’université (some_col).
. use http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2, clear
. describe
Contains data from http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2.dta
obs: 400
vars: 22 9 Feb 2002 01:28
size: 15,200 (98.5% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
snum int %9.0g school number
dnum int %7.0g dname district number
api00 int %6.0g api 2000
api99 int %6.0g api 1999
growth int %6.0g growth 1999 to 2000
meals byte %4.0f pct free mealsell byte %4.0f english language learners
yr_rnd byte %4.0f yr_rnd year round school
mobility byte %4.0f pct 1st year in school
acs_k3 byte %4.0f avg class size k-3
acs_46 byte %4.0f avg class size 4-6
not_hsg byte %4.0f parent not hsg
hsg byte %4.0f parent hsg
some_col byte %4.0f parent some college
col_grad byte %4.0f parent college grad
grad_sch byte %4.0f parent grad school
avg_ed float %9.0g avg parent ed
full byte %8.2f pct full credential
emer byte %4.0f pct emer credential
enroll int %9.0g number of students
mealcat byte %18.0g mealcat Percentage free meals in 3
categories
collcat float %9.0g
-----------------------------------------------------------------------------
On commence par sortir un tableau de corrélation pour voir quelles sont les relations entreles variables.
. pwcorr api00 acs_k3 avg_ed grad_sch col_grad some_col, star(.05)
| api00 acs_k3 avg_ed grad_sch col_grad some_col
-------------+------------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 10/298
1.7. FICHE DE TD 1.2 : LA MULTICOLINÉARITÉ 23
api00 | 1.0000
acs_k3 | 0.1710* 1.0000avg_ed | 0.7930* 0.0794 1.0000
grad_sch | 0.6332* 0.0983* 0.7973* 1.0000
col_grad | 0.5273* -0.0174 0.8089* 0.4439* 1.0000
some_col | 0.2615* 0.0915 0.3031* 0.0718 0.1555* 1.0000
Certaines corrélations sont très fortes, il peut y avoir un problème de multicolinéarité. On
peut déterminer le VIF pour l’ensemble de ces variables. Pour cela on commence par faire une
régression suivit de VIF
. regress api00 acs_k3 avg_ed grad_sch col_grad some_col
Source | SS df MS Number of obs = 379
-------------+------------------------------ F( 5, 373) = 143.79Model | 5056268.54 5 1011253.71 Prob > F = 0.0000
Residual | 2623191.21 373 7032.68421 R-squared = 0.6584
-------------+------------------------------ Adj R-squared = 0.6538
Total | 7679459.75 378 20316.0311 Root MSE = 83.861
------------------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
acs_k3 | 11.45725 3.275411 3.50 0.001 5.016669 17.89784
avg_ed | 227.2638 37.2196 6.11 0.000 154.0773 300.4504
grad_sch | -2.090898 1.352292 -1.55 0.123 -4.749969 .5681735
col_grad | -2.967831 1.017812 -2.92 0.004 -4.969199 -.9664626
some_col | -.7604543 .8109676 -0.94 0.349 -2.355096 .8341872
_cons | -82.60913 81.84638 -1.01 0.313 -243.5473 78.32904
------------------------------------------------------------------------------
. vif
Variable | VIF 1/VIF
-------------+----------------------
avg_ed | 43.57 0.022951
grad_sch | 14.86 0.067274
col_grad | 14.78 0.067664
some_col | 4.07 0.245993
acs_k3 | 1.03 0.971867
-------------+----------------------
Mean VIF | 15.66
On constate que les valeurs pour avg_ed, grad_sch et col_grad sont élevées et donc plutôt inquiétantes. En fait
toutes ces variables mesurent le niveau d’éducation des parents et le VIF élevé indique que ces variables sont sans
doute redondantes. Par exemple, il suffit de connaître grad_sch et col_grad pour connaître le niveau d’éducation
des parents avg_ed. Dans cet exemple, la multicolinéarité se produit parce que de nombreuses variables mesurent le
même phénomène à savoir le niveau d’éducation des parents. Essayons d’omettre une varible, mettons avg_ed.
. regress api00 acs_k3 grad_sch col_grad some_col
Source | SS df MS Number of obs = 398
-------------+------------------------------ F( 4, 393) = 107.12
Model | 4180144.34 4 1045036.09 Prob > F = 0.0000
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 11/298
24 CHAPITRE 1. LA MULTICOLINÉARITÉ
Residual | 3834062.79 393 9755.88497 R-squared = 0.5216
-------------+------------------------------ Adj R-squared = 0.5167Total | 8014207.14 397 20186.9197 Root MSE = 98.772
------------------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
acs_k3 | 11.7126 3.664872 3.20 0.002 4.507392 18.91781
grad_sch | 5.634762 .4581979 12.30 0.000 4.733936 6.535588
col_grad | 2.479916 .3395548 7.30 0.000 1.812345 3.147487
some_col | 2.158271 .4438822 4.86 0.000 1.28559 3.030952
_cons | 283.7446 70.32475 4.03 0.000 145.4848 422.0044
------------------------------------------------------------------------------
. vif
Variable | VIF 1/VIF
-------------+----------------------
col_grad | 1.28 0.782726
grad_sch | 1.26 0.792131
some_col | 1.03 0.966696
acs_k3 | 1.02 0.976666
-------------+----------------------
Mean VIF | 1.15
On remarque que les VIF sont bien moins élevées. On peut également remarquer que les
écart-types se sont réduits pour les variables d’éducation des parents grad_sch et col_grad. Ceci
s’explique par le fait que le degré élevé de colinéarité a conduit à une augmentation importante
des écart-types. Par ailleurs, une fois la multicolinéarité éliminée, le coefficient de grad_sch est
devenu significatif alors qu’il ne l’était pas auparavant !
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 12/298
UNIVERSITE DE PARIS 11Fiche de TD 2 : la multicolinéarité
Il s’agit d’un fichier qui donne les performances académique des écoles (api00). On cherche
à expliquer ces performances par un certain nombre de variables telles que le nombre moyen
d’enfants par classe en maternelle (acs_k3), le niveau d’éducation des parents (avg_ed), le pour-
centage des parents ayant le niveau lycée (grad_sch), le pourcentage des parents ayant un di-
plome universitaire (col_grad), et le pourcentage de parents qui ont été à l’université (some_col).
1. Y a t-il de la multicolinéarité dans la première régression ? Par quels biais le remarquez-
vous ?
2. Déterminez la VIF pour avg_ed
3. Quelles solutions peut-on envisager pour résoudre le problème ? Comment justifiez-
vous cette solution ?
. pwcorr api00 acs_k3 avg_ed grad_sch col_grad some_col, star(.05)
| api00 acs_k3 avg_ed grad_sch col_grad some_col
-------------+------------------------------------------------------
api00 | 1.0000
acs_k3 | 0.1710* 1.0000
avg_ed | 0.7930*
0.0794 1.0000
grad_sch | 0.6332* 0.0983* 0.7973* 1.0000
col_grad | 0.5273* -0.0174 0.8089* 0.4439* 1.0000
some_col | 0.2615* 0.0915 0.3031* 0.0718 0.1555* 1.0000
. regress api00 acs_k3 avg_ed grad_sch col_grad some_col
Source | SS df MS Number of obs = 379
-------------+------------------------------ F( 5, 373) = 143.79
Model | 5056268.54 5 1011253.71 Prob > F = 0.0000
Residual | 2623191.21 373 7032.68421 R-squared = 0.6584
-------------+------------------------------ Adj R-squared = 0.6538
Total | 7679459.75 378 20316.0311 Root MSE = 83.861
------------------------------------------------------------------------------api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
acs_k3 | 11.45725 3.275411 3.50 0.001 5.016669 17.89784
avg_ed | 227.2638 37.2196 6.11 0.000 154.0773 300.4504
grad_sch | -2.090898 1.352292 -1.55 0.123 -4.749969 .5681735
col_grad | -2.967831 1.017812 -2.92 0.004 -4.969199 -.9664626
some_col | -.7604543 .8109676 -0.94 0.349 -2.355096 .8341872
_cons | -82.60913 81.84638 -1.01 0.313 -243.5473 78.32904
------------------------------------------------------------------------------
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 13/298
. regress avg_ed acs_k3 grad_sch col_grad some_col
Source | SS df MS Number of obs = 379
-------------+------------------------------ F( 4, 374) = 3980.33
Model | 216.114961 4 54.0287402 Prob > F = 0.0000
Residual | 5.07665699 374 .013573949 R-squared = 0.9770
-------------+------------------------------ Adj R-squared = 0.9768
Total | 221.191618 378 .58516301 Root MSE = .11651
------------------------------------------------------------------------------
avg_ed | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
acs_k3 | .0004584 .0045504 0.10 0.920 -.0084892 .0094061
grad_sch | .0347897 .0005417 64.22 0.000 .0337245 .0358549
col_grad | .0261866 .0004074 64.28 0.000 .0253855 .0269876
some_col | .0188694 .0005634 33.49 0.000 .0177616 .0199771
_cons | 1.412384 .0871539 16.21 0.000 1.241011 1.583757
------------------------------------------------------------------------------
. vif
Variable | VIF 1/VIF
-------------+----------------------
avg_ed | 43.57 0.022951
grad_sch | 14.86 0.067274
col_grad | 14.78 0.067664
some_col | 4.07 0.245993
acs_k3 | 1.03 0.971867
-------------+----------------------Mean VIF | 15.66
. regress api00 acs_k3 grad_sch col_grad some_col
Source | SS df MS Number of obs = 398
-------------+------------------------------ F( 4, 393) = 107.12
Model | 4180144.34 4 1045036.09 Prob > F = 0.0000
Residual | 3834062.79 393 9755.88497 R-squared = 0.5216
-------------+------------------------------ Adj R-squared = 0.5167
Total | 8014207.14 397 20186.9197 Root MSE = 98.772
------------------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
acs_k3 | 11.7126 3.664872 3.20 0.002 4.507392 18.91781
grad_sch | 5.634762 .4581979 12.30 0.000 4.733936 6.535588
col_grad | 2.479916 .3395548 7.30 0.000 1.812345 3.147487
some_col | 2.158271 .4438822 4.86 0.000 1.28559 3.030952
_cons | 283.7446 70.32475 4.03 0.000 145.4848 422.0044
------------------------------------------------------------------------------
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 14/298
L’autocorrelation.
Dans le cas de donnees en coupe transversale, le fait que les er-
reurs ne sont plus independantes peut etre du a des effets de voisi-
nage. Les observations qui sont semblables auront leurs erreurs
corr elees.
Lorsque l’on considere des donnees en series temporelles, une
relation similaire peut etre observee pour les donnees au cours du
temps. Les observations qui sont proches dans le temps seront
correlees, l’importance de la correlation augmente avec leur prox-
imite dans le temps. Bien qu’il n’y ait pas de mesure de proximite
des variables dans le cas des series en coupe, dans le cas des series
temporelles, la proximite est definie naturellement par le temps qui
s’ecoule, on parle d’autocorrelation.
1 Definir l’autoco
Comme dans le cas
s’appuient sur les r
Dans le cas le plu
modele AR(1) : il
egalement qualifie
ut est une variabl
variance constante.
• On impose une restriction |ρ| < 1 pour s’assurer que est sta-
tionnaire et de variance finie, ce qui implique que les effets
d’un choc ut se dissiperont au cours du temps.
• Si ρ = 1, le processus est totalement aleatoire, egalement qual-
ifie de “random walk”, ce qui implique que la variance de est
infinie et qu’ devient non stationnaire, egalement qualifie de
processus integr e d’ordre un et note I (1).• Plus ρ sera grand en valeur absolue et plus les chocs seront
persistants au cours du temps et plus les erreurs t seront au-
tocorr elees. En effet, dans le cas du modele AR(1), la fonction
d’autocorr elation des sera une suite geometrique ρ, ρ2, ρ3, . . . ,
et la corr elation entre erreurs separ ees par τ periodes sera ρτ .
2 Tester l’autocor
Dans Stata, la fonct
peut etre calculee
corrgram repr esent
nostiquer l’autoco
1. on va s’appuyerdes MCO a l’aid
2. on estime ensui
constante puisqu
3. la pente obtenue
ance minimale d
ρ pour la serie,
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 15/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 16/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 17/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 18/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 19/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 20/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 21/298
UNIVERSITE DE PARIS 11
TD d’économétrie Anne PlunketAutocorrélation
1 Problème 1
Vous disposez de données agrégées portant sur l’investissement invest, les taux d’intérêt
interest et le PNB GNP sur 30 années (1960 à 1989).
1. Analysez le tableau de la régression ci-dessous.
2. Proposez un test du Durbin et Watson. Quelles sont vos conclusions ?
. use invest.dta", clear
. tsset year /* cette commande indique qu’il s’agit de variables temporelles*/
time variable: year, 60 to 89
. regdw invest GNP interest
Source | SS df MS Number of obs = 30
-------------+------------------------------ F( 2, 27) = 59.98
Model | 1329.98699 2 664.993493 Prob > F = 0.0000
Residual | 299.335855 27 11.0865131 R-squared = 0.8163
-------------+------------------------------ Adj R-squared = 0.8027
Total | 1629.32284 29 56.1835462 Root MSE = 3.3296
------------------------------------------------------------------------------
invest | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GNP | .7699114 .0717905 10.72 0.000 .6226094 .9172134
interest | -.1841962 .1264157 -1.46 0.157 -.4435798 .0751874
_cons | 6.224938 2.510894 2.48 0.020 1.073009 11.37687
------------------------------------------------------------------------------
Durbin-Watson Statistic = .852153
3. On vous propose le graphique suivant. L’aspect des résidus corrobore-t-il vos conclusionspour le test du Durbin et Watson ?
. predict res, resid
. scatter res year, yline(0)
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 22/298
− 6
− 4
− 2
0
2
4
R e s i d u a l s
60 70 80 90year
4. Il vous est proposé deux tests de Breusch-Godfrey ? Quelle est la différence entre les deuxtests ? Quelles sont vos conclusions ?
. reg invest GNP interest
Source | SS df MS Number of obs = 30
-------------+------------------------------ F( 2, 27) = 59.98
Model | 1329.98699 2 664.993493 Prob > F = 0.0000
Residual | 299.335855 27 11.0865131 R-squared = 0.8163
-------------+------------------------------ Adj R-squared = 0.8027Total | 1629.32284 29 56.1835462 Root MSE = 3.3296
------------------------------------------------------------------------------
invest | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GNP | .7699114 .0717905 10.72 0.000 .6226094 .9172134
interest | -.1841962 .1264157 -1.46 0.157 -.4435798 .0751874
_cons | 6.224938 2.510894 2.48 0.020 1.073009 11.37687
------------------------------------------------------------------------------
. estat bgodfrey, lags(1)
Breusch-Godfrey LM test for autocorrelation
---------------------------------------------------------------------------lags(p) | chi2 df Prob > chi2
-------------+-------------------------------------------------------------
1 | 10.025 1 0.0015
---------------------------------------------------------------------------
H0: no serial correlation
. estat bgodfrey, lags(4)
Breusch-Godfrey LM test for autocorrelation
---------------------------------------------------------------------------
lags(p) | chi2 df Prob > chi2
-------------+-------------------------------------------------------------
4 | 11.918 4 0.0180
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 23/298
---------------------------------------------------------------------------
H0: no serial correlation
5. On vous propose la régression suivante. Apporte-t-elle une amélioration ?
. prais invest GNP interest
Iteration 0: rho = 0.0000
Iteration 1: rho = 0.5677
Iteration 2: rho = 0.6234
Iteration 3: rho = 0.6272
Iteration 4: rho = 0.6275
Iteration 5: rho = 0.6275
Iteration 6: rho = 0.6275
Iteration 7: rho = 0.6275
Prais-Winsten AR(1) regression -- iterated estimates
Source | SS df MS Number of obs = 30
-------------+------------------------------ F( 2, 27) = 19.34
Model | 270.876071 2 135.438036 Prob > F = 0.0000
Residual | 189.038992 27 7.00144413 R-squared = 0.5890
-------------+------------------------------ Adj R-squared = 0.5585
Total | 459.915063 29 15.8591401 Root MSE = 2.646
------------------------------------------------------------------------------
invest | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GNP | .7337751 .125379 5.85 0.000 .4765187 .9910315
interest | -.2893788 .0766134 -3.78 0.001 -.4465765 -.1321812 _cons | 8.704382 3.110804 2.80 0.009 2.321539 15.08723
-------------+----------------------------------------------------------------
rho | .6275201
------------------------------------------------------------------------------
Durbin-Watson statistic (original) 0.852153
Durbin-Watson statistic (transformed) 1.619036
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 24/298
2 Problème 2
1. On vous propose la régression suivante pour des données allant de 1950 à 1999. Yt repré-
sente le PIB agrégé et Ct la consommation en t. Les tableaux de régressions vous donnent
les écart-types entre parenthèse et DW est la statistique du Durbin et Watson. Analysez le
tableau de la régression OLS(1), est-il satisfaisante ?
2. La seconde régression OLS(2) apporte-t-elle une amélioration ?
Dependent variable : Yt National Income
-----------------------------------------
OLS(1) OLS(2)
-----------------------------------------
C(t) 0.800 0.250
(0.004) (0.200)
C(t-1) 0.540
(0.300)
Constant 10.598 10.660
(0.335) (5.500)
R2 0.915 0.995
DW 0.450 1.521
----------------------------------------
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 25/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 26/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 27/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 28/298
2. La seconde régression OLS(2) apporte-t-elle une amélioration ?
La seconde régression peut constituer une amélioration car le fait d’introduire des dé-calages dans le temps peut aider à corriger l’autocorrélation. A présent, pour k = 2,
dL = 1, 44 et dU = 1, 63, dL < DW < dU . Dans la mesure où DW se situe entre les
limites inférieures et supérieures des valeurs critiques, il existe un doute quant à l’exis-
tence d’autocorrélation d’ordre 1. Dans ce cas, la prudence s’impose, on penche plutôt
pour l’existence d’autocorrélation.
Dependent variable : Yt National Income
-----------------------------------------
OLS(1) OLS(2)
-----------------------------------------
C(t) 0.800 0.250
(0.004) (0.200)C(t-1) 0.540
(0.300)
Constant 10.598 10.660
(0.335) (5.500)
R2 0.915 0.995
DW 0.450 1.521
----------------------------------------
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 29/298
L’heteroscedasticite.
La methode des moindres carr es ordinaires suppose que les er-
reurs sont independantes et distribuees de maniere identique
(- i.i.d.).
Cette hypothese est violee lorsque :
• la variance des erreurs, conditionnelle aux variables explica-
tives (ou r egresseurs) varie avec les observations. A ce moment
la, l’hypothese de distribution identique est violee. Ce probleme
est connu sous le terme d’h´ et erosc´ edasticit e des erreurs par op-
position a l’homosc´ edasticit e ou variance commune.
Lorsque les erreurs sont i.i.d., on suppose qu’elles sont condi-tionnellement homosc´ edastiques : les r egresseurs n’apportent
pas d’information concernant la variance des erreurs.
• Lorsque les erreurs sont correlees les unes aux autres, elles ne
sont plus distribuees de maniere ind ependante; on parle alors
d’autocorr elation des erreurs - chapitre suivant.
1 Qu’est-ce que l’heteroscedasticite
• Dans les series en coupe transversale repr esentant des indi-
vidus, des menages ou des entreprises, la variance des erreurs
est souvent dependante d’une certaine taille ou echelle de grandeur;
• Il peut y avoir homoscedasticite au sein de groupes d’individus
similaires mais heteroscedasticite entre les groupes (ex: tra-
vailleurs a la commission et travailleurs salaries).
La methode des moindres carr es quasi generalises qui tient compte
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 30/298
de cette particularite attribuera des valeur diff erentes pour σ2 ;
elles seront similaires pour les individus du meme groupe mais
diff erentes entre les groupes.
• L’heteroscedasticite se rencontre lorsque les donnees sont agregees,
c’est-a-dire lorsque chaque observation est la moyenne de donnees
microeconomiques telles que pour une r egion ou un Etat.
1.1 L’heteroscedasticite liee a une echelle de grandeur.
La variance des erreurs depend d’une certaine echelle de grandeur
(ex: dispersion dans la consommation des menages ou des in-
vestissements pour les entreprises) :
σ2i ∝ z αi
z αi est une variable repr esentant l’echelle de grandeur de la ieme
unite
il ne faut estimer que Σ2 en fonction d’un facteur de proportion-
nalite z .
Quelle est nature de la proportionnalite?
1. si α = 2, on sait que l’ ecart-type de l’erreur sera proportionnelle
a z i (par exemple, le revenu du menage ou les actifs ou l’emploi
de l’entreprise)
2. si α = 1, on sait que la variance de l’erreur est proportionnelle
a z i, de sorte que l’ecart-type est proportionnelle a√
z i
le choix de z i et α permettra de definir l’estimateur des moin-
dres carr es quasi generalises a utiliser.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 31/298
1.1.1 Test de l’heteroscedasticite liee a l’echelle de grandeur
Apres avoir fait la regression des moindres carres ordinaires, on
peut faire un test d’heteroscedasticite en prenant les residus dela r egression.
H 0 : V ar[|X ] = σ2 (1)
Sous l’hypothese nulle, la variance conditionnelle des erreurs ne
depend pas des variables explicatives.
Etant donne que
E [] = 0
cette hypothese nulle est equivalente a
E [2|X ] = σ2
L’esperance des r esidus au carr e conditionnelle a n’importe quelle
source d’information zi ne devrait pas avoir d’impact sur son pou-
voir explicatif ( zi doit etre une fonction du regresseur).
•Le test le plus courant qui decoule de ce type de raisonnement
est celui de Breusch-Pagan (BP). Le test de BP est un testdu multiplicateur de Lagrange qui implique que l’on fasse une
r egression du carr e des r esidus sur un ensemble de variables :
2 = d0 + d1z i1 + d2z i2 + . . . + dlz il + vi (2)
a partir de la r egression de l’equation auxiliaire ci-dessus, sous
l’hypothese nulle,
LM = n × R22 ∼ χ2
l
l repr esente le nombre de r egresseur de la r egression auxiliaire.
Dans Stata, on peut obtenir le test de BP a l’aide de la com-
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 32/298
mande estat hettest apres la commande regress. Si aucune
liste de r egresseur (z ) n’est fournie, le test hettest s’appuie sur
les valeurs de la r egression pr ecedente (les yi).
• test de White : Le test de BP avec z = x est un cas particulier
du test de White : il repose sur une regression auxiliaire de
2i sur les variables explicatives, leurs carr es et leurs produits
croises.
Si on ne parvient pas a rejeter l’hypothese nulle d’homoscedasticite,
ca ne signifie pas une absence d’heteroscedasticite mais plutot
que l’heteroscedasticite (si elle existe) n’est pas de la forme
specifiee..
1.1.2 Application
Considerons un exemple d’heteroscedasticite liee a l’echelle de
mesure dans le cas des prix medians du logement. La taille peut
etre comprise ici comme la taille du logement dans chaque quartier,
mesur ee par le nombre de pieces.
. use http://www.stata-press.com/data/imeus/hprice2a, clear(Housing price data for Boston-area communities)
. regress lprice rooms crime ldist
Source | SS df MS Number of obs = 506-----------+------------------------------ F( 3, 502) = 219.03
Model | 47.9496883 3 15.9832294 Prob > F = 0.0000Residual | 36.6325827 502 .072973272 R-squared = 0.5669
-----------+------------------------------ Adj R-squared = 0.5643
Total | 84.5822709 505 .167489645 Root MSE = .27014
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 33/298
----------------------------------------------------------------------------lprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------+----------------------------------------------------------------
rooms | .3072343 .0178231 17.24 0.000 .2722172 .3422514crime | -.0174486 .001591 -10.97 0.000 -.0205744 -.0143228ldist | .074858 .0255746 2.93 0.004 .0246115 .1251045_cons | 7.984449 .1128067 70.78 0.000 7.762817 8.20608
----------------------------------------------------------------------------
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant varianceVariables: fitted values of lprice
chi2(1) = 140.84Prob > chi2 = 0.0000
. estat hettest rooms crime ldist
Breusch-Pagan / Cook-Weisberg test for heteroskedasticityHo: Constant varianceVariables: rooms crime ldist
chi2(3) = 252.60Prob > chi2 = 0.0000
. whitetst
White’s general test statistic : 144.0052 Chi-sq( 9) P-value = 1.5e-26
Chacun de ces tests indique qu’il y a de l’heteroscedasticite et de
maniere significative puisque par exemple, P rob > chi2 = 0.0000.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 34/298
1.2 L’heteroscedasticite entre des groupes d’observations
L’heteroscedasticite entre des groupes d’observations est souvent
associee au fait de regrouper des donnees qui peuvent etre des en-sembles d’observations distribuees de maniere non identique (Ex.
Expliquer la depense de consommation a l’aide d’une etude menee
dans diff erentes r egions).
Le modele est-il structurellement stable : les deux populations
peuvent avoir les memes coefficients β mais des variances differentes.
Cette situation peut se retrouver dans diff erents cas, tels que celui
du revenu d’un salarie par rapport a celui d’un travailleur independant
ou a la commission. C’est egalement le cas pour les profits des
entreprises (ou chiffres d’affaires ou l’investissement en capital)
qui sont plus variables dans certaines industries que d’autres; les
marches qui vendent des produits financiers sont, par exemple,
plus soumis a une demande cyclique que les producteurs/vendeurs
d’electricite.
1.2.1 le test de l’heteroscedasticite entre groupes
• Pour deux groupes, on peut construire un test du Fisher qui est
le rapport des variances des r esidus, avec la variance la plus
grande au denominateur; les degres de liberte sont constitues
par les degres de liberte des residus de chaque groupe. Ce test
peut se r ealiser a l’aide de la commande sdtest en specifiant
une option by groupvar , l’option indiquant les groupes (l’Etat
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 35/298
ou l’industrie, etc).
• S’il y a plus de deux groupes, par exemple, un ensemble de
10 industries, cette procedure n’est pas possible. On peut alorsutiliser la commande robvar . L’option by groupvar est ici aussi
specifiee1.
1D’apr es l’aide dans Stata : robvar reports Levene’s statistic (W 0)
and two statistics proposed by Brown and Forsythe that replace the
mean in Levene’s formula with alternative location estimators. The
first alternative (W 50) replaces the mean with the median. The
second alternative replaces the mean with the 10 percent trimmed
mean (W 10).
1.2.2 Application
Prenons comme exemple, les donnees portant sur six Etats americains
de la Nouvelle Angleterre entre 1981 et 1990. Les statistiques de-
scriptives sont obtenues a l’aide de la commande summarize pour
la variable dpipc - state disposable personal income per capita, a
savoir le revenu disponible par habitant.
. use http://www.stata-press.com/data/imeus/NEdata, clear
. summarize dpipc
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
dpipc | 120 18.15802 5.662848 8.153382 33.38758
La regression de dpipc sur l’annee (\textsfyear) nous donne une tendance durevenu au cours du temps.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 36/298
. regress dpipc year
Source | SS df MS Number of obs = 120
----------+------------------------------ F( 1, 118) = 440.17Model | 3009.33617 1 3009.33617 Prob > F = 0.0000
Residual | 806.737449 118 6.83675804 R-squared = 0.7886----------+------------------------------ Adj R-squared = 0.7868
Total | 3816.07362 119 32.0678456 Root MSE = 2.6147
---------------------------------------------------------------------------dpipc | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
year | .8684582 .0413941 20.98 0.000 .7864865 .9504298_cons | -1710.508 82.39534 -20.76 0.000 -1873.673 -1547.343
---------------------------------------------------------------------------
. predict double eps, residual
. robvar eps, by(state)
| Summary of Residualsstate | Mean Std. Dev. Freq.
------------+------------------------------------CT | 4.167853 1.3596266 20MA | 1.618796 .86550138 20ME | -2.9841056 .93797625 20NH | .51033312 .61139299 20RI | -.8927223 .63408722 20VT | -2.4201543 .71470977 20
------------+------------------------------------Total | -6.063e-14 2.6037101 120
W0 = 4.3882072 df(5, 114) Pr > F = .00108562
W50 = 3.2989849 df(5, 114) Pr > F = .00806752
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 37/298
W10 = 4.2536245 df(5, 114) Pr > F = .00139064
Dans cet exemple, on voit que l’hypothese nulle d’egalite desvariances est rejetee par les trois statistiques (W0, W50, W10) du
test robvar . On peut voir que les residus pour le Connecticut (CT)
ont un ecart-type plus eleve (Std. Dev. = 1,359) que pour les autres
Etats.
1.3 L’heteroscedasticite au sein des groupes d’observations
Le troisieme cas d’heteroscedasticite se produit pour les donnees
en coupe, lorsque les observations sont regroupees ou agregees.
Cette situation se produit lorsque les variables de la base de donnees
sont des moyennes ou des ecart-types de groupes d’observations,
comme par exemple, un ensemble d’observations pour les 50 Etats
des Etats-Unis. Nous savons que les observations pour la Cali-
fornie seront plus pr ecises (fondees sur 30 millions d’individus)
que celles du Vermont (quelques millions d’habitants).
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 38/298
2 Le modele lineaire generalise
Si l’hypothese d’esperance conditionnelle egale a zero est vraie,
la methode des MCO produira des estimations des coefficients β avariance minimale (consistent estimates en anglais).
y = Xβ +
E [|X] = 0
E [|X] = Σ
avec Σ = σ2IN
En revanche, la m ´ ethode des moindres carr es g en´ eralis´ es (MCGou GLRM - generalized linear regression model ) permet de pren-
dre en compte les consequences des erreurs non i.i.d sur l’estimation
de la matrice de covariance des coefficients β .Lorsque Σ = σ2IN , l’estimateur des MCO de β est sans biais,
de variance minimale et distribue selon une loi normale lorsque les
echantillons sont grands, mais ils ne sont plus efficaces :
β = (XX)−1Xy= (XX)−1X(Xβ + )
= β + (XX)−1XE [β − β ] = 0
etant donne l’hypothese d’esperance conditionnelle nulle des er-
reurs, la variance de l’estimateur (conditionnel a X) s’ecrit :
V ar[β
|X] = E [(XX)−1XX(XX)−1] (3)
= (XX)−1(XΣX)(XX)−1 (4)
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 39/298
La matrice des variances-covariances des estimateurs dans le cas
des MCO est egale a σ2 (X X )−1 avec σ2
remplace par son estima-
tion s2.
Lorsque Σ = σ2I N , cet estimateur de la matrice des variances-
covariances des estimateurs n’est pas de variance minimale et
la procedure d’estimation habituelle n’est plus appropriee. On ne
peut plus utiliser les tests d’hypotheses et les intervals de confiance
donnes par les MCO avec la commande regress dans Stata.
2.1 Les types de violation de l’hypothese i.i.d.
La methode des moindres carr es generalises - MCG - permet de
considerer des modeles pour lesquels Σ = σ2IN . Trois cas partic-
uliers peuvent etre consider es comme pr ecedemment :
1. Pure h´ et erosc´ edasticit e
Lorsqu’il y a h ´ et erosc´ edasticit e pure, Σ est une matrice diago-
nale et cela viole l’hypothese de distribution identique. Lorsque
les elements de la diagonale diff erent, la variance de , condi-
tionnelle a X, varie selon les observations.
Σ = E (N ) =
σ21 0 . . . 0
0 σ22 . . . 0
... ... . . . ...
0 0 . . . σ2N
Exemple : lorsque l’on utilise des donnees sur les menages, la
variance des erreurs pour les individus a revenu eleve est plus
grande que la variance des erreurs pour les bas revenus.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 40/298
2. Le regroupement d’observations
Les observations peuvent etre regroupees en plusieurs groupes
separ es, aussi appeles clusters au sein desquels les erreurs sont
corr elees. Le regroupement a pour consequence de rendre la
matrice Σ bloc-diagonale parce que les erreurs des diff erents
groupes sont independantes. Ce cas viole l’hypothese de distri-
bution ind ependante d’une maniere particuliere puisque chaque
groupe peut avoir sa propre variance des erreurs.
Exemple : dans le cas des depenses des menages, il peut y
avoir une corr elation des erreurs pour les menages habitants
dans le meme voisinage. En effet, habituellement le voisinage
regroupera des menages ayant des caracteristiques socioprofes-sionnelles et de revenu similaires.
Σ =
Σ1 0 . . . 00 Σm . . . 0... ... . . . ...
0 0 . . . ΣM
Σm represente une matrice de covariance intra-cluster. Pour
chaque groupe (ou cluster) m constitue de τ m observations, Σm
sera de taille τ m × τ m. La covariance nulle entre les observa-
tions des M differents clusters donne a la matrice de covariance
Σ une forme bloc-diagonale.
3. L’autocorrelation Les erreurs dans les series temporelles (voir
chapitre suivant) peuvent se caracteriser par de l’autocorr elation,
c’est-a-dire une corr elation entre les erreurs a travers le temps.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 41/298
La matrice de covariance des erreurs peut s’ecrire alors :
Σ = σ2
1 ρ1 . . . ρ2N −1
ρ1 1 . . . ρ2N −3... ... . . . ...
ρN −1 ρ2N −3 . . . 1
ρ1, ρ2, . . . , ρ[N (N −1)]/2 repr esentent les corr elations entre les elements
successifs des erreurs. Ce cas viole egalement l’hypothese de
distribution ind ependante des erreurs .
2.2 Un estimateur robust de la matrice des variance-covariances
des estimateurs
L’estimateur de Huber-White-sandwich de la variance permet
d’appliquer une approche robuste aux erreurs qui sont condition-
nellement heteroscedastiques.
Il nous faut estimer le terme (X E [|X ]X ) de la variance qui
est pris en sandwich entre les termes (X X )−1.
V ar[β
|X] = (XX)−1(XΣX)(XX)−1] (5)
= (XX)−1(XE[|X]X)(XX)−1 (6)
Hubert (1967) et White (1980) ont montr e que
S 0 = 1
N
N
i=12ix
ixi (7)
permet d’estimer (X E [|X ]X ) lorsque i est conditionnellement
heteroscedastique.
Si l’on substitue l’estimateur (7) a son equivalent pour la popu-
lation a partir de (5), on obtient un estimateur de la matrice de
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 42/298
variance covariance des erreurs robuste.
V ar[β |X] = N
N −
k(XX)−1
N
i=12iX
iXi
(XX)−1 (8)
L’option robust dans stata applique l’estimateur sandwich. Lorsque
l’on calcule des ecart-types robustes cela affecte les ecart-types
des coefficients mais pas leur estimation β .
Le F de la table de l’ANOVA sera supprimee de meme que le
R2 ajuste parce qu’aucun des deux n’est plus valide apr es cette
procedure. Si l’hypothese d’homoscedasticite est valide, le simple
estimateur de la matrice de variance et covariance est plus efficace
que celui de la version robuste.1. Pour un echantillon de taille modeste avec homoscedasticite,
on a plutot inter et a utiliser la procedure simple et voir dans
quelle mesure les estimations sont fragiles ou non.
2. Pour de grands echantillons, il est devenu courant d’utiliser
systematiquement des estimateurs robustes pour la matrice de
variance-covariance.
2.2.1 Application
Soit des observations d’une base de donnees (fertil2) qui contient
des donnees pour 4.361 femmes vivant dans des pays en voie de
developpement. Nous souhaitons modeliser le nombre d’enfants
qu’elles ont mis au monde ceb pour chaque femme en fonction de
leur age age, leur age lors de la premiere naissance (agefbrth),
d’un indicateur d’usage d’un moyen contraceptif (usemeth)2.2Dans la mesure ou la variable dependante est un entier, il faudrait appliquer une procedure de Poisson, mais dans ce cas, nous utiliseront une regression lineaire
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 43/298
. use http://www.stata-press.com/data/imeus/fertil2, clear
. regress ceb age agefbrth usemeth
Source | SS df MS Number of obs = 3213
----------+------------------------------ F( 3, 3209) = 1433.16Model | 9202.53439 3 3067.51146 Prob > F = 0.0000
Residual | 6868.49331 3209 2.14038433 R-squared = 0.5726----------+------------------------------ Adj R-squared = 0.5722
Total | 16071.0277 3212 5.00343328 Root MSE = 1.463
---------------------------------------------------------------------------ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
age | .2237368 .003448 64.89 0.000 .2169763 .2304974agefbrth | -.2606634 .0087954 -29.64 0.000 -.2779085 -.2434184
usemeth | .1873702 .0554298 3.38 0.001 .0786888 .2960516
_cons | 1.358134 .1737828 7.82 0.000 1.017397 1.69887---------------------------------------------------------------------------
. estimates store nonRobust
. summarize ceb age agefbrth usemeth children if e(sample)
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
ceb | 3213 3.230003 2.236836 1 13
age | 3213 29.93931 7.920432 15 49agefbrth | 3213 19.00498 3.098121 10 38
usemeth | 3213 .6791161 .4668889 0 1children | 3213 2.999378 2.055579 0 13
On apprend que les femmes ont en moyenne 30 ans, qu’elles ont
eu leur premier enfant a 19 ans et qu’elles ont donne naissance a
3,2 enfants en moyenne et qu’un peu moins de 3 enfants vivent
dans le menage.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 44/298
L’usage de la contraception est suppose r eduire le nombre d’enfants
mis au monde par une femme.
On procede a l’estimation du modele par la methode robuste et
on sauvegarde les resultats XE[|X]X.
. regress ceb age agefbrth usemeth, robust
Linear regression Number of obs = 3213F( 3, 3209) = 874.06Prob > F = 0.0000R-squared = 0.5726
Root MSE = 1.463
----------------------------------------------------------------------------| Robust
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]----------+----------------------------------------------------------------
age | .2237368 .0046619 47.99 0.000 .2145962 .2328775agefbrth | -.2606634 .0095616 -27.26 0.000 -.2794109 -.2419159
usemeth | .1873702 .0606446 3.09 0.002 .0684642 .3062762_cons | 1.358134 .1675624 8.11 0.000 1.029593 1.686674
----------------------------------------------------------------------------
. estimates store Robust
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 45/298
. estimates table nonRobust Robust, se t style(oneline) title(Estimatesof CEB with OLS and Robust standard errors)
Estimates of CEB with OLS and Robust standard errors
----------------------------------------Variable | nonRobust Robust
-------------+--------------------------age | .22373685 .22373685
| .00344802 .00466191| 64.89 47.99
agefbrth | -.26066343 -.26066343
| .00879535 .00956162| -29.64 -27.26
usemeth | .18737022 .18737022
| .0554298 .06064456| 3.38 3.09
_cons | 1.3581336 1.3581336
| .17378284 .16756239| 7.82 8.11
----------------------------------------legend: b/se/t
Contrairement a nos attentes, l’usage d’un contraceptif ne sem-
ble pas avoir d’effet negatif sur le nombre d’enfants nes alors meme
que la variable apparaıt significative. Par ailleurs, il ne semble pas
y avoir de difference notable entre la regression robuste et la simple
r egression indiquant qu’il n’y a pas d’heteroscedasticite condition-
nelle.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 46/298
3 L’estimateur des matrices de variances-covariances pour les
regroupements
Stata propose un estimateur robuste de la matrice des variances-covariances des coefficients lorsque les erreurs sont correlees au
sein des groupes et non distribuees de maniere independante.
Cet estimateur est qualifie de cluster-robust-VCE estimator.
La corr elation au sein des groupes produit une matrice Σ qui
est diagonale par blocs avec des elements diff erents de zero au
sein de chaque bloc sur la diagonale. Cette construction permet
l’autocorr elation au sein des groupes mais les erreurs des diff erentsgroupes ne sont pas corr elees.
Lorsque l’on ignore les corr elations au sein des groupes, les es-
timations produisent des estimateurs des variance-covariances non
convergents. Dans la mesure ou l’estimation robust de la matrice
des variance-covariances suppose que les erreurs sont distribuees
de maniere independante, son estimation (X E [|X ]X ) n’est par consequent pas convergente.
L’application de la commande cluster n’affecte pas l’estimation
du coefficient3 mais simplement l’estimation de la matrice des vari-
ances et covariances du coefficient. L’option cluster () suppose que
l’on specifie une variable d’appartenance a un groupe qui indique
comment les observations sont regroupees.
3 a l’instar de la commande robust
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 47/298
L’estimateur robuste s’ecrit :
V ar[β |X] = N −
1
N − k
M
M − 1(XX)−1
M
j=1 j j
(XX)−1
(9)
ou M repr esente le nombre de clusters, j = N ki=1 ixi, N j repr esente
le nombre d’observations du jeme cluster, i est alors le ieme r esidu
du jeme cluster, et xi un vecteur de regresseurs de taille 1× k de la
ieme observation du jeme cluster.
3.0.2 Application
La variable de cluster children, indique le nombre d’enfants quivivent dans le menage. On suppose que les erreurs des menages
de taille similaire seront corr elees entre elles, mais qu’elles seront
independantes pour des menages de taille diff erente.
. regress ceb age agefbrth usemeth, cluster(children)Linear regression Number of obs = 3213
F( 3, 13) = 20.91Prob > F = 0.0000
R-squared = 0.5726Number of clusters (children) = 14 Root MSE = 1.463---------------------------------------------------------------------------
| Robustceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------age | .2237368 .0315086 7.10 0.000 .1556665 .2918071
agefbrth | -.2606634 .0354296 -7.36 0.000 -.3372045 -.1841224usemeth | .1873702 .0943553 1.99 0.069 -.016472 .3912125
_cons | 1.358134 .4248589 3.20 0.007 .4402818 2.275985
L’estimateur qui permet la correlation des erreurs au sein des
clusters conduit a des ecart-types plus larges (et des t plus petits)
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 48/298
que dans le cas pr ecedent.
3.1
L’estimateur Newey-West de la matrice de variance-convarianceEn pr esence d’heteroscedasticite et d’autocorrelation, il est pos-
sible d’utiliser l’estimateur Newey-West (1987). Cet estimateur a
la meme forme que l’estimateur robuste pour les clusters, mais il
utilise un estimateur diff erent pour (XE [|X]X). Plutot que de
specifier une variable de cluster, l’estimateur Newey-West requiert
que l’on specifie l’ordre maximal d’autocorrelation des erreurs -
connu comme le decalage maximal, note L.
En plus du terme qui ajuste l’estimateur pour l’heteroscedasticite,
l’estimateur utilise des produits croises ponder es des r esidus pour
tenir compte de l’autocorr elation :
Q = S 0 + 1
T
l
l=1
T
t=l+1ωltt−1(xtxt−l + xt+xt)
ou S 0 est l’estimateur robust de la matrice de variances-covariances,
t est le teme r esidu et xt est la teme ligne de la matrice des re-
gresseurs. La forme de Newey-West prend un nombre specifique
L pour engendrer les poids :
ωl = 1 − l
L + 1
La regle est de choisir L = 4√
N .Cet estimateur HAC (-heteroskedastic and autocorrelation con-
sistent ) est disponible dans Stata a l’aide de la commande newey.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 49/298
3.1.1 Application
Prenon l’exemple d’une base de donnees mensuelle portant sur les
taux d’interet a court et long terme, allant de 1952, 3eme mois a1995, 12eme mois.
. use http://www.stata-press.com/data/imeus/ukrates, clear
. summarize rs r20
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
rs | 526 7.651513 3.553109 1.561667 16.18r20 | 526 8.863726 3.224372 3.35 17.18
Le modele exprime la variation du taux d’inter et a court terme
rs, qui est ici l’instrument de politique monetaire de la Banque
d’Angleterre, comme une fonction de la variation mensuelle du
taux d’inter et de long terme r20. Les variables sont obtenues a
l’aide des operateurs D. et L.
Le tableau ci-dessous donne un exemple pour la variable r20.. list r20 l20 d20 ld20
+---------------------------------------+| r20 lr20 dr20 ldr20 ||---------------------------------------|
1. | 4.33 . . . |2. | 4.23 4.33 -.0999999 . |3. | 4.36 4.23 .1300001 -.0999999 |4. | 4.57 4.36 .21 .1300001 |5. | 4.36 4.57 -.21 .21 |
|---------------------------------------|
6. | 4.11 4.36 -.25 -.21 |
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 50/298
7. | 4.2 4.11 .0899997 -.25 |8. | 4.19 4.2 -.0099998 .0899997 |9. | 4.15 4.19 -.04 -.0099998 |
10. | 4.22 4.15 .0699997 -.04 |
|---------------------------------------|11. | 4.13 4.22 -.0899997 .0699997 |12. | 4.1 4.13 -.0300002 -.0899997 |
On estime le modele avec la methode des MCO et avec la methode
Newey-West. Comme il y a 524 observations, la r egle pour determiner
les decalages recommande de prendre 5 ( L = 4√
524) decalages.
. regress D.rs LD.r20
Source | SS df MS Number of obs = 524----------+------------------------------ F( 1, 522) = 52.88
Model | 13.8769739 1 13.8769739 Prob > F = 0.0000Residual | 136.988471 522 .262430021 R-squared = 0.0920
----------+------------------------------ Adj R-squared = 0.0902Total | 150.865445 523 .288461654 Root MSE = .51228
---------------------------------------------------------------------------D.rs | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------r20 |LD. | .4882883 .0671484 7.27 0.000 .356374 .6202027
_cons | .0040183 .022384 0.18 0.858 -.0399555 .0479921---------------------------------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 51/298
. estimates store nonHAC
. newey D.rs LD.r20, lag(5)
Regression with Newey-West standard errors Number of obs = 524maximum lag: 5 F( 1, 522) = 36.00
Prob > F = 0.0000
---------------------------------------------------------------------------| Newey-West
D.rs | Coef. Std. Err. t P>|t| [95% Conf. Interval]----------+----------------------------------------------------------------
r20 |
LD. | .4882883 .0813867 6.00 0.000 .3284026 .648174_cons | .0040183 .0254102 0.16 0.874 -.0459004 .0539371
---------------------------------------------------------------------------
. estimates store NeweyWest
. estimates table nonHAC NeweyWest, b(%9.4f) se(%5.3f) t(%5.2f) title(Estimation de D.rs avec les ecart-types MCO et Newey-West)
Estimation de D.rs avec les ecart-types MCO et Newey-West
--------------------------------------
Variable | nonHAC NeweyWest-------------+------------------------
LD.r20 | 0.4883 0.4883| 0.067 0.081| 7.27 6.00
_cons | 0.0040 0.0040| 0.022 0.025| 0.18 0.16
--------------------------------------legend: b/se/t
Les ecart-types sont plus grands dans le cas Newey-West que pour la methodedes MCO, les coefficients restent neanmoins significatifs.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 52/298
4 L’estimateur des moindres carres generalises
Alors que l’estimateur robuste utilise le coefficient des MCO et
calcule un estimateur pour la matrice des variance-covariances,l’estimateur des moindres carr es quasi generalises permet en plus
de determiner une estimation du coefficient plus efficace.
y = Xβ +
E [|X] = Σ
Σ est defini symetrique et positif, ce qui implique que son inverse
Σ−1
= P
P ou P est une matrice triangulaire. Lorsque l’on pr e-
multiplie le modele par P on obtient,
Py = PXβ + P (10)
y∗ = X∗β + ∗ (11)
avec V ar[∗] = E [∗∗] = PΣP = I N
A partir d’une matrice Σ connue, la regression de y∗ sur X∗ est
asymptotiquement efficace suivant le theoreme de Gauss-Markov.
Cet estimateur est simplement une regression lineaire stan-
dard sur les donnees transformees :
β GLS = (X∗X∗)−1(X
∗y∗)
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 53/298
La matrice de variances-covariances de l’estimateur des moindres
carres generalises β GLS s’ecrit :
V ar[ˆβ GLS|X] = (XΣ−
1
X)−1
4.1 L’estimation dans le cas de l’heteroscedasticite liee a l’echelle
de grandeur
Il faut estimer la matrice Σ en fonction d’un facteur de proportion-
nalite.
On applique la methode des moindres carres quasi generalises en
transformant les variables et en estimant a nouveau l’equation
sur les variables transformees. Les transformations doivent etre
telles qu’elle purge les r esidus de l’heteroscedasticite et rendent
les erreurs i.i.d.
Supposons que la variance de l’erreur pour la ieme entreprise
est proportionnelle a z 2i sachant que z est une mesure de l’echelle
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 54/298
de grandeur en relation avec les variables. On suppose que z i est
strictement positif ou qu’il a ete transforme pour etre positif.
La transformation appropriee pour rendre les erreurs homoscedastiques
serait de diviser chaque variable de y,X (y compris la constante ι,
la premiere colonne de X) par z i. L’equation aura un residu i/z iet comme z i est une constante :
V ar[i/z i] = (1/z 2i )V ar[i]
yi = β 0 + β 1xi1 + . . . + β kxik + i (12)
en specifiant l’equation transformeeyi
z i=
β 0z i
+ β 1xi1
z i+ . . . +
β kxik
z i+
i
z i(13)
y∗i = β 0ι∗ + β 1x∗i1 + . . . + β kx∗ik + ∗i (14)
ou ı∗ = 1/z i.
• La signification economique des coefficients dans l’equation
transformee n’a pas change; β 2 et son estimation β 2 repr esentent
toujours ∂y/∂x2.
• Dans la mesure ou la variable dependante a ete transformee,
les mesures telles que le R2 ne sont plus comparables a ceux
d’origine. En particulier, l’equation transformee n’a pas de con-
stante.
Dans ce context, les moindres carres quasi generalises peuvent
etre estimes a l’aide des moindres carres ponderes. La trans-
formation consiste a pond erer chaque observation (dans ce cas, il
s’agit d’uns ponderation analytique -analytical weights (aw) 1/z 2i ).
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 55/298
4.1.1 Application
On reprend l’exemple de l’estimation de la valeur mediane d’un
logement dans l’agglomeration de Boston.. generate rooms2 = roomsˆ2
. regress lprice rooms crime ldist [aweight = 1/ rooms2](sum of wgt is 1.3317e+01)
Source | SS df MS Number of obs = 506----------+------------------------------ F( 3, 502) = 159.98
Model | 39.6051883 3 13.2017294 Prob > F = 0.0000Residual | 41.426616 502 .082523139 R-squared = 0.4888
----------+------------------------------ Adj R-squared = 0.4857Total | 81.0318042 505 .160459018 Root MSE = .28727
---------------------------------------------------------------------------lprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------rooms | .2345368 .0194432 12.06 0.000 .1963367 .272737crime | -.0175759 .0016248 -10.82 0.000 -.0207682 -.0143837ldist | .0650916 .027514 2.37 0.018 .0110349 .1191483_cons | 8.450081 .1172977 72.04 0.000 8.219626 8.680536
------------------------------------------------------------------------------
On precise dans cette regression la ponderation a adopter, ici il
s’agit d’une ponderation 1/rooms2. Ces estimations sont qualita-
tivement similaires a celles qui utilisent l’option robust, avec des
mesures de signification globale legerement plus faibles.
Les series que l’on specifie comme ponderation analytique (aw)
doivent etre l’inverse de la variance de l’observation, et non son
ecart-type, et les donnees originales sont multipliees par la ponderation
analytique et non divisees.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 56/298
Dans les travaux econometriques, il est courant d’estimer les
equations sous la forme de ratios. Ainsi, pour les donnees de pays
ou de r egion, on utilise les variables dependantes et independantes par tete (par habitants ou travailleurs), de meme que l’on utilise
des ratios financiers pour les entreprises ou les industries. Il n’en
reste pas moins que meme pour ces modeles il faudrait considerer
l’existence d’heteroscedasticite.
4.2 L’estimation dans le cas de l’heteroscedasticite entre groupes
d’observations
Si differents groupes d’observations ont des erreurs avec des vari-
ances diff erentes, il est possible d’appliquer la methode des moin-
dres carr es generalises avec une ponderation analytique.
Dans le cadre des groupes, on definit la ponderation analytique
comme une valeur constante pour chaque observation dans un groupe.
Cette valeur est calculee comme la variance estimee des r esidus
MCO de ce groupe. A l’aide de la serie des residus ainsi obtenus,
on peut construire une estimation de la variance pour chaque groupe,
chaque Etat ou r egion par exemple, avec la commande egen et en-
gendrer ainsi une serie de poids analytique.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 57/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 58/298
. regress dpipc year [aw=gw_wt](sum of wgt is 2.0265e+02)
Source | SS df MS Number of obs = 120
----------+------------------------------ F( 1, 118) = 698.19Model | 2845.55409 1 2845.55409 Prob > F = 0.0000
Residual | 480.921278 118 4.07560405 R-squared = 0.8554----------+------------------------------ Adj R-squared = 0.8542
Total | 3326.47537 119 27.9535745 Root MSE = 2.0188
---------------------------------------------------------------------------dpipc | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
year | .8444948 .0319602 26.42 0.000 .7812049 .9077847_cons | -1663.26 63.61705 -26.14 0.000 -1789.239 -1537.281
---------------------------------------------------------------------------
Si on compare ces r esultats avec ceux obtenus plus haut sur une
simple r egression sans ponderation en utilisant la commande regress,
Root MSE est bien plus petite que dans le cas precedent.
4.3 L’estimation dans le cas des donnees groupees
On peut considerer dans ce cas que la pr ecision de la moyenne
(c’est-a-dire l’ecart-type) pour chaque groupe depend de la taille
du groupe a partir duquel la moyenne est calculee.
La ponderation analytique, proportionnelle a l’inverse de la vari-
ance de l’observation doit prendre en compte la taille du groupe.
Par exemple, si on a des donnees par tete (epargne ou revenu par
tete) pour une r egion, on pourra estimer :
regress saving income [aw=pop]
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 59/298
pour laquelle on specifie la ponderation analytique pop. Les
grandes r egions auront des ponderations plus importantes, refletant
ainsi la plus grande pr ecision de la moyenne du groupe.
4.3.1 Application
On peut illustrer ce dernier cas a l’aide de donnees portant sur les
caracteristiques de 420 quartiers comportant des ecoles publiques.
La moyenne du score pour le test de lecture par eleve (read scr )
est modelisee comme une fonction des depenses par eleve (expn stu),
le nombre d’ordinateurs par eleve (comp stu), et le pourcentage
d’eleves recevant des repas gratuits (meal pct, il s’agit d’un in-
dicateur de pauvrete du quartier). Nous connaissons egalement le
nombre d’inscriptions a l’ecole par quartier (enrl tot).
. use http://www.stata-press.com/data/imeus/pubschl, clear
. summarize read_scr expn_stu comp_stu meal_pct enrl_tot
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
read_scr | 420 654.9705 20.10798 604.5 704expn_stu | 420 5312.408 633.9371 3926.07 7711.507comp_stu | 420 .1359266 .0649558 0 .4208333meal_pct | 420 44.70524 27.12338 0 100enrl_tot | 420 2628.793 3913.105 81 27176
Nous commencons par estimer le modele sans tenir compte du
nombre d’inscrits qui varie considerablement d’un quartier a l’autre.
On s’attend a ce que les scores des tests de lecture soient plus
eleves (relation positive) lorsque les depenses par eleve et le nom-
bre d’ordinateurs par eleve sont plus importants et on s’attent a une
relation negative avec la pauvrete (scores moins bons).
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 60/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 61/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 62/298
UNIVERSITE DE PARIS 11
TD d’économétrie Anne PlunketHeteroscédasticité
1 Problème 1
Pour ce problème, il vous ait demandé de travailler à partir du fichier hetdat2.dta"
Cette base de données comprend des informations sur les niveaux de PIB (GDP) et les
population de 40 pays de l’OCDE :
1. Ouvrez le fichier hetdat2.dta dans Stata et faîtes un graphique de la production manufactu-
rière (manuf) en fonction du PIB - GDP -. Pour obtenir le nom des pays sur le graphique,
utilisez la commande suivante :
twoway (scatter manuf gdp, mlabel(country)), ytitle(manuf) xtitle(gdp)
2. Faîtes la régression de la production manufacturière sur le PIB, sauvegardez les résidus et
proposez un graphique des résidus en fonction du PIB
3. Que vous apprend l’aspect des résidus ?
4. On vous propose le test de Breush et Pagan suivant qu’en déduisez-vous ?
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of manuf
chi2(1) = 12.77
5. Supposons que l’on ne sache pas s’il y a de l’hétéroscédasticité. Appliquez une procédure
robuste aux erreurs de la régression. Y a t-il une différence avec la régression des MCO
précédente et y a t-il un risque à appliquer une procédure robuste dans ce cas.
2 Problème 2
Le fichier CRIME.dta contient des données sur les arrestations de l’années 1986 ainsi que
d’autres informations sur 2725 hommes nés en 1960 ou 1961 en Californie. Chaque homme de
l’échantillon a été arrêté au moins une fois avant l’année 1986.
les variables sont les suivantes :
– narr86 "# times arrested, 1986"
– nfarr86 "# felony arrests, 1986"
– nparr86 "# property crme arr., 1986"
– pcnv "proportion of prior convictions"
– avgsen "avg sentence length, mos."
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 63/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 64/298
Model | 66368437 1 66368437 Prob > F = 0.0124
Residual | 1.0019e+09 98 10223460.8 R-squared = 0.0621-------------+------------------------------ Adj R-squared = 0.0526
Total | 1.0683e+09 99 10790581.8 Root MSE = 3197.4
------------------------------------------------------------------------------
sav | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
inc | .1466283 .0575488 2.55 0.012 .0324247 .260832
_cons | 124.8424 655.3931 0.19 0.849 -1175.764 1425.449
------------------------------------------------------------------------------
. estat hettest inc educ
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: inc educ
chi2(2) = 68.82
Prob > chi2 = 0.0000
4. Proposez une régression des Moindres Carrés Quasi Généralisés. Expliquez
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 65/298
UNIVERSITE DE PARIS 11
TD d’économétrie Anne PlunketHeteroscédasticité
1 Problème 1
Pour ce problème, il vous ait demandé de travailler à partir du fichier hetdat2.dta"
Cette base de données comprend des informations sur les niveaux de PIB (GDP) et les
population de 40 pays de l’OCDE :
1. Ouvrez le fichier hetdat2.dta dans Stata et faîtes un graphique de la production manufactu-
rière (manuf) en fonction du PIB - GDP -. Pour obtenir le nom des pays sur le graphique,
utilisez la commande suivante :
twoway (scatter manuf gdp, mlabel(country)), ytitle(manuf) xtitle(gdp)
2. Faîtes la régression de la production manufacturière sur le PIB, sauvegardez les résidus etproposez un graphique des résidus en fonction du PIB
. regress manuf gdp
Source | SS df MS Number of obs = 28
-------------+------------------------------ F( 1, 26) = 210.73
Model | 1.1600e+11 1 1.1600e+11 Prob > F = 0.0000
Residual | 1.4312e+10 26 550464875 R-squared = 0.8902
-------------+------------------------------ Adj R-squared = 0.8859
Total | 1.3031e+11 27 4.8264e+09 Root MSE = 23462
------------------------------------------------------------------------------
manuf | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gdp | .1936932 .0133428 14.52 0.000 .1662666 .2211197
_cons | 603.8754 5699.688 0.11 0.916 -11112 12319.75
------------------------------------------------------------------------------
. predict res, resid
. scatter res gdp
. twoway (scatter res gdp, mlabel(country)), yline(0) ytitle(residuals) xtitle (gdp)
3. Que vous apprend l’aspect des résidus ?
On constate que les résidus augmentent avec la valeur du PIB, avec une exc eption qui est
la France. Le résultat est donc quelque peu ambigu quant à l’existence ou non d’hétéros-
cédasticité
4. On vous propose le test de Breush et Pagan suivant qu’en déduisez-vous ?
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 66/298
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of manuf
chi2(1) = 12.77
Prob > chi2 = 0.0004
Le test de Breusch et Pagan rejette très largement l’hypothèse d’homoscédasticité avec
une pvaleur inférieure à 1%
5. Supposons que l’on ne sache pas s’il y a hétéroscédasticité. Appliquez une procédurerobuste aux erreurs de la régression. Y a t-il une différence avec la régression des MCO
précédente et y a t-il un risque à appliquer une procédure robuste dans ce cas.. quietly regress manuf gdp
. estimates store model1sansrobuste
. regress manuf gdp, robust
Linear regression Number of obs = 28
F( 1, 26) = 116.39
Prob > F = 0.0000
R-squared = 0.8902
Root MSE = 23462
------------------------------------------------------------------------------| Robust
manuf | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gdp | .1936932 .0179542 10.79 0.000 .1567879 .2305985
_cons | 603.8754 3542.399 0.17 0.866 -6677.629 7885.38
------------------------------------------------------------------------------
. estimates store model1robust
. estimates table model1sansrobuste model1robust, star(.05 .01 .001) style(oneline)
----------------------------------------------
Variable | model1sansr~e model1robust
-------------+--------------------------------gdp | .19369316*** .19369316***
_cons | 603.87543 603.87543
----------------------------------------------
legend: * p<.05; ** p<.01; *** p<.001
. estimates table model1sansrobuste model1robust, se style(oneline)
----------------------------------------
Variable | model1sa~e model1ro~t
-------------+--------------------------
gdp | .19369316 .19369316
| .0133428 .01795416
_cons | 603.87543 603.87543
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 67/298
| 5699.688 3542.3987
----------------------------------------legend: b/se
Il ne semble pas y avoir de différences importantes. En revanche, il peut être risqué d’uti-
liser une procédure robuste pour un si petit échantillon On constate malgré tout que les
écart-types sont un peu plus grands et par conséquent les tsont plus faibles et les intervals
de confiance plus larges. La procédure robuste n’est valable que de manière asymptotique
donc pour de grands échantillons, il se peut que les écart-types ajustés soient tout aussi
faux que ceux de la procédure par les MCO.
2 Problème 2
Le fichier CRIME.dta contient des données sur les arrestations de l’années 1986 ainsi que
d’autres informations sur 2725 hommes nés en 1960 ou 1961 en Californie. Chaque homme de
l’échantillon a été arrêté au moins une fois avant l’année 1986.
les variables sont les suivantes :
– narr86 "# times arrested, 1986"
– nfarr86 "# felony arrests, 1986"
– nparr86 "# property crme arr., 1986"
– pcnv "proportion of prior convictions"
– avgsen "avg sentence length, mos."
– tottime "time in prison since 18 (mos.)"– ptime86 "mos. in prison during 1986"
– qemp86 "# quarters employed, 1986"
– inc86 "legal income, 1986, $100s"
– durat "recent unemp duration"
– black "=1 if black"
– hispan "=1 if Hispanic"
– born60 "=1 if born in 1960"
– pcnvsq "pcnv2"
– pt86sq "ptime862"
– inc86sq "inc862"
1. Lire le fichier CRIME1.dta
2. Pour chacune des variables, tentez de donner l’impact attendu (positif ou négatif) sur la
variable narr86
3. Proposez une régression des MCO et une régression robuste de l’équation suivante :
narr86 = f( narr86 pcnv avgsen avgsen2 ptime86 qemp86 inc86 black hispan).
. gen avgsen2 = avgsen*avgsen
. reg narr86 pcnv avgsen avgsen2 ptime86 qemp86 inc86 black hispan
Source | SS df MS Number of obs = 2725
-------------+------------------------------ F( 8, 2716) = 26.66
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 68/298
Model | 146.349121 8 18.2936401 Prob > F = 0.0000
Residual | 1863.99804 2716 .686302664 R-squared = 0.0728-------------+------------------------------ Adj R-squared = 0.0701
Total | 2010.34716 2724 .738012906 Root MSE = .82843
------------------------------------------------------------------------------
narr86 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
pcnv | -.1355954 .0403699 -3.36 0.001 -.2147542 -.0564366
avgsen | .0178411 .009696 1.84 0.066 -.0011713 .0368534
avgsen2 | - .0005163 .000297 -1.74 0.082 -.0010987 .0000661
ptime86 | -.03936 .0086935 -4.53 0.000 -.0564065 -.0223134
qemp86 | -.0505072 .0144345 -3.50 0.000 -.0788109 -.0222034
inc86 | -.0014797 .0003405 -4.35 0.000 -.0021474 -.0008119
black | .3246024 .0454188 7.15 0.000 .2355435 .4136614
hispan | .19338 .0397035 4.87 0.000 .115528 .2712321
_cons | .5670128 .0360573 15.73 0.000 .4963102 .6377154
------------------------------------------------------------------------------
. estimates store MCO
. reg narr86 pcnv avgsen avgsen2 ptime86 qemp86 inc86 black hispan, robust
Linear regression Number of obs = 2725
F( 8, 2716) = 29.84
Prob > F = 0.0000
R-squared = 0.0728
Root MSE = .82843
------------------------------------------------------------------------------
| Robust
narr86 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
pcnv | -.1355954 .0336218 -4.03 0.000 -.2015223 -.0696685
avgsen | .0178411 .0101233 1.76 0.078 -.0020091 .0376913
avgsen2 | -.0005163 .0002077 -2.49 0.013 -.0009236 -.0001091
ptime86 | -.03936 .0062236 -6.32 0.000 -.0515634 -.0271566
qemp86 | -.0505072 .0142015 -3.56 0.000 -.078354 -.0226603
inc86 | -.0014797 .0002295 -6.45 0.000 -.0019297 -.0010296
black | .3246024 .0585135 5.55 0.000 .2098669 .439338
hispan | .19338 .0402983 4.80 0.000 .1143616 .2723985
_cons | .5670128 .0402756 14.08 0.000 .4880389 .6459867
------------------------------------------------------------------------------
. estimates store robust
. estimates table MCO robust, se style(oneline)
----------------------------------------
Variable | MCO robust
-------------+--------------------------
pcnv | -.13559539 -.13559539
| .04036988 .03362179
avgsen | .01784106 .01784106
| .00969602 .01012332
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 69/298
avgsen2 | -.00051633 -.00051633
| .00029702 .00020769ptime86 | -.03935998 -.03935998
| .0086935 .00622356
qemp86 | -.05050717 -.05050717
| .01443452 .01420152
inc86 | -.00147966 -.00147966
| .00034053 .00022951
black | .32460243 .32460243
| .04541881 .05851354
hispan | .19338004 .19338004
| .03970348 .0402983
_cons | .56701278 .56701278
| .03605733 .04027557
----------------------------------------
4. Commentez vos résultats (signes attendus, écart-types...)
Les grandes différences proviennent de avgsen et avgsen2 qui ont des écart-types robustes
plus faibles et donc des t plus élevés, les coefficients sont plus significatifs. Dans la mesure
où l’impact de la variable avgsen sur narr86 est quadratique, il importe de comprendre à
partir de quel point la relation se retourne. La durée de la sentence a un impact positif sur
le nombre de fois que l’individu a été arrêté mais au delà d’une certaine durée l’impact
devient négatif. Quelle est ce point ? Pour calculer le point, il faut diviser le coefficient de
avgen par 2 fois la valeur du coefficient au carré
. di _b[avgsen]/(2* _b[avgsen2])
-17.276862
Le point de retournement est donc .0178/[2*0,00052] soit 17,12 ; cela signifie que le
nombre d’arrestations est relié de manière positive à la durée moyenne de la sentence
lorsque cette durée est inférieure à 17 mois ; au delà, la durée moyenne de la sentence a
bien un effet négatif sur le nombre d’arrestations.
5. Faîtes le tes de Breusch et Pagan d’existence d’hétéroscédasticité à partir du carré desrésidus. Quelle statistique utilisez-vous ? Qu’en déduisez-vous ?
. reg narr86 pcnv avgsen avgsen2 ptime86 qemp86 inc86 black hispan
Source | SS df MS Number of obs = 2725
-------------+------------------------------ F( 8, 2716) = 26.66
Model | 146.349121 8 18.2936401 Prob > F = 0.0000Residual | 1863.99804 2716 .686302664 R-squared = 0.0728
-------------+------------------------------ Adj R-squared = 0.0701
Total | 2010.34716 2724 .738012906 Root MSE = .82843
------------------------------------------------------------------------------
narr86 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
pcnv | -.1355954 .0403699 -3.36 0.001 -.2147542 -.0564366
avgsen | .0178411 .009696 1.84 0.066 -.0011713 .0368534
avgsen2 | - .0005163 .000297 -1.74 0.082 -.0010987 .0000661
ptime86 | -.03936 .0086935 -4.53 0.000 -.0564065 -.0223134
qemp86 | -.0505072 .0144345 -3.50 0.000 -.0788109 -.0222034
inc86 | -.0014797 .0003405 -4.35 0.000 -.0021474 -.0008119
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 70/298
black | .3246024 .0454188 7.15 0.000 .2355435 .4136614
hispan | .19338 .0397035 4.87 0.000 .115528 .2712321 _cons | .5670128 .0360573 15.73 0.000 .4963102 .6377154
------------------------------------------------------------------------------
. predict res, resid
. gen res2 = res*res
. reg res2 pcnv avgsen avgsen2 ptime86 qemp86 inc86 black hispan
Source | SS df MS Number of obs = 2725
-------------+------------------------------ F( 8, 2716) = 6.17
Model | 738.907487 8 92.3634359 Prob > F = 0.0000
Residual | 40686.1478 2716 14.9801723 R-squared = 0.0178
-------------+------------------------------ Adj R-squared = 0.0149
Total | 41425.0553 2724 15.2074359 Root MSE = 3.8704
------------------------------------------------------------------------------
res2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
pcnv | .0172283 .1886071 0.09 0.927 -.3525997 .3870562
avgsen | .000862 .0452996 0.02 0.985 -.0879631 .0896871
avgsen2 | - .0002494 .0013877 -0.18 0.857 -.0029704 .0024716
ptime86 | -.0797674 .0406158 -1.96 0.050 -.1594084 -.0001264
qemp86 | -.2254136 .0674377 -3.34 0.001 -.357648 -.0931792
inc86 | -.001374 .001591 -0.86 0.388 -.0044936 .0017456
black | .7024677 .2121956 3.31 0.001 .2863865 1.118549
hispan | .344285 .1854937 1.86 0.064 -.019438 .708008 _cons | 1.119298 .168459 6.64 0.000 .7889776 1.449619
------------------------------------------------------------------------------
* PB LM statisti
. display 2725*0.0178
48.505
ou
. display e(N)*e(r2)
et la pvaleur est
display chi2tail(8,48.505)
7.563e-08
. display invchi2(8, 0.95)
15.507313
On rejette l’hypothèse nulle, il y a de l’hétéroscédasticité
6
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 71/298
3 Problème 3.
Pour ce dernier problème, nous allons étudier le comportement des épargnants. Nous dispo-
sons du fichier SAVING.RAW qui contient des données sur 100 personnes pour l’année 1970.
Les variables du modèle sont les suivantes :
– sav annual savings, $ (1970)
– inc annual income, $ (1970)
– size family size
– educ years education, household head
– age age of household head
– black =1 if household head is black
– cons annual consumption, $ (1970)
1. A partir du fichier saving.raw et des noms de variables données ci-dessous, entrez les
données, associez leur une définition à l’aide de la commande variable label
. infile sav inc size educ age black cons using "C:\SAVING.RAW"
(100 observations read)
2. Compte tenu des variables du modèles, pensez vous qu’elles peuvent créer de l’hétéros-
cédasticité, expliquez pourquoi ?
3. On vous propose la régression et le test suivants ? Qu’en déduisez-vous quant à l’hétéros-
cédasticité ?
. reg sav inc
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 1, 98) = 6.49
Model | 66368437 1 66368437 Prob > F = 0.0124
Residual | 1.0019e+09 98 10223460.8 R-squared = 0.0621
-------------+------------------------------ Adj R-squared = 0.0526
Total | 1.0683e+09 99 10790581.8 Root MSE = 3197.4
------------------------------------------------------------------------------
sav | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
inc | .1466283 .0575488 2.55 0.012 .0324247 .260832
_cons | 124.8424 655.3931 0.19 0.849 -1175.764 1425.449
------------------------------------------------------------------------------
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of sav
chi2(1) = 14.22
Le tes de Breusch et Pagan montre qu’il y a de l’hétéroscédasticité. Il n’est pas possible
d’accepter l’hypothèse nulle. La valeur critique du chi2(1) = 3,84
. display invchi2(1,.95) 3.8414588
7
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 72/298
4. Proposez une régression des Moindres Carrés Quasi Généralisés. Expliquez
. reg sav inc [aw = 1/inc]
(sum of wgt is 1.3877e-02)
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 1, 98) = 9.14
Model | 58142339.8 1 58142339.8 Prob > F = 0.0032
Residual | 623432468 98 6361555.8 R-squared = 0.0853
-------------+------------------------------ Adj R-squared = 0.0760
Total | 681574808 99 6884594.02 Root MSE = 2522.2
------------------------------------------------------------------------------
sav | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------inc | .1717555 .0568128 3.02 0.003 .0590124 .2844986
_cons | -124.9528 480.8606 -0.26 0.796 -1079.205 829.2994
------------------------------------------------------------------------------
8
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 73/298
Chapitre 4. Les variables indicatrices
Les variables indicatrices sont parmi les concepts les plus utilises
en economie appliquee dans la mesure ou elles signalent la pr esence
ou l’absence de certaines caracteristiques. Les variables indicatri-
ces sont egalement connues sous le nom de variables binaires ou
booleennes et se retrouvent en econometrie sous le nom de vari-
able dummy. Nous allons considerer comment utiliser les variablesindicatrices
• pour evaluer les effets de facteurs qualitatifs
• dans des modeles qui melangent variables qualitatives et quan-
titatives
• pour les ajustements saisonniers
1
• pour evaluer la sta
structurels
1 Tester la significat
Les variables econom
• quantitatif (ou cardqui peuvent concep
• ordinal (ou ordonn
elements et non un
emple de l’echelle
evaluer les r esultat
correct, 2 = mauvai
2
sous la forme d’un classement ordonne. On sait que 5 est plus
eleve que 4 qui est lui meme plus eleve que 3. Mais celui-ci ne
nous permet pas de dire que celui qui a r epondu 5 est cinq fois
plus susceptible de soutenir le president que celui qui a repondu
1 ou 25% plus enclin a soutenir le Pr esident, ...
• qualitatif : Si les variables sont codees comme des caracteres M
et F pour le genre du r epondant au questionnaire, on ne risque pas de les confondre avec des variables quantitatives.
En revanche, les variables purement qualitatives, sans ordre parti-
culier, sont tr es largement utilisees dans les donnees economiques.
3
2 La regression avec
Supposons que l’on di
Etats de la Nouvelle A
La question que l’on s
plique une proportion
les diff erentes anneesdollars) sur deux dece
. use http://www.stat
. mean dpipc, over(stMean estimation
CT: state MA: state ME: state NH: state
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 74/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 75/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 76/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 77/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 78/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 79/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 80/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 81/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 82/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 83/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 84/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 85/298
Chapitre 4. Les modeles a variables categorielles
Les modeles de r egression pour variables binaires constituent le
fondement a partir duquel on construit des modeles plus complexes
pour les variables categorielles ordinales, nominales et les count
models ou modeles de comptages.
Les variables dependantes binaires prennent deux valeurs codees0 (pour une occurence negative, c’est-a-dire, l’evenement ne s’est
pas produit) et 1 (pour une occurence positive, c’est-a-dire, l’evenement
s’est produit) : exemple : la personne a t-elle votee? La personne
est-elle feministe? Cinq annees apres le diagnostic d’un cancer,
la personne est-elle toujours en vie? L’article achete a t-il ete re-
tourne?
1
1 Interpretation des
Les modeles pour les
non lineaires. Il est im
non linearite pour bien
1.1 Les modeles linea
La figure suivante pr e
variable dependante et
d est une variable inde
est le suivant :
Pour la simplicite, on
2
xx1 x2
β
β
β
β
y
α + δ
α
d = 0
d = 1
Un modele lineaire simple
∂y
∂x = ∂ (α + βx + δd)
∂x = β
3
Dans un modele line
autrement dit elle est l
de x et d.
∆y
∆d = (α +
Lorsque d varie de 0
x. C’est ce que r epr essepare les deux droite
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 86/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 87/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 88/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 89/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 90/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 91/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 92/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 93/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 94/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 95/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 96/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 97/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 98/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 99/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 100/298
UNIVERSITE DE PARIS 11
TD d’économétrie Anne PlunketFiche de TD : Le modèle à variables binaires - Logit / Probit
Dans cet exemple, on tente d’expliquer les causes du petit poids des bébés. On a établi uncertain nombre de facteurs pouvant intervenir dans le faible poids du bébé. Les données dont ondispose sont décrites dans le tableau suivant :
. describe
Contains data from http://www.stata-press.com/data/r8/lbw.dta
obs: 189 Hosmer & Lemeshow data
vars: 11 18 Jul 2002 17:27
size: 3,402 (99.7% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
low byte %8.0g poids à la naissance <2500g
age byte %8.0g age de la mère
lwt int %8.0g le poids le mois précédent
race byte %8.0g race origine raciale
smoke byte %8.0g tabagisme durant la grocesse
ht byte %8.0g hypertension
ui byte %8.0g Problèmes utérinsftv byte %8.0g Nombre de visite chez un medecin
durant le premier trimestre
bwt int %8.0g poids à la naissance (grammes)
-------------------------------------------------------------------------------
L’origine raciale est codées 1, 2, 3 selon que les mères sont respectivement
de race blanche, noire ou autre.
1. Dans un premier temps on cherche à savoir si les variables sont individuellement explica-
tives. Pour ce faire, expliquez quel test est employé. Les variables sont elles explicatives ?
2. Quel est le signe attendu pour les variables age et smoke. Faites un test unilatéral pour les
deux variables en vous appuyant sur la p valeur. Proposez une représentation graphique.
On vous propose la régression logit suivante. Afin de faire apparaître les catégories ra-ciales, on a utilisé la fonction xi qui permet d’obtenir automatiquement à partir de la
variable race, trois variables binaires I race1 pour les femmes de races blanches, I race2
pour les femmes de races noires et I race3 pour les femmes d’une autres races. Pour éviter
les problèmes de multicolinéarité, seules les deux dernières variables sont retenues. Les
résultats de la régression sont les suivants :
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 101/298
. xi:logit low age lwt i.race smoke ht ui ftv i.race
_Irace_1-3 (naturally coded; _Irace_1 omitted)
Logit estimates Number of obs = 189
LR chi2(8) = 30.82
Prob > chi2 = 0.0002
Log likelihood = -101.92618 Pseudo R2 = 0.1313
------------------------------------------------------------------------------
low | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | - .0205412 .0359508 -0.57 0.568 -.0910035 .049921
lwt | -.0164966 .0068585 -2.41 0.016 -.0299389 -.0030542
_Irace_2 | 1.289233 .5275696 2.44 0.015 .2552155 2.32325
_Irace_3 | .9195141 .4362519 2.11 0.035 .064476 1.774552
smoke | 1.041578 .3954429 2.63 0.008 .2665247 1.816632
ht | 1.88408 .6947192 2.71 0.007 .5224555 3.245705
ui | .9041143 .448583 2.02 0.044 .0249078 1.783321
ftv | .0592989 .171987 0.34 0.730 -.2777895 .3963873
_cons | .4521566 1.185346 0.38 0.703 -1.871079 2.775392
------------------------------------------------------------------------------
3. On cherche à savoir si les variables lwt I race2 I race3 sont conjointement explicatives.Quelles hypothèses nulle et alternative faut-il spécifier ? Quels tests et statistiques uti-lise t-on ? Expliquez le principe du lrtest en utilisant la démarche modèle contraint noncontraint. Faîtes le test.
. logit low age lwt _Irace_2 _Irace_3 smoke ht ui ftv, nolog
Logit estimates Number of obs = 189LR chi2(8) = 30.82
Prob > chi2 = 0.0002
Log likelihood = -101.92618 Pseudo R2 = 0.1313
(résultats supprimés)
. est store model1
. logit low age smoke ht ui ftv, nolog
Logit estimates Number of obs = 189
LR chi2(5) = 16.66
Prob > chi2 = 0.0052
Log likelihood = -109.00351 Pseudo R2 = 0.0710
(résultats supprimés). est store model2
. lrtest model1
likelihood-ratio test LR chi2(3) = 14.15
(Assumption: model2 nested in model1) Prob > chi2 = 0.0027
4. A l’aide de la commande fitstat, on reprend les deux modèles précédents. Lequel des deuxmodèles est préféré. Expliquez.
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 102/298
. fitstat, using(mod1)
Measures of Fit for logit of low
Current Saved Difference
Model: logit logit
N: 189 189 0
Log-Lik Intercept Only: -117.336 -117.336 0.000
Log-Lik Full Model: -109.004 -101.926 -7.077
D: 218.007(183) 203.852(180) 14.155(3)
LR: 16.665(5) 30.820(8) 14.155(3)
Prob > LR: 0.005 0.000 0.003
McFadden’s R2: 0.071 0.131 -0.060
McFadden’s Adj R2: 0.020 0.055 -0.035
Maximum Likelihood R2: 0.084 0.150 -0.066
Cragg & Uhler’s R2: 0.119 0.212 -0.093
McKelvey and Zavoina’s R2: 0.114 0.234 -0.120
Efron’s R2: 0.084 0.152 -0.068
Variance of y*: 3.714 4.296 -0.582
Variance of error: 3.290 3.290 0.000
Count R2: 0.704 0.730 -0.026
Adj Count R2: 0.051 0.136 -0.085
AIC: 1.217 1.174 0.043
AIC*n: 230.007 221.852 8.155
BIC: -741.233 -739.662 -1.571
BIC’: 9.544 11.114 -1.571
Difference of 1.571 in BIC’ provides weak support for current model.
Note: p-value for difference in LR is only valid if models are nested.
5. Comment analysez vous la 3ème ligne (I race2)du tableau suivant ?
listcoef
logit (N=189): Factor Change in Odds
Odds of: 1 vs 0
----------------------------------------------------------------------
low | b z P>|z| e^b e^bStdX SDofX
-------------+--------------------------------------------------------
age | -0.02054 -0.571 0.568 0.9797 0.8969 5.2987lwt | -0.01650 -2.405 0.016 0.9836 0.6039 30.5752
_Irace_2 | 1.28923 2.444 0.015 3.6300 1.5609 0.3454
_Irace_3 | 0.91951 2.108 0.035 2.5081 1.5543 0.4796
smoke | 1.04158 2.634 0.008 2.8337 1.6649 0.4894
ht | 1.88408 2.712 0.007 6.5803 1.5851 0.2445
ui | 0.90411 2.015 0.044 2.4697 1.3799 0.3562
ftv | 0.05930 0.345 0.730 1.0611 1.0648 1.0593
----------------------------------------------------------------------
6. Vous disposez des résultats suivants qui donnent des probabilités selon les caractéristiques
des individus. Analysez et comparez les résultats ? Qu’en déduisez-vous ?
. prvalue
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 103/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 104/298
UNIVERSITE DE PARIS 11TD d’économétrie Anne Plunket
Fiche de TD : Le modèle à variables binaires - Logit / Probit
Dans cet exemple, on tente d’expliquer les causes du petit poids des bébés. On a établi uncertain nombre de facteurs pouvant intervenir dans le faible poids du bébé. Les données dont ondispose sont décrites dans le tableau suivant :
. describe
Contains data from http://www.stata-press.com/data/r8/lbw.dta
obs: 189 Hosmer & Lemeshow data
vars: 11 18 Jul 2002 17:27
size: 3,402 (99.7% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
low byte %8.0g poids à la naissance <2500g
age byte %8.0g age de la mère
lwt int %8.0g le poids le mois précédent
race byte %8.0g race origine raciale
smoke byte %8.0g tabagisme durant la grocesse
ht byte %8.0g hypertension
ui byte %8.0g Problèmes utérinsftv byte %8.0g Nombre de visite chez un medecin
durant le premier trimestre
bwt int %8.0g poids à la naissance (grammes)
-------------------------------------------------------------------------------
L’origine raciale est codées 1, 2, 3 selon que les mères sont respectivement
de race blanche, noire ou autre.
1. Dans un premier temps on cherche à savoir si les variables sont individuellement
explicatives. Pour ce faire, expliquez quel test est employé. Les variables sont elles
explicatives ?
Il convient de faire un test du chi2 à un degré de liberté (cf le poly). On peut faire un test
du chi2 à 5% et on peut regarder si la p valeur P > |z| est inférieure ou égale à 5%. Si
c’est le cas, cela signifie que la variable est explicative. Ici lwt, I race2, I race3, smoke,
ht, ui sont explicatifs. Le χ2(1)5% = 3, 84, donc si le z2 > 3, 84 on rejette H0. Ou si on
utilise la loi centrée réduite, la valeur de la centrée réduite à 5% est z = 1, 96.
2. Quel est le signe attendu pour les variables age et smoke. Faites un test unilatéral
pour les deux variables en vous appuyant sur la p valeur. Proposez une représenta-
tion graphique.
Pour déterminer le signe, on se demande si la variable va avoir un impact positif ou néga-
tif sur la probabilité d’avoir un enfant de faible poids.
la variable age va avoir un impact positif sur la variable, puisqu’on suppose que plus la
maman est agée et plus elle risque d’avoir un bébé de faible poids. H 0 : β 1 ≤ 0 contre
β 1 > 0
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 105/298
z = −0, 57 ; on veut la probabilité unilatérale donc on lit dans la table à 10% et non pas
à 5%. z10% = 1, 6449. Or z = −0, 57, en valeur absolue, z < 1, 6449, on accepte doncl’hypothèse nulle.
la variable smoke aura un impact positif sur la variable, puisqu’elle va accroître la proba-
bilité d’avoir un enfant de faible poids.
H 0 : β 5 ≤ 0 contre β 5 > 0z = 2, 63 > z10%, par conséquent, on rejette l’hypothèse nulle.
Le fait de fumer a un impact très significatif sur la probabilité d’avoir un bébé de faible
poids.
. xi:logit low age lwt i.race smoke ht ui ftv
i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)
Logit estimates Number of obs = 189
LR chi2(8) = 30.82
Prob > chi2 = 0.0002
Log likelihood = -101.92618 Pseudo R2 = 0.1313
------------------------------------------------------------------------------
low | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | - .0205412 .0359508 -0.57 0.568 -.0910035 .049921
lwt | -.0164966 .0068585 -2.41 0.016 -.0299389 -.0030542
_Irace_2 | 1.289233 .5275696 2.44 0.015 .2552155 2.32325
_Irace_3 | .9195141 .4362519 2.11 0.035 .064476 1.774552
smoke | 1.041578 .3954429 2.63 0.008 .2665247 1.816632ht | 1.88408 .6947192 2.71 0.007 .5224555 3.245705
ui | .9041143 .448583 2.02 0.044 .0249078 1.783321
ftv | .0592989 .171987 0.34 0.730 -.2777895 .3963873
_cons | .4521566 1.185346 0.38 0.703 -1.871079 2.775392
------------------------------------------------------------------------------
3. On cherche à savoir si les variables lwt I race2 I race3 sont conjointement explica-tives. Quelles hypothèses nulle et alternative faut-il spécifier ? Quels tests et statis-tiques utilise t-on ? Expliquez le principe du lrtest en utilisant la démarche modèlecontraint non contraint. Faîtes le test.G2(M |M c) = 2ln(M ) − 2ln(M c)G2 suit un chi2 à J=3 degrés de liberté.H 0 : β lwt = β irace2 = β irace3 = 0 et H 1 : au moins une des trois variables à un coefficient
différent de 0pour le modèle complet, lnL(M)=-101,92pour le modèle contrait, sous H0, lnL(Mc)=-109,003
G2 = 14, 15 > χ23 = 7, 81 donc on rejette l’hypothèse nulle. AU moins une des trois
variables est explicative.
. logit low age lwt _Irace_2 _Irace_3 smoke ht ui ftv, nolog
Logit estimates Number of obs = 189
LR chi2(8) = 30.82
Prob > chi2 = 0.0002
Log likelihood = -101.92618 Pseudo R2 = 0.1313
(résultats supprimés)
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 106/298
. est store model1
. logit low age smoke ht ui ftv, nolog
Logit estimates Number of obs = 189
LR chi2(5) = 16.66
Prob > chi2 = 0.0052
Log likelihood = -109.00351 Pseudo R2 = 0.0710
(résultats supprimés)
. est store model2
. lrtest model1
likelihood-ratio test LR chi2(3) = 14.15
(Assumption: model2 nested in model1) Prob > chi2 = 0.0027
4. A l’aide de la commande fitstat, on reprend les deux modèles précédents. Lequel desdeux modèles est préféré. Expliquez. cf cours il faut regarder les pseudo R2 et c’est
le plus élevé qui sera le modèle préféré. Mc Fadden, maximum likelihood R2. C’est le
modèle saved, donc complet qui est préféré.
. fitstat, using(mod1)
Measures of Fit for logit of low
Current Saved Difference
Model: logit logit
N: 189 189 0
Log-Lik Intercept Only: -117.336 -117.336 0.000
Log-Lik Full Model: -109.004 -101.926 -7.077D: 218.007(183) 203.852(180) 14.155(3)
LR: 16.665(5) 30.820(8) 14.155(3)
Prob > LR: 0.005 0.000 0.003
McFadden’s R2: 0.071 0.131 -0.060
McFadden’s Adj R2: 0.020 0.055 -0.035
Maximum Likelihood R2: 0.084 0.150 -0.066
Cragg & Uhler’s R2: 0.119 0.212 -0.093
McKelvey and Zavoina’s R2: 0.114 0.234 -0.120
Efron’s R2: 0.084 0.152 -0.068
Variance of y*: 3.714 4.296 -0.582
Variance of error: 3.290 3.290 0.000
Count R2: 0.704 0.730 -0.026
Adj Count R2: 0.051 0.136 -0.085
AIC: 1.217 1.174 0.043
AIC*n: 230.007 221.852 8.155
BIC: -741.233 -739.662 -1.571
BIC’: 9.544 11.114 -1.571
Difference of 1.571 in BIC’ provides weak support for current model.
Note: p-value for difference in LR is only valid if models are nested.
5. Comment analysez vous la 3ème ligne (I race2)du tableau suivant ?
cf cours ici b est le coefficient, eb est la variation du ratio odds, ∆Ω = Ω(X + 1)/Ω(X )Ici, le fait d’être noire va affecter le ratio Ω d’un facteur 3,63, ce qui est énorme.
listcoef
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 107/298
logit (N=189): Factor Change in Odds
Odds of: 1 vs 0
----------------------------------------------------------------------
low | b z P>|z| e^b e^bStdX SDofX
-------------+--------------------------------------------------------
age | -0.02054 -0.571 0.568 0.9797 0.8969 5.2987
lwt | -0.01650 -2.405 0.016 0.9836 0.6039 30.5752
_Irace_2 | 1.28923 2.444 0.015 3.6300 1.5609 0.3454
_Irace_3 | 0.91951 2.108 0.035 2.5081 1.5543 0.4796
smoke | 1.04158 2.634 0.008 2.8337 1.6649 0.4894
ht | 1.88408 2.712 0.007 6.5803 1.5851 0.2445
ui | 0.90411 2.015 0.044 2.4697 1.3799 0.3562
ftv | 0.05930 0.345 0.730 1.0611 1.0648 1.0593
----------------------------------------------------------------------
6. Vous disposez des résultats suivants qui donnent des probabilités selon les caracté-
ristiques des individus. Analysez et comparez les résultats ? Qu’en déduisez-vous ?
La probabilité d’avoir un bébé de faible poids est de 27,85% pour la population en géné-
ral.
Elle est de 13% (donc plus faible) lorsque la maman est de race blanche et qu’elle ne fume
pas.
Elle est augmente à 30,5% lorsque la maman est de race blanche et qu’elle fume pas.
Elle est augmente à 58,23% lorsque la maman est d’origine noire ou hispanique ou autre
et qu’elle ne fume pas.Elle est de 79,57% lorsque la maman est d’origine noire ou hispanique ou autre et qu’elle
fume. On a donc deux facteurs aggravant à savoir l’origine raciale, qui n’est autre que la
traduction de conditions sociales défavorables et qu’elle a un facteur aggravant à savoir le
fait de fumer.
. prvalue
logit: Predictions for low
Pr(y=1|x): 0.2785 95% ci: (0.2129,0.3552)
Pr(y=0|x): 0.7215 95% ci: (0.6448,0.7871)
age lwt _Irace_2 _Irace_3 smoke ht ui
x= 23.238095 129.82011 .13756614 .35449735 .39153439 .06349206 .14814815
. prvalue, x( _Irace_2=0 _Irace_3=0 smoke=0) rest(mean)
logit: Predictions for low
Pr(y=1|x): 0.1358 95% ci: (0.0690,0.2499)
Pr(y=0|x): 0.8642 95% ci: (0.7501,0.9310)
age lwt _Irace_2 _Irace_3 smoke ht ui
x= 23.238095 129.82011 0 0 0 .06349206 .14814815
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 108/298
. prvalue, x( _Irace_2=0 _Irace_3=0 smoke=1) rest(mean)
logit: Predictions for low
Pr(y=1|x): 0.3052 95% ci: (0.2003,0.4350)
Pr(y=0|x): 0.6948 95% ci: (0.5650,0.7997)
age lwt _Irace_2 _Irace_3 smoke ht ui
x= 23.238095 129.82011 0 0 1 .06349206 .14814815
. prvalue, x( _Irace_2=1 _Irace_3=1 smoke=0) rest(mean)
logit: Predictions for low
Pr(y=1|x): 0.5823 95% ci: (0.3107,0.8116)
Pr(y=0|x): 0.4177 95% ci: (0.1884,0.6893)
age lwt _Irace_2 _Irace_3 smoke ht ui
x= 23.238095 129.82011 1 1 0 .06349206 .14814815
. prvalue, x( _Irace_2=1 _Irace_3=1 smoke=1) rest(mean)
logit: Predictions for low
Pr(y=1|x): 0.7957 95% ci: (0.4850,0.9415)
Pr(y=0|x): 0.2043 95% ci: (0.0585,0.5150)
age lwt _Irace_2 _Irace_3 smoke ht ui
x= 23.238095 129.82011 1 1 1 .06349206 .14814815
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 109/298
7.4 Fiche de TD 4. La régression multiple et les tests d’hypothèses
L’objectif de ce TD est d’analyser la significativité d’un modèle économétrique. Ceci se faitpar la pratique des tests. Il s’agit de tests de significativité globale et de tests sur les coefficientsestimés.
Problème 1
En 1986, Frederick Schut et Peter VanBergeijk ont publié un article dans lequel ils ont tenté devoir si l’industrie pharmaceutique avait adopté une stratégie de discrimination des prix au niveauinternational. Pour ce faire, ils ont estimé un modèle de détermination des prix de médicamentsen coupe instantanée dans 32 pays. Les données utilisées datent de 1975.
Pour spécifier leur modèle de régression, les auteurs ont fait les hypothèses suivantes :– s’il y a discrimination des prix, alors le coefficient du PNB par habitant doit être po-sitif dans une équation bien spécifiée. Le coefficient du PNB par habitant peut en effetconstituer un indicateur de la discrimination des prix parce que si les habitants ont uneforte capacité à payer alors l’élasticité-prix de la demande pour les médicaments sera plusfaible et par conséquent le prix fixé par l’industriel sera plus élevé.
– les prix sont plus élevés lorsque les brevets sont autorisés– les prix sont plus faibles lorsqu’ils sont contrôlés– les prix sont plus faibles si la concurrence est forte– les prix sont plus faibles si le marché du médicament est de grande taille.
L’équation estimée par les auteurs est la suivante :
P i = β 0 + β 1GDPN i + β 2CV N i + β 3P P i + β 4DP C i + β 5IP C i + β 6P OP i + i
avec
– P i : Le prix des médicaments dans le pays i divisé par le prix des médicaments aux Etats-Unis
– GDPN i : le PNB par habitant dans le pays i divisé par celui des Etats-Unis– CV N i : le volume de consommation de médicaments par habitant divisé par celui des
Etats-Unis– P P i : une variable dummy égale à 1 lorsque le brevet pour les produits pharmaceutiques
est reconnu par le pays i, égale à 0 sinon.
– DP C i : une variable dummy égale à 1 lorsque le pays i pratique un contrôle des prix, 0sinon.
– IP C i : une variable dummy égale à 1 lorsque le pays i encourage la concurrence auniveau des prix et 0 sinon.
– P OP i : la population de chaque pays i divisée par celle des Etats-Unis.
104
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 110/298
1. En adoptant un niveau de significativité de 5%n construire les tests pour juger si les va-riables explicatives sont significatives. Dans chaque cas, indiquez clairement :
(a) Quelle est l’hypothèse nulle et alternative
(b) Quelle statistique utilisez-vous pour faire le test
(c) Indiquez la forme de la région critique. Représentez sur un graphique la distribu-tion de la statistique sous l’hypothèse nulle. Indiquez l’origine, la signification desaxes, l’emplacement de la zone de rejet, la valeur de la statistique calculée. Enoncezclairement vos conclusions en vous référant au problème économique considéré.
(d) Indiquez ce que signifie la p-valeur, P[|T|>t].
2. En adoptant un niveau de significativité de 5%, construire les tests pour juger si le signedes variables que vous aurez jugés significatives est appropriée. Dans chaque cas indiquezclairement
(a) Quelle est l’hypothèse nulle et alternative
(b) Quelle statistique utilisez-vous pour faire le test
(c) Représentez sur un graphique la distribution de la statistique sous l’hypothèse nulle.Indiquez l’origine, la signification des axes, l’emplacement de la zone de rejet, la va-leur de la statistique calculée. Enoncez clairement vos conclusions en vous référantau problème économique considéré.
3. Etablir un tableau d’analyse de la variance pour le modèle ci-dessus.
4. Construisez un test de significativité globale du modèle à 5%. Quelle statistique utilisez-vous, précisez son calcul et quelle hypothèse testez-vous ? Faîtes cela de deux manièresdifférentes. Qu’en déduisez-vous ?
5. Calculez le R2 ? Qu’en déduisez-vous ? Etes-vous surpris de vos résultats compte tenudes résultats de la question précédente. Comment peut-on relier ces deux indicateurs de
significativité.6. Construisez un intervalle de confiance à 10% pour le coefficient du PNB par habitant et
pour le volume de consommation de médicaments chacun des coefficients estimés.
7. Faîtes un test de significativité global pour GDPN , C V N et DP C . Quel test utilisez-vous ? Comment procédez-vous ?
8. Pensez-vous que Schut et VanBergeijk ont conclu à l’existence d’une discrimination desprix. Pourquoi ou pourquoi pas ?
Les résultats de la régression obtenus avec Limdep sont les suivants :+-----------------------------------------------------------------------+| Ordinary least squares regression Weighting variable = none |
| Dep. var. = P Mean= 41.48696970 , S.D.= 189.8914093 || Model size: Observations = 33, Parameters = 7, Deg.Fr.= 26 || Residuals: Sum of squares= 7939.073822 , Std.Dev.= 17.47424 || Fit: R-squared= .993120, Adjusted R-squared = .99153 || Model test: F[ 6, 26] = 625.48, Prob value = .00000 || Diagnostic: Log-L = -137.2952, Restricted(b=0) Log-L = -219.4502 |
105
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 111/298
| LogAmemiyaPrCrt.= 5.914, Akaike Info. Crt.= 8.745 || Autocorrel: Durbin-Watson Statistic = 2.42015, Rho = -.21008 |+-----------------------------------------------------------------------++---------+--------------+----------------+--------+---------+----------+|Variable | Coefficient | Standard Error |t-ratio |P[|T|>t] | Mean of X|
+---------+--------------+----------------+--------+---------+----------+Constant 31.64980645 6.0767585 5.208 .0000GDPN 1.464277192 .22878429 6.400 .0000 11.240909CVN -.6740935338 .23393986 -2.881 .0078 2.6454545POP .5477959030E-02 .65222950E-01 .084 .9337 -5.2718182PP 15.03789484 4.7588778 3.160 .0040 -29.787879IPC -4.670269469 6.5233638 -.716 .4804 -30.000000DPC -10.13164942 6.7702104 -1.497 .1466 -29.909091(Note: E+nn or E-nn means multiply by 10 to + or -nn power.)
106
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 112/298
7.5 Correction de la fiche de TD 4
Problème 1
Il y a 33 données et chaque ligne correspond à un pays. La 33e ligne, c’est les Etats-Unispour cette raison les chiffres correspondant à P, GDPN, CV, CVN, POP sont éaux à 100. Il s’agiten fait de sorte d’indices. Pour les états Unis (EU), il s’agit de P EU /P EU pour les autres c’estpar exemple, P F /P EU . Prix de la France / prix des EU.
1. Les tests de signification des coefficients de la régression.
On ne peut pas calculer le risque de deuxième espèce et la puissance du test parce quepour cela il nous faudrait calculer la probabilité exacte à partir de la loi du student ce
qu’on ne peut pas faire en tout cas sans ordinateur donc on laisse tomber.En revanche, la p-valeur nous donne le risque de première espèce autrement dit la proba-bilité de rejeter H 0 à tort.
Il s’agit de faire des tests du student bilatéraux.
(a) GDPN :H 0 : β 1 = 0 contre H 1 : β 1 = 0Sous l’hypothèse nulle :
β 1 − β 1H 0
sβ 1∼ Stn−k−1
β 1sβ 1
∼ St33−6−1
La valeur du student calculé est :
tc =β 1sβ 1
= 1, 462
0, 2287 = 6, 400
Il s’agit d’un test bilatéral à 95%,α/2 = 5/2 = 0, 025%,la lecture de la table se fait donc à :
P/2 = 0, 025 ⇒ P = 0, 05, on lit à 5% dans la table et on trouve qu’à 26 degrés deliberté, tα/2 = 2, 056La règle de décision est la suivante : si la valeur du t calculée en valeur absolue estsupérieure au t de la table, dans ce cas on rejette l’hypothèse nulle.Il faut représenter la courbe en cloche de la student (comme dans le poly de cours)et indiquer la région critique et les seuils critiques −2, 056 et +2, 056, indiquer lazone de rejet de H 0 et montrer graphiquement que le tc = 6, 687 est à droite du seuil
107
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 113/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 114/298
(d) DPC :H 0 : β 4 = 0 contre H 1 : β 4 = 0Sous l’hypothèse nulle : La valeur du student calculé est :
tc =β 4
sβ 4= −10.131
6.77 = −1.497
| tc |=| −1.497 |< tα/2 = 2, 056Les résultats nous conduisent à accepter l’hypothèse nulle. Autrement dit, la pratiquedu contrôle des prix ne permet pas d’expliquer la discrimination des prix. Et eneffet, la P-valeur nous confirme ce résultat puisque P [| T |> t] = 0.1466 dans letableau de résultat. La probabilité d’avoir un student d’une valeur supérieure au tcalculé est de 14.66 %. Habituellement une p-valeur faible conduit au rejet de H 0 etindique à quel point il est peu probable d’obtenir le t calculé à partir des données sil’hypothèse nulle est vraie. Or ici,on fait un test à 5% d’erreur et on a une probabilitéde 14.66% p-valeur. Autrement dit, le risque de rejeter H 0 à tort est fort. On vadonc accepter H 0. Autrement dit, la p-valeur nous donne la probabilité du risque depremière espèce.
(e) IPC :H 0 : β 5 = 0 contre H 1 : β 5 = 0Sous l’hypothèse nulle : La valeur du student calculé est :
tc =β 5sβ 5
= −4.67
6.52 = −0.716
| tc |=| −0.716 |< tα/2 = 2, 056Les résultats nous conduisent à accepter l’hypothèse nulle. Autrement dit, la concur-rence au niveau des prix ne permet pas d’expliquer la discrimination des prix. Cette
conclusion ne peut pas nous surprendre compte tenu de la P-value qui est de 0,4804.Autrement dit, la probabilité d’obtenir le tc par hasard est très forte. On ne peut doncpas rejeter l’hypothèse nulle.
(f) POP :H 0 : β 6 = 0 contre H 1 : β 6 = 0Sous l’hypothèse nulle : La valeur du student calculé est :
tc =β 6sβ 6
= 0.0054
0.06522 = 0.084
| tc |=| 0.084 |< t
α/2 = 2, 056
Les résultats nous conduisent à accepter l’hypothèse nulle. Autrement dit, la taillede la population ne permet pas d’expliquer la discrimination des prix. Cette conclu-sion ne peut pas nous surprendre compte tenu de la P-value qui est de 0,9337. On nepeut donc pas rejeter l’hypothèse nulle.
109
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 115/298
2. Le test pour juger du signe :
(a) Pour GDPN : H 0 : β 1 ≤ 0 contre H 1 : β 1 > 0Sous l’hypothèse nulle :
La valeur du student calculé est :
tc =β 1sβ 1
= 1.4642
0, 2287 = 6.4
Il s’agit d’un test unilatéral à 95%,α = 5 = 0, 05%,la lecture de la table se fait donc à :P/2 = 0, 05 ⇒ P = 0, 1, on lit à 10% dans la table et on trouve qu’à 26 degrés deliberté, tα = 1, 706La règle de décision est la suivante : si la valeur du t calculée en valeur absolue estsupérieure au t de la table, dans ce cas on rejette l’hypothèse nulle.tc = 6.4 > tα = 1.706, on rejette l’hypothèse nulle. Il faut représenter la courbe
en cloche de la student (comme dans le poly de cours) et indiquer la région critiqueà droite avec le seuil critique à +1.706, indiquer la zone de rejet de H 0 et montrergraphiquement que le tc = 6, 4 est à droite du seuil critique et qu’il se trouve doncdans la région critique.Ainsi on peut confirmer que la variable GDPN a un impact positif sur les prix,autrement dit, si le revenu par tête augmente les prix augmentent également.
0 0 0 00 0 0 00 0 0 00 0 0 00 0 0 01 1 1 11 1 1 11 1 1 11 1 1 11 1 1 1tc = 6, 40
α
RC
t
1− α
H 0Zone d’acceptation de H 0 Zone de Rejet de H 0
tα = 1, 706
FIG. 7.5 – Représentation graphique des zones d’acceptation et de rejet.
(b) Pour CVN : H 0 : β 1 ≥ 0 contre H 1 : β 1 < 0Sous l’hypothèse nulle :La valeur du student calculé est :
tc = −2.881
| tc = −2.881 |> tα = 1.706, on rejette l’hypothèse nulle. La consommation partête a donc un impact négatif sur les prix. Il s’agit d’un effet volume.Ici la région critique est à gauche et le t calculé s’y trouve.
110
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 116/298
(c) Pour PP : H 0 : β 3 ≤ 0 contre H 1 : β 3 > 0Sous l’hypothèse nulle :La valeur du student calculé est :
tc = 3.160
| tc = 3.16 |> tα = 1.706, on rejette l’hypothèse nulle. La protection par les bre-vets a un impact positif sur les prix.
La région critique est à droite, et le t calculé s’y trouve.
(d) Pour DPC : H 0 : β 4 ≥ 0 contre H 1 : β 4 < 0Sous l’hypothèse nulle :La valeur du student calculé est :
tc = −1.497
| tc = −1.497 |< tα = 1.706, on accepte l’hypothèse nulle.
Néanmoins, dans la mesure où DPC n’est pas explicatif il n’est pas nécessaire de sepréoccuper du signe.
(e) Pour DPC : H 0 : β 5 ≥ 0 contre H 1 : β 5 < 0Sous l’hypothèse nulle :La valeur du student calculé est :
tc = −0.716
| tc = −0.716 |< tα = 1.706, on accepte l’hypothèse nulle.Néanmoins, dans la mesure où DPC n’est pas explicatif il n’est pas nécessaire de sepréoccuper du signe.
(f) Pour POP : H 0 : β 6 ≥ 0 contre H 1 : β 5 < 0
Sous l’hypothèse nulle :La valeur du student calculé est :
tc = 0.084
| tc = 0.084 |< tα = 1.706, on accepte l’hypothèse nulle.Néanmoins, dans la mesure où DPC n’est pas explicatif il n’est pas nécessaire de sepréoccuper du signe.
Graphiquement c’est intéressant, car on a la région critique à gauche, et en plus le tcalculé et positif et même pas négatif comme on pourrait s’y attendre, il est donc trèsproche du centre la distribution mais néanmoins à droite du centre de la distribution.
3. Etablir un tableau d’analyse de la variance :
variables SC ddl SCM Fishervar. expl. SCE =1.145.923,713 k=6 190.987,28 F=(SCE/k)/(SCR/n-k-1)=625,47résidus SCR = 7939.073 n-k-1 = 26 305.348
P SCT=1.153.862 n-1 = 32 36058.18
111
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 117/298
SC = somme des carrésSCM = somme des carrés moyensddl = degrés de liberté.
La somme des carrés totaux est obtenu à partir de l’écart-type de P qui se trouve dans letableau des résultats à la ligne :
Dep.var. = P Mean= 41.48696970 , S.D.= 189.8914093
SC T = (n− 1)× S.D2 = 32× 189.892 = 1.153.862La somme des carrés résiduels est donnée dans le tableau :
Residuals: Sum ofsquares= 7939,073822 , Std.Dev.= 17.47424
SC R = 7939.0SC E = SCT − SC R = 1.145.923, 713Pour la somme des carrés moyens on divise par le nombre de degrés de liberté.
Le tableau de l’anova permet de déterminer le fisher. On peut retrouver ces résultats dansle tableau de la régression à la ligne :
Model test: F[ 6, 26] = 625.48, Prob value = .00000
On retrouve bien le fisher à 6 et 26 degrés de liberté et la p-valeur qui est de 0 ce quisignifie qu’il a peu de chance de rejeter l’hypothèse nulle à tort si on fait un test de signi-ficativité global. voir question suivante :
4. Test de significativité globale :
H 0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = 0
H 1 : au moins un des coefficients est différent de zéro.
Sous l’hypothèse nulle :
SCE/k
SCR/n − k − 1 ∼ F [k, n− k − 1]
On peut faire le test de deux manières différentes : soit on calcule les carrés moyens et onfait le test, soit on regarde directement dans le tableau des résultats de la régression.
Le fisher calculé est F c = 625 > F α[6, 26] = 2.47On rejette l’hypothèse nulle. Le modèle est globalement significatif.
5. Calcul du R2
R2 = SCE SCT = 1− SCR
SCT = 1− 7939,07382
1153862 = 1− 0.00688 = 0.99312
Confirmé par le tableau de la régression :R2 = 1− (1− R2) × n−1
n−k−1 = 1− (1− 0.99312) × 32
26 = 0.99153
112
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 118/298
Confirmé la encore par le tableau de la régression.
Le R2 est très élevé ce qui n’est pas surprenant puisque on a montré à la question précé-dente que le modèle est globalement très explicatif.
On sait par ailleurs que le fisher calculé est :
F = SCE/k
SCR/T − k − 1
R2 = SC E
SC T ⇒ SC E = R2SC T
SC R = SC T − SC E ⇒ SC R = SCT (1− R2)
F = R2/k
(1− R2)/(T − k − 1)
R2 = F
F + T −k−1k
6. L’intervalle de confiance pour le coefficient de GDPN et CVN :Pour GDPN :IC 90% = [ β 1 ± tα/2sβ 1 ] = [1, 4642 ± 1, 706 × 0, 2287] = [1, 074;1, 854]Pour CVN :IC 90% = [ β 2 ± tα/2sβ 2 ] = [−0, 67409 ± 1, 706× 0, 2339] = [−1, 0731;−0, 27505]
7. Faîtes un test de significativité global pour GDPN, CVN et DPC.H 0 : β 1 = β 2 = β 4 = 0H 1 : au moins un des coefficients est nul.Il s’agit d’un Fisher :
Il faut faire deux régressions, l’une avec le modèle d’origine et l’autre avec un modèlecontraint sous l’hypothèse nulle. Ensuite on compare la somme des carrés résiduels.– Modèle non contraint.
P i = β 0 + β 1GDPN i + β 2CV N i + β 3P P i + β 4DP C i + β 5IP C i + β 6P OP i + i
– Sous H 0,le modèle contraint est :
P i = β 0 + β 3P P i + β 5IP C i + β 6P OP i + i
(SC Rc − SC R)/3
SCR/n− k − 1 ∼ F (3, n − k − 1)
8. Pensez-vous que Schut et VanBergeijk ont conclu à lŠexistence dŠune discrimination desprix. Pourquoi ou pourquoi pas ?Bien que ce ne soit pas le cas pour tous les effets envisagés, plusieurs des effets qu’onassocie généralement avec la discrimation des prix au niveau international sont présentsdans cet échantillon de données. En addition, l’ajustement général du modèle est trèssatisfaisant (R2 = 0.99).
113
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 119/298
Modeles a variables instrumentales - I
L’hypothese de la moyenne-conditionnelle nulle
pour pouvoir appliquer la methode des moindres car
Il existe trois situations assez courantes qui vio
pothese dans les recherches en economie :
1. l’endogeneite, a savoir la determination simultaable dependante et des variables explicatives
2. le biais de la variable omise
3. les erreurs dans les variables, telles que des erre
ou d’encodage des variables explicatives.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 120/298
Bien que ces problemes aient des origines tres dpeuvent etre traites a l’aide d’un meme outil, les var
mentales - IV the instrumental-variables.
Une variable est endogene si elle est correlee au te
y = β 1x1 + β 2x2 + . . . + β kxk + ǫ
• x j est endogene si C ov[x j, ǫ] = 0
• x j est exogene si Cov[x j, ǫ] = 0
Les estimateurs des MCO sont a variance minima
ment si
Cov[x j, ǫ] = 0
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 121/298
Cette hypothese d’une covariance nulle implique quE [ǫ] = 0
L’hypothese d’esperance conditionnelle egale a ze
E [ǫ|X] = 0
est suffisante pour que la variance conditionnelle eg
vraie.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 122/298
1 L’endogeneite dans les relations economiques
Les economistes modelisent souvent les comporteme
comme des systemes d’equations simultanees da
variables endogenes sont determinees par d’autres
dogenes et des variables exogenes.
Prenon l’exemple bien connu de l’offre et de la ecrit habituellement :
q d = β 0 + β 1 p + β 2inc
pour indiquer que la quantite demandee d’un bien
son prix (p) et du revenu de l’acheteur (inc). Lor
β 1
< 0 et
β 2
> 0, la courbe de demande dans l’
une pente negative, et etant donne le prix, la quantit
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 123/298
s’accroıtre avec le revenu de l’acheteur.
Si nous ajoutons un terme d’erreur ǫ a l’equatio
estime l’equation par les MCO a l’aide des pairs
timations ne seront pas de variance minimale c
independante est endogene : dans l’equation ci-d
sur la courbe de demande va modifier l’equilibre, aet la quantite sur le marche. Par definition, le choc ǫprix p.
Il nous manque souvent les donn´ ees micro´ econom
donnees de menages qui nous permettraient d’estim
pour un bien donne. Habituellement, on dispose plu
de march´ e. Les observations de p et q sont des prd’equilibre a des periodes diff erentes.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 124/298
• Comment utiliser les donnees de marche pocourbe de demande d’un bien?
Pour ce faire, il faut specifier des instruments
sont pas correles a ǫ mais neanmoins fortemen
Cette procedure est qualifiee de probleme d’iden
• Qu’est-ce qui va nous permettre d’identifier o u
la courbe de demande?Considerons l’autre partie du marche, a savoir l’
teur intervenant dans la fonction d’offre qui n’app
la fonction de demande constituera un instrume
on modelise la demande pour un bien agricole, d
que les precipitations ou le climat pourront etre u
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 125/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 126/298
En revanche, on peut facilement tester la seconde
regressant p sur l’instrument z a l’aide de regress
suivante :
pi = π0 + pi1z i + ζ i
Si on ne parvient pas a rejeter l’hypothese nulle
H 0 : pi1 = 0
on conclut que z ne constitue pas un bon instrument
le non rejet de l’hypothese nulle ne suffit pas a as
s’agit pas d’un “faible” instrument.
Si l’on decide que l’on a un instrument valide, co
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 127/298
y = Xβ + ǫ
On definitZ d e l a meme dimension queX dans laque
endogene - p de notre exemple est remplace par z
Z′y = Z′Xβ + Z′ǫ
L’hypothese que Z est non correlee a ǫ implique tend vers zero en probabilite alors que N devient
on definit l’estimateur β IV a partir de :
Z′y = Z′Xβ IV
β IV = (Z′X)−1Z′y
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 128/298
On peut aussi utiliser l’hypothese d’esperance matha zero pour definir l’estimateur de la m´ ethode des m
modele IV. On definit une matriceZ comme plus hau
chaque regresseur endogene sera remplace par so
conduisant ainsi a l’estimateur de la methode des mo
Z′ǫ = 0
Z′(y −Xβ ) = 0
On peut alors substituer les moments calcules a p
echantillon dans l’expression et remplacer les coef
nus β avec les valeurs estimees β .
Z′y − Z′Xβ IV = 0
β IV = (Z′
X)−1
Z′
yL’estimateur IV a un cas particulier interessant : S
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 129/298
d’esperance conditionnelle nulle se tient, chaquplicative peut etre utilisee comme son propre instr
et l’estimateur IV se reduit alors a un estimateur de
l’estimateur des MCO apparaıt comme un cas part
qui est approprie lorsque l’hypothese d’esperance
nulle est satisfaite.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 130/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 131/298
On peut donc etendre le modele, pi = π0 + π1z i1 + π2z 2i + ωi
et obtenir un instrument qui est en fait la valeur es
tir de l’equation ; etant donne les MCO, ˆ p est une
lineaire optimale de l’information donnee par z 1 e
alors estimer les parametres de (3) en utilisant l’estimˆ p comme une colonne de Z.
La methode des doubles moindres carres est don
IV avec une regle de decision qui reduit le nombre
au necessaire pour estimer l’equation et determine
matrice d’instruments de dimension N × l, l ≥ k.
X = Z(Z′Z)−1Z′X
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 132/298
Soit la matrice de projection PZ = Z(Z′
Z)−1
Z′
, aloβ 2SLS = (X′X)−1X′y
= [X′Z(Z′Z)−1Z′X]−1[X′Z(Z′Z)−
= (X′PzX)−1X′PZy
ou l’estimateur en deux etapes (des doubles moindr
etre calcule en une fois en utilisant les donnees sur X
Lorsque l = k, les DMC se reduisent aux IV, et par
formule des DMC donnee ci-dessous couvre egaleme
IV.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 133/298
Supposons des erreurs independantes et de distrtiques i.i.d, un estimateur de variance minimale d’
des DMC s’ecrit :
Var[β 2SLS] = σ2[X′Z(Z′Z)−1Z′X]−1 = σ2(X′P
ou
σ
2
=
ǫ′ǫ
N
calcule a partir de
ǫ = y −Xβ 2SLSBien que l’on parle des doubles moindres carre
processus en deux etapes (pour des raisons pedago
procederait jamais a l’estimation en deux etapes a
sinon on obtiendrait des resultats biaises. Si on le faca reviendrait a estimer X a partir d’une premiere
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 134/298
variables endogenes sur les instruments et a utiliser dans une seconde regression des MCO. En faisant c
regression genererait des residus incorrects
ǫ = y − Xβ 2SLS
au lieu des residus corrects
ǫ = y −Xˆβ 2SLS
En utilisant la commande ivreg pour les DMC
evite ces problemes. La formulation dans Stata
ivreg q inc (p = rainfall temperature)
permet d’indiquer que q doit etre estime a l’aide drainfall et temperature comme instruments. Co
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 135/298
MCO et la commande regress, une constante est incimplicitement dans la liste des instruments utilises po
la matrice des instruments utilises lors de la premier
ivreg y x2 (x3 x4 = za zb zc zd )
Il n’est pas necessaire d’indiquer a Stata questruments a utiliser pour chaque variable endo
la methode des DMC, tous les instruments sont u
regresseurs dans la premiere etape. Dans notre ex
sont estimes a l’aide de z.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 136/298
3 Tests d’identification
Les parametres (coefficients) d’une equation sont
lorsqu’il y a suffisamment d’instruments valides de s
des DMC en determine une estimation unique.
montre que β 2SLS est unique si et seulement si Z′Z e
l × l non singuliere de rang k. Si les instruments sonindependants, Z′Z sera non singuliere. Le fait que Z
k est connu comme la condition de rang. Le fait
soit l ≥ k est la condition d’ordre.
1. si le rang est Z′X < k, l’equation est dite sous-id
2. si le rang estZ′X = k, l’equation est dite exactem
3. si le rang est Z′X > k, l’equation est dite sur-ide
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 137/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 138/298
Sous H 0 : tous les instruments sont non correles a ǫ
la statistique du multiplicateur de lagrange LM
suit une distribution χ2(r), avec r le nombre de re
identifiees, c’est-a-dire le nombre d’instruments en p
est rejetee, on peut alors douter que l’ensemble des i
approprie. Ce test de Sargan (1958) ou de Basmapropose dans Stata a l’aide de la commande overid.
3.0.1 Application
Prenons un exemple classique qui porte sur l’etude
partir d’un echantillon de 758 jeunes hommes. La baamericaine NLS - National Longitudinal Survey - e
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 139/298
car elle combine des informations sur les revenus, leainsi que des mesures de l’aptitude des individus. L
deux mesures des aptitudes, un score du QI -quotien
et un test sur la connaissance du monde du travail - ”
the wordld of work” (kww)-.
Les modeles de Griliches permettent d’expliquer
fonction d’un certain nombre de facteurs tels que le nd’ecole s, le nombre d’annees d’experience expr,
d’annees passees dans la meme entreprise tenureindicatrice indiquant si la personne reside dans le
Unis rns; un indicateur pour la residence urbaine pl
smsa; et un ensemble de variables indicatrices p
dans la mesure ou les donnees sont des donnees annutelles que le QI iq, le niveau d’etude de la mere me
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 140/298
test kww, l’age du travailleur; le statut marital mrt.. use http://www.stata-press.com/data/imeus/grilic
. summarize lw s expr tenure rns smsa iq med kww
Variable | Obs Mean Std. Dev.
-------------+------------------------------------
lw | 758 5.686739 .4289494
s | 758 13.40501 2.231828
expr | 758 1.735429 2.105542 tenure | 758 1.831135 1.67363
rns | 758 .2691293 .4438001
-------------+------------------------------------
smsa | 758 .7044855 .456575
iq | 758 103.8562 13.61867
med | 758 10.91029 2.74112
kww | 758 36.57388 7.302247
age | 758 21.83509 2.981756 -------------+------------------------------------
mrt | 758 .5145119 .5001194
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 141/298
On utilise l’option first pour la commande ivregle degre de correlation entre les quatre facteurs et
dogene iq.
I ∗ est une commande qui permet d’introduire l
pour les annees (l’annee 66 est exclue pour eviter
parfaite).
. ivreg lw s expr tenure rns smsa _I* (iq = med kw
First-stage regressions
-----------------------
Source | SS df MS
----------+------------------------------
Model | 47176.4676 15 3145.09784
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 142/298
Residual | 93222.8583 742 125.637275
----------+------------------------------
Total | 140399.326 757 185.468066
--------------------------------------------------
iq | Coef. Std. Err. t P>|t
----------+---------------------------------------
s | 2.497742 .2858159 8.74 0.000
expr | -.033548 .2534458 -0.13 0.895
tenure | .6158215 .2731146 2.25 0.024
rns | -2.610221 .9499731 -2.75 0.006
smsa | .0260481 .9222585 0.03 0.977
_Iyear_67 | .9254935 1.655969 0.56 0.576
_Iyear_68 | .4706951 1.574561 0.30 0.765
_Iyear_69 | 2.164635 1.521387 1.42 0.155
_Iyear_70 | 5.734786 1.696033 3.38 0.001
_Iyear_71 | 5.180639 1.562156 3.32 0.001
_Iyear_73 | 4.526686 1.48294 3.05 0.002med | .2877745 .1622338 1.77 0.077
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 143/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 144/298
s | .0691759 .013049 5.30 0.000
expr | .029866 .006697 4.46 0.000
tenure | .0432738 .0076934 5.62 0.000
rns | -.1035897 .0297371 -3.48 0.001
smsa | .1351148 .0268889 5.02 0.000
_Iyear_67 | -.052598 .0481067 -1.09 0.275
_Iyear_68 | .0794686 .0451078 1.76 0.079
_Iyear_69 | .2108962 .0443153 4.76 0.000
_Iyear_70 | .2386338 .0514161 4.64 0.000
_Iyear_71 | .2284609 .0441236 5.18 0.000
_Iyear_73 | .3258944 .0410718 7.93 0.000
_cons | 4.39955 .2708771 16.24 0.000
--------------------------------------------------
Instrumented: iq
Instruments: s expr tenure rns smsa _Iyear_67 _I
_Iyear_70 _Iyear_71 _Iyear_73 med k
--------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 145/298
Les resultats de la premiere etape - first-stage regreque trois des quatres instruments sont fortement cor
l’exception de mrt.
Neanmoins la variable endogene iq a un coefficie
pas diff erent de zero (p-valeur est de 0,965).
Etant donne les autres variables incluses dans la re
semble pas jouer un role important comme determin
Les autres coefficients semblent etre en accord avec
des theories du travail et les resultats empiriques hab
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 146/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 147/298
4 L’estimateur GMM
Jusqu’a present, nous avons fait l’hypothese que les
i.i.d. pour deriver les estimateurs IV et des DMC
teurs IV et DMC produisent des estimateurs non b
tent ) mais a variance non minimale (inefficient ) ce
que l’on applique une methode robuste pour les esti
L’estimateur des moments generalises (GMM - Gen
ods of Moments) produira des estimateurs non biai
minimale en presence d’erreurs non i.i.d.
L’equation qui nous interesse s’ecrit :y = Xβ + ǫ E[ǫǫ′|X] = Ω
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 148/298
Le terme d’erreur ǫ suit une distribution d’esperaest sa matrice de covariance. Quatre cas doivent etre
1. l’homoscedasticite
2. l’heteroscedasticite conditionnelle
3. le regroupement clustering
4. la presence d’heteroscedasticite et d’autocorrelatCertains regresseurs sont endogenes de sorte que
separe les regresseurs en deux groupes x1 x2 av
les regresseurs x1 consideres comme endogenes e
supposes exogenes.
La matrice des variables instrumentales Z est N ables sont supposees exogenes : E [zǫ]. On partitio
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 149/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 150/298
correles, c’est pourquoi elles sont souvent qualifieed’orthogonalit e.
On obtient ainsi un ensemble de l moments :
g(β ) = 1
N
N
i=1gi(β ) =
1
N
N
i=1z′i(yi − xiβ ) =
1
NL’intuition du GMM est de choisir un estimate
resoud g(
ˆβ GMM ) = 0
• Si l’equation a estimer est exactement identifi
a autant de conditions pour les moments que d’
peut alors resoudre les l conditions pour les k co
β GMM . Il y a donc un unique β GMM qui resoud Cet estimateur de GMM est identique a l’estimate
de (4).• Si l’equation est suridentifiee, l > k, on a donc p
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 151/298
que d’inconnus. On risque de ne pas trouver un k -qui permette de resoudre les l conditions de mome
0. Par consequent, il nous faut choisir β GMM d
elements de g(β GMM ) soient le plus proche de z
ble.On pourrait obtenir cela en minimisant g(β GM
mais cette methode ne permet pas a la methode
duire des estimateurs a variance minimale lorsqusont pas i.i.d.
Pour cette raison, l’estimateur de GMM choisit le βimise :
J (β GMM ) = N g(β GMM )′Wg(β GMM )
pour lequel W est une matrice pond er ee de taille compte des correlations entre les g(β GMM ) lorsque l
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 152/298
non i.i.d.Un estimateur GMM pour β est le β qui minim
Lorsque l’on derive et que l’on resoud les condition
∂J (β GMM )
∂ β = 0
on obtient l’estimateur GMM pour l’equation sur-idβ GMM = (X′ZWZ′X)−1(X′ZWZ′y
Il y a autant d’estimateurs GMM que de matrices
La matrice de poids ne joue qu’en presence de sur
Lorsque l’equation est parfaitement identifiee alors
La matrice de poids optimal est telle que W = s−
matrice de covariance des conditions de moments g
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 153/298
S = E [Z ′ǫǫ′Z ] = E [Z ′ΩZ ]
ou S est une matrice l× l. Si on substitue cette mat
on obtient un estimateur GMM efficace :
β EGMM = (X′ZS−1Z′X)−1(X′ZS−1Z′
On peut noter la generalite de cette approche. Enhypothese n’a ete faite sur Ω, la matrice des covar
reurs. Mais l’estimateur GMM ne peut pas etre es
inconnu. Il nous faut donc estimer S, ce qui impliq
hypotheses a propos d’ Ω.
Supposons que l’on ait un estimateur de variance S note S. On peut utiliser l’estimateur pour definir
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 154/298
GMM en deux etapes quasi generalises (a feasiblestep GMM estimator (FEGMM)) estime par la com
lorsque l’option gmm est appliquee. Dans la prem
utilise une estimation standard des DMC pour enge
mations des coefficients et des residus. Dans la sec
fait une hypothese sur la structure de Ω pour prod
des residus, definissant ainsi l’estimateur FEGMM:
β FEGMM = (X′ZS−1Z′X)−1(X′ZS−1Z
4.2 GMM dans un context homoscedastique
Si on suppose que Ω = σ2I N , la matrice de poids
proportionnelle a la matrice identite. L’estimateur Gplement l’estimateur IV standard.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 155/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 156/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 157/298
--------------------------------------------------
| Robust
lw | Coef. Std. Err. z P>|z
----------+---------------------------------------
iq | -.0014014 .0041131 -0.34 0.733
s | .0768355 .0131859 5.83 0.000
expr | .0312339 .0066931 4.67 0.000
tenure | .0489998 .0073437 6.67 0.000
rns | -.1006811 .0295887 -3.40 0.001
smsa | .1335973 .0263245 5.08 0.000
_Iyear_67 | -.0210135 .0455433 -0.46 0.645
_Iyear_68 | .0890993 .042702 2.09 0.037
_Iyear_69 | .2072484 .0407995 5.08 0.000
_Iyear_70 | .2338308 .0528512 4.42 0.000
_Iyear_71 | .2345525 .0425661 5.51 0.000
_Iyear_73 | .3360267 .0404103 8.32 0.000
_cons | 4.436784 .2899504 15.30 0.000
--------------------------------------------------Hansen J statistic (overidentification test of all
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 158/298
Ch
--------------------------------------------------
Instrumented: iq
Instruments: med kww age mrt s expr tenure rns s
_Iyear_69 _Iyear_70 _Iyear_71 _Iyea
--------------------------------------------------
On constate que le regresseur endogene iq ne joue
role dans l’equation.La statistique Hansen donnee avec les resultats ivrepour la methode GMM du test de Sargan que l’on
overid. L’independance des instruments et des erre
en question ici par le fort rejet de l’hypothese null d
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 159/298
4.4 GMM et les ecart-types HAC
Lorsque les erreurs sont conditionnellement heteros
autocorrelees (HAC), on peut determiner une estim
S pour determiner des estimations des parametres a
routine ivreg2 determinera l’estimation Newey-Wes
des variance-covariances des estimateurs a l’aide de
Bartlett-Kernel lorsque les options robust et bw() s
4.4.1 Application
Pour illustrer, on estime une courbe de Phillips a l
temporelles annuelles pour les Etats-Unis de 1948-19
tiques descriptives pour l’inflation liee aux prix a la c
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 160/298
(cinf) et le taux de chomage (unem) sont donnes dci-dessous :. use http://www.stata-press.com/data/imeus/philli
. summarize cinf unem if cinf<.
Variable | Obs Mean Std. Dev.
-------------+------------------------------------
cinf | 48 -.10625 2.566926
unem | 48 5.78125 1.553261
Une relation de Phillips est une relation entre l’in
prix ou les salaires et le taux de chomage. Dans ce m
able devraient avoir une relation negative, un chom
conduisant a une pression a la hausse des salaires et
donne que chaque variable est determinee est determl’environnement macroeconomique, on ne peut pas
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 161/298
comme exogenes.
Lorsque l’on utilise les donnees, on regresse l’infla
de chomage. Afin de traiter la question de la simultan
comme instrument le taux de chomage avec un dec
ou trois periodes. Lorsque l’on specifie bw(3), gm
ivreg2 va produire une estimation GMM efficace.. ivreg2 cinf (unem = l(2/3).unem), bw(3) gmm rob
GMM estimation
--------------
Heteroskedasticity and autocorrelation-consistent
kernel=Bartlett; bandwidth=3
time variable (t): year
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 162/298
Total (centered) SS = 217.4271745
Total (uncentered) SS = 217.4900005
Residual SS = 244.9459113
--------------------------------------------------
| Robust
cinf | Coef. Std. Err. z P>|z
----------+---------------------------------------
unem | .1949334 .3064662 0.64 0.525
_cons | -1.144072 1.686995 -0.68 0.498
--------------------------------------------------
Hansen J statistic (overidentification test of all
Chi
--------------------------------------------------
Instrumented: unem
Instruments: L2.unem L3.unem--------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 163/298
La relation telle que nous l’avions anticipee n’estpar les estimations, comme de nombreux cherche
faire l’experience. La relation originale qui etait
valide, a cesse de fonctionner dans les annees 197
de chocs d’offres (chocs petroliers) et de forte inflat
Pour ce qui est de la technique IV, on peut constatetique J du test Hansen indique que les instruments so
avec les erreurs. Si en revanche, on utilisait les pre
decalages du chomage, le test J rejetterai l’hypoth
une p-valeur de 0,02. Le premier decalage de unepas un instrument approprie pour cette specification
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 164/298
5 Test pour la sur-identification pour la methode
De meme que pour les DMC, on peut tester la vali
identification dans le cas de la methode GMM. On u
tique J Hansen :
J (β EGMM ) = N g(β EGMM )′S−1g(β EGMM ) ∼
Le test Hansen-Sargan pour la sur-identification ev
des restrictions. Dans un modele qui contient un
d’instruments, le test de C qualifie de difference-in
est plus approprie. Il permet de tester un sous ensem
tions d’orthogonalite d’origine. La statistique est ca
la diff erence entre les deux statistiques J. C est distun χ2 au nombre de degres egale a la perte des res
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 165/298
nombre d’instrument suspects testes.
Un exemple de C est donne ci-dessous pour sav
instrument valide.
. ivreg2 lw s expr tenure rns smsa _I* (iq = med k
GMM estimation
--------------
Total (centered) SS = 139.2861498
Total (uncentered) SS = 24652.24662
Residual SS = 81.26217887
--------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 166/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 167/298
-orthog- option:
Hansen J statistic for unrestricted equation:
Ch
C statistic (exogeneity/orthogonality of specified
Ch
Instruments tested: s
--------------------------------------------------
Instrumented: iq
Instruments: med kww age mrt s expr tenure rns s
_Iyear_69 _Iyear_70 _Iyear_71 _Iyea
--------------------------------------------------
Le test C rejette l’hypothese nulle indiquant que l’i
pect s echoue au test de suridentification. La stati
ficative de 15,997 pour l’equation qui exclut les in
pects the suspect implique que le fait de traiter s co
debouche sur une equation non satisfaisante. Les insne semblent pas etre independants des erreurs.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 168/298
L’option orthog() permet de tester si un sous-ensem
exclus est effectivement exogene. On inclut l’age
du statut marital dans la liste des variables en option
. ivreg2 lw s expr tenure rns smsa _I* (iq = med k
age mrt)
GMM estimation--------------
Total (centered) SS = 139.2861498
Total (uncentered) SS = 24652.24662
Residual SS = 81.26217887
--------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 169/298
| Robust
lw | Coef. Std. Err. z P>|z
----------+---------------------------------------
iq | -.0014014 .0041131 -0.34 0.733
s | .0768355 .0131859 5.83 0.000
expr | .0312339 .0066931 4.67 0.000
tenure | .0489998 .0073437 6.67 0.000
rns | -.1006811 .0295887 -3.40 0.001
smsa | .1335973 .0263245 5.08 0.000
_Iyear_67 | -.0210135 .0455433 -0.46 0.645
_Iyear_68 | .0890993 .042702 2.09 0.037
_Iyear_69 | .2072484 .0407995 5.08 0.000
_Iyear_70 | .2338308 .0528512 4.42 0.000
_Iyear_71 | .2345525 .0425661 5.51 0.000
_Iyear_73 | .3360267 .0404103 8.32 0.000
_cons | 4.436784 .2899504 15.30 0.000
--------------------------------------------------
Hansen J statistic (overidentification test of allCh
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 170/298
-orthog- option:
Hansen J statistic for unrestricted equation:
Ch
C statistic (exogeneity/orthogonality of specified
Ch
Instruments tested: age mrt
--------------------------------------------------
Instrumented: iq
Instruments: med kww age mrt s expr tenure rns s
_Iyear_69 _Iyear_70 _Iyear_71 _Iyea
--------------------------------------------------
L’equation estimee sans les instruments suscepts, e
ditions d’orthogonalite age et mrt, a un J significat
pour les deux instruments est fortemenet significatif
on a obtenu une specification plus appropriee, on ree
avec la liste reduite d’instruments.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 171/298
. ivreg2 lw s expr tenure rns smsa _I*
(iq = med k
GMM estimation
--------------
Total (centered) SS = 139.2861498
Total (uncentered) SS = 24652.24662
Residual SS = 124.9413508
--------------------------------------------------
| Robust
lw | Coef. Std. Err. z P>|z
----------+---------------------------------------
iq | .0240417 .0060961 3.94 0.000
s | .0009181 .0194208 0.05 0.962
expr | .0393333 .0088012 4.47 0.000tenure | .0324916 .0091223 3.56 0.000
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 172/298
rns | -.0326157 .0376679 -0.87 0.387
smsa | .114463 .0330718 3.46 0.001
_Iyear_67 | -.0694178 .0568781 -1.22 0.222
_Iyear_68 | .0891834 .0585629 1.52 0.128
_Iyear_69 | .1780712 .0532308 3.35 0.001
_Iyear_70 | .139594 .0677261 2.06 0.039
_Iyear_71 | .1730151 .0521623 3.32 0.001
_Iyear_73 | .300759 .0490919 6.13 0.000
_cons | 2.859113 .4083706 7.00 0.000
--------------------------------------------------
Hansen J statistic (overidentification test of all
Ch
--------------------------------------------------
Instrumented: iq
Instruments: med kww s expr tenure rns smsa _Iye
_Iyear_70 _Iyear_71 _Iyear_73
--------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 173/298
En accord avec la therie, iq apparaıt comme un rnificatif pour la premiere fois et la statistique J de
satisfaisante. Le regresseur s, qui est apparu comm
precedemment ne joue pas de role dans l’estimation
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 174/298
UNIVERSITE DE PARIS 11
TD d’économétrie Anne PlunketLes variables instrumentales
Soit le modèle macroéconomique Keynésien suivant :
Y t = C 0t + I t +Gt +NX t (1)
COt = β 0 + β 1Y Dt + β 2COt−1 + ǫ1t (2)
Y Dt = Y t − T t (3)
I t = β 3 + β 4Y t + β 5rt−1 + ǫ2t (4)
rt = β 6 + β 7Y t + β 8M t + ǫ3t (5)
– Y t : PIB à l’année t
– COt : Consommation en t
– I t : Investissement brut en t
– Gt : Dépenses gouvernementales en t
– NX t : Exportations nettes de biens et services en t (exportations moins importations)
– T t : Impôts en t
– rt : le taux d’intérêt en t
– M t : l’offre de monnaie en t
– Y Dt : revenu disponible en t
Les données nécessaires se trouvent dans le fichier macro14.xls
Toutes les variables sont en termes réels sauf les taux d’intérêt qui sont en pourcentage
nominaux. Les données vont de l’année 1964 à l’année 1994.
1. Quelle distinction faites-vous entre les équations stochastiques et les équations comp-
tables. Indiquez pour chacune des équations si elle est comptable ou stochastique.
2. On cherche à estimer l’équation de consommation (2). Cette équation souffre-t-elle d’un
problème d’endogénéité ? Pourquoi ?
3. Quels instruments pourriez-vous proposer pour estimer cette équation ?
4. Qu’est-ce qu’une forme réduite ? Quelle distinction faîtes-vous avec la forme structu-
relle ? Soit la forme réduite suivante :
COt = π0 + π1COt−1 + π2Gt + π3NX t + π4T t + π5rlag + vt
On vous propose la régression suivante après création des variables manquantes. Com-mentez le principe de la méthode des doubles moindres carrés ainsi que les résultats.
. generate t= y- yd
. generate nx=y- co- i- g
. tsset years
. generate colag=L.co
. generate rlag=L.r
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 175/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 176/298
bin et watson de Durbin-Watson Statistic = .8926652. Faîtes le test ? Quelles sont vos
conclusions ?
8. On vous propose une régression par la méthode des moments généralisés. Cette estimationapporte t-elle une amélioration ?
. ivreg2 co colag (yd = g nx t rlag), gmm bw(2)
2-Step GMM estimation
---------------------
Estimates efficient for arbitrary autocorrelation
Statistics robust to autocorrelation
kernel=Bartlett; bandwidth= 2
time variable (t): years
Number of obs = 31
F( 2, 28) = 4678.52
Prob > F = 0.0000Total (centered) SS = 12374912.58 Centered R2 = 0.9979
Total (uncentered) SS = 197725473.9 Uncentered R2 = 0.9999
Residual SS = 25991.24935 Root MSE = 28.96
------------------------------------------------------------------------------
co | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
yd | .4556004 .1720822 2.65 0.008 .1183255 .7928754
colag | .5261765 .1823187 2.89 0.004 .1688383 .8835146
_cons | -28.36601 39.24406 -0.72 0.470 -105.2829 48.55093
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments): 16.926
Chi-sq(3) P-val = 0.0007
------------------------------------------------------------------------------Instrumented: yd
Included instruments: colag
Excluded instruments: g nx t rlag
------------------------------------------------------------------------------
9. On vous propose un test pour savoir si nx et rlag sont des instruments appropriés. Qu’enpensez vous ?
. ivreg2 co colag (yd = g t nx rlag), gmm bw(2) orthog(nx rlag)
2-Step GMM estimation
---------------------
résultats de la régression omises
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments): 16.926
Chi-sq(3) P-val = 0.0007
-orthog- option:
Hansen J statistic (eqn. excluding suspect orthogonality conditions): 0.595
Chi-sq(1) P-val = 0.4407
C statistic (exogeneity/orthogonality of suspect instruments): 16.331
Chi-sq(2) P-val = 0.0003
Instruments tested: nx rlag
------------------------------------------------------------------------------
Instrumented: yd
Included instruments: colag
Excluded instruments: g t nx rlag
------------------------------------------------------------------------------
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 177/298
10. La régression à la suite de l’exclusion des instruments vous paraît-elle satisfaisante ?
. ivreg2 co colag (yd = g t), gmm2s bw(2)
2-Step GMM estimation
---------------------
Estimates efficient for arbitrary autocorrelation
Statistics robust to autocorrelation
kernel=Bartlett; bandwidth= 2
time variable (t): years
Number of obs = 31
F( 2, 28) = 2006.73
Prob > F = 0.0000
Total (centered) SS = 12374912.58 Centered R2 = 0.9945
Total (uncentered) SS = 197725473.9 Uncentered R2 = 0.9997Residual SS = 67501.31687 Root MSE = 46.66
------------------------------------------------------------------------------
co | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
yd | - .2669334 .3834833 -0.70 0.486 -1.018547 .4846801
colag | 1.290077 .405872 3.18 0.001 .4945823 2.085571
_cons | 101.7307 78.17731 1.30 0.193 -51.49404 254.9554
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments): 0.249
Chi-sq(1) P-val = 0.6175
------------------------------------------------------------------------------
Instrumented: yd
Included instruments: colag
Excluded instruments: g t
------------------------------------------------------------------------------
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 178/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 179/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 180/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 181/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 182/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 183/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 184/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 185/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 186/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 187/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 188/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 189/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 190/298
UNIVERSITE DE PARIS 11
TD d’économétrie Anne PlunketLes modèles de sélection
Vous disposez de données (heckman1.dta) extraites du U.S. Current Population Survey
(CPS). Il s’agit d’un échantillon (de 800 femmes âgées de 25 à 65 ans pour l’année 2003)
non représentatif de la population entière.
Les variables suivantes sont incluses dans les données :
– age : âge en années
– black : 1 si la personne est noire– othrac : 1 si la personne est ni blache ni noire.
– ihgrdc : nombre d’années d’école
– earnwkef : salaire hebdomadaire de la semaine précédente
– emplw : 1 si la personne était employée la semaine précédente
– ch02 : 1 si la personne a un enfant de 0 à 2 ans
– ch35 : 1 si la personne a un enfant de 3 à 5 ans
– ch613 : 1 si la personne a un enfant de 6 à 13 ans
– ch1417 : 1 si la personne a un enfant âgé de 14 à 17 ans
1. Vous disposez d’observations du salaire hebdomadaire de la semaine précédente ; cettevaleur est supérieure ou égale à zéro pour les personnes qui déclarent travailler et man-
quante pour les autres (earnwke == .) ; en revanche, on dispose de leurs caractéristiques ycompris lorsqu’elles ne travaillent pas. On vous propose la régression suivante du salairehebdomadaire pour les femmes qui travaillent (emplw == 1) ;S’agit-il d’un cas de troncature ou de censure, expliquez ?On vous propose une régression par les MCO, analysez les résultats. Cette méthode d’es-timation vous paraît_elle appropriée ?
use "C:\heckman1.dta", clear
. gen earnwkef = earnwke if emplw == 1
. replace earnwkef = 0 if emplw == 0 // on met la valeur de earnwke = 0
pour les personnes qui ne travaillent pas
. gen age2 = age * age
. summarize
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
age | 800 44.38625 10.87543 25 65
hourslw | 516 36.31395 11.99572 1 96
earnwke | 509 574.6483 398.5622 0 2884
ch02 | 765 .103268 .3045076 0 1
ch35 | 765 .1111111 .3144753 0 1
-------------+--------------------------------------------------------
ch613 | 765 .2522876 .4346096 0 1
ch1417 | 765 .1660131 .3723358 0 1
ihigrdc | 800 13.4075 2.905188 0 18
black | 800 .0975 .296823 0 1
othrac | 800 .0725 .2594762 0 1
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 191/298
-------------+--------------------------------------------------------
emplw | 799 .6908636 .462427 0 1earnwkef | 756 386.8995 423.8151 0 2884
age2 | 800 2088.266 980.2236 625 4225
. regress earnwkef black othrac age age2 ihigrdc if ch02!=.
Source | SS df MS Number of obs = 722
-------------+------------------------------ F( 5, 716) = 23.14
Model | 18384108.9 5 3676821.77 Prob > F = 0.0000
Residual | 113792966 716 158928.723 R-squared = 0.1391
-------------+------------------------------ Adj R-squared = 0.1331
Total | 132177075 721 183324.653 Root MSE = 398.66
------------------------------------------------------------------------------
earnwkef | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -27.87674 51.14381 -0.55 0.586 -128.2865 72.53302
othrac | 29.85007 57.68221 0.52 0.605 -83.39641 143.0966
age | 26.30842 11.28381 2.33 0.020 4.155107 48.46174
age2 | -.3033743 .1254136 -2.42 0.016 -.5495967 -.0571519
ihigrdc | 53.17958 5.243977 10.14 0.000 42.88417 63.47499
_cons | -854.1964 252.5549 -3.38 0.001 -1350.033 -358.3598
------------------------------------------------------------------------------
note : la condition ch02 !=. nous assure simplement qu’on ne prend pas encore
les observations pour lesquelles les observations de la variable ch02 ne sont
pas manquantes
2. Peut-on s’appuyer sur cette régression pour faire des inférences sur la population des
femmes qui travaillent ? Expliquez. aleur du salaire pour ceux qui travaillent de toute
manière.
3. On vous propose la régression suivante : en quoi cette régression est-elle une améliorationpar rapport à la méthode des MCO. Est-elle totalement satisfaisante ?
. tobit earnwkef black othrac age age2 ihigrdc if ch02!=., ll(0)
Tobit regression Number of obs = 722
LR chi2(5) = 100.38
Prob > chi2 = 0.0000
Log likelihood = -3962.7466 Pseudo R2 = 0.0125
------------------------------------------------------------------------------earnwkef | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -22.65272 72.77186 -0.31 0.756 -165.5241 120.2187
othrac | 67.8211 80.33858 0.84 0.399 -89.90588 225.5481
age | 44.37442 16.2132 2.74 0.006 12.54341 76.20544
age2 | -.5171235 .1812881 -2.85 0.004 -.8730424 -.1612045
ihigrdc | 73.67987 7.890169 9.34 0.000 58.18927 89.17046
_cons | -1607.653 365.2817 -4.40 0.000 -2324.803 -890.5035
-------------+----------------------------------------------------------------
/sigma | 535.4785 18.33199 499.4877 571.4693
------------------------------------------------------------------------------
Obs. summary: 233 left-censored observations at earnwkef<=0
489 uncensored observations
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 192/298
0 right-censored observations
. mfx compute, predict(pr(0,.))
Marginal effects after tobit
y = Pr(earnwkef>0) (predict, pr(0,.))
= .69412557
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
black*| - .0149637 .04847 -0.31 0.758 - .109967 .08004 .094183
othrac*| .0431323 .0495 0.87 0.384 -.05389 .140155 .072022
age | .029064 .01064 2.73 0.006 .008207 .049921 44.241
age2 | -.0003387 .00012 -2.85 0.004 -.000572 -.000105 2076.39
ihigrdc | .0482583 .00533 9.05 0.000 .037803 .058714 13.3996
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
. mfx compute, predict(e(0,.))
Marginal effects after tobit
y = E(earnwkef|earnwkef>0) (predict, e(0,.))
= 542.36086
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
black*| - 10.95457 34.857 -0.31 0.753 - 79.2733 5 7.3641 .094183
othrac*| 34.12324 41.624 0.82 0.412 -47.4587 115.705 .072022
age | 21.665 7.91048 2.74 0.006 6.16074 37.1693 44.241age2 | -.2524761 .08844 -2.85 0.004 -.425815 -.079138 2076.39
ihigrdc | 35.97285 3.87786 9.28 0.000 28.3724 4 3.5733 13.3996
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
4. Expliquez et analysez les effets marginaux
5. On vous demande à présent d’estimer un modèle probit pour tenter de comprendre quelssont les déterminants de la décision de travailler (emplw == 1 ). La régression est réaliséepour celles qui déclarent ne pas travailler (emplw==0) et pour celles qui déclarent tra-vailler (emplw == 1) et n’ont pas d’observatiosn manquantes pour le montant du salairehebdomadaire (earnwke !=.).Analysez les résultats de la régression. En quoi cette régression pourrait-elle être utile ?On vous propose de tester l’hypothèse nulle que les coefficients des variables indicatricessont égales à zéro. De quel test s’agit-il ? Y a t-il un problème d’instrument faibles ? Expli-quez si les variables indicatrices du nombre d’enfants dans le ménage sont des restrictionsvalides ?
. probit emplw black othrac age age2 ihigrdc ch02 ch35 ch613 ch1417 ch1417
if earnwkef!=.
note: ch1417 dropped because of collinearity
Iteration 0: log likelihood = -453.32044
...
Iteration 3: log likelihood = -423.30789
Probit regression Number of obs = 722
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 193/298
LR chi2(9) = 60.03
Prob > chi2 = 0.0000Log likelihood = -423.30789 Pseudo R2 = 0.0662
------------------------------------------------------------------------------
emplw | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -.0014557 .1713513 -0.01 0.993 -.3372981 .3343868
othrac | .1918463 .2016849 0.95 0.341 -.2034488 .5871415
age | .0312355 .041705 0.75 0.454 -.0505048 .1129758
age2 | -.0005947 .0004543 -1.31 0.191 -.0014852 .0002958
ihigrdc | .0776969 .0179726 4.32 0.000 .0424712 .1129226
ch02 | -.5777895 .1796234 -3.22 0.001 -.929845 -.225734
ch35 | -.3235616 .1657756 -1.95 0.051 -.6484758 .0013526
ch613 | -.3672208 .125268 -2.93 0.003 -.6127415 -.1217001
ch1417 | .2476143 .1483912 1.67 0.095 -.0432271 .5384558
_cons | -.5547977 .9435299 -0.59 0.557 -2.404082 1.294487
------------------------------------------------------------------------------
. testparm ch02 ch35 ch613 ch1417
( 1) ch02 = 0
( 2) ch35 = 0
( 3) ch613 = 0
( 4 ) ch1417 = 0
chi2( 4) = 26.24
Prob > chi2 = 0.0000
6. En utilisant le probit de la question 3, on estime le terme du mills ratio, et on l’intègre àla régression de l’équation du salaire hebdomadaire par les MCO. Est-ce une solution ?
. predict zgamma, xb
// il s’agit ici d’une estimation de la relation linéaire
(35 missing values generated)
gen invmill = normalden(zgamma)/normal(zgamma)
// on détermine l’inverse du ratio de Mills en déterminant le rapport entre
la fonction de densité normale et la fonction de densité cumulative de la loi
normale pour les prédictions du modèle linéaire
(35 missing values generated)
. regress earnwkef black othrac age age2 ihigrdc invmill if earnwke!=.
Source | SS df MS Number of obs = 490
-------------+------------------------------ F( 6, 483) = 20.65
Model | 16263033.2 6 2710505.53 Prob > F = 0.0000
Residual | 63411510.2 483 131286.771 R-squared = 0.2041
-------------+------------------------------ Adj R-squared = 0.1942
Total | 79674543.4 489 162933.627 Root MSE = 362.34
------------------------------------------------------------------------------
earnwkef | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -52.79758 57.14804 -0.92 0.356 -165.0871 59.4919
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 194/298
othrac | -15.55447 62.65035 -0.25 0.804 -138.6554 107.5464
age | 4.265233 14.2866 0.30 0.765 -23.80634 32.33681age2 | -.0087184 .1652137 -0.05 0.958 -.3333449 .315908
ihigrdc | 63.01018 8.37043 7.53 0.000 46.56323 79.45714
invmill | -191.354 127.9787 -1.50 0.136 -442.8178 60.10989
_cons | -356.8735 376.8102 -0.95 0.344 -1097.263 383.5162
------------------------------------------------------------------------------
7. On vous propose une estimation par la méthode de heckman avec l’option twostep et onestime la même équation que précédemment. Comparer les coefficients obtenus à ceuxde la question précédente et à ceux ignorant la correction. Comparer les écart-types avecceux obtenus à la question précédente. Sont-elles très différentes ? Pourquoi ?
. heckman earnwkef black othrac age age2 ihigrdc, select( emplw = black othrac
age age2 ihigrdc ch02 ch35 ch613 ch1417) twostep
Heckman selection model -- two-step estimates Number of obs = 722
(regression model with sample selection) Censored obs = 232
Uncensored obs = 490
Wald chi2(5) = 66.22
Prob > chi2 = 0.0000
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
earnwkef |
black | -52.79758 58.97689 -0.90 0.371 -168.3902 62.795
othrac | -15.55447 64.95989 -0.24 0.811 -142.8735 111.7646
age | 4.265233 14.72002 0.29 0.772 -24.58549 33.11595
age2 | -.0087184 .1698654 -0.05 0.959 -.3416485 .3242116ihigrdc | 63.01018 8.566486 7.36 0.000 46.22018 79.80018
_cons | -356.8735 388.7785 -0.92 0.359 -1118.865 405.1183
-------------+----------------------------------------------------------------
emplw |
black | -.0014557 .1713513 -0.01 0.993 -.3372981 .3343868
othrac | .1918463 .2016849 0.95 0.341 -.2034488 .5871415
age | .0312355 .041705 0.75 0.454 -.0505048 .1129758
age2 | -.0005947 .0004543 -1.31 0.191 -.0014852 .0002958
ihigrdc | .0776969 .0179726 4.32 0.000 .0424712 .1129226
ch02 | -.5777895 .1796234 -3.22 0.001 -.929845 -.225734
ch35 | -.3235616 .1657756 -1.95 0.051 -.6484758 .0013526
ch613 | -.3672208 .125268 -2.93 0.003 -.6127415 -.1217001
ch1417 | .2476143 .1483912 1.67 0.095 -.0432271 .5384558
_cons | -.5547977 .9435299 -0.59 0.557 -2.404082 1.294487
-------------+----------------------------------------------------------------
mills |
lambda | -191.354 131.3091 -1.46 0.145 -448.715 66.00705
-------------+----------------------------------------------------------------
rho | -0.49860
sigma | 383.78392
lambda | -191.35396 131.3091
------------------------------------------------------------------------------
8. A l’aide de la commande predict avec l’option mills arpès une régression heckman,on obtient une estimation de l’inverse du ratio de Mills. On calcule la corrélation avecl’inverse de Mills obtenu précédemment à la suite de la régression du probit. Sont-ilssimilaires ?
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 195/298
. predict invmill2, mills
(35 missing values generated). corr invmill invmill2
(obs=765)
| invmill invmill2
-------------+------------------
invmill | 1.0000
invmill2 | 1.0000 1.0000
9. Interprétez l’estimation du ρ de la régression suivante
. heckman earnwkef black othrac age age2 ihigrdc, select( emplw = black othrac
age age2 ihigrdc ch02 ch35 ch613 ch1417)
Iteration 0: log likelihood = -4006.2731
....
Iteration 4: log likelihood = -4002.8446
Heckman selection model Number of obs = 722
(regression model with sample selection) Censored obs = 232
Uncensored obs = 490
Wald chi2(5) = 99.94
Log likelihood = -4002.845 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
earnwkef |
black | -51.17895 57.22987 -0.89 0.371 -163.3474 60.98954
othrac | -3.067862 61.42984 -0.05 0.960 -123.4681 117.3324
age | 8.944075 13.41368 0.67 0.505 -17.34626 35.23441age2 | -.0679089 .1529727 -0.44 0.657 -.3677298 .231912
ihigrdc | 67.54608 6.867649 9.84 0.000 54.08574 81.00643
_cons | -559.3134 310.4226 -1.80 0.072 -1167.731 49.10374
-------------+----------------------------------------------------------------
emplw |
black | -.0063431 .1713199 -0.04 0.970 -.3421239 .3294377
othrac | .1903743 .2016914 0.94 0.345 -.2049335 .585682
age | .0281355 .0417927 0.67 0.501 -.0537767 .1100477
age2 | -.0005654 .0004547 -1.24 0.214 -.0014566 .0003258
ihigrdc | .0787945 .0180116 4.37 0.000 .0434924 .1140967
ch02 | -.5682552 .1791912 -3.17 0.002 -.9194636 -.2170468
ch35 | -.3317107 .1647425 -2.01 0.044 -.6546001 -.0088213
ch613 | -.3934671 .1253686 -3.14 0.002 -.6391849 -.1477492
ch1417 | .2658026 .1475914 1.80 0.072 -.0234713 .5550765
_cons | -.4886907 .9447972 -0.52 0.605 -2.340459 1.363078
-------------+----------------------------------------------------------------
/athrho | -.227185 .1523527 -1.49 0.136 -.5257908 .0714208
/lnsigma | 5.899569 .0362051 162.95 0.000 5.828608 5.97053
-------------+----------------------------------------------------------------
rho | -.2233555 .1447522 -.482157 .0712996
sigma | 364.8802 13.21052 339.8854 391.7131
lambda | -81.498 54.27316 -187.8714 24.87544
------------------------------------------------------------------------------
LR test of indep. eqns. (rho = 0): chi2(1) = 1.42 Prob > chi2 = 0.2339
------------------------------------------------------------------------------
6
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 196/298
UNIVERSITE DE PARIS 11TD d’économétrie Anne Plunket
Les modèles de sélection
Vous disposez de données (heckman1.dta) extraites du U.S. Current Population Survey
(CPS). Il s’agit d’un échantillon (de 800 femmes âgées de 25 à 65 ans pour l’année 2003)
non représentatif de la population entière.
Les variables suivantes sont incluses dans les données :
– age : âge en années
– black : 1 si la personne est noire– othrac : 1 si la personne est ni blache ni noire.
– ihgrdc : nombre d’années d’école
– earnwkef : salaire hebdomadaire de la semaine précédente
– emplw : 1 si la personne était employée la semaine précédente
– ch02 : 1 si la personne a un enfant de 0 à 2 ans
– ch35 : 1 si la personne a un enfant de 3 à 5 ans
– ch613 : 1 si la personne a un enfant de 6 à 13 ans
– ch1417 : 1 si la personne a un enfant âgé de 14 à 17 ans
1. Vous disposez d’observations du salaire hebdomadaire de la semaine précédente ;cette valeur est supérieure ou égale à zéro pour les personnes qui déclarent travailler
et manquante pour les autres (earnwke == .) ; en revanche, on dispose de leurs carac-téristiques y compris lorsqu’elles ne travaillent pas. On vous propose la régressionsuivante du salaire hebdomadaire pour les femmes qui travaillent (emplw == 1) ;S’agit-il d’un cas de troncature ou de censure, expliquez ?On vous propose une régression par les MCO, analysez les résultats. Cette méthoded’estimation vous paraît_elle appropriée ?Il s’agit ici d’une variable censurée ou plus précisément d’une variable dont les carac-téristiques s’apparentent à une solution en coin, dans le sens où cette variable prend lavaleur zéro pour une partie non négligeable de la population alors qu’elle est distribuéede manière continue pour les valeurs positives.La régression par les MCO estime le salaire pour 722 femmes en fonction d’un certainnombre de facteurs tels que l’origine raciale, toutefois la variable n’est pas significative,l’âge et le nombre d’années d’école. Le fait d’être noire semble avoir une impact négatif sur le revenu par rapport à une personne blanche (la constante), l’âge connait un impactpositif mais décroissant, enfin le nombre d’années d’étude semble avoir un impact positif sur le revenu salarié.La méthode des MCO ne serait pas adaptée dans ce cas, car elle risquerait de prédire desvariables négatives pour y ce n’est pas possible. Le modèle que l’on cherche à estimer estle suivant :y = max(0, y∗) ; y prend la valeur 0 ou une valeur y∗ continue qui peut s’écrire de lamanière suivante (variable latente) :y∗ = β 0 + xβ + ǫ
use "C:\heckman1.dta", clear
. gen earnwkef = earnwke if emplw == 1
. replace earnwkef = 0 if emplw == 0 // on met la valeur de earnwke = 0
pour les personnes qui ne travaillent pas
. gen age2 = age * age
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 197/298
. summarize
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
age | 800 44.38625 10.87543 25 65
hourslw | 516 36.31395 11.99572 1 96
earnwke | 509 574.6483 398.5622 0 2884
ch02 | 765 .103268 .3045076 0 1
ch35 | 765 .1111111 .3144753 0 1
-------------+--------------------------------------------------------
ch613 | 765 .2522876 .4346096 0 1
ch1417 | 765 .1660131 .3723358 0 1
ihigrdc | 800 13.4075 2.905188 0 18
black | 800 .0975 .296823 0 1
othrac | 800 .0725 .2594762 0 1
-------------+--------------------------------------------------------
emplw | 799 .6908636 .462427 0 1
earnwkef | 756 386.8995 423.8151 0 2884
age2 | 800 2088.266 980.2236 625 4225
. regress earnwkef black othrac age age2 ihigrdc if ch02!=.
Source | SS df MS Number of obs = 722
-------------+------------------------------ F( 5, 716) = 23.14
Model | 18384108.9 5 3676821.77 Prob > F = 0.0000
Residual | 113792966 716 158928.723 R-squared = 0.1391
-------------+------------------------------ Adj R-squared = 0.1331
Total | 132177075 721 183324.653 Root MSE = 398.66
------------------------------------------------------------------------------
earnwkef | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -27.87674 51.14381 -0.55 0.586 -128.2865 72.53302
othrac | 29.85007 57.68221 0.52 0.605 -83.39641 143.0966
age | 26.30842 11.28381 2.33 0.020 4.155107 48.46174
age2 | -.3033743 .1254136 -2.42 0.016 -.5495967 -.0571519
ihigrdc | 53.17958 5.243977 10.14 0.000 42.88417 63.47499
_cons | -854.1964 252.5549 -3.38 0.001 -1350.033 -358.3598
------------------------------------------------------------------------------
note : la condition ch02 !=. nous assure simplement qu’on ne prend pas encore les observat
2. Peut-on s’appuyer sur cette régression pour faire des inférences sur la population
des femmes qui travaillent ? Expliquez.
La méthode des MCO ne permet pas de faire une inférence sur la population totale. Il
est nécessaire de combiner un modèle probit sur l’occurrence de la variable y positive et
ensuite une estimation par le maximum de vraissemblance pour tenir compte de la valeur
de la variable y. En effet, les variables explicatives auront un impact sur
– le fait (la probabilité) que l’individu est cesuré (y = 0)
– sur la valeur de y pour un individu non censuré (E [y|y > 0])
Dans notre cas, la valeur des variables explicatives auront un impact sur la probabilité de
travailler d’une part et sur la valeur du salaire pour ceux qui travaillent de toute manière.
3. On vous propose la régression suivante : en quoi cette régression est-elle une amélio-
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 198/298
ration par rapport à la méthode des MCO. Est-elle totalement satisfaisante ?
. tobit earnwkef black othrac age age2 ihigrdc if ch02!=., ll(0)
Tobit regression Number of obs = 722
LR chi2(5) = 100.38
Prob > chi2 = 0.0000
Log likelihood = -3962.7466 Pseudo R2 = 0.0125
------------------------------------------------------------------------------
earnwkef | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -22.65272 72.77186 -0.31 0.756 -165.5241 120.2187
othrac | 67.8211 80.33858 0.84 0.399 -89.90588 225.5481
age | 44.37442 16.2132 2.74 0.006 12.54341 76.20544
age2 | -.5171235 .1812881 -2.85 0.004 -.8730424 -.1612045ihigrdc | 73.67987 7.890169 9.34 0.000 58.18927 89.17046
_cons | -1607.653 365.2817 -4.40 0.000 -2324.803 -890.5035
-------------+----------------------------------------------------------------
/sigma | 535.4785 18.33199 499.4877 571.4693
------------------------------------------------------------------------------
Obs. summary: 233 left-censored observations at earnwkef<=0
489 uncensored observations
0 right-censored observations
. mfx compute, predict(pr(0,.))
Marginal effects after tobit
y = Pr(earnwkef>0) (predict, pr(0,.))
= .69412557
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
black*| - .0149637 .04847 -0.31 0.758 - .109967 .08004 .094183
othrac*| .0431323 .0495 0.87 0.384 -.05389 .140155 .072022
age | .029064 .01064 2.73 0.006 .008207 .049921 44.241
age2 | -.0003387 .00012 -2.85 0.004 -.000572 -.000105 2076.39
ihigrdc | .0482583 .00533 9.05 0.000 .037803 .058714 13.3996
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
. mfx compute, predict(e(0,.))
Marginal effects after tobit
y = E(earnwkef|earnwkef>0) (predict, e(0,.))
= 542.36086
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
black*| - 10.95457 34.857 -0.31 0.753 - 79.2733 5 7.3641 .094183
othrac*| 34.12324 41.624 0.82 0.412 -47.4587 115.705 .072022
age | 21.665 7.91048 2.74 0.006 6.16074 37.1693 44.241
age2 | -.2524761 .08844 -2.85 0.004 -.425815 -.079138 2076.39
ihigrdc | 35.97285 3.87786 9.28 0.000 28.3724 4 3.5733 13.3996
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 199/298
Dans la mesure où il importe d’expliquer à la fois la probabilité que l’événement se pro-
duise et la valeur de y lorsque cet événement se produit, l’expression à estimer s’écrit :
E (y|y > 0, x) = xβ + σλ(α)
avec
α = xβ/σ
λ est l’inverse du ratio de Mills ; ainsi, l’espérance de y conditionnel à y > 0 est fonction
des variables explicatives et du produit de l’écart-type des erreurs par le ratio de Mills
évalué pour xβ/σ . Cette équation montre également pourquoi l’utilisation des MCO pour
les seules valeurs positives de y ne serait pas approprié puisqu’en fait l’équation souffriraitd’une variable omise (le ratio de Mills).
Le probit permet de tenir compte du fait que les obsevations sont censurées à gauche à la
valeur 0.
4. Expliquez et analysez les effets marginaux
Dans le premier cas, mfx compute, predict(pr(0,.)) rend compte de l’effet marginal de
chaque variable sur la probabilité de participation
Dans le second cas, mfx compute, predict(e(0,.)) rend compte de l’effet marginal de
chaque variable sur le montant du salaire
Ces effets marginaux, contrairement à ceux obtenus par les MCO, tiennent compte compte
correctement du fait que la variable expliquée est censurée.
L’effet marginal implique que une année d’étude de plus par rapport à la moyenne (13,39)entraînera une augmentation de la participation de 4,8%
L’effet marginal du fait d’être noire réduit la participation de 1,5% mais ce n’est pas si-
gnificatif.
L’effet marginal d’une année d’étude de plus par rapport au niveau d’étude moyen va
avoir un impact de 350% sur le salaire.
5. On vous demande à présent d’estimer un modèle probit pour tenter de comprendre
quels sont les déterminants de la décision de travailler (emplw == 1 ). La régression
est réalisée pour celles qui déclarent ne pas travailler (emplw==0) et pour celles qui
déclarent travailler (emplw == 1) et n’ont pas d’observatiosn manquantes pour le
montant du salaire hebdomadaire (earnwke !=.).
Analysez les résultats de la régression. En quoi cette régression pourrait-elle être
utile ?
On vous propose de tester l’hypothèse nulle que les coefficients des variables indi-
catrices sont égales à zéro. De quel test s’agit-il ? Y a t-il un problème d’instrument
faibles ? Expliquez si les variables indicatrices du nombre d’enfants dans le ménage
sont des restrictions valides ? Le probit permet de déterminer quelles sont les variables
qui influencent la censure, c’est-à-dire la décision pour une femme de travailler ou non.
On constate que les variables qui sont significatives et négatives ici correspondent à l’âge
des enfants. La femme décidera de travailler ou non en fonction de l’âge de ses enfants
de moins de 13 ans. De même que le nombre d’années d’étude, autrement dit le niveau
d’éducation va avoir un impact positif et significatif sur la probabilité de travailler.
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 200/298
Ces variables peuvent constituer des restrictions valides pour une procédure de heckman
par exemple si on suppose que les enfants ont un impact sur l’équation de participationet non pas sur le montant du salaire. En revanche, elles ne constitueraient pas des restric-
tions valides si on supposait que les femmes qui anticipent d’avoir des enfants pourraient
en ternir compte pour décider du type d’étude et de la qualité des études qu’elles entre-
prennent. Ce choix n’est pas pris en compte par la variable nombre d’années d’études
et par conséquent, les variables enfants sont corrélés au terme d’erreur de l’équation de
salaire.
Quant aux tests sur les enfants, il s’agit d’un test de Wald qui testent plusieurs coefficients
en même temps. Il s’agit donc d’un chi2 à 4 degrés de liberté. Celui-ci montre que les
quatre variables sont conjointement significatives.
. probit emplw black othrac age age2 ihigrdc ch02 ch35 ch613 ch1417 ch1417
if earnwkef!=.
note: ch1417 dropped because of collinearity
Iteration 0: log likelihood = -453.32044
Iteration 1: log likelihood = -423.47695
Iteration 2: log likelihood = -423.30793
Iteration 3: log likelihood = -423.30789
Probit regression Number of obs = 722
LR chi2(9) = 60.03
Prob > chi2 = 0.0000
Log likelihood = -423.30789 Pseudo R2 = 0.0662
------------------------------------------------------------------------------emplw | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -.0014557 .1713513 -0.01 0.993 -.3372981 .3343868
othrac | .1918463 .2016849 0.95 0.341 -.2034488 .5871415
age | .0312355 .041705 0.75 0.454 -.0505048 .1129758
age2 | -.0005947 .0004543 -1.31 0.191 -.0014852 .0002958
ihigrdc | .0776969 .0179726 4.32 0.000 .0424712 .1129226
ch02 | -.5777895 .1796234 -3.22 0.001 -.929845 -.225734
ch35 | -.3235616 .1657756 -1.95 0.051 -.6484758 .0013526
ch613 | -.3672208 .125268 -2.93 0.003 -.6127415 -.1217001
ch1417 | .2476143 .1483912 1.67 0.095 -.0432271 .5384558
_cons | -.5547977 .9435299 -0.59 0.557 -2.404082 1.294487
------------------------------------------------------------------------------
. testparm ch02 ch35 ch613 ch1417
( 1) ch02 = 0
( 2) ch35 = 0
( 3) ch613 = 0
( 4 ) ch1417 = 0
chi2( 4) = 26.24
Prob > chi2 = 0.0000
6. En utilisant le probit de la question 3, on estime le terme du mills ratio, et on l’in-
tègre à la régression de l’équation du salaire hebdomadaire par les MCO. Est-ce une
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 201/298
solution ?
A partir du moment où l’on détermine une estimation de l’inverse du ratio de Mills, il est
possible de l’intégrer dans la régression linéaire afin d’éliminer le biais engendré par la
variable omise (ratio de mills). On peut ainsi corriger le biais de sélection.
E (y|y > 0, x) = xβ + σλ(α)
avec
α = xβ/σ
. predict zgamma, xb
// il s’agit ici d’une estimation de la relation linéaire(35 missing values generated)
gen invmill = normalden(zgamma)/normal(zgamma)
// on détermine l’inverse du ratio de Mills en déterminant le rapport entre
la fonction de densité normale et la fonction de densité cumulative de la loi
normale pour les prédictions du modèle linéaire
(35 missing values generated)
. regress earnwkef black othrac age age2 ihigrdc invmill if earnwke!=.
Source | SS df MS Number of obs = 490
-------------+------------------------------ F( 6, 483) = 20.65
Model | 16263033.2 6 2710505.53 Prob > F = 0.0000
Residual | 63411510.2 483 131286.771 R-squared = 0.2041
-------------+------------------------------ Adj R-squared = 0.1942
Total | 79674543.4 489 162933.627 Root MSE = 362.34
------------------------------------------------------------------------------
earnwkef | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -52.79758 57.14804 -0.92 0.356 -165.0871 59.4919
othrac | -15.55447 62.65035 -0.25 0.804 -138.6554 107.5464
age | 4.265233 14.2866 0.30 0.765 -23.80634 32.33681
age2 | -.0087184 .1652137 -0.05 0.958 -.3333449 .315908
ihigrdc | 63.01018 8.37043 7.53 0.000 46.56323 79.45714
invmill | -191.354 127.9787 -1.50 0.136 -442.8178 60.10989 _cons | -356.8735 376.8102 -0.95 0.344 -1097.263 383.5162
------------------------------------------------------------------------------
Il s’agit d’une solution tout à fait acceptable qui permet de corriger le biais de sélection.
On peut comparer ce résultat à un heckman à deux étapes.
7. On vous propose une estimation par la méthode de heckman avec l’option twostep
et on estime la même équation que précédemment. Comparer les coefficients obte-
nus à ceux de la question précédente et à ceux ignorant la correction. Comparer les
écart-types avec ceux obtenus à la question précédente. Sont-elles très différentes ?
Pourquoi ?
Les deux résultats sont exactement identiques puisqu’ils s’appuient sur un même calcule
6
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 202/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 203/298
. corr invmill invmill2(obs=765)
| invmill invmill2
-------------+------------------
invmill | 1.0000
invmill2 | 1.0000 1.0000
9. Interprétez l’estimation du ρ de la régression suivante
Cette dernière application du modèle de Heckman sans l’option twostep donne des résul-
tats différents aux estimations précédentes. Elle est obtenue à partir de l’équation
E [y|z, s = 1] = xβ + ρλ(zγ ) + ǫ
. heckman earnwkef black othrac age age2 ihigrdc, select( emplw = black othrac
age age2 ihigrdc ch02 ch35 ch613 ch1417)
Iteration 0: log likelihood = -4006.2731
Iteration 1: log likelihood = -4003.0711
Iteration 2: log likelihood = -4002.8465
Iteration 3: log likelihood = -4002.8446
Iteration 4: log likelihood = -4002.8446
Heckman selection model Number of obs = 722
(regression model with sample selection) Censored obs = 232
Uncensored obs = 490
Wald chi2(5) = 99.94
Log likelihood = -4002.845 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
earnwkef |
black | -51.17895 57.22987 -0.89 0.371 -163.3474 60.98954
othrac | -3.067862 61.42984 -0.05 0.960 -123.4681 117.3324
age | 8.944075 13.41368 0.67 0.505 -17.34626 35.23441
age2 | -.0679089 .1529727 -0.44 0.657 -.3677298 .231912
ihigrdc | 67.54608 6.867649 9.84 0.000 54.08574 81.00643
_cons | -559.3134 310.4226 -1.80 0.072 -1167.731 49.10374
-------------+----------------------------------------------------------------emplw |
black | -.0063431 .1713199 -0.04 0.970 -.3421239 .3294377
othrac | .1903743 .2016914 0.94 0.345 -.2049335 .585682
age | .0281355 .0417927 0.67 0.501 -.0537767 .1100477
age2 | -.0005654 .0004547 -1.24 0.214 -.0014566 .0003258
ihigrdc | .0787945 .0180116 4.37 0.000 .0434924 .1140967
ch02 | -.5682552 .1791912 -3.17 0.002 -.9194636 -.2170468
ch35 | -.3317107 .1647425 -2.01 0.044 -.6546001 -.0088213
ch613 | -.3934671 .1253686 -3.14 0.002 -.6391849 -.1477492
ch1417 | .2658026 .1475914 1.80 0.072 -.0234713 .5550765
_cons | -.4886907 .9447972 -0.52 0.605 -2.340459 1.363078
-------------+----------------------------------------------------------------
/athrho | -.227185 .1523527 -1.49 0.136 -.5257908 .0714208
8
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 204/298
/lnsigma | 5.899569 .0362051 162.95 0.000 5.828608 5.97053
-------------+----------------------------------------------------------------rho | -.2233555 .1447522 -.482157 .0712996
sigma | 364.8802 13.21052 339.8854 391.7131
lambda | -81.498 54.27316 -187.8714 24.87544
------------------------------------------------------------------------------
LR test of indep. eqns. (rho = 0): chi2(1) = 1.42 Prob > chi2 = 0.2339
------------------------------------------------------------------------------
On rejette l’hypothèse nulle que ρ = 0, les deux équations ne sont donc pas indépendantes
et il est nécessaire de corriger le biais de sélection.
le ρ = −.22, ce qui indique que les termes d’erreur de l’équation de participation et de
l’équation de salaire sont corrélées négativement. Ceci signifie que si les variables non
observées ont un impact négatif sur l’équation de salaire, ils auront un impact positif des
variables non observées sur la probabilité de participation. Ce qui n’est pas vraiment ce à
quoi on pourrait s’attendre si les variables non observées représentent la motivation ; des
individus plus motivés sont plus susceptibles de travailler et de gagner des salaires plus
élevés.
9
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 205/298
L’econometrie des panels
1 Introduction
Les donnees de panel sont des observations qui porte
economique (un individu, une entreprise, une industau cours du temps. Ces donnees de panel ou longi
interessantes pour traiter un certain nombre de ques
Par exemple, on peut se demander ce que signifie u
de chomage de 10%; cela signifie t-il que les mem
population sont au chomage de maniere continue au
(chomage de longue duree) ou que de maniere aleatpopulation est au chomage.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 206/298
Autre exemple, la croissance des entreprises est-economies d’echelle (c’est-a-dire une variation en co
des inputs) ou un changement technique (c’est-a-dir
au cours du temps a inputs fixes)?
Il n’est possible de repondre a ces questions qu’e
memes agents a travers le temps.
Jusqu’a present, deux types de modeles ont ete renY i = β 0 + β 1X 1i + β 2X 2i + ǫi pour les individus i
pour les donnees en coupe
Y t = β 0 + β 1X 1t + β 2X 2t + ǫt pour les periodes i =
pour les donnees en series temporelles.
Les donnees en panel permettent de combiner d
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 207/298
coupe et temporelles :Y it = β 0 + β 1X 1it + β 2X 2it + ǫit
Plus generalement, le modele peut s’ecrire :
yit = xit + ziδ + ui + ǫit
ou xit est un vecteur 1 × k de variables qui varient e
individus et du temps, zi est un vecteur 1 × p de vaantes avec le temps qui varient uniquement avec les i
un vecteur p × 1 de coefficients,ui est un effet indi
terme d’erreur.
Les ui sont correles ou non aux regresseurs xit et z
en revanche que les ui ne sont jamais correles aux ǫ
• si les ui sont correles aux regresseurs, ils sont qufixes. Dans ce cas, la strategie est de traiter les
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 208/298
parametres ou des effets fixes. Toutefois commed’introduire un parametre par individu surtout lor
est grand, la solution consiste a retirer les ui de l’
une transformation. La consequence est que c
ne permet pas l’estimation des parametres δ des
stantes dans le temps.
• si les ui sont non correles aux regresseurs, ilsd’effets aleatoires. Dans ce cas, les effets in
simplement parametres comme des erreurs addi
somme ui + ǫi est qualifiee d’erreur composee.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 209/298
2 Les effets fixes
Les donnees de panel permettent egalement de cont
individuels non observes qui peuvent biaiser les re
sont pas pris en compte. En effet, les variables o
observees sont souvent responsables des questions
et conduisent a des estimations qui ne sont plus a male. Les donnees de panel permettent de retirer l
effets non observes des regressions et de produire d
a variance minimale.
Supposons que X 2 soit non observe dans le model
Y it = β 0 + β 1X 1it + β 2X 2it + ǫit
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 210/298
Nous savons que les variables omises biaises les resuSupposons que l’on regroupe la variable non observe
d’erreur
Y it = β 0 + β 1X 1it + β 2X 2it + ǫit
On peut alors diviser les elements non observes
posantes, une partie qui varie entre les individus ma
stante au cours du temps φi et une partie qui varie dl’autre et d’une periode a l’autre ǫit.
Y it = β 0 + β 1X 1it + ui + ǫit
Si on pouvait ecarter le terme ui, il ne resterai
aleatoire et cela reviendrait aux moindres carrees ord
Il n’est pas possible de supprimer ce terme dans le cen coupe, par consequent la presence des effets no
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 211/298
implique que :Cov(X, u) = Cov(X, ui + ǫit) = Cov(X 1it, β 2X 2
Si ui est constant au cours du temps (si c’est un effe
supprimer l’effet en diff erenciant l’equation de la re
2.1 Effets fixes et diff erences premieres
Si
Y it = β 0 + β 1X 1it + ui + ǫit
En periode t = 1
Y i1 = α1 + β 1X i1 + ui + ǫi1
En periode t = 2Y i2 = α2 + β 1X i2 + ui + ǫi2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 212/298
Ainsi la diff erence premiere est :[Y i2 − Y i1] = (α2 + β 1X i2 + ui + ǫi2) − (α1 + β 1X
= (α2 − α1) + β 1(X i2 − X i1) + (ui − u
ou
∆Y = δ + β 1∆X + ∆ǫ avec (δ = α2 −
L’effet fixe ui est supprime par ce modele de premieLa regression par les MCO ne sera pas influencee pa
observables et les estimations seront exemptes de bia
(contrairement a l’estimation β 1 de l’equation Y it = βsi l’on ne tient pas compte du biais induit par la vari
Cette methode ne fonctionne que si les effets non
fixes au cours du temps (et si le coefficient de X 1 e
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 213/298
cours du temps).∆Y = δ + β 1∆X + ∆ǫ
Il est egalement important de remarquer que cette m
effet de supprimer toutes les variables constante
temps, par consequent les coefficients de la regres
des effets des variables non observees et des variabl
2.1.1 Exemple
Les donnees portent sur des entreprises sur une pe
annees. Elles contiennent des informations sur les ve
la reconnaissance des syndicats.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 214/298
On commence par creer les variables dX = X t −ventes et l’existence des syndicats (variable indicat
l’entreprise (le l place devant la variable signifie q
logarithme neperien de la variable sale, lsale).
use "C:\panel2.dta", clear
. sort fcode year
. gen dlsales=lsales-lsales[_n-1] if fcode==fcode[_n-1](119 missing values generated)
. * la commande if permet de s’assurer que les soustractions
> chaque entreprise
. gen dunion=union-union[_n-1] if fcode==fcode[_n-1]
(119 missing values generated)
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 215/298
. list year fcode sales dsales union dunion in 91/111
+------------------------------------------------------
| year fcode sales dsales union dunion
|------------------------------------------------------
91. | 1987 410609 1650831 . 0 .
92. | 1988 410609 1817961 167130 0 0
93. | 1989 410609 1642441 -175520 0 0
94. | 1987 410612 7000000 . 0 .
95. | 1988 410612 8500000 1500000 0 0
|------------------------------------------------------
96. | 1989 410612 1.10e+07 2500000 0 097. | 1987 410626 4600000 . 1 .
98. | 1988 410626 4900000 300000 1 0
99. | 1989 410626 5600000 700000 1 0
100. | 1987 410627 2900000 . 1 .
|------------------------------------------------------
101. | 1988 410627 2800000 -100000 1 0
102. | 1989 410627 2900000 100000 1 0
103. | 1987 410629 1100000 . 0 .
104. | 1988 410629 2050000 950000 0 0
105. | 1989 410629 2260000 210000 0 0
|------------------------------------------------------106. | 1987 410635 2.00e+07 . 1 .
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 216/298
107. | 1988 410635 1.80e+07 -2000000 1 0
108. | 1989 410635 1.60e+07 -2000000 1 0
109. | 1987 410636 386807 . 0 .
110. | 1988 410636 734613 347806 0 0
|------------------------------------------------------
111. | 1989 410636 518842 -215771 0 0
+------------------------------------------------------
On cherche ensuite a comprendre la relation en
l’emploi et l’existence de syndicats dans l’entreprisepar deux regressions des MCO en coupe, respective
annees 1988 et 1989.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 217/298
. reg lsales lempl union if year==1988
Source | SS df MS Numbe
-------------+------------------------------ F( 2
Model | 92.2537446 2 46.1268723 Prob
Residual | 50.224002 112 .448428589 R-squ
-------------+------------------------------ Adj R
Total | 142.477747 114 1.2498048 Root
------------------------------------------------------------
lsales | Coef. Std. Err. t P>|t| [9-------------+----------------------------------------------
lemploy | .8379075 .0645985 12.97 0.000 .7
union | .2754602 .1595039 1.73 0.087 -.0
_cons | 12.03388 .2276874 52.85 0.000 11
------------------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 218/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 219/298
de 10%) alors qu’il ne l’est pas pour 1989. Par ade la taille de l’entreprise (l’emploi) est plus impor
que pour 1988. Toutefois, on ne peut pas controler
regressions subissent un biais de variables omises.
Pour corriger ce biais, on peut donc refaire la re
cette fois avec les diff erences premieres des variable
une constante (bien que les differences premieres aietoutes les constantes). La constante introduite peut e
comme la variation de valeur de la constante au c
β 1 = β 2. Par ailleurs, l’absence de la constante pos
dans la regression car elle n’impose pas que le Rentre 0 et 1.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 220/298
. reg dlsales dlemp dunion if year==1989
Source | SS df MS Numbe
-------------+------------------------------ F( 1
Model | .901279503 1 .901279503 Prob
Residual | 17.4758117 109 .160328548 R-squ
-------------+------------------------------ Adj R
Total | 18.3770912 110 .167064466 Root
------------------------------------------------------------
dlsales | Coef. Std. Err. t P>|t| [9
-------------+----------------------------------------------dlemp | .0614058 .0258991 2.37 0.019 .0
dunion | (dropped)
_cons | .1041567 .0380128 2.74 0.007 .0
------------------------------------------------------------
Le coefficient pour l’emploi est plus faible que dan
precedentes suggerant que les regressions preceden
aisees en surevaluant l’importance de la variable du fde variables omises.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 221/298
Il n’est pas possible d’estimer l’effet des syndiccette variables est constante au cours du temps et la
donc gommee lorsque l’on calcule la diff erence prem
L’interet des donnees de panel est la possibilite d’e
des politiques publiques. En effet, si les memes age
apparaissent avant et apres la mise en place d’une p
ce cas les variations dans les estimations des differeauront pour consequences de gommer les effets fixes
influencer les resultats.
Supposons que l’on ait l’equation suivante (W repr
:
ln W 1 = α1+β 1Variable indicatrice pour l’effet+ui+
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 222/298
ln W 2 = α2+β 2Variable indicatrice pour l’effet2+ui
Les coefficients β 1 et β 2 donnent le diff erenciel d’im
ayant ete affecte par la politique sur les salaires a ch
Ainsi la variation de salaire pour le groupe affec
la variable indicatrice = 1) est la diff erence des coef
a-dire l’effet a la periode Apres - l’effet a la periode
(α2 + β 2 + ui) − (α1 + β 1 + ui) = α2 − α1 +
et la variation de salaire pour le groupe de controle
variable indicatrice = 0) est la diff erence des effets
periodes, soit
(α2 + ui) − (α1 + ui) = α2 − α1
et par consequent l’estimateur de la difference des d= Variation des salaires pour le groupe affecte - varia
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 223/298
pour le groupe de controle := (α2 − α1 + β 2 − β 1) − (α2 − α1)= β 2 − β 1et les effets fixes disparaissent.
2.2 Autres techniques
Il existe au moins deux autres techniques qui perme
des estimations de type effets fixes.
La premiere consiste a regrouper les donnees - po
- pour toutes les annees et d’estimer le modele de pa
Y it = β 0 + β 1X 1it + ui + ǫit
en incluant directement une variable indicatriceindividu (ou entreprise, region) dans les donnees p
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 224/298
effets fixes. Il s’agit alors d’une estimation par le ables muettes des moindres carres ou least squares d
model LSDV .
Y it = αt + β 1X it + g1D1 + g2D2 + ... + gn−1Dn −
ou Di = 1 pour l’individu i (ou firme ou region) les autres. Le coefficient pour chaque variable indic
valeur moyenne de la variable dependante pour l’indulier net des effets de toutes les autres variables expl
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 225/298
. xi:reg sales i.fcode if fcode<410521
i.fcode _Ifcode_410032-419486(naturally coded; _If
> )
Source | SS df MS Numbe
-------------+------------------------------ F( 6
Model | 5.2274e+15 6 8.7123e+14 Prob
Residual | 4.8607e+13 14 3.4719e+12 R-squ
-------------+------------------------------ Adj R
Total | 5.2760e+15 20 2.6380e+14 Root
------------------------------------------------------------sales | Coef. Std. Err. t P>|t| [9
-------------+----------------------------------------------
_Ifco˜410440 | -4.44e+07 1521379 -29.17 0.000 -4
_Ifco˜410495 | -4.57e+07 1521379 -30.06 0.000 -4
_Ifco˜410500 | -2.32e+07 1521379 -15.25 0.000 -2
_Ifco˜410501 | -3.83e+07 1521379 -25.20 0.000 -4
_Ifco˜410513 | -4.46e+07 1521379 -29.33 0.000 -4
_Ifco˜410518 | -4.37e+07 1521379 -28.71 0.000 -4
_Ifco˜410521 | (dropped)
_Ifco˜410523 | (dropped)
_Ifco˜410529 | (dropped) _Ifco˜410531 | (dropped)
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 226/298
.....
_Ifco˜419483 | (dropped)
_Ifco˜419486 | (dropped)
_cons | 4.63e+07 1075778 43.07 0.000 4
------------------------------------------------------------
Ce type de regression est tres couteux en termes de
erte puisqu’il introduit une variable indicatrice par iproduira habituellement des estimations (pour les va
trices, c’est-a-dire les effets fixes) pour lesquelles la
pas minimale si la dimension temporelle du panel es
est souvent le cas).
Pour cette raison, on pref ere a cette methode la reg
groupe - Within-group qui permet d’obtenir des estimance minimale des effets fixes et qui consiste a cal
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 227/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 228/298
mean.
Y i = Y i1 + T i2 + . . . + Y iT
T Si on applique le meme principe a toutes les variable
on obtient :
Y i = αi + β 1 X i + ui + ǫi
On peut noter que l’effet fixe n’a pas d’effet moyen. P
Y it − Y i = β 1(X it − X i) + (ǫit − ǫit)
Cette methode d’estimation intra-groupe permet
supprimer les effets fixes (parce que la moyenne de
identique a la valeur de l’effet fixe individuel), et
estimations non biaisees du coefficient β 1.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 229/298
Neanmoins, cette methode peut poser probleme s’iation pour les variables X entre les individus, et moi
au cours du temps. Meme si les variables ne varie
cours du temps, l’introduction d’effets fixes produi
tions qui sont proches de zero. Les effets fixes sont s
capter le reel impact des variables qui ne varient qu
du temps.Plus generalement, le modele peut s’ecrire :
Si yi = (1/T ) T t=1, etc, et si zi et ui sont des moye
on peut ecrire :
yit − yi = (xit − xi)β + (zi − zi)δ + ui − ui +
ce qui implique queyit = (xit)β + ǫit
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 230/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 231/298
que deux periodes.Un des problemes que peut poser la methode d
premiere est qu’elle est susceptible d’engendrer de l’
dans l’erreur de premiere diff erence : si
∆ǫt = ǫt − ǫt−1
alorsCov(∆ǫt, ∆ǫt−1) = Cov(ǫt − ǫt−1, ǫt−1 − ǫt−2)
= Cov(ǫtǫt−1) + Cov(ǫt−1ǫt−2) +
+ Cov(ǫt−1ǫt−1) = 0
Une solution consiste a inclure plus de variables n
dans le temps qui pourraientt etre source d’autocorresont manquantes).
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 232/298
Les estimations intra-groupes peuvent aussi introduAlors le choix entre les deux methodes depend d’ava
bre de periodes de temps disponibles.
Les donnees de panel peuvent egalement entraıner
dans les erreurs. Dans le cas de l’estimation de prem
on peut tester la presence d’heteroscedasticite a l’
de White ou de Breusch-Godfrey sur les residus dpremiere.
3 Les effets aleatoires
L’autre maniere de traiter les effets non observes e
qu’ils sont une partie des residus, alors que les effent les composants fixes non observes comme des v
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 233/298
quantes et non des residus.Y it = αt + β 1X it + ui + ǫit
Y it = αt + β 1X it + ui + ǫit
Y it = αt + β 1X it + ηit avec ηit = ui + ǫ
Plus generalement, on peut ecrire que :
yit = xitβ + ziδ + (ui + ǫit)
ou (ui + ǫit) represente l’erreur composee et ui rep
fets individuels. L’hypothese fondamentale est qu
dividuels ui sont non correles aux regresseurs xit
Le modele aux effets aleatoires utilise cette hypothpour reduire le nombre de parametres a estimer.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 234/298
echantillon avec des miliers d’individus, un modele aa k+ p coefficients et deux parametres pour la varian
modele a effets fixes a k−1+N coefficients et un par
variance. Les coefficients pour les variables invar
temps sont identifies dans l’estimation a effets al
cette raison, le modele a effets aleatoire identifie
de la population qui decrivent l’heterogeneite au nivPour cette raison les effets aleatoires sont plus effica
fets fixes.
Pour l’estimation du modele a effets aleatoires, o
u et ǫ ont une esperance nulle et :
• qu’ils sont non correles aux regresseurs
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 235/298
• qu’ils sont homoscedastiques• qu’ils sont non correles l’un a l’autre
• qu’il n’y a pas de correlation entre les individ
periodes
L’erreur composee s’ecrit :
ηit = ui + ǫit
L’erreur ηi est constituee d’une partie qui est specifiq
et qui ne varie pas avec le temps ui et une partie
individu et d’une periode a l’autre ǫit.
E [η2it | x∗] = σ2
u + σ2
ǫ
et la covariance conditionnelleE [ηitηis | x
∗] = σ2
u, t = s
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 236/298
La matrice de covariance des T erreurs peut s’ecrireΣ = σ2
ǫ I T + σ2
uιT ι′T
L’estimation des Moindres Carres Generalises s’ecr
β RE = (X∗′Ω−1X∗)−1(X∗′Ω−1y)
=
i
X∗′
i
Σ−1X∗
i
−1
i
X∗′Σ−1yi
Pour obtenir l’estimateur des moindres carres genera
aleatoires, il nous faut definir la matrice de poids
deux parametres θ et λ. De meme que pour les moin
groupes pooled OLS , l’estimateur des moindres car
est une moyenne ponderee des estimateurs within
procedure between consiste a faire la moyenne devidus pour chaque periode par opposition a la proced
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 237/298
plus haut qui fait la moyenne des periodes pour chaqLes poids optimaux s’ecrivent :
λ = σ2
ǫ
σ2ǫ + T σ2
u
= (1 − θ)2
avec
θ = 1 − σǫ
σ2
ǫ + T σ2
uou λ est le poids de la matrice de covariance des e
tween).
• Si λ = 1, une regression regroupee ne sera pas e
donnera trop de poids a la variation between
• Si λ = 1(θ = 0), σ2u = 0 ; autrement dit, s’il n’yaleatoires alors la regression regroupee des MCO
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 238/298
• Si λ = 0, θ = 1, l’estimateur des effets fixes est a• Si λ = 0, l’estimateur des effets fixes ne sera pa
la mesure ou il ne donne aucun poids a l’estimate
La commande xtreg avec l’option re estime le m
des moindres carres generalises et donne une estim
de σ2
u
ainsi que de rho, la fraction de la variance tot
L’avantage des effets aleatoires est qu’ils permet
l’effet des variables qui sont constantes a travers le tEn reprenant l’exemple precedent, on fait une reg
fets aleatoires a l’aide de l’option re. On note que lploi est plus significative que dans l’estimation des eailleurs, on peut noter qu’il n’y a pas d’estimation p
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 239/298
. xtreg lsales lemp, re
Random-effects GLS regression Number of ob
Group variable (i): fcode Number of gr
R-sq: within = 0.3029 Obs per grou
between = 0.7162
overall = 0.6901
Random effects u_i ˜ Gaussian Wald chi2(1)
corr(u_i, X) = 0 (assumed) Prob > chi2
------------------------------------------------------------
lsales | Coef. Std. Err. z P>|z| [9
-------------+----------------------------------------------
lemploy | .8750523 .0446621 19.59 0.000 .7
_cons | 11.96331 .1657475 72.18 0.000 11
-------------+----------------------------------------------
sigma_u | .55482492
sigma_e | .28530622
rho | .79087026 (fraction of variance due to u_i
------------------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 240/298
4 Effets fixes ou effets aleatoires
Le choix des effets fixes par rapport aux effets ale
du fait que l’on pense que les variables non obser
ceptibles d’ etre correlees avec les variables explic
pense qu’elles le sont alors il faut utiliser des estim
fixes, sinon on utilise les effets aleatoires.Si les variables non observees sont correlees aux
que l’on utilise les effets aleatoires au lieu des effets
mations seront biaisees car
Cov(X, u) = Cov(X it, ui + ǫit) = 0
ce qui induit un biais d’endogeneite.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 241/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 242/298
Le test de Hausman s’appuie donc sur une comparistions, permettant ainsi les variations d’echantillon.
tions sont suffisamment diff erentes, on conclut que l
effets aleatoires n’est pas tenable.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 243/298
. xtreg lsale lemp union, fe
Fixed-effects (within) regression Number of ob
Group variable (i): fcode Number of gr
R-sq: within = 0.3029 Obs per grou
between = 0.7162
overall = 0.6901
F(1,229)
corr(u_i, Xb) = 0.1611 Prob > F
------------------------------------------------------------
lsales | Coef. Std. Err. t P>|t| [9
-------------+----------------------------------------------
lemploy | .8092035 .0811145 9.98 0.000 .6
union | (dropped)
_cons | 12.19437 .2850389 42.78 0.000 11
-------------+----------------------------------------------
sigma_u | .58411543
sigma_e | .28530622
rho | .80737938 (fraction of variance due to u_i
------------------------------------------------------------F test that all u_i=0: F(114, 229) = 11.97
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 244/298
. est store fixed
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 245/298
. xtreg lsale lemp union
Random-effects GLS regression Number of ob
Group variable (i): fcode Number of gr
R-sq: within = 0.3029 Obs per grou
between = 0.7226
overall = 0.6962
Random effects u_i ˜ Gaussian Wald chi2(2)
corr(u_i, X) = 0 (assumed) Prob > chi2
------------------------------------------------------------
lsales | Coef. Std. Err. z P>|z| [9
-------------+----------------------------------------------
lemploy | .8529599 .046184 18.47 0.000
union | .2383114 .1350074 1.77 0.078 -.0
_cons | 11.98902 .1654712 72.45 0.000 1
-------------+----------------------------------------------
sigma_u | .55061581
sigma_e | .28530622
rho | .78834004 (fraction of variance due to u_i
------------------------------------------------------------
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 246/298
Les effets fixes permettent la correlation avec les veffets aleatoires ne le permettent pas.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 247/298
. hausman fixed
---- Coefficients ----
| (b) (B) (b-B) sq
| fixed . Difference
-------------+----------------------------------------------
lemploy | .8092035 .8529599 -.0437564
------------------------------------------------------------
b = consistent under Ho and Ha; o
B = inconsistent under Ha, efficient under Ho; o
Test: Ho: difference in coefficients not systematic
chi2(1) = (b-B)’[(V_b-V_B)ˆ(-1)](b-B)
= 0.43
Prob>chi2 = 0.5117
Dans notre cas, il n’est pas possible de rejeter l’h
les deux estimations produisent des resultats diff erenque les effets aleatoires sont plus appropries.
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 248/298
UNIVERSITE DE PARIS 11TD d’économétrie Anne Plunket
Les modèles de panel
Vous disposez d’un échantillon de 545 hommes sur une durée allant de 1980 à 1987. Les
variables sont les suivantes :
use "wagepan.dta"
. describe lwage exper union married hisp black educ expersq
storage display valuevariable name type format label variable label
-------------------------------------------------------------------------------
lwage float %9.0g log(wage)
exper byte %9.0g labor mkt experience
union byte %9.0g =1 if in union
married byte %9.0g =1 if married
hisp byte %9.0g =1 if Hispanic
black byte %9.0g =1 if black
educ byte %9.0g years of schooling
expersq int %9.0g exper^2
. summarize lwage exper union married hisp black educ expersq
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
lwage | 4360 1.649147 .5326094 -3.579079 4.05186
exper | 4360 6.514679 2.825873 0 18
union | 4360 .2440367 .4295639 0 1
married | 4360 .4389908 .4963208 0 1
hisp | 4360 .1559633 .3628622 0 1
-------------+--------------------------------------------------------
black | 4360 .1155963 .3197769 0 1
educ | 4360 11.76697 1.746181 3 16
expersq | 4360 50.42477 40.78199 0 324
1. On vous propose une régression des MCO pour les deux premières années. Quel problème
est engendré lorsque l’on utilise l’on regroupe - pooled -des données de panel et qu’on lesestime par la méthodes des moindres carrés ordinaires ? Quelles solutions peuvent êtreenvisagées.
. reg lwage exper expersq year married black hisp if year<1982
Source | SS df MS Number of obs = 1090
-------------+------------------------------ F( 6, 1083) = 6.77
Model | 11.7925648 6 1.96542747 Prob > F = 0.0000
Residual | 314.391356 1083 .290296728 R-squared = 0.0362
-------------+------------------------------ Adj R-squared = 0.0308
Total | 326.183921 1089 .299526098 Root MSE = .53879
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 249/298
-------------+----------------------------------------------------------------
exper | .0965928 .0326945 2.95 0.003 .032441 .1607446expersq | -.009292 .0032182 -2.89 0.004 -.0156067 -.0029773
year | .0729724 .0351822 2.07 0.038 .0039394 .1420053
married | .1473654 .0397022 3.71 0.000 .0694633 .2252674
black | -.0556556 .0521995 -1.07 0.287 -.1580792 .046768
hisp | -.0475284 .046154 -1.03 0.303 -.1380898 .0430331
_cons | -143.2867 69.65456 -2.06 0.040 -279.9598 -6.613502
------------------------------------------------------------------------------
2. Soit une régression par la méthode des moindres carrés ordinaires avec introduction de
variables indicatrices pour chaque individu -least squares dummy variable LSDV- pour
les deux premières années. Comparez cette régression avec la précédente. Expliquez pour-
quoi black et hisp sont éliminés de la régression. En quoi consiste le test du Fisher en bas
du tableau ?
. areg lwage exper expersq year married black hisp if year<1982, absorb(id)
Linear regression, absorbing indicators Number of obs = 1090
F( 3, 542) = 9.15
Prob > F = 0.0000
R-squared = 0.7316
Adj R-squared = 0.4606
Root MSE = .40194
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .2133325 .0575233 3.71 0.000 .1003365 .3263285
expersq | - .0135697 .0073653 -1.84 0.066 -.0280377 .0008982
year | (dropped)
married | .0140556 .0709368 0.20 0.843 -.1252891 .1534004
black | (dropped)
hisp | (dropped)
_cons | .9081648 .110831 8.19 0.000 .6904539 1.125876
-------------+----------------------------------------------------------------
id | F(544, 542) = 2.581 0.000 (545 categories)
. list id year id1 id2 lwage exper black hisp
+-------------------------------------------------------------+
| id year id1 id2 lwage exper black hisp |
|-------------------------------------------------------------|
1. | 13 1980 1 0 1.19754 1 0 0 |
2. | 13 1981 1 0 1.85306 2 0 0 |
3. | 13 1982 1 0 1.344462 3 0 0 |
4. | 13 1983 1 0 1.433213 4 0 0 |
5. | 13 1984 1 0 1.568125 5 0 0 |
|-------------------------------------------------------------|
6. | 13 1985 1 0 1.699891 6 0 0 |
7. | 13 1986 1 0 -.7202626 7 0 0 |
8. | 13 1987 1 0 1.669188 8 0 0 |
9. | 17 1980 0 1 1.675962 4 0 0 |
10. | 17 1981 0 1 1.518398 5 0 0 |
|-------------------------------------------------------------|
11. | 17 1982 0 1 1.559191 6 0 0 |
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 250/298
12. | 17 1983 0 1 1.72541 7 0 0 |
13. | 17 1984 0 1 1.622022 8 0 0 |14. | 17 1985 0 1 1.608588 9 0 0 |
15. | 17 1986 0 1 1.572385 10 0 0 |
|-------------------------------------------------------------|
16. | 17 1987 0 1 1.820334 11 0 0 |
3. Soit la régression par les effets fixes (la méthode within). Y a t-il une différence avec larégression précédente ?
. xtreg lwage exper expersq year married black hisp if year<1982, fe i(id)
warning: existing panel variable is not id
Fixed-effects (within) regression Number of obs = 1090
Group variable: id Number of groups = 545
R-sq: within = 0.0482 Obs per group: min = 2
between = 0.0075 avg = 2.0
overall = 0.0127 max = 2
F(3,542) = 9.15
corr(u_i, Xb) = -0.2177 Prob > F = 0.0000
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .2133325 .0575233 3.71 0.000 .1003365 .3263285
expersq | - .0135697 .0073653 -1.84 0.066 -.0280377 .0008982
year | (dropped)
married | .0140556 .0709368 0.20 0.843 -.1252891 .1534004black | (dropped)
hisp | (dropped)
_cons | .9081648 .110831 8.19 0.000 .6904539 1.125876
-------------+----------------------------------------------------------------
sigma_u | .47563131
sigma_e | .40194096
rho | .58338275 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(544, 542) = 2.58 Prob > F = 0.0000
xtset id year
panel variable: id (strongly balanced)
time variable: year, 1980 to 1987
delta: 1 unit
. gen dexp = d.exper
. gen dexp2 = d.expersq
. gen dyear = d.year
. gen dmarr = d.married
. gen dblack = d.black
. gen dhisp = d.hisp
. gen dlwage = d.lwage
. list id dlwage exper dexp dexp2 dyear dmarr dblack, nol noo nod
+-------------------------------------------------------------------+
| id dlwage exper dexp dexp2 dyear dmarr dblack |
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 251/298
|-------------------------------------------------------------------|
| 13 . 1 . . . . . || 13 .6555198 2 1 3 1 0 0 |
| 13 -.5085983 3 1 5 1 0 0 |
| 13 .0887517 4 1 7 1 0 0 |
| 13 .1349118 5 1 9 1 0 0 |
|-------------------------------------------------------------------|
| 13 .1317658 6 1 11 1 0 0 |
| 13 -2.420154 7 1 13 1 0 0 |
| 13 2.389451 8 1 15 1 0 0 |
| 17 . 4 . . . . . |
| 17 -.1575643 5 1 9 1 0 0 |
|-------------------------------------------------------------------|
| 17 .0407923 6 1 11 1 0 0 |
. reg dlwage dexp dexp2 dyear dmarr dblack dhisp if year< 1982
Source | SS df MS Number of obs = 545
-------------+------------------------------ F( 2, 542) = 1.71
Model | 1.10459105 2 .552295523 Prob > F = 0.1820
Residual | 175.127289 542 .323113079 R-squared = 0.0063
-------------+------------------------------ Adj R-squared = 0.0026
Total | 176.23188 544 .323955662 Root MSE = .56843
------------------------------------------------------------------------------
dlwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dexp | (dropped)dexp2 | -.0135697 .0073653 -1.84 0.066 -.0280377 .0008982
dyear | (dropped)
dmarr | .0140556 .0709368 0.20 0.843 -.1252891 .1534004
dblack | (dropped)
dhisp | (dropped)
_cons | .2133325 .0575233 3.71 0.000 .1003365 .3263285
------------------------------------------------------------------------------
. reg dlwage dexp dexp2 dyear dmarr dblack dhisp if year< 1983
Source | SS df MS Number of obs = 1090
-------------+------------------------------ F( 2, 1087) = 3.51
Model | 1.85609505 2 .928047523 Prob > F = 0.0303
Residual | 287.68175 1087 .264656624 R-squared = 0.0064-------------+------------------------------ Adj R-squared = 0.0046
Total | 289.537845 1089 .265874973 Root MSE = .51445
------------------------------------------------------------------------------
dlwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dexp | (dropped)
dexp2 | -.0108202 .0045143 -2.40 0.017 -.0196779 -.0019625
dyear | (dropped)
dmarr | .0490769 .0478281 1.03 0.305 -.0447689 .1429228
dblack | (dropped)
dhisp | (dropped)
_cons | .1717418 .0398248 4.31 0.000 .0935996 .2498839
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 252/298
------------------------------------------------------------------------------
. xtreg lwage exper expersq year married black hisp if year<1983, fe i(id)
Fixed-effects (within) regression Number of obs = 1635
Group variable: id Number of groups = 545
R-sq: within = 0.0622 Obs per group: min = 3
between = 0.0011 avg = 3.0
overall = 0.0073 max = 3
F(3,1087) = 24.05
corr(u_i, Xb) = -0.3164 Prob > F = 0.0000
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | (dropped)
expersq | -.0096686 .0033856 -2.86 0.004 -.0163116 -.0030256
year | .1612026 .0298573 5.40 0.000 .1026182 .2197871
married | .0640683 .0446676 1.43 0.152 -.0235763 .1517129
black | (dropped)
hisp | (dropped)
_cons | -317.6788 59.08473 -5.38 0.000 -433.6118 -201.7458
-------------+----------------------------------------------------------------
sigma_u | .45922815
sigma_e | .37488352
rho | .60009562 (fraction of variance due to u_i)
------------------------------------------------------------------------------F test that all u_i=0: F(544, 1087) = 3.80 Prob > F = 0.0000
. reg lwage exper expersq year married black hisp if year<1983
Source | SS df MS Number of obs = 1635
-------------+------------------------------ F( 6, 1628) = 13.84
Model | 22.6120652 6 3.76867753 Prob > F = 0.0000
Residual | 443.284137 1628 .272287553 R-squared = 0.0485
-------------+------------------------------ Adj R-squared = 0.0450
Total | 465.896202 1634 .285126194 Root MSE = .52181
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------exper | .0851297 .0262017 3.25 0.001 .0337371 .1365223
expersq | -.0080752 .0023391 -3.45 0.001 -.0126632 -.0034873
year | .0548031 .0186986 2.93 0.003 .0181273 .0914789
married | .1623551 .0299007 5.43 0.000 .1037072 .2210029
black | -.0867096 .04137 -2.10 0.036 -.1678536 -.0055657
hisp | -.0323874 .0364623 -0.89 0.375 -.1039053 .0391306
_cons | -107.2864 37.01138 -2.90 0.004 -179.8813 -34.69145
------------------------------------------------------------------------------
. predict resid if e(sample), resid
. gen resid1 =l.resid
. reg resid resid1 if e(sample)
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 253/298
Source | SS df MS Number of obs = 1090
-------------+------------------------------ F( 1, 1088) = 391.01Model | 73.883776 1 73.883776 Prob > F = 0.0000
Residual | 205.582489 1088 .188954494 R-squared = 0.2644
-------------+------------------------------ Adj R-squared = 0.2637
Total | 279.466265 1089 .256626506 Root MSE = .43469
------------------------------------------------------------------------------
resid | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
resid1 | .4844822 .0245009 19.77 0.000 .4364079 .5325566
_cons | .0016788 .0131666 0.13 0.899 -.024156 .0275136
------------------------------------------------------------------------------
4. En quoi consiste la régression des panels à effets aléatoires. Quelle différence faites-vous
avec les effets fixes ?
. xtreg lwage exper expersq year married black hisp if year<1982, re
Random-effects GLS regression Number of obs = 1090
Group variable: id Number of groups = 545
R-sq: within = 0.0442 Obs per group: min = 2
between = 0.0327 avg = 2.0
overall = 0.0357 max = 2
Random effects u_i ~ Gaussian Wald chi2(6) = 43.04
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
------------------------------------------------------------------------------
lwage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .1051732 .0366117 2.87 0.004 .0334156 .1769308
expersq | -.0100233 .0035787 -2.80 0.005 -.0170374 -.0030093
year | .0725566 .0287777 2.52 0.012 .0161535 .1289598
married | .1179335 .042232 2.79 0.005 .0351603 .2007067
black | -.0597944 .0627198 -0.95 0.340 -.1827229 .0631342
hisp | -.0458667 .0554806 -0.83 0.408 -.1546067 .0628732
_cons | -142.475 56.95574 -2.50 0.012 -254.1062 -30.84384
-------------+----------------------------------------------------------------
sigma_u | .35906291
sigma_e | .40194096
rho | .44383424 (fraction of variance due to u_i)------------------------------------------------------------------------------
5. On vous propose un test de Hausman pour la régression sur les deux premières années.Analysez le résultat ?
. quietly xtreg lwage exper expersq year married black hisp if year<1982, fe
. est store fixed
. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. hausman fixed
---- Coefficients ----
6
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 254/298
| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fixed . Difference S.E.-------------+----------------------------------------------------------------
exper | .2133325 .1051732 .1081593 .044368
expersq | -.0135697 -.0100233 -.0035464 .0064374
married | .0140556 .1179335 -.1038778 .0569955
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic
chi2(3) = (b-B)’[(V_b-V_B) (-1)](b-B)
= 19.93
Prob>chi2 = 0.0002
6. En quoi consiste le test de Breusch et Pagan dans le cas des données de panel ?
. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. xttest0
Breusch and Pagan Lagrangian multiplier test for random effects
lwage[id,t] = Xb + u[id] + e[id,t]
Estimated results:
| Var sd = sqrt(Var)
---------+-----------------------------
lwage | .2995261 .5472898e | .1615565 .401941
u | .1289262 .3590629
Test: Var(u) = 0
chi2(1) = 105.00
Prob > chi2 = 0.0000
7. Que se passe-t-il pour les coefficients lorsque les périodes de temps augmentent ?
. xtreg lwage exper expersq year married black hisp, fe
Fixed-effects (within) regression Number of obs = 4360
Group variable: id Number of groups = 545
R-sq: within = 0.1741 Obs per group: min = 8
between = 0.0014 avg = 8.0
overall = 0.0534 max = 8
F(3,3812) = 267.93
corr(u_i, Xb) = -0.1289 Prob > F = 0.0000
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .1169371 .0084385 13.86 0.000 .1003926 .1334815
expersq | -.0043329 .0006066 -7.14 0.000 -.0055222 -.0031436
year | (dropped)
married | .0473384 .0183445 2.58 0.010 .0113725 .0833043
7
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 255/298
black | (dropped)
hisp | (dropped) _cons | 1.085044 .026295 41.26 0.000 1.033491 1.136598
-------------+----------------------------------------------------------------
sigma_u | .40387668
sigma_e | .35204264
rho | .56824996 (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(544, 3812) = 9.33 Prob > F = 0.0000
. xtreg lwage exper expersq year married black hisp, re
Random-effects GLS regression Number of obs = 4360
Group variable: id Number of groups = 545
R-sq: within = 0.1738 Obs per group: min = 8
between = 0.0482 avg = 8.0
overall = 0.1054 max = 8
Random effects u_i ~ Gaussian Wald chi2(6) = 827.17
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
------------------------------------------------------------------------------
lwage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .0439292 .0137259 3.20 0.001 .017027 .0708315
expersq | -.0042308 .0005974 -7.08 0.000 -.0054017 -.0030599
year | .0703197 .0103635 6.79 0.000 .0500075 .0906319
married | .0699282 .0169834 4.12 0.000 .0366413 .1032152black | -.1293855 .0520067 -2.49 0.013 -.2313167 -.0274542
hisp | -.0333494 .0459016 -0.73 0.468 -.123315 .0566161
_cons | -137.9134 20.49045 -6.73 0.000 -178.074 -97.75286
-------------+----------------------------------------------------------------
sigma_u | .35927864
sigma_e | .35204264
rho | .51017158 (fraction of variance due to u_i)
------------------------------------------------------------------------------
8
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 256/298
UNIVERSITE DE PARIS 11TD d’économétrie Anne Plunket
Les modèles de panel
Vous disposez d’un échantillon de 545 hommes sur une durée allant de 1980 à 1987. Les
variables sont les suivantes :
use "wagepan.dta"
. describe lwage exper union married hisp black educ expersq
storage display valuevariable name type format label variable label
-------------------------------------------------------------------------------
lwage float %9.0g log(wage)
exper byte %9.0g labor mkt experience
union byte %9.0g =1 if in union
married byte %9.0g =1 if married
hisp byte %9.0g =1 if Hispanic
black byte %9.0g =1 if black
educ byte %9.0g years of schooling
expersq int %9.0g exper^2
. summarize lwage exper union married hisp black educ expersq
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
lwage | 4360 1.649147 .5326094 -3.579079 4.05186
exper | 4360 6.514679 2.825873 0 18
union | 4360 .2440367 .4295639 0 1
married | 4360 .4389908 .4963208 0 1
hisp | 4360 .1559633 .3628622 0 1
-------------+--------------------------------------------------------
black | 4360 .1155963 .3197769 0 1
educ | 4360 11.76697 1.746181 3 16
expersq | 4360 50.42477 40.78199 0 324
– On vous propose une régression des MCO pour les deux premières années. Quel pro-
blème est engendré lorsque l’on utilise l’on regroupe - pooled -des données de panel etqu’on les estime par la méthodes des moindres carrés ordinaires ? Quelles solutionspeuvent être envisagées.. reg lwage exper expersq year married black hisp if year<1982
Source | SS df MS Number of obs = 1090
-------------+------------------------------ F( 6, 1083) = 6.77
Model | 11.7925648 6 1.96542747 Prob > F = 0.0000
Residual | 314.391356 1083 .290296728 R-squared = 0.0362
-------------+------------------------------ Adj R-squared = 0.0308
Total | 326.183921 1089 .299526098 Root MSE = .53879
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 257/298
-------------+----------------------------------------------------------------
exper | .0965928 .0326945 2.95 0.003 .032441 .1607446expersq | -.009292 .0032182 -2.89 0.004 -.0156067 -.0029773
year | .0729724 .0351822 2.07 0.038 .0039394 .1420053
married | .1473654 .0397022 3.71 0.000 .0694633 .2252674
black | -.0556556 .0521995 -1.07 0.287 -.1580792 .046768
hisp | -.0475284 .046154 -1.03 0.303 -.1380898 .0430331
_cons | -143.2867 69.65456 -2.06 0.040 -279.9598 -6.613502
------------------------------------------------------------------------------
Lorsque l’on utilise les moindres carrés ordinaires pour estimer des panels, on ne peut pas
contrôler l’hétérogénéité non observée. Par conséquent, les résultats sont biaisés. Trois
méthodes permettent de contrôler l’hétérogénéité non observées :
– LSDV : Si on introduit une variable indicatrice par individu, il est possible de contrôler
l’hétérogénéité non observée. Chaque variable indicatrice est une proxi pour les effetsnon observés et invariants avec le temps.
– Within : Une autre manière d’obtenir des effets fixes est de procéder à une régression
within. Il s’agit alors d’une régression des MCO de l’écart pour chaque individu de
y à sa moyenne intra-groupe sur l’écart de chaque variable pour chaque individu à sa
moyenne (cf cours).
– Différence : Enfin, on peut utiliser la méthode de la différence première pour éliminer
l’effet de l’hétérogénéité individuelle non observée
– Soit une régression par la méthode des moindres carrés ordinaires avec introduc-
tion de variables indicatrices pour chaque individu -least squares dummy variable
LSDV- pour les deux premières années. Comparez cette régression avec la précé-
dente. Expliquez pourquoi black et hisp sont éliminés de la régression. En quoiconsiste le test du Fisher en bas du tableau ?. areg lwage exper expersq year married black hisp if year<1982, absorb(id)
Linear regression, absorbing indicators Number of obs = 1090
F( 3, 542) = 9.15
Prob > F = 0.0000
R-squared = 0.7316
Adj R-squared = 0.4606
Root MSE = .40194
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .2133325 .0575233 3.71 0.000 .1003365 .3263285
expersq | - .0135697 .0073653 -1.84 0.066 -.0280377 .0008982
year | (dropped)
married | .0140556 .0709368 0.20 0.843 -.1252891 .1534004
black | (dropped)
hisp | (dropped)
_cons | .9081648 .110831 8.19 0.000 .6904539 1.125876
-------------+----------------------------------------------------------------
id | F(544, 542) = 2.581 0.000 (545 categories)
Les variables qui sont constantes à travers le temps sont totalement colinéaires avec lesvariables indicatrices spécifiques aux individus et ne peuvent donc pas être estimées. Lavariable married n’est plus significative. Ceci s’explique par le fait que seule une petitepartie des individus ont changé de statut marital par conséquent, la variable n’est pas
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 258/298
éliminée comme pour les variables qui ne varient pas dans le temps mais sa variation
concerne si peu de personnes qu’elle ne ressort pas comme significative (l’écart-type estbeaucoup plus élevé).. list id year id1 id2 lwage exper black hisp
+-------------------------------------------------------------+
| id year id1 id2 lwage exper black hisp |
|-------------------------------------------------------------|
1. | 13 1980 1 0 1.19754 1 0 0 |
2. | 13 1981 1 0 1.85306 2 0 0 |
3. | 13 1982 1 0 1.344462 3 0 0 |
4. | 13 1983 1 0 1.433213 4 0 0 |
5. | 13 1984 1 0 1.568125 5 0 0 |
|-------------------------------------------------------------|
6. | 13 1985 1 0 1.699891 6 0 0 |
7. | 13 1986 1 0 -.7202626 7 0 0 |
8. | 13 1987 1 0 1.669188 8 0 0 |
9. | 17 1980 0 1 1.675962 4 0 0 |
10. | 17 1981 0 1 1.518398 5 0 0 |
|-------------------------------------------------------------|
11. | 17 1982 0 1 1.559191 6 0 0 |
12. | 17 1983 0 1 1.72541 7 0 0 |
13. | 17 1984 0 1 1.622022 8 0 0 |
14. | 17 1985 0 1 1.608588 9 0 0 |
15. | 17 1986 0 1 1.572385 10 0 0 |
|-------------------------------------------------------------|
16. | 17 1987 0 1 1.820334 11 0 0 |
Le test du Fisher en bas du tableau permet de tester la significativité globale des effets
fixes individuels (il y a q = 544 contraintes).
H 0 : β id1 = β id2 = ... = β id544
car id545 devient la constante.
F (q, n − k − 1) = (SC Rc − SC R)/q
SCR/n− k
– Soit la régression par les effets fixes (la méthode within) et la régression à différencepremière pour deux années (< 1982) et trois années (< 1983). Y a t-il une différenceavec la régression précédente ?. xtreg lwage exper expersq year married black hisp if year<1982, fe i(id)
warning: existing panel variable is not id
Fixed-effects (within) regression Number of obs = 1090
Group variable: id Number of groups = 545
R-sq: within = 0.0482 Obs per group: min = 2
between = 0.0075 avg = 2.0
overall = 0.0127 max = 2
F(3,542) = 9.15
corr(u_i, Xb) = -0.2177 Prob > F = 0.0000
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 259/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 260/298
------------------------------------------------------------------------------dlwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dexp | (dropped)
dexp2 | -.0135697 .0073653 -1.84 0.066 -.0280377 .0008982
dyear | (dropped)
dmarr | .0140556 .0709368 0.20 0.843 -.1252891 .1534004
dblack | (dropped)
dhisp | (dropped)
_cons | .2133325 .0575233 3.71 0.000 .1003365 .3263285
------------------------------------------------------------------------------
On constate que les coefficients pour la méthode des effets fixes (within) et la méthode
des différences premières sont strictement identiques. Les deux méthodes sont donc iden-
tiques sur deux périodes.. xtreg lwage exper expersq year married black hisp if year<1983, fe i(id)
Fixed-effects (within) regression Number of obs = 1635
Group variable: id Number of groups = 545
R-sq: within = 0.0622 Obs per group: min = 3
between = 0.0011 avg = 3.0
overall = 0.0073 max = 3
F(3,1087) = 24.05
corr(u_i, Xb) = -0.3164 Prob > F = 0.0000
------------------------------------------------------------------------------lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | (dropped)
expersq | -.0096686 .0033856 -2.86 0.004 -.0163116 -.0030256
year | .1612026 .0298573 5.40 0.000 .1026182 .2197871
married | .0640683 .0446676 1.43 0.152 -.0235763 .1517129
black | (dropped)
hisp | (dropped)
_cons | -317.6788 59.08473 -5.38 0.000 -433.6118 -201.7458
-------------+----------------------------------------------------------------
sigma_u | .45922815
sigma_e | .37488352
rho | .60009562 (fraction of variance due to u_i)
------------------------------------------------------------------------------F test that all u_i=0: F(544, 1087) = 3.80 Prob > F = 0.0000
. reg dlwage dexp dexp2 dyear dmarr dblack dhisp if year< 1983
Source | SS df MS Number of obs = 1090
-------------+------------------------------ F( 2, 1087) = 3.51
Model | 1.85609505 2 .928047523 Prob > F = 0.0303
Residual | 287.68175 1087 .264656624 R-squared = 0.0064
-------------+------------------------------ Adj R-squared = 0.0046
Total | 289.537845 1089 .265874973 Root MSE = .51445
------------------------------------------------------------------------------
dlwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 261/298
-------------+----------------------------------------------------------------
dexp | (dropped)dexp2 | -.0108202 .0045143 -2.40 0.017 -.0196779 -.0019625
dyear | (dropped)
dmarr | .0490769 .0478281 1.03 0.305 -.0447689 .1429228
dblack | (dropped)
dhisp | (dropped)
_cons | .1717418 .0398248 4.31 0.000 .0935996 .2498839
------------------------------------------------------------------------------
Lorsque l’on compare la méthode par les effets fixes et par les différences premières pour
trois périodes, les coefficients ne sont plus identiques. Autrement dit, lorsque les périodes
sont supérieures à deux T > 2, les deux méthodes ne donnent plus des résultats similaires.. reg lwage exper expersq year married black hisp if year<1983
Source | SS df MS Number of obs = 1635
-------------+------------------------------ F( 6, 1628) = 13.84
Model | 22.6120652 6 3.76867753 Prob > F = 0.0000
Residual | 443.284137 1628 .272287553 R-squared = 0.0485
-------------+------------------------------ Adj R-squared = 0.0450
Total | 465.896202 1634 .285126194 Root MSE = .52181
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .0851297 .0262017 3.25 0.001 .0337371 .1365223
expersq | -.0080752 .0023391 -3.45 0.001 -.0126632 -.0034873
year | .0548031 .0186986 2.93 0.003 .0181273 .0914789married | .1623551 .0299007 5.43 0.000 .1037072 .2210029
black | -.0867096 .04137 -2.10 0.036 -.1678536 -.0055657
hisp | -.0323874 .0364623 -0.89 0.375 -.1039053 .0391306
_cons | -107.2864 37.01138 -2.90 0.004 -179.8813 -34.69145
------------------------------------------------------------------------------
. predict resid if e(sample), resid // résidu à la période t
. gen resid1 =l.resid // rédidus à la période t-1
. reg resid resid1 if e(sample)
Source | SS df MS Number of obs = 1090
-------------+------------------------------ F( 1, 1088) = 391.01
Model | 73.883776 1 73.883776 Prob > F = 0.0000Residual | 205.582489 1088 .188954494 R-squared = 0.2644
-------------+------------------------------ Adj R-squared = 0.2637
Total | 279.466265 1089 .256626506 Root MSE = .43469
------------------------------------------------------------------------------
resid | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
resid1 | .4844822 .0245009 19.77 0.000 .4364079 .5325566
_cons | .0016788 .0131666 0.13 0.899 -.024156 .0275136
------------------------------------------------------------------------------
On constate que l’on peut mettre en évidence de l’autocorrélation entre les résidus pour
les données de panel. De même on pourrait mettre en évidence de l’hétéroscédasticité.
6
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 262/298
Ceci indique que les simples modèles de panels ne sont pas suffisants et qu’il faudrait
utiliser des méthodes qui permettent de corriger l’autocorrélation et l’hétéroscédasticité,ce qui dépasse le cadre de ce cours.
– En quoi consiste la régression des panels à effets aléatoires. Quelle différence faites-
vous avec les effets fixes ?
La méthode d’estimation des panels à effets fixes suppose que l’hétérogénéité non ob-
servées ui est corrélée à une ou plusieurs variables explicatives du modèle. Les effets
aléatoires supposent que les effets non observés ne sont pas corrélés aux variables du mo-
dèle mais qu’ils varient de manière aléatoire d’un individu à l’autre et que par conséquent
ils peuvent être considérés comme des résidus.
eit = ui + vit
Un des avantages des effets aléatoires est qu’ils permettent d’estimer l’impact des va-riables qui sont constantes dans le temps.La méthode d’estimation est de type des moindres carrés généralisés (GLS - Generalized
Least Squares. On peut noter que les coefficients sont plus proches de ceux obtenus parles MCO (regroupement des données - pooled -).. xtreg lwage exper expersq year married black hisp if year<1982, re
Random-effects GLS regression Number of obs = 1090
Group variable: id Number of groups = 545
R-sq: within = 0.0442 Obs per group: min = 2
between = 0.0327 avg = 2.0
overall = 0.0357 max = 2
Random effects u_i ~ Gaussian Wald chi2(6) = 43.04
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
------------------------------------------------------------------------------
lwage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exper | .1051732 .0366117 2.87 0.004 .0334156 .1769308
expersq | -.0100233 .0035787 -2.80 0.005 -.0170374 -.0030093
year | .0725566 .0287777 2.52 0.012 .0161535 .1289598
married | .1179335 .042232 2.79 0.005 .0351603 .2007067
black | -.0597944 .0627198 -0.95 0.340 -.1827229 .0631342
hisp | -.0458667 .0554806 -0.83 0.408 -.1546067 .0628732
_cons | -142.475 56.95574 -2.50 0.012 -254.1062 -30.84384
-------------+----------------------------------------------------------------sigma_u | .35906291
sigma_e | .40194096
rho | .44383424 (fraction of variance due to u_i)
------------------------------------------------------------------------------
– On vous propose un test de Hausman pour la régression sur les deux premières an-nées. Analysez le résultat ?Sous l’hypothèse nulle que les erreurs sont non corrélées aux variables explicatives, lesestimateurs des effets fixes et des effets aléatoires sont tous deux convergents (consistent estimator mais les effets aléatoires sont plus efficaces (à variance minimale) dans la me-sure où ils tiennent compte de la structure des erreurs.Si l’hypothèse nulle est rejetée alors seuls les effets fixes sont convergents.Par conséquent, le test consiste à comparer les estimations. Si les estimations sont suffi-
samment différentes, on en conclut que les effets aléatoires ne sont pas tenables.
7
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 263/298
Le test ne porte que sur la comparaison des estimations pour les variables qui varient à
travers le temps. Dans notre cas, il y en a trois, par conséquent, le test suit un chi2 à 3degrés de liberté.Dans notre cas, on rejette l’hypothèse nulle de non corrélation entre x et le terme d’erreur.Par conséquent, les effets fixes sont la technique d’estimation préférée ici.. quietly xtreg lwage exper expersq year married black hisp if year<1982, fe
. est store fixed
. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. hausman fixed
---- Coefficients ----
| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fixed . Difference S.E.
-------------+----------------------------------------------------------------
exper | .2133325 .1051732 .1081593 .044368
expersq | -.0135697 -.0100233 -.0035464 .0064374
married | .0140556 .1179335 -.1038778 .0569955
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic
chi2(3) = (b-B)’[(V_b-V_B)^(-1)](b-B)
= 19.93
Prob>chi2 = 0.0002– En quoi consiste le test de Breusch et Pagan dans le cas des données de panel ?
Ce test permet de tester s’il y a une composante spécifique à l’individu dans le termed’erreur des MCO. Selon l’hypothèse nulle H 0 : V ar(u) = 0, il n’y a pas de composantespécifique à l’individu dans le terme d’erreur. Si on rejette cette hypothèse, ça impliqueque l’on utilise une régression par les effets aléatoires.. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. xttest0
Breusch and Pagan Lagrangian multiplier test for random effects
lwage[id,t] = Xb + u[id] + e[id,t]
Estimated results:
| Var sd = sqrt(Var)
---------+-----------------------------
lwage | .2995261 .5472898
e | .1615565 .401941
u | .1289262 .3590629
Test: Var(u) = 0
chi2(1) = 105.00
Prob > chi2 = 0.0000
– Que se passe-t-il pour les coefficients lorsque les périodes de temps augmentent ?Lorsque T ⇒ ∞, les coefficients des effets fixes et des effets aléatoires convergent. Lecomposant spécifique à l’individu de l’erreur composé devient plus grand et θ ⇒ 0. On
8
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 264/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 265/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 266/298
UNIVERSITE DE PARIS 11
Exam d’Econométrie M1 Session 1 Janvier 2007 A. Plunket
Correction
Les équations simultanées
exemple pris du WOOLDRIDGE p.537
On souhaite étudier l’offre de travail des femmes mariées de la population activive. Afin de
modéliser la fonction de d’offre, on écrit l’offre de salaire en fonction des heures de travail etdes variables de productivité habituelle. Avec la condition d’équilibre imposée, les équations
structurelles s’écrivent :
hours = β 0 + β 1 log(wage) + β 2educ + β 3age + β 4kids6 + β 5nwife + u1 (1)
log(wage) = β 6 + β 7hours + β 8educ + β 9exper + β 10exper2 + u2 (2)
La première equation est une équation d’offre Les variables sont les suivantes :
• hours : nombre d’heures de travail
• educ : nombre d’années de scolarité
• exper : nombre d’années de travail
• age : age de la femme en années
• kidslt6 : nombre d’enfants de moins de 6 ans
• nwifeinc : est le revenu hors travaille de la femme (inclus les revenus du mari)
• wage : revenu du travail
1. Expliquez pourquoi dans le cas des équations simultanées, il n’est pas possible d’utiliser
la méthode des moindres carrés ordinaires. à cause du biais de simultanéité, cf trans-parents du cours
2. Les équations 1 et 2 sont elles identifiées? Justifiez votre réponse.
Les équations sont identifiées parce qu’elles respectent la condition de rang: il y a 7
variables exogènes et 5 coeff à estimer dans l’équation 1 et 5 dans l’équation 2.
3. Expliquez ce qu’est une équation structurelle et à quoi elle sert pour l’estimation d’un
système d’équation? cf cours
4. Quelles sont les variables endogènes et quelles sont les variables prédéterminées du sys-
tème? hours et log(wage) sont les variables endogènes, toutes les autres sont les vari-
ables prédéterminées
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 267/298
5. Vous disposez d’un certain nombre de régression ci-après. Compte tenu de votre réponse
à la question précédente, indiquez quelle est la régression qui convient entre REGRES-SION 1 REGRESSION 2. Justifiez votre réponse. Il s’agit de la régression 2 car entre
parenthèse, il doit y avoir les variables instrumentales de la première équation hours
qui n’est pas estimée ici
6. Analysez les résultats. Expliquez si les variables ont les signes attendus, s’ils sont ex-
plicatifs ou non, si le modèle est globalement explicatif et à quel seuil de significativité.
Seules deux variables sont significatives, educ au seuil de 1% et expr au seuil de 10%.
Les signes attendus sont bons puisque educ et expr sont supposés avoir un impact
positif sur le salaire. Le modèle est globalement significatif au seuil de 1%.
-----> REGRESSION 1
. ivreg lwage (hours = age kidslt6) educ exper expersq nwifeinc
Instrumental variables (2SLS) regression
Source | SS df MS Number of obs = 428
-------------+------------------------------ F( 5, 422) = 15.52
Model | 24.9437217 5 4.98874434 Prob > F = 0.0000
Residual | 198.38373 422 .470103625 R-squared = 0.1117
-------------+------------------------------ Adj R-squared = 0.1012
Total | 223.327451 427 .523015108 Root MSE = .68564
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------hours | .0001728 .0002584 0.67 0.504 -.0003352 .0006808
educ | .104068 .0161015 6.46 0.000 .072419 .1357171
exper | .0329624 .0196933 1.67 0.095 -.0057469 .0716716
expersq | -.000661 .000459 -1.44 0.151 -.0015633 .0002412
nwifeinc | .0056115 .0033317 1.68 0.093 -.0009373 .0121603
_cons | -.7332055 .3439679 -2.13 0.034 -1.409309 -.0571018
------------------------------------------------------------------------------
Instrumented: hours
Instruments: educ exper expersq nwifeinc age kidslt6
------------------------------------------------------------------------------
-----> REGRESSION 2
. ivreg lwage (hours = age kidslt6 nwifeinc) educ exper expersq
Instrumental variables (2SLS) regression
Source | SS df MS Number of obs = 428
-------------+------------------------------ F( 4, 423) = 19.03
Model | 28.0618854 4 7.01547135 Prob > F = 0.0000
Residual | 195.265566 423 .461620723 R-squared = 0.1257
-------------+------------------------------ Adj R-squared = 0.1174
Total | 223.327451 427 .523015108 Root MSE = .67943
------------------------------------------------------------------------------
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
hours | .0001259 .0002546 0.49 0.621 -.0003746 .0006264
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 268/298
educ | .11033 .0155244 7.11 0.000 .0798155 .1408445
exper | .0345824 .0194916 1.77 0.077 -.00373 .0728947expersq | - .0007058 .0004541 -1.55 0.121 -.0015983 .0001868
_cons | -.6557256 .3377883 -1.94 0.053 -1.319678 .008227
------------------------------------------------------------------------------
Instrumented: hours
Instruments: educ exper expersq age kidslt6 nwifeinc
------------------------------------------------------------------------------
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 269/298
Modèles logit
1. Indiquez en quoi consiste une régression logit par rapport à une régression linéaire. Qu’explique
le modèle 1... Il s’agit d’un modèle non linéaire cf cours... il explique la probabilité
qu’un événement se produise. gpa et psi sont respectivement significative au seuil de
5%.
2. Proposez un test de significativité globale du modèle 1 en vous aidant de tous les tableaux
à votre disposition. Précisez quelle est la statistique que vous utilisez pour faire ce test.
Proposez un test à 5%.
l’hypothèse est que H 0:β 1 = β 2 = β 3 = 0 contre hypothèse alternative “au moins un
des béta est différent de zéro”.Pour un test multiple : H 0 : β k = ... = β J = 0
W =J
k=1
β k
sβ k
=J
k=1
z2β k
∼ χ2J
W c = 15, 40 ∼ χ23 A 5%, 7,81.
3. Proposez un LR test pour les deux modèles proposez. Indiquez quel est le modèle qui est
imbriqué? Faites le test à 1% de significativité? Qu’en déduisez-vous?
G2(M c | M ) = 2lnL(M ) − 2 lnL(M c)
Si H 0 est vrai, alors G2 ∼ χ2J il s’agit d’un chi2 à 2 degré de liberté à 1% ça donne 9,21
4. Analysez la ligne “tuce” du tableau listcoef
Pour une variation de une unité de tuce, la probabilité que l’étudiant ait un meilleur
niveau rapporté à la probabilité inverse est augmenté d’un facteur 1,09 soit de (1,09-
1)x100%, 9%. Si tuce augmente d’un écart type ce rapport de probabilité sera aug-
menté d’un facteur 1,44, soit de 44%. On peut remarquer que l’écart-type de tuce
est de 3,9 soit beaucoup plus élevé que la variation de 1 de X donc la variation du
rapport de probabilité est beaucoup plus élevé.
5. Analysez la ligne “gpa” et “psi” du tableau prchange. Il s’agit ici d’une variation de
la probabilité que l’événement se poursuive. Pour gpa, lorsque la note moyenne
de l’étudiant passe de la valeur minimal à la valeur maximal, la probabilité que
l’étudiant ait un meilleur niveau varie de 78%; Si la note varie de un, la proabilité
varie de 50% et si la note varie d’un écart-type, elle varie de 24%. Pour psi, la
variation de 1 qui indique le passage d’un étudiant qui n’a pas les connaissances
de base (psi=0) par rapport à un étudiant qui aurait les connaissances de base, la
probabilité d’avoir un meilleur niveau varie de 45%
-----> MODELE 1
logit grade gpa tuce psi
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 270/298
(itérations non présentées)
Logistic regression Number of obs = 32LR chi2(3) = 15.40
Prob > chi2 = 0.0015
Log likelihood = -12.889633 Pseudo R2 = 0.3740
------------------------------------------------------------------------------
grade | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gpa | 2.826113 1.262941 2.24 0.025 .3507938 5.301432
tuce | .0951577 .1415542 0.67 0.501 -.1822835 .3725988
psi | 2.378688 1.064564 2.23 0.025 .29218 4.465195
cons | -13.02135 4.931325 -2.64 0.008 -22.68657 -3.35613
------------------------------------------------------------------------------
----> MODELE 2
. logit grade gpa
(itérations non présentées)
Logistic regression Number of obs = 32
LR chi2(1) = 8.77
Prob > chi2 = 0.0031
Log likelihood = -16.208902 Pseudo R2 = 0.2128
------------------------------------------------------------------------------
grade | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gpa | 2.84006 1.126979 2.52 0.012 .6312229 5.048898cons | -9.703194 3.671103 -2.64 0.008 -16.89842 -2.507965
------------------------------------------------------------------------------
----> fitstat, using(mod1)
Measures of Fit for logit of grade
Current Saved Difference
Model: logit logit
N: 32 32 0
Log-Lik Intercept Only -20.592 -20.592 0.000
Log-Lik Full Model -16.209 -12.890 -3.319
D 32.418(30) 25.779(28) 6.639(2)
LR 8.766(1) 15.404(3) 6.639(2)
Prob > LR 0.003 0.002 0.036
McFadden’s R2 0.213 0.374 -0.161
McFadden’s Adj R2 0.116 0.180 -0.064
ML (Cox-Snell) R2 0.240 0.382 -0.142
Cragg-Uhler(Nagelkerke) R2 0.331 0.528 -0.197
McKelvey & Zavoina’s R2 0.348 0.544 -0.196
Efron’s R2 0.294 0.426 -0.131
Variance of y* 5.047 7.210 -2.163
Variance of error 3.290 3.290 0.000
Count R2 0.750 0.813 -0.063
Adj Count R2 0.273 0.455 -0.182
AIC 1.138 1.056 0.082
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 271/298
AIC*n 36.418 33.779 2.639
BIC -71.554 -71.261 -0.293BIC’ -5.300 -5.007 -0.293
BIC used by Stata 39.349 39.642 -0.293
AIC used by Stata 36.418 33.779 2.639
Difference of 0.293 in BIC’ provides weak support for current model.
Note: p-value for difference in LR is only valid if models are nested.
----> listcoef, help
logit (N=32): Factor Change in Odds
Odds of: 1 vs 0
----------------------------------------------------------------------
grade | b z P>|z| e^b e^bStdX SDofX
-------------+--------------------------------------------------------
gpa | 2.82611 2.238 0.025 1 6.8797 3.7396 0.4667
tuce | 0.09516 0.672 0.501 1.0998 1.4496 3.9015
psi | 2.37869 2.234 0.025 1 0.7907 3.3165 0.5040
----------------------------------------------------------------------
b = raw coefficient
z = z-score for test of b=0
P>|z| = p-value for z-test
e^b = exp(b) = factor change in odds for unit increase in X
e^bStdX = exp(b*SD of X) = change in odds for SD increase in X
SDofX = standard deviation of X
----> prchange, help
logit: Changes in Probabilities for grade
min->max 0->1 -+1/2 -+sd/2 MargEfct
gpa 0.7872 0.0008 0.5055 0.2466 0.5339
tuce 0.2824 0.0038 0.0180 0.0701 0.0180
psi 0.4565 0.4565 0.4330 0.2246 0.4493
0 1
Pr(y|x) 0.7472 0.2528
gpa tuce psi
x= 3.11719 21.9375 .4375
sd(x)= .466713 3.90151 .504016
Pr(y|x): probability of observing each y for specified x values
Avg|Chg|: average of absolute value of the change across categories
Min->Max: change in predicted probability as x changes from its minimum to
its maximum
0->1: change in predicted probability as x changes from 0 to 1
-+1/2: change in predicted probability as x changes from 1/2 unit below
base value to 1/2 unit above
-+sd/2: change in predicted probability as x changes from 1/2 standard
6
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 272/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 273/298
UNIVERSITE DE PARIS 11
Interro de TD 1 Anne PlunketMaster 1 - ETT et EI
On vous demande d’estimer l’équation suivante :
log(rent) = β 0 + β 1 log( pop) + β 2 log(avginc) + β 3 pctstu + β 4log(enroll) + ǫ
Les variables sont les suivantes :
– rent, le loyer moyen pour un logement dans une ville universitaire,
– pop, la population de la ville,
– avginc, le revenu moyen de la ville,
– pctstu, le pourcentage des étudiants dans la population de la ville,
– enroll, le nombre d’étudiants de la ville.
1. On cherche à comprendre l’impact de la présence d’étudiants dans une ville universitaire
sur les loyer de cette ville. Quels sont les signes attendus pour β 1, β 2, β 3 et β 4, expliquez.
2. Proposez un test pour le signe de β 2. Explicitez l’hypothèse nulle et alternative ainsi que
la statistique utilisée pour faire le test.
3. En vous aidant des tableaux donnés ci-dessous, proposez un test β 3 = β 4 = 0
4. On cherche à savoir si l’équation ci-dessus souffre de multicolinéarité.(a) Les résultats de la régression donnent-ils des indications de multicolinéarité ? Le(s)quel(s) ?
A l’aide des tableaux mis à votre disposition, proposez un test. Quelle est votre
conclusion ? Quelle solution proposez-vous ?
5. On vous propose un test de Breusch et Pagan.
(a) Quel est le principe de ce test aussi appelé test du multiplicateur de Lagrange. Quelle
forme d’hétéroscédasticité ce test permet -t-il de considérer ?
(b) Quelles sont les conclusions du test ?
6. On dispose de données agrégées pour 64 villes universitaires.
(a) Ce type de données engendre un certain type d’hétéroscédasticité, lequel ? Quelle
solution peut-on proposer ? (cf les tableaux ci-dessous).
(b) Votre solution est-elle efficace ? (cf tableaux ci-dessous).
use "/Users/RENTAL.dta"
reg lrent lpop lavginc pctstu lenroll
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 4, 59) = 12.65
Model | 1.16836407 4 .292091018 Prob > F = 0.0000
Residual | 1.36263527 59 .023095513 R-squared = 0.4616
-------------+------------------------------ Adj R-squared = 0.4251
Total | 2.53099934 63 .040174593 Root MSE = .15197
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 274/298
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------
lpop | .1752641 .175792 1.00 0.323 -.1764948 .527023
lavginc | .5139219 .0819555 6.27 0.000 .3499294 .6779143
pctstu | .0093131 .0060311 1.54 0.128 -.002755 .0213813
lenroll | - .1215012 .1903735 -0.64 0.526 -.5024376 .2594352
_cons | -.1622075 .9068567 -0.18 0.859 -1.976824 1.652409
------------------------------------------------------------------------------
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Variables: fitted values of lrent
chi2(1) = 0.12
Prob > chi2 = 0.7340
. reg lrent lpop lavginc
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 2, 61) = 17.42
Model | .920144167 2 .460072083 Prob > F = 0.0000
Residual | 1.61085517 61 .026407462 R-squared = 0.3635
-------------+------------------------------ Adj R-squared = 0.3427
Total | 2.53099934 63 .040174593 Root MSE = .1625
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------
lpop | -.0011434 .0352743 -0.03 0.974 -.0716786 .0693919
lavginc | .4736686 .0861569 5.50 0.000 .3013872 .64595
_cons | 1.282824 .8076707 1.59 0.117 -.3322131 2.897862
------------------------------------------------------------------------------
. reg lrent pctstu lenroll
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 2, 61) = 3.40
Model | .253850382 2 .126925191 Prob > F = 0.0398
Residual | 2.27714896 61 .037330311 R-squared = 0.1003
-------------+------------------------------ Adj R-squared = 0.0708
Total | 2.53099934 63 .040174593 Root MSE = .19321
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
pctstu | .0001169 .001812 0.06 0.949 -.0035066 .0037403
lenroll | .1327148 .0518252 2.56 0.013 .0290839 .2363457
_cons | 4.724284 .5018249 9.41 0.000 3.720823 5.727745
------------------------------------------------------------------------------
reg lenroll lpop lavginc pctstu
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 275/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 276/298
11.3. QUANTILES DE LA LOI DU χ2 151
11.3 Quantiles de la loi du χ2
Soit X n ∼ χ2(n). On pose
∞x
12n/2Γ(n/2)
yn
2−1 e−y/2 dy = P(X n ≥ x) = α.
La table donne les valeurs de x en fonction de
n et α. Par exemple P(X 8 ≥ 20.09) 0.01.
α
x0
n\α 0.990 0.975 0.950 0.900 0.100 0.050 0.025 0.010 0.001
1 0.0002 0.0010 0.0039 0.0158 2.71 3.84 5.02 6.63 10.832 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 13.823 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 16.274 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 18.475 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 20.526 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 22.467 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 24.32
8 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 26.129 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 27.88
10 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 29.59
11 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 31.2612 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 32.91
13 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 34.5314 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 36.1215 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 37.7016 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 39.2517 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 40.7918 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 42.3119 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 43.8220 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 45.31
21 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 46.8022 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 48.2723 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 49.73
24 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 51.1825 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 52.6226 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 54.0527 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 55.4828 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 56.8929 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 58.3030 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 59.70
Lorsque n > 30, on peut utiliser l’approximation√
2X n −√
2n− 1 L G ∼ N 1(0, 1) (voir
l’exercice 5.5.11) qui assure que pour x ≥ 0,
P(X n ≥ x) = P(
2X n −√ 2n− 1 ≥ √ 2x −√ 2n − 1) P(G ≥ √ 2x−√ 2n − 1).
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 277/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 278/298
11.5. QUANTILES DE LA LOI DE FISHER (OU FISHER-SNEDECOR) 153
11.5 Quantiles de la loi de Fisher (ou Fisher-Snedecor)
Soit X n,m une v.a. de loi de Fisher de pa-rametre (n, m). On pose
P(X n,m ≥ f ) = α.
La table donne les valeurs de t en fonctionde n, m et α ∈ 0, 05;0, 01. Par exempleP(X 4,20 ≥ 4.43) 0.01.
α
t0
n = 1 n = 2 n = 3 n = 4 n = 5
m α =0.05 α =0.01 α =0.05 α =0.01 α =0.05 α =0.01 α =0.05 α =0.01 α =0.05 α =0.01
1 161.45 4052.18 199.50 4999.50 215.71 5403.35 224.58 5624.58 230.16 5763.652 18.51 98.50 19.00 99.00 19.16 99.17 19.25 99.25 19.30 99.303 10.13 34.12 9.55 30.82 9.28 29.46 9.12 28.71 9.01 28.244 7.71 21.20 6.94 18.00 6.59 16.69 6.39 15.98 6.26 15.525 6.61 16.26 5.79 13.27 5.41 12.06 5.19 11.39 5.05 10.976 5.99 13.75 5.14 10.92 4.76 9.78 4.53 9.15 4.39 8.757 5.59 12.25 4.74 9.55 4.35 8.45 4.12 7.85 3.97 7.468 5.32 11.26 4.46 8.65 4.07 7.59 3.84 7.01 3.69 6.639 5.12 10.56 4.26 8.02 3.86 6.99 3.63 6.42 3.48 6.06
10 4.96 10.04 4.10 7.56 3.71 6.55 3.48 5.99 3.33 5.64
11 4.84 9.65 3.98 7.21 3.59 6.22 3.36 5.67 3.20 5.32
12 4.75 9.33 3.89 6.93 3.49 5.95 3.26 5.41 3.11 5.0613 4.67 9.07 3.81 6.70 3.41 5.74 3.18 5.21 3.03 4.8614 4.60 8.86 3.74 6.51 3.34 5.56 3.11 5.04 2.96 4.6915 4.54 8.68 3.68 6.36 3.29 5.42 3.06 4.89 2.90 4.5616 4.49 8.53 3.63 6.23 3.24 5.29 3.01 4.77 2.85 4.4417 4.45 8.40 3.59 6.11 3.20 5.18 2.96 4.67 2.81 4.3418 4.41 8.29 3.55 6.01 3.16 5.09 2.93 4.58 2.77 4.2519 4.38 8.18 3.52 5.93 3.13 5.01 2.90 4.50 2.74 4.17
20 4.35 8.10 3.49 5.85 3.10 4.94 2.87 4.43 2.71 4.10
21 4.32 8.02 3.47 5.78 3.07 4.87 2.84 4.37 2.68 4.0422 4.30 7.95 3.44 5.72 3.05 4.82 2.82 4.31 2.66 3.99
23 4.28 7.88 3.42 5.66 3.03 4.76 2.80 4.26 2.64 3.9424 4.26 7.82 3.40 5.61 3.01 4.72 2.78 4.22 2.62 3.9025 4.24 7.77 3.39 5.57 2.99 4.68 2.76 4.18 2.60 3.8526 4.23 7.72 3.37 5.53 2.98 4.64 2.74 4.14 2.59 3.8227 4.21 7.68 3.35 5.49 2.96 4.60 2.73 4.11 2.57 3.7828 4.20 7.64 3.34 5.45 2.95 4.57 2.71 4.07 2.56 3.7529 4.18 7.60 3.33 5.42 2.93 4.54 2.70 4.04 2.55 3.7330 4.17 7.56 3.32 5.39 2.92 4.51 2.69 4.02 2.53 3.70
40 4.08 7.31 3.23 5.18 2.84 4.31 2.61 3.83 2.45 3.5180 3.96 6.96 3.11 4.88 2.72 4.04 2.49 3.56 2.33 3.26
120 3.92 6.85 3.07 4.79 2.68 3.95 2.45 3.48 2.29 3.17
∞ 3.84 6.63 3.00 4.61 2.60 3.78 2.37 3.32 2.21 3.02
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 279/298
UNIVERSITE DE PARIS 11Interro de TD 1 Anne Plunket
Master 1 - ETT et EI
On vous demande d’estimer l’équation suivante :
log(rent) = β 0 + β 1 log( pop) + β 2 log(avginc) + β 3 pctstu + β 4log(enroll) + ǫ
Les variables sont les suivantes :
– rent, le loyer moyen pour un logement dans une ville universitaire,– pop, la population de la ville,
– avginc, le revenu moyen de la ville,
– pctstu, le pourcentage des étudiants dans la population de la ville,
– enroll, le nombre d’étudiants de la ville.
1. On cherche à comprendre l’impact de la présence d’étudiants dans une ville univer-
sitaire sur les loyer de cette ville. Quels sont les signes attendus pour β 1, β 2, β 3 et β 4,
expliquez.
On s’attend à ce que chacune des variables du modèle ait un impact positif sur le niveau
moyen des loyers. Plus la population, le nombre d’étudiant ou le pourcentage d’étudiants
dans la population sont élevés et plus il y aura de pression à la hausse sur les loyers. Le
niveau moyen de revenu aura un impact à la hausse sur les loyers. Plus la population estriche et plus les habitations auront une qualité et un prix élevé.
2. Proposez un test pour le signe de β 2. Explicitez l’hypothèse nulle et alternative ainsi
que la statistique utilisée pour faire le test .
On cherche à faire un test pour le coefficient de la variable lavginc. Pour faire on pose les
hypothèses du test : H 0 ≤ 0 et H 1 > 0Pour tester le signe, on fait un test du student :
tc = β 2sβ 2
= .5139219
.0819555 = 6.27 ∼ tn−k−1/64−5/59
Pour un test à 5%, t5%,40 = 1.684 ou t5%
,80 = 1.664 ; On en déduit que la valeur du
student est largement supérieure au t calculé, par conséquent la variable est bien de signe
positif. On rejette l’hypothèse nulle.
3. En vous aidant des tableaux donnés ci-dessous, proposez un test β 3 = β 4 = 0Il s’agit ici d’un test du Fisher avec modèle non contraint par rapport à modèle contraint,
la contrainte est égale à β 3 = β 4 = 0.
Le modèle non contraint s’écrit : reg lrent lpop lavginc pctstu lenroll
Le modèle contraint s’écrit : reg lrent lpop lavginc
Le test s’écrit :
F c = (SC Rc − SCR/q
SCR/n−
k−
1
= (1.61085517 − 1.36263527)/2
1.36263527/59
= 5.3737689 ∼ F (2, 59)
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 280/298
F 5%,40 = 3.23 ou F 5%,80 = 3.11
F 1%,40 = 5.18 ou F 1%,80 = 4.88Dans les deux cas de figure 1% ou 5%, on rejette l’hypothèse nulle, l’ajout des deux
variables pctstu et log(enroll) ajoute à l’explication de la variable dépendante.
4. On cherche à savoir si l’équation ci-dessus souffre de multicolinéarité.
(a) Les résultats de la régression donnent-ils des indications de multicolinéarité ?
Le(s)quel(s) ? A l’aide des tableaux mis à votre disposition, proposez un test.
Quelle est votre conclusion ? Quelle solution proposez-vous ?
On peut supposer qu’il y a de la multicolinéarité car la variable enroll devrait avoir
un signe positif or son signe est négatif et la variable n’est pas significative alors
qu’elle devrait l’être.
On peut faire un test de la vif, qui s’appuie sur une régression d’une variable dépen-dante sur les autre variables dépendantes du modèle permettant ainsi de mettre en
évidence une colinéarité entre les variables dépendantes.
V IF = 1
1 − R2k
= 1
1 − 0.9554 = 22, 42
La VIF est très élevée ce qui indique la présence de multicolinéarité. On pourrait
pour résoudre le problème supprimer une variable redondante. Le nombre d’étu-
diants de la ville est une information redondante par rapport à la population, de
même que pourcentage d’étudiants par rapport à la population semble redondant
pourrait être redondante avec la population. On a trois variables qui rendent compte
d’effets de tailles.
5. On vous propose un test de Breusch et Pagan.
(a) Quel est le principe de ce test aussi appelé test du multiplicateur de Lagrange.
Quelle forme d’hétéroscédasticité ce test permet -t-il de considérer ?
Le test de BP est un test du multiplicateur de Lagrange, il s’appuie sur une régression
auxiliaire du carré des résidus sur les variables indépendantes du modèle. Il s’agit
d’un test du chi2. Il teste un effet de taille.
(b) Quelles sont les conclusions du test ?
Le test ne nous permet pas de rejeter l’hypothèse nulle de variance égale entre les
résidus de la régression. La valeur critique du chi2 est Chi2(1,5%) = 3,84, il est
largement supérieur au chi2 calculé qui est de 0.12.6. On dispose de données agrégées pour 64 villes universitaires.
(a) Ce type de données engendre un certain type d’hétéroscédasticité, lequel ? Quelle
solution peut-on proposer ? (cf les tableaux ci-dessous).
(b) Votre solution est-elle efficace ? (cf tableaux ci-dessous).
use "/Users/RENTAL.dta"
reg lrent lpop lavginc pctstu lenroll
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 4, 59) = 12.65
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 281/298
Model | 1.16836407 4 .292091018 Prob > F = 0.0000
Residual | 1.36263527 59 .023095513 R-squared = 0.4616-------------+------------------------------ Adj R-squared = 0.4251
Total | 2.53099934 63 .040174593 Root MSE = .15197
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lpop | .1752641 .175792 1.00 0.323 -.1764948 .527023
lavginc | .5139219 .0819555 6.27 0.000 .3499294 .6779143
pctstu | .0093131 .0060311 1.54 0.128 -.002755 .0213813
lenroll | - .1215012 .1903735 -0.64 0.526 -.5024376 .2594352
_cons | -.1622075 .9068567 -0.18 0.859 -1.976824 1.652409
------------------------------------------------------------------------------
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Variables: fitted values of lrent
chi2(1) = 0.12
Prob > chi2 = 0.7340
. reg lrent lpop lavginc
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 2, 61) = 17.42
Model | .920144167 2 .460072083 Prob > F = 0.0000
Residual | 1.61085517 61 .026407462 R-squared = 0.3635-------------+------------------------------ Adj R-squared = 0.3427
Total | 2.53099934 63 .040174593 Root MSE = .1625
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lpop | -.0011434 .0352743 -0.03 0.974 -.0716786 .0693919
lavginc | .4736686 .0861569 5.50 0.000 .3013872 .64595
_cons | 1.282824 .8076707 1.59 0.117 -.3322131 2.897862
------------------------------------------------------------------------------
. reg lrent pctstu lenroll
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 2, 61) = 3.40
Model | .253850382 2 .126925191 Prob > F = 0.0398
Residual | 2.27714896 61 .037330311 R-squared = 0.1003
-------------+------------------------------ Adj R-squared = 0.0708
Total | 2.53099934 63 .040174593 Root MSE = .19321
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
pctstu | .0001169 .001812 0.06 0.949 -.0035066 .0037403
lenroll | .1327148 .0518252 2.56 0.013 .0290839 .2363457
_cons | 4.724284 .5018249 9.41 0.000 3.720823 5.727745
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 282/298
------------------------------------------------------------------------------
reg lenroll lpop lavginc pctstu
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 3, 60) = 428.33
Model | 13.6478645 3 4.54928816 Prob > F = 0.0000
Residual | .637257238 60 .010620954 R-squared = 0.9554
-------------+------------------------------ Adj R-squared = 0.9532
Total | 14.2851217 63 .226747964 Root MSE = .10306
------------------------------------------------------------------------------
lenroll | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lpop | .9003717 .0264604 34.03 0.000 .847443 .9533003
lavginc | .0568458 .0550904 1.03 0.306 -.0533515 .167043
pctstu | .0303161 .0011872 25.53 0.000 .0279413 .0326909
_cons | -1.687126 .5751112 -2.93 0.005 -2.837519 -.5367318
------------------------------------------------------------------------------
. reg lrent lpop lavginc pctstu
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 3, 60) = 16.89
Model | 1.15895654 3 .386318847 Prob > F = 0.0000
Residual | 1.3720428 60 .02286738 R-squared = 0.4579
-------------+------------------------------ Adj R-squared = 0.4308
Total | 2.53099934 63 .040174593 Root MSE = .15122
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lpop | .0658678 .038826 1.70 0.095 -.0117957 .1435314
lavginc | .507015 .0808356 6.27 0.000 .3453198 .6687103
pctstu | .0056297 .0017421 3.23 0.002 .002145 .0091143
_cons | .0427803 .8438753 0.05 0.960 -1.645222 1.730782
------------------------------------------------------------------------------
. reg lrent lpop lavginc pctstu [ ???? ]
Source | SS df MS Number of obs = 64
-------------+------------------------------ F( 3, 60) = 15.56
Model | .972470742 3 .324156914 Prob > F = 0.0000
Residual | 1.25031296 60 .020838549 R-squared = 0.4375
-------------+------------------------------ Adj R-squared = 0.4094
Total | 2.2227837 63 .035282281 Root MSE = .14436
------------------------------------------------------------------------------
lrent | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lpop | .0330849 .0330518 1.00 0.321 -.0330285 .0991982
lavginc | .4874827 .0751816 6.48 0.000 .3370971 .6378683
pctstu | .0051889 .001674 3.10 0.003 .0018404 .0085374
_cons | .6196268 .8128841 0.76 0.449 -1.006384 2.245637
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 283/298
------------------------------------------------------------------------------
5
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 284/298
UNIVERSITE DE PARIS 11Interro de TD 2 Anne Plunket
Master 1 - ETT et EI
1. Il vous est proposé une régression de la consommation en fonction du revenu et du temps(la tendance).
. regdw cons income trend
Source | SS df MS Number of obs = 45
-------------+------------------------------ F( 2, 42) = 2919.99
Model | 4.7072e+11 2 2.3536e+11 Prob > F = 0.0000Residual | 3.3853e+09 42 80603294.8 R-squared = 0.9929
-------------+------------------------------ Adj R-squared = 0.9925
Total | 4.7411e+11 44 1.0775e+10 Root MSE = 8977.9
------------------------------------------------------------------------------
cons | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
income | .9333721 .0644142 14.49 0.000 .8033789 1.063365
trend | -140.4874 553.0085 -0.25 0.801 -1256.504 975.5288
_cons | 11579.25 8573.289 1.35 0.184 -5722.351 28880.84
------------------------------------------------------------------------------
Durbin-Watson Statistic = .4633078
(a) Expliquez ce qu’est l’autocorrélation et quels problèmes elle pose pour l’esti-
mation par la méthode des Moindres carrés ordinaires
L’autocorrélation rend compte du fait que les résidus sont corrélés entre eux au cours
du temps. Autrement dit, les résidus ne sont pas distribués de manière indépendants,
ils ne sont pas i.i.d. A ce moment là, la variance des résidu n’est pas minimale et on
risque de rejeter l’hypothèse nulle à tort.
(b) Quel est le type d’autocorrélation que le test de Durbin et Watson permet de
tester ?
Le DW ne teste que l’autocorrélation d’ordre 1 du type :
ǫt = ρǫt−1 + ut
Il s’agit d’un processus de Markov d’ordre 1.
(c) Faîtes le test de Durbin et Watson ; indiquez clairement quelle est l’hypothèse
nulle et alternative. Quelles sont vos conclusions.
H 0 : ρ = 0 contre H 1 : ρ = 0 La règle de décision est la suivante :
– si d < dL on rejette l’hypothèse null ;
– si d > dU on ne la rejette pas ;
– si dL < d < dU il y a un doute
Ici, DW = 0,46, k=2 et n=45, dL = 1.43 et dU = 1.62
D W < dL(1.43), par conséquent, on en déduit qu’il y a de l’autocorrélation à
l’ordre 1 au moins.
1
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 285/298
2. Vous disposez de deux régressions du revenu en fonction d’un certain nombre d’indica-
teurs et de variables où hwage indique le salaire horaire en cents, urban est une indica-trice égale à un si la personne vit en ville par opposition à la campagne, age représentel’âge de la personne, ethnic est égale à 1 si la personne n’est pas d’origine blanche, southest égale à 1 si la personne habitude dans le sud des Etats-Unis
. mean hwage, over(urban)
Mean estimation Number of obs = 1900
0: urban = 0
1: urban = 1
--------------------------------------------------------------
Over | Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------hwage |
0 | 496.7519 9.091503 478.9216 514.5823
1 | 622.3078 7.321256 607.9493 636.6664
--------------------------------------------------------------
. reg hwage educ age ethnic urban south
Source | SS df MS Number of obs = 1900
-------------+------------------------------ F( 5, 1894) = 120.82
Model | 31555417.8 5 6311083.57 Prob > F = 0.0000
Residual | 98930460.8 1894 52233.6118 R-squared = 0.2418
-------------+------------------------------ Adj R-squared = 0.2398
Total | 130485879 1899 68712.9429 Root MSE = 228.55
------------------------------------------------------------------------------
hwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educ | 19.52263 2.101356 9.29 0.000 15.40141 23.64384
age | 26.63248 1.703658 15.63 0.000 23.29124 29.97372
ethnic | -83.06785 15.34264 -5.41 0.000 -113.1581 -52.97761
urban | 95.69047 12.08005 7.92 0.000 71.99886 119.3821
south | -61.58681 11.53298 -5.34 0.000 -84.20549 -38.96813
_cons | 454.6921 55.89884 8.13 0.000 564.3219 345.0623
------------------------------------------------------------------------------
(a) Commentez le tableau obtenu avec la commande mean hwage, over(urban)
Le table nous donne le salaire horaire moyen pour les personnes vivants en ville(622,30) et celles vivants à la campagne (496,75). On constate que les personnes qui
vivent en ville ont un revenu bien plus elevés que ceux qui vivent à la campagne.
Vous disposez de la régression reg hwage educ age ethnic urban south.
(b) Que représente la constante ?
La constante représente le revenu horaire pour le groupe de référence à savoir, ceux
qui sont blancs, qui vivent à la campagne et dans le nord. Ce revenu moyen est de
454,69 cents.
(c) Que vous apprend le tableau sur le salaire d’une personne noire vivant dans le
sud?
Le tableau nous apprend que la différence de salaire pour ceux qui sont noirs et qui
2
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 286/298
habitent dans le sud est de β south + β ethnic = −83, 06 − 61, 58 = −144, 64.
3. On vous propose d’étudier les déterminants d’avoir un salaire horaire supérieur à 700cents. Vous disposez des tableaux suivants :
. logit highwage educ age fatheduc motheduc ethnic urban south, nolog
Logistic regression Number of obs = 1900
LR chi2(7) = 313.50
Prob > chi2 = 0.0000
Log likelihood = -953.42719 Pseudo R2 = 0.1412
------------------------------------------------------------------------------
highwage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educ | .1246213 .0256527 4.86 0.000 .074343 .1748995
age | .2012003 .0184215 10.92 0.000 .1650949 .2373057
fatheduc | .0101726 .021478 0.47 0.636 -.0319236 .0522687
motheduc | .0694325 .0257211 2.70 0.007 .0190201 .1198449
ethnic | -.8283974 .2134957 -3.88 0.000 -1.246841 -.4099534
urban | .8551816 .1462779 5.85 0.000 .5684822 1.141881
south | -.3091703 .1261468 -2.45 0.014 -.5564136 -.061927
_cons | -9.74939 .6661931 -14.63 0.000 -11.0551 -8.443676
------------------------------------------------------------------------------
. logit highwage educ age fatheduc south, nolog
Logistic regression Number of obs = 1900
LR chi2(4) = 255.43
Prob > chi2 = 0.0000Log likelihood = -982.45933 Pseudo R2 = 0.1150
------------------------------------------------------------------------------
highwage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
educ | .1512071 .0248181 6.09 0.000 .1025645 .1998496
age | .200255 .0180981 11.06 0.000 .1647833 .2357267
fatheduc | .0612833 .0178013 3.44 0.001 .0263933 .0961733
south | -.5051628 .1211115 -4.17 0.000 -.742537 -.2677886
_cons | -9.230539 .62938 -14.67 0.000 -10.4641 -7.996977
------------------------------------------------------------------------------
---------------------------------------------------
. prvalue, x(motheduc = 12) rest(mean)
logit: Predictions for highwage
Confidence intervals by delta method
95% Conf. Interval
Pr(y=1|x): 0.2879 [ 0.2635, 0.3123]
Pr(y=0|x): 0.7121 [ 0.6877, 0.7365]
educ age fatheduc motheduc ethnic urban south
x= 14.166223 27.869681 11.210106 12 .05585106 .76861702 .28191489
3
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 287/298
. prvalue, x(motheduc = 12 urban =1) rest(mean)
logit: Predictions for highwage
Confidence intervals by delta method
95% Conf. Interval
Pr(y=1|x): 0.3367 [ 0.3081, 0.3653]
Pr(y=0|x): 0.6633 [ 0.6347, 0.6919]
educ age fatheduc motheduc ethnic urban south
x= 14.268166 27.942907 11.351211 12 .06401384 1 .25778547
. prvalue, x(motheduc = 12 south = 1 ethnic = 1) rest(mean)
logit: Predictions for highwage
Confidence intervals by delta method
95% Conf. Interval
Pr(y=1|x): 0.1116 [ 0.0710, 0.1523]
Pr(y=0|x): 0.8884 [ 0.8477, 0.9290]
educ age fatheduc motheduc ethnic urban south
x= 13.923077 27.115385 9.6538462 12 1 .80769231 1
(a) Testez l’hypothèse nulle suivante : H 0 : β motheduc = β ethnic = β urban = 0
G2(M c | M ) = 2ln L(M ) − 2 ln L(M c)
Si H 0 est vrai, alors G2 ∼ χ2J
J étant le nombre de contraintes.
G2(M c | M ) = 2∗(−953.42719)−2∗(−982.45933) = −1906, 84+1964, 9 = 58, 06
Il s’agit d’un chi2(3)5% = 7.81 et chi2(3)1% = 11.34.
On rejette l’hypothèse nulle à 5% et même à 1%, puisque dans chaque cas, la valeur
calculée 58,06 est supérieure à la valeur critique.
Par conséquent, le modèle complet est préféré car les trois variables sont globale-
ment explicatives.(b) Commentez les résultats suivants :
prvalue, x(motheduc = 12) rest(mean)
prvalue, x(motheduc = 12 urban =1) rest(mean)
prvalue, x(motheduc = 12 south = 1 ethnic = 1) rest(mean)
Les tableaux indiquent qu’une personne dont la mère a un niveau d’éducation de 12
années, aura une probabilité de 28,79
4
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 288/298
23/09/08 13:56
! Présentation des fenêtres Stata
" fenêtre command : pour entrer les commandes
" fenêtre stata results : liste les résultats
" fenêtre variables : liste toutes le variables de la base de données
" fenêtre review : liste toutes les commandes entrées
! Entrer des commandes :
" Soit en entrant les commandes dans la fenêtre command (ou en
utilisant le menu)
" Soit en utilisant un fichier .do ; on peut créer un fichier où l’on met
l’ensemble des commandes et ensuite il suffit de faire tourner le
fichier .do
! Avant de commencer, il faut ouvrir un fichier .log pour garder en
mémoire tout ce qu’on a fait" File/Log/Begin/ td1_découverte de Stata
! Il faut entrer les données
" File/ Import / Unformatted ASCII format
" Nom des variables : year infmort afdcprt popul pcinc
physic afdcper d90 lpcinc lphysic DC lpopul
! Il faut sauvegarder les données ; on obtient un fichier .dta
! Pour voir les variables
" list in 1/10 mais illisible il vaut mieux
" list year infmort afdcprt pcinc physic in 1/10
" On dispose des données pour les années 1987 et 1990 ; On dispose
de données pour les 51 Etats des Etats-Unis mais seule le district de
Columbia est identifiée par une variable indicatrice DC==0/1
" La variable infmort donne le nombre de décès pour les enfants de
moins d’un an pour 1000 naissances, pcinc donne le niveau de
revenu par tête, physic est le nombre de médecins pour 100 000
personnes et popul est la population en milliers.
# year 1987 or 1990
# infmort infant mortality rate # of deaths within the
first year par 1,000 live births
# afdcprt AFDC participation, 1000s /welfare program
Aid to Families with Dependent Children (AFDC) program
# popul population in 1000s (thousands)
# pcinc per capita income
# physic Doctors per 100,000 civilian population
# afdcper percent on AFDC
# d90 =1 if year == 1990
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 289/298
# lpcinc log(pcinc)
# lphysic log(physic)
# DC =1 for Washington DC
# lpopul log(popul)
! Supprimer et créer des variables
" drop pour supprimer
# drop afdcper d90 lpcinc lpopul
" generate avec une abréviation g ou gen pour créer une variable
# gen afdcper = afdcprt/popul
# gen lpcinc = ln(pcinc)
# gen lphysic = ln(physic)
# gen d90 = 1 if year == 1990 & year<. Mais problème plutôt
# gen d90 = (year==1990) if year<.# gen lpopul = log(popul)
! Donner une explication aux variables
" On peut créer un .do file pour faire ça
# ***********************************
# Nommer les variables
# ***********************************
# label variable infmort "infant mortality rate"
# label variable
! Obtenir une description numérique statistiques des variables
" Describe
" Summarize
" sum infmort pcinc physic popul
! Quelles sont les relations attendues entre les variables et
infmort ?
# On s’attend à une relation négative entre le revenu par tête et la
mortalité (si les individus sont plus « riches », ils ont davantage
les moyens d’être suivis par leur médecin ce qui réduit la
mortalité infantile;
# On s’attend également à une relation négative entre le nombre
de médecins et le taux de mortalité
# On s’attend à une relation positive entre la population et le
nombre de décès par mortalité infantile
! Corrélations entre les variables
# pwcorr infmort lpcinc lphysic lpopul if d90==0, star(.05)
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 290/298
# On remarque une relation positive entre le taux de mortalité et le
nombre de médecin ce qui suppose que plus de médecin
implique un taux de mortalité plus élevé ce qui est contre intuitif.
! Representation graphique des relations
" Plot
# scatter infmort popul
# scatter infmort physic
# Mais il y a un problème car on voudrait le graphique que
pour l’année 1990
• scatter infmort physic if year == 1987
• scatter infmort physic if d90 == 0
# Chaque point du graphique représente un des 51 Etats
américains. On constate qu’il y a une relation négative entre letaux de mortalité et le nombre de médecin, autrement dit moins
il y a de médecin et plus le taux de mortalité est élevé.
# Il y a un point (un Etat) pour lequel le taux de mortalité est
beaucoup plus élevé (en haut à droite). En fait les graphiques de
ce type permettent de mettre en évidence les observations
atypiques qualifiées d’outliers
# On peut également les mettre en évidence en étudiant en détail
les observations dont on dispose pour les deux variables• sum infmort if d90==0, détail
# donne les centiles, les 4 valeurs les plus petites et les
plus grandes
! Régression
" reg regress infmort lpcinc lphysic lpopul if d90==0
! Traitement des observations très influentes :
" pwcorr infmort lpcinc lphysic lpopul if d90==0 & DC==0, star(.05)
# la corrélation n’est plus positive mais négative
" reg regress infmort lpcinc lphysic lpopul if d90 & DC==0
• graphics/ overlaid twoway graphs
• twoway (lfit infmort physic if d90==0) (lfit infmort physic
if d90==0 & DC==0, atobs) (scatter infmort physic)
" Les régressions avec et sans DC (le district de Columbia) montrent
que cette observation est très influente et
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 291/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 292/298
150 CHAPITRE 11. TABLES STATISTIQUES
11.2 Fonction de repartition de la loi N 1(0, 1)
Soit X ∼ N 1(0, 1). On pose
x−∞
e−y2/2 dy√ 2π
= P(X ≤ x) = α.
La table donne les valeurs de α en fonction de
x. Par exemple P(X ≤ 1.96) 0.97500.
α
x0
La table suivante donne les valeurs de 1 − α pour les grandes valeurs de x.
x 2 3 4 5 6 7 8 9 101− α 2.28e-02 1.35e-03 3.17e-05 2.87e-07 9.87e-10 1.28e-12 6.22e-16 1.13e-19 7.62e-24
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 293/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 294/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 295/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 296/298
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 297/298
318
Table de distribution de d .Loi de Durbin-Watson
1 Percent Significance Points of d L and d u
k=1 k=2 k=3 k=4 k=5
n d L d u d L d u d L d u d L d u d L d u
15 0.81 1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96
16 0.84 1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90
17 0.87 1.10 0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85
18 0.90 1.12 0.80 1.26 0.71 1.42 0.61 1.60 0.52 1.80
19 0.93 1.13 0.83 1.26 0.74 1.41 0.65 1.58 0.56 1.77
20 0.95 1.15 0.86 1.27 0.77 1.41 0.68 1.57 0.60 1.74
21 0.97 1.16 0.89 1.27 0.80 1.41 0.72 1.55 0.63 1.71
22 1.00 1.17 0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69
23 1.02 1.19 0.94 1.29 0.86 1.40 0.77 1.53 0.70 1.67
24 1.04 1.20 0.96 1.30 0.88 1.41 0.80 1.53 0.72 1.66
25 1.05 1.21 0.98 1.30 0.90 1.41 0.83 1.52 0.75 1.6526 1.07 1.22 1.00 1.31 0.93 1.41 0.85 1.52 0.78 1.64
27 1.09 1.23 1.02 1.32 0.95 1.41 0.88 1.51 0.81 1.63
28 1.10 1.24 1.04 1.32 0.97 1.41 0.90 1.51 0.83 1.62
29 1.12 1.25 1.05 1.33 0.99 1.42 0.92 1.51 0.85 1.61
30 1.13 1.26 1.07 1.34 1.01 1.42 0.94 1.51 0.88 1.61
31 1.15 1.27 1.08 1.34 1.02 1.42 0.96 1.51 0.90 1.60
32 1.16 1.28 1.10 1.35 1.04 1.43 0.98 1.51 0.92 1.60
33 1.17 1.29 1.11 1.36 1.05 1.43 1.00 1.51 0.94 1.59
34 1.18 1.30 1.13 1.36 1.07 1.43 1.01 1.51 0.95 1.59
35 1.19 1.31 1.14 1.37 1.08 1.44 1.03 1.51 0.97 1.59
36 1.21 1.32 1.15 1.38 1.10 1.44 1.04 1.51 0.99 1.59
37 1.22 1.32 1.16 1.38 1.11 1.45 1.06 1.51 1.00 1.59
38 1.23 1.33 1.18 1.39 1.12 1.45 1.07 1.52 1.02 1.58
39 1.24 1.34 1.19 1.39 1.14 1.45 1.09 1.52 1.03 1.58
40 1.25 1.34 1.20 1.40 1.15 1.46 1.10 1.52 1.05 1.58
45 1.29 1.38 1.24 1.42 1.20 1.48 1.16 1.53 1.11 1.58
50 1.32 1.40 1.28 1.45 1.24 1.49 1.20 1.54 1.16 1.59
55 1.36 1.43 1.32 1.47 1.28 1.51 1.25 1.55 1.21 1.59
60 1.38 1.45 1.35 1.48 1.32 1.52 1.28 1.56 1.25 1.60
65 1.41 1.47 1.38 1.50 1.35 1.53 1.31 1.57 1.28 1.61
70 1.43 1.49 1.40 1.52 1.37 1.55 1.34 1.58 1.31 1.61
75 1.45 1.50 1.42 1.53 1.39 1.56 1.37 1.59 1.34 1.62
80 1.47 1.52 1.44 1.54 1.42 1.57 1.39 1.60 1.36 1.62
85 1.48 1.53 1.46 1.55 1.43 1.58 1.41 1.60 1.39 1.63
90 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.6495 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64
100 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65
8/13/2019 Econométrie M1_Polycomplet
http://slidepdf.com/reader/full/econometrie-m1polycomplet 298/298