ectx_ii_l3_ch2_2015... · Économétrie II Ch. 2. Inférence Classique & Bootstrap Motivation Principe de l’inférence

Transcript

Économétrie II

Ch. 2. Inférence Classique & BootstrapL3 Économétrie – L3 MASS

Pr. Philippe Polomé, U. Lyon 2

Année 2015-2016

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Motivation

Table des matières

Ch. 2. Inférence Classique & BootstrapMotivationInférence classiqueInférence classique : exempleInférence BootstrapBootstrap : ExempleComparaison bootstrap / classique

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Motivation

Contexte

I MRL y = X� + ✏ et hypothèsesI Un des effets secondaires des ruptures d’hypothèse est que

l’inférence est invalidéeI Tests t, F, ...

I Dans ce chapitreI Rappel d’inférenceI Introduction au bootstrap

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Motivation

Principe de l’inférence

I On a une statistique � estimation d’un paramètre inconnu �

I On peut calculer la variabilité statistique de � : sa distribution

I Nombreuses manières

I On veut savoir si on peut dire que � = un certain chiffre b

I H0 : � � b = 0 en tenant compte du bruit statistiqueI On se donne des marges d’erreur acceptables : 5% de rejeter

H0 quand elle est vraieI Seuil le plus communément utilisé mais arbitraire

I Ces marges définissent un intervalle dans la variabilitéstatistique de �

I Pas forcément symétrique

I Si b 2 intervalle, alors ¬R H0

I On R H0 5% du temps lorsque H0 est en fait vraieI D’où le nom “intervalle de confiance à 95%”

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Motivation

Types d’erreur

H0 vraie H0 fausseR Erreur type I – Prob. ↵ = 5% Correct

¬R Correct Erreur type II – Prob. �

I La probabilité � de l’erreur de type II dépend de H0, 1 � � estla puissance du test.

Page 6: Économétrie II - UDLrisques-environnement.universite-lyon.fr/IMG/pdf/ectx_ii_l3_ch2_2015... · Économétrie II Ch. 2. Inférence Classique & Bootstrap Motivation Principe de l’inférence

Graphiquement

Supposons que la vraie valeur du paramètre soit effectivement b,quelle est la probabilité qu’on ait observé � ?

I Si cette probabilité est <5%, alors on décide que H0 étaitfausse : � 6= b

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique

Table des matières

Ch. 2. Inférence Classique & BootstrapMotivationInférence classiqueInférence classique : exempleInférence BootstrapBootstrap : ExempleComparaison bootstrap / classique

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique

Inférence classique (économétrie I)

I En inférence classique, la plupart des testsI t, F, ...I reposent sur l’hypothèse de normalité du terme d’erreurI au moins pour de petits échantillons

I Procédure analytique de testI On formule une hypothèse, p.e. H0 : �i = 0I On calcule une statistique du test dont on peut savoir quelle

distribution elle a si H0 est vraie et ✏ ⇠ n ()

I La normalité permet de déduire la distribution de la statistiquede test quand H0 est vraie

Page 9: Économétrie II - UDLrisques-environnement.universite-lyon.fr/IMG/pdf/ectx_ii_l3_ch2_2015... · Économétrie II Ch. 2. Inférence Classique & Bootstrap Motivation Principe de l’inférence

Exemple de la t de Student

I�i

ecart type⇣�i⌘ ⇠ tn�k si

I H0 : �i = 0 vraieI et si ✏ ⇠ n ()I et si les hypothèses du MRL sont vraies

I La distribution de Student est tabulée : il existe des tablesavec ses valeurs

I livres d’économétrie & tableursI Gretl menu Outils ! Tables statistiques

I On compare la valeur calculée de la statistique du test auxvaleurs tabulées

I Si la statistique de test est dans les 5% extrêmes de la t deStudent, on décide que c’est H0 qui est fausse

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique

Exemple de table : t de Student

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique

Matrice de variance-covariance des coefficients

I La plupart des statistiques de test sur les coefficients sontconstruites à partir de la matrice de variance-covariance(conditionnelle à X) des coefficients

I Plus les estimations seront précises, plus on devrait rejeterfacilement (toutes autres choses égales)

I Si les hypothèses MRL sont satisfaites :

V⇣�MCO |X

⌘= �2

⇣X

0X⌘�1

I Où �2 = var (✏i ) < 1 est la variance des erreursI On écrit souvent V

⇣�⌘

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique

Estimation des variances

I La variance �2 des erreurs ✏ est inconnue

I L’estimateur MCO de cette variance est �2 =✏0✏

n � koù

I ✏ = Y � Y = Y � X � résidu MCOI k nombre de régresseurs (y compris l’intercept)

I Cet estimateur est non-biaiséI L’estimateur MCO de la matrice de variance-covariance

(conditionnelle à X) des coefficients est

\V⇣�|X

⌘= �2

⇣X

0X⌘�1

=✏0✏

n � k

⇣X

0X⌘�1

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Table des matières

Ch. 2. Inférence Classique & BootstrapMotivationInférence classiqueInférence classique : exempleInférence BootstrapBootstrap : ExempleComparaison bootstrap / classique

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Exemple

I Pour clarifier ces notions : détail d’un exemple

1. Charger des données de Gretl dans un tableur2. Estimateur MCO3. Calcul des résidus4. Estimation de la matrice de var-cov5. Calcul des t-stats

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Données

I Dans Gretl, charger le jeu de données bwages des données deVerbeek

I Source gretl.sourceforge.net/gretl_data.html

I 1472 observations de salaires (wage) horaires bruts de 1994 enBelgique

I Educ, Experience, Genre

I Exportation classique vers tableurI File –> Export Data –> CSV (Comma Separated Values)

I Ouvrir le fichier à partir tableurI Sélect. col.I Menu Données –> Convertir –> valeur délimitées –> virguleI Sauver bwages.ods

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Modélisation

I Modèle économétrique Wages = F(Experience, Education,Sex)

I Certainement autres régresseurs pertinents (secteur...), maispas données

I Transformation des donnéesI ln(wages) (au lieu de wages directement) : limite

l’hétéroscédasticité (on verra + loin)I ln(1+Experience) Experience = 0 : ln(0) impossible

I A priori modèle linéaire

ln (wages) = �0 + �1ln (1 + exp) + �2”Educ” + �3sex + ✏

I @ln (wage) /@ln (exp) = �1 élasticité du salaire à l’expérience

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Régresseurs qualitatifs

I Male 2 {0,1} : variable binaire/dichotomique (aussidummy/fictive/indicatrice)

I 1 = homme, donc 0 = ...

I Educ 2 {1,...,5} : variable catégoriqueI 1 = peu d’éducation (diplôme) ... 5 = beaucoupI Les chiffres ne sont qu’un code, leur différence ne veut rien direI On transforme en 4 dichotomiques : Deduc1 = 1 si educ = 1,

0 sinon etc...

I Male et Educ sont des variables qualitatives

I Dans bwages.ods : création de données

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Modèle

I Proposition de modèle :

ln (w) = �0 +4X

i=1

�idEi + �5 ln (1 + exp) + �6Male + ✏

I 3 remarquesI i = 1 à 4 : La 5ème catégorie est implicite, les autres

coefficients s’interprètent en référence à elleI

p.e. si �2

= �1, alors avoir un niveau d’éducation de la

catégorie 2 implique que le ln du salaire sera de 1 inférieur

comparativement à la catégorie 5 toute autre chose égale

I �5 = @ ln (w) /@ ln (1 + exp) = élasticité du salaire p/r àl’expérience

I �6 > 0 =) à éducation et expérience égales, les hommesgagnent plus que les femmes

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

\V⇣�|X

⌘

I Une fois les coefficients estimés �

I calculer les résidus ✏ = y � X �

V⇣�|X

⌘= �2

⇣X

0X⌘�1

=✏0✏

n � k

⇣X

0X⌘�1

I Calcul dans bwages.ods

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

La huitième hypothèse du MRL : normalité

I Hypothèse de normalité des erreurs : ✏ ⇠ n�0,�2�

I ) � ⇠ n

✓�,�2

⇣X

0X⌘�1

◆

I ) t =�is

diagi

✓\V⇣�⌘◆ ⇠ tn�k est vrai

I Si H0 �i = 0 est vraieI Si l’hyp de normalité et toutes les autres hyp du MRL sont

vraies

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Principe du test de significativité classique

I Pour n � k suffisamment grand (une centaine), le percentile0,975 de tn�k vaut 1,96

I Test de significativité

Si le t du coefficient �i de la variable xi

soit le coefficient estimé divisé par son écart-type estimé

vaut moins de 1,96 en valeur absolue

alors xi n’est pas significative ( 6= 0)

“règle du 2”

I Pour des valeurs petites de n � k , on compare avec lepercentile tabulé tn�k

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Illustration graphique

I Calcul des t-stat dans bwages.ods

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

P-valeur

I De manière équivalente, on peut aussi calculer à partir de quel↵ (risque de rejeter une hypothèse vraie / zone grise) lecoefficient est significatif

I Plus on prend ↵ petit, plus l’intervalle de confiance est grand,plus il est probable qu’il contienne le zéro, moins il estprobable que le coefficient soit significatif

I Lorsque la p-valeur est inférieure à 5%, on dit que lecoefficient est significatif (à 5%)

I Percentile 0,975 [intervalle 95%, ↵ = 5%] de tn�k vaut 1,96I Percentile 0,95 [intervalle 90%, ↵ = 10%] de tn�k vaut 1,65I Percentile 0,995 [intervalle 99%, ↵= 1%] de tn�k vaut 2,56

I Calcul des p-valeurs dans bwages.odsI Sortie Gretl pour vérifier l’équivalence

I Création des dichotomiques : clic droit ! “dummify”

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Autres tests d’égalité de coefficients

I Au moyen de procédures similaires, on peut testerI si le coefficient estimé est significativement différent d’un

certain chiffre bI si plusieurs coefficients sont significativement différents les uns

des autres ou d’un même chiffreI si des combinaisons linéaires de coefficients valent un certain

chiffreI Tests dit en F ou de Wald dès que plus d’un coefficient

I Tous les logiciels fournissent la p-valeurI Application particulière standard : H0 : tous les coefficients

(sauf l’intercept) sont simultanément nulsI

voir sortie dans Gretl

I Voir Test ou Analyse après estimation dans GretlI Postestimation dans Stata (menu Statistique)I p.e. b[2]=b[3] à écrire b[2]-b[3]=0

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence classique : exemple

Limites de l’inférence classique

I Test de normalité des résidusI Que faire si non-normaux ?

I Intervalle de confiance pour des statistiques plus complexesI Combinaison non-linéaire de paramètresI Surplus du consommateur (intégrale sous une droite de

demande)

I Plusieurs techniques existentI Bootstrap : plus versatile, vraisemblablement plus robuste

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Table des matières

Ch. 2. Inférence Classique & BootstrapMotivationInférence classiqueInférence classique : exempleInférence BootstrapBootstrap : ExempleComparaison bootstrap / classique

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Échantillon aléatoire

I On a vu que chaque échantillon est un tirage d’une populationI L’échantillon peut être “aléatoire simple” ou plus complexe

I Les coefficients estimés � sont des nombres aléatoiresI Chaque échantillon e de la même population produit un �e

différent

I Imaginons qu’on ait plusieurs échantillons, donc plusieurs �eI La distribution empirique de � est l’histogramme des �e

I Quand le nombre d’échantillons ! 1, la distributionempirique converge vers la fonction de densité de �

Page 28: Économétrie II - UDLrisques-environnement.universite-lyon.fr/IMG/pdf/ectx_ii_l3_ch2_2015... · Économétrie II Ch. 2. Inférence Classique & Bootstrap Motivation Principe de l’inférence

Distribution empirique

50 échantillons 500 échantillons

5000 échantillons 1 échantillons

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Intervalle de confiance empirique

I Si on connaissait la fonction de densité de �I On pourrait définir un intervalle de confiance 95% entre les

quantiles 2.5% et 97.5% de la distributionI Avec un nombre E fini d’échantillons :

IL’intervalle de confiance empirique à 95% d’un élément �k

de � est formé par les quantiles 2.5% et 97.5% de ladistribution empirique

I Soit �ke la valeur estimée de �k dans l’échantillon eI On a E valeurs estimées : �k1, . . . , �kE

IDisons 1000 pour simplifier

I On les ordonne de la plus petite à la plus grandeI La 25º est le quantile 2.5%

I Pour d’autres quantités, élasticité ⌘ p.e.I on calcule la quantité d’intérêt ⌘e pour chaque eI et on prend les quantiles de leur distribution empirique

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Re-tirage avec remplacement

I En réalité, on a rarement plus d’un échantillonI Expérience de Monte-Carlo

I À partir de chaque échantillon artificiel m, on pouvait calculer�m à chaque fois

I Avec un échantillon réel, on ne peut en tirer un nouveau, maisI Supposons que l’échantillon n’est pas atypique par rapport à la

population d’où il est tiréI

Principe de médiocrité

I 6= représentativité

I Alors, si on avait pu tirer un autre échantillon, on auraitobservé au moins une partie des mêmes chiffres

I Si on tire des obs. de l’échantillon observé, on peut considérerqu’il s’agit d’un autre échantillon de la même population

I Pour garder un échantillon de même taille : tirer avecremplacement

I Le re-tirage avec remplacement constitue le bootstrap

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Bootstrap

I Par exemple, soit l’échantillon {1,-1,2,3}I Un nouvel échantillon bootstrap de celui-là pourrait être

{1,1,-1,3}I Un autre {2,2,3,3}I Tous ces échantillons sont équiprobables

I Donc avec le bootstrap, on est dans un situation semblable auMonte-Carlo

I L’échantillon original est vu comme la populationI On a plusieurs échantillons e issus de cette populationI On peut alors calculer �e pour chacun d’euxI En répétant, on obtient une distribution empirique des �

ICombien de fois ? la littérature suggère que 1000 couvrirait la

plupart des cas

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Intervalle de confiance bootstrap

I La distribution empirique représente toutes les valeursobservées de �

I En retirant les 2.5% plus petites valeurs et les 2.5% plusgrandes, on obtient l’intervalle à 95%

IDonc : Si H

: �i = 0 : si 0 2 IC, alors H0

n’est pas invalidée

IMais si 0 /2 IC, 0 est considéré comme une valeur improbable

de �i et on rejette H0

I En calculant l’écart-type de la distribution empirique de �j , onobtient l’écart-type de �j

I Exemple tableur bootstrap.odsI De même, dans chaque échantillon bootstrap, on peut calculer

des fonctions des estimations et des donnéesI Par exemple, une élasticité ⌘e = H

⇣Ye ,Xe , �e

⌘

I L’intervalle de confiance pour l’élasticité est obtenu commepour �

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Types de bootstrap

I Le bootstrap décrit est le bootstrap non-paramétrique oubootstrap par paires

I on ré-échantillonne des paires (Y ,X ) de l’échantillon original

I 9 techniques de bootstrap où on va vouloir trouver juste denouveaux y : y e

I Boostrap paramétrique : on suppose p.e. que y ⇠ n⇣X ✓,⌃

⌘

et on tire des y e d’une telle normaleI Bootstrap résiduel : On ré-échantillonne les résidus

y ei = Xi � + ✏ei

I Le non-paramétrique est conceptuellement plus simpleI Mais les autres bootstraps permettent d’obtenir de meilleures

approximations (aux intervalles de confiance ou autres) pour

autant que leurs hypothèses soient satisfaites

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Inférence Bootstrap

Bootstrap par bloc

I Lorsque les observations ne sont pas IID, les techniquesprécédentes ne sont plus valables

I parce qu’elles détruisent la corrélation entre observationsI L’échantillon bootstrap ne peut être considéré comme un

nouvel échantillonI Bootstrap est plus utile pour coupes transversales que pour

séries chronologiquesI

Bootstrap par bloc

I On coupe l’échantillon en r blocs de longueur l de telle sorteque rl ' N (pas nécessaire exactement car peut ne pas tomberjuste)

I On ré-échantillonne sur ces blocs seulement (pas parobservation)

ILes blocs deviennent donc indépendants, mais la corrélation

est préservée à l’intérieur

I Application en particulier en panel

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Bootstrap : Exemple

Table des matières

Ch. 2. Inférence Classique & BootstrapMotivationInférence classiqueInférence classique : exempleInférence BootstrapBootstrap : ExempleComparaison bootstrap / classique

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Bootstrap : Exemple

Bootstrap dans Gretl

I Avant les ordinateurs modernes, le bootstrap était impossibleI Après estimation, dans le menu “Analyse”, la commande

“Bootstrap” permet de calculerI Un IC pour chaque coefficient et pour chaque tI Par bootstrap résiduelI Exemple airq.gdt

I Gretl a une commande spéciale resample

I genr xr = resample(x) crée une nouvelle série XR parré-échantillonnage de X où X peut être une matrice ou unvecteur

ISi Xest une matrice, resample est le bootstrap par paire

IIllustration avec les données airq.gdt (Verbeek) : observations

pour 30 “standard metropolitan statistical areas” = villes

(SMSAs) en Californie en 1972

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Bootstrap : Exemple

Programmation d’un bootstrap par paire dans Gretl

(pour ceux que ça intéresse, hors examen)

Économétrie II

Ch. 2. Inférence Classique & Bootstrap

Comparaison bootstrap / classique

Table des matières

Ch. 2. Inférence Classique & BootstrapMotivationInférence classiqueInférence classique : exempleInférence BootstrapBootstrap : ExempleComparaison bootstrap / classique