Cours de sondages Master IS 2011-2012maths.cnam.fr/IMG/pdf/SondageMaster__IS_2012.pdf · 1 Cours de...
Transcript of Cours de sondages Master IS 2011-2012maths.cnam.fr/IMG/pdf/SondageMaster__IS_2012.pdf · 1 Cours de...
11
Cours de sondages Master IS 2011-2012
Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC
CNAM 292 rue Saint Martin, F-75003 Paris
[email protected] http://cedric.cnam.fr/~saporta
2
Ouvrages recommandés:
J.ANTOINE Histoire des sondages (Odile Jacob, 2005)
P.ARDILLY Les techniques de sondage, 2ème
édition (Technip, 2006)
P.ARDILLY, Y.TILLE Exercices corrigés de méthodes de sondage (Ellipses, 2003)
A.M. DUSSAIX, J.M. GROSBRAS Exercices de sondages (Economica, 1992)
SYNTEC Etudes Marketing et Opinion -
Fiabilité
des méthodes et bonnes
pratiques (Dunod, 2007)
Y.TILLÉ
Théorie des sondages (Dunod, 2001)
Sites internet:
Cours de statistique : http://www.agro-montpellier.fr/cnam-lr/statnet/
Autorité
de la statistique publique http://www.autorite-statistique-
publique.fr
CNIS http://www.cnis.fr/
INSEE : http://www.insee.fr
IPSOS: http://www.ipsos.fr/
Assoc. Intern. Statisticiens d’enquête: http://isi.cbs.nl/iass/allFR.htm
SYNTEC Etudes http://www.syntec-etudes.com/
3
Introduction: aperçu du secteur
La statistique publique: 8000 employés dont 5800 à
l’INSEE
Une organisation ternaire:
Le Conseil national de l'information statistique
(Cnis) assure en amont la concertation entre ses producteurs et ses utilisateurs.
Le service statistique public
(Insee et services statistiques ministériels ) est le moteur dans sa conception, sa production et sa diffusion.
L'Autorité
de la statistique publique
veille au respect des principes d'indépendance professionnelle, d'impartialité, d'objectivité, de pertinence et de qualité
dans son élaboration et sa diffusion.
4
Près de 400 instituts d’étude de marché et d’opinion identifiés en France
Marché estimé de 2 milliards d'euros en 2010
Environ 12 000 personnes, hors enquêteurs
un secteur privé qui ne connait pas la crise
5
6
L’opinion: une faible part de l’activité
des instituts
Source: rapport Portelli-Sueur, Sénat
7
8
Une histoire récente
1895
–
Kiaer, dénombrements représentatifs1925
– Jensen,
1934
–
Neyman: la théorie
1936
–
Election de Roosevelt
1938
–
Fondation de l’IFOP1952
–
Horvitz et Thompson, Sondages à
probabilités inégales
1965
–
Ballottage De Gaulle
9
LES TECHNIQUES DE SONDAGE
Problèmes essentiels:
Sélection de l’échantillon;
Agrégation des réponses
estimateur;
précision;
10
Les principales étapes
source: P.Ardilly
11
LES TECHNIQUES DE SONDAGE
Méthodes aléatoires:
Plans de sondage
Simples:
-
à
probabilités égales-
à
probabilités inégales
Complexes:
-
stratifié-
en grappe
-
plusieurs degrés
12
LES TECHNIQUES DE SONDAGE
Méthodes par choix raisonné
ou judicieux:
Quotas;
Itinéraires;
Unités –
types;
Volontariat;
Échantillonnage sur place;
13
14
Représentativité
15
Représentativité
Notion peu scientifique
Souvent confondue avec le respect de certaines proportions (modèle réduit)
Un sondage à
probabilités inégales , un sondage stratifié
ou à
plusieurs degrés peuvent être
représentatifs en un autre sens:
Sondage extrapolable
: probabilités d’inclusion
connues et non nulles
16
Fluctuations et biais
Fluctuations d’échantillonnage : avec les mêmes probabilités d’inclusion, répéter q fois un sondage donnera q résultats différents
Sans biais: si la moyenne des moyennes de tous les échantillons possibles est égale à
la moyenne de la
population (pas d’écart systématique)
Y1 2, ,..., qy y y
17
SONDAGE ALEATOIRE SIMPLE
Notations:Population ou base de sondage: N Identifiant: iVariable d’intérêt: Y
(Y1, Y2……YN)
N
ii=1
1Y = Y ;N
N
ii
T Y
1
2 2
1
1 ( ) ;
N
ii
Y YN
2 2 2
1
1 ( )1 1
N
ii
NS Y YN N
18
SONDAGE ALÉATOIRE SIMPLE
Définition: tirage équiprobable sans remise de n unités;
Taux de sondage:
échantillons possibles;
i
probabilité
d’inclusion
(plan de taille fixe):
Équiprobabilité:
Remarque:
nNC
inN
( )
( )i
s i s
p s
nN
N
ii
n
1
19
SONDAGE ALÉATOIRE SIMPLE
Estimation du total et de la moyenne:-
estimateur de
N -
estimateur de T;
Démonstration avec les variables de Cornfield
yi
=variable aléatoire; Yi
= variable non aléatoire
y Y
( )E y Y ( )E N y T
i
s i i ssi i s
10
( )( ) ( ) cov( ; )
i i
i i i i j ij i j
EV
1
N
i ii i
i s i s ii i
y YN y Tn
1
( ) ( )N N
ii i
i ii
YE T E Y T
1 1
y
20
SONDAGE ALEATOIRE SIMPLE
Covariance entre variables de Cornfield
Variance de la moyenne
2
22
,
cov( ; )
( 1) 1( )( 1) 1
(1 )cov( ; )1
i j ij i j ij
nN
ij ns i j s N
i j
C n n np sC N N N
N
22
1 1
22 2
2 21
1 1( ) ( ) cov( ; )
(1 ) (1 ) (1 )1
N N
i i i i i j i ji i i j
Ni j
ii i j
V y V Y Y V YYn n
YY SY NSn N n n
21
SONDAGE ALÉATOIRE SIMPLE
Variances:
Estimation de S2:
2
22
( ) (1 )
ˆ( ) (1 )
SV yn
SV T Nn
2 2
2 2
2
22
1 ( )1
( )
( ) (1 )
ˆ( ) (1 )
ii s
s y yn
E s S
sV yn
sV T Nn
22
SONDAGE ALÉATOIRE SIMPLE
Intervalles de confiance pour un paramètre d’intérêt («
fourchette
»)
Intervalle ayant une probabilité
1-
(niveau de confiance) de contenir la vraie valeur du paramètre.
risque d’erreur, généralement partagé
de façon symétrique /2 et /2
Nécessite de connaitre au moins approximativement la distribution de probabilité
de l’estimateur
La longueur de l’intervalle diminue avec n et augmente avec le niveau de confiance et avec la variance de l’estimateur (elle-même fonction de la variance de la population)
23
Le théorème « central limite »
La moyenne d’un échantillon de n observations indépendantes issues d’une population de moyenne
et d’écart-type
converge si n
augmente vers une loi normale:
Illustration animée:
http://www.vias.org/simulations/simusoft_cenliit.html
n>30 est souvent suffisant
( ; )Nn
Cenlimit.exe
24
Intervalle de confiance théorique pour une moyenne
Tirages indépendants (avec remise) et n>30
Tirages sans remise
On pourra admettre que:
Si le taux de sondage est faible la précision ne dépend pas de N
/2 /2
/2pour 5% 2
y u Y y un n
u
/ 2 / 21 1S Sy u Y y un n
25
Intervalles de confiance estimés à 95%
Pour une moyenne:
Pour un pourcentage:
1 12 2y s Y y sn n
iY
10
Y p
(1 )ˆ( ) (1 )1
p p NV pn N
ˆ ˆ ˆ ˆ(1 ) (1 )ˆ( ) (1 ) si faible
1p p p pV p
n n
ˆy p fréquence observée
ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ2 2p p p pp p pn n
26
Calculs de taille d’échantillon
Pour une précision fixée
Nécessite de connaitre S !
2
2
1 12 d'où 1
4
S n NNn
S
27
Pour une proportion
Si n grand et
faible
Utile si on connait approximativement p a priori
2
(1 ) 4 (1 )2 d'où =p p p pnn
Ardilly, 2006
Ardilly, 2006
28
Solution prudente (ou pessimiste)Se placer dans le cas p=0.50 avec =0.05
2
1n
29
Pour
fort , dans le cas p=0.50 avec un niveau de confiance de 95%:
21NnN
30
Précision absolue ou précision relative?
Pour une population rare, on aboutit à
une taille
d’échantillon souvent excessive
Viser un /p change tout
Compromis à
faire quand il y a plusieurs variables d’intérêt
Attention aux non-réponses: la précision dépend du nombre de répondants
3131
SONDAGE A PROBABILITÉS INÉGALES
Les plans simples Les plans simples ééquiprobables ne sont utilisquiprobables ne sont utiliséés qus qu’’en en ll’’absence de toute autre informationabsence de toute autre information
Tirage Tirage àà
probabilitprobabilitéés ins inéégales: une manigales: une manièère dre d’’utiliser de utiliser de
ll’’information auxiliaireinformation auxiliaire
InfinitInfinitéé
de plans de plans àà
probabilitprobabilitéés ins inéégales et sans remisegales et sans remise
3232
SONDAGE A PROBABILITÉS INÉGALES
Estimateur de Estimateur de HorvitzHorvitz--Thompson ou des valeurs Thompson ou des valeurs dilatdilatéées pour un total:es pour un total:
Pour que soit sans biais: Pour que soit sans biais:
N
i i i i ii s i
T a y aY
1
( ) ( )N N
i i i i i ii i
ET aY E a Y
1 1
T ( )N
ii
E T Y
1
1i ia
3333
SONDAGE A PROBABILITÉS INÉGALES
ThThééororèème:me:est le seul estimateur linest le seul estimateur linééaire sans biaisaire sans biais
de Tde T
Pour une moyenne Pour une moyenne
i
i s i
yT
Y i
i s i
yYN
1
3434
SONDAGE A PROBABILITÉS INÉGALESExemple (Ardilly) : nombre dExemple (Ardilly) : nombre d’’habitants Y inconnu, nombre de logements X connu. habitants Y inconnu, nombre de logements X connu.
Estimation du nombre moyen dEstimation du nombre moyen d’’habitants par tirage habitants par tirage àà
probabilitprobabilitéés s proportionnelles au nombre de logementsproportionnelles au nombre de logements
3535
SONDAGE A PROBABILITÉS INÉGALESEchantillons de deux communes:Echantillons de deux communes:
3636
SONDAGE A PROBABILITÉS INÉGALES
Si N est inconnu:Si N est inconnu:
LL’’estimateur de N est donc:estimateur de N est donc:
DD’’ooùù::
N
iN
1
1
ˆi s i
N
1
( )i s i
E N
1
3737
SONDAGE A PROBABILITÉS INÉGALES
Estimateur de Estimateur de HajekHajek::
Poids alPoids alééatoires de somme 1.atoires de somme 1.
Estimateur lEstimateur lééggèèrement biaisrement biaiséé
ˆ i
i s i si i
yY
11
3838
SONDAGE A PROBABILITÉS INÉGALES
Un cas gênant:Un cas gênant:
CommeComme
alorsalors
Mais:Mais:
iY C
i
i s i si i
Y CyN N
1 1
i s i
N
1 y C
( )E y C
3939
SONDAGE A PROBABILITÉS INÉGALES
Variance:Variance:
si n fixe fsi n fixe formule de Yatesormule de Yates--GrundyGrundy
::
( )N N
ji ii ij i j
i i ji i j
YY YV T
2
1
1
( )N
jii j ij
i j i j
YYV T
212
4040
SONDAGE A PROBABILITÉS INÉGALES
Estimation de la variance (par HorvitzEstimation de la variance (par Horvitz--Thomson):Thomson):
PremiPremièère formule:re formule:
peut être peut être < 0< 0
DeuxiDeuxièème formule: me formule:
ˆ( ) i j i jii i j
i s i j si i j ij
V T y y y
2
2
1
,
ˆ( ) j i j iji
i j s i j ij
yyV T
212
4141
SONDAGE A PROBABILITÉS INÉGALES
La formule de Yates Grundy montre que La formule de Yates Grundy montre que ll’’on a inton a intéérêt rêt àà
tirer proportionnellement tirer proportionnellement
aux valeurs daux valeurs d’’une variable auxiliaire X une variable auxiliaire X corrcorréélléée (positivement!) e (positivement!) àà
Y.Y.
IntIntééressant en cas dressant en cas d’’effet taille (CA, nb effet taille (CA, nb dd’’employemployéés, bs, béénnééficefice……))
4242
SONDAGE A PROBABILITÉS INÉGALES
Calcul des probabilitCalcul des probabilitéés ds d’’inclusion inclusion
Exemple: tirage de 3 individus parmi 6 Exemple: tirage de 3 individus parmi 6 proportionnellement proportionnellement àà
xx11
=300 x=300 x22
=90 x=90 x33
=70 x=70 x44
=50 x=50 x55
=20 x=20 x66
=20=20
ii N
ii
nx
x
1
4343
SONDAGE A PROBABILITÉS INÉGALES
UnitUnitéés ss séélectionnlectionnéées des d’’office et unitoffice et unitéés s tirtiréées au hasard.es au hasard.
InfinitInfinitéé
de plans de sondage pour des de plans de sondage pour des i i
fixfixéés. s.
4444
Sondage systématique à
probabilités inégales
On cumule pour tous les individus les probabilitOn cumule pour tous les individus les probabilitéés s d'inclusion:d'inclusion:
VV
kk
= = 11
+ + 22
+ ...+ + ...+ kk
On gOn géénnéére une seule rre une seule rééalisation alisation u u de la loi de la loi U[0,1[U[0,1[
On sOn séélectionne lectionne k k tel que tel que VV
kk--11
u < Vu < V
kk
puis puis i i tel quetel queVV
ii--11
u + 1 < Vu + 1 < V
ii
puis puis j j tel que tel que VV
jj--11
u + 2 < Vu + 2 < V
jj
etc ... on obtient in fine etc ... on obtient in fine n n individusindividus
4545
SimplicitSimplicitéé
InconvInconvéénients: nients:
certaines probabilitcertaines probabilitéés ds d’’inclusion dinclusion d’’ordre 2 ordre 2 peuvent être nullespeuvent être nulles
DDéépend de lpend de l’’ordre du fichierordre du fichier
Tri alTri alééatoire avant tirage?atoire avant tirage?
46464646
NOMBRES ALEATOIRES et PSEUDO-ALEATOIRES
G.Saporta, P.Périé
et S.Rousseau, octobre 2011
Utiles pour rUtiles pour rééaliser des tirages et simuler des aliser des tirages et simuler des phphéénomnomèènes alnes alééatoiresatoires
Nombres alNombres alééatoires: suite de ratoires: suite de rééalisations alisations indindéépendantes dpendantes d’’une variable uniforme sur [0;1]une variable uniforme sur [0;1]
Peuvent être obtenus par des procPeuvent être obtenus par des procééddéés physiques:s physiques:
roues de loterie, roues de loterie,
ééclairage clairage àà
intervalles irrintervalles irrééguliers d'un disque divisguliers d'un disque diviséé
en 10 en 10 secteurs isomsecteurs isoméétriques et numtriques et numéérotrotéés de 0 s de 0 àà
9 : table de 9 : table de
Kendall et Babington SmithKendall et Babington Smith
47474747
Nombres pseudo aléatoires
ProcProcééddéés ds dééterministes mais fournissant terministes mais fournissant une suite de nombres en apparence iid sur une suite de nombres en apparence iid sur [0; 1][0; 1]
Suites mathSuites mathéématiquesmatiques
ddéécimales de cimales de , des tables de logarithmes, des tables de logarithmes
ProcProcééddéés arithms arithméétiquestiques
Milieu du carrMilieu du carréé
de Von Neumann (1946)de Von Neumann (1946)
48484848
On part d'un nombre entierOn part d'un nombre entier
On lOn l’é’éllèève au carrve au carréé
On extrait les chiffres du centre comme nombres alOn extrait les chiffres du centre comme nombres alééatoires.atoires.
Exemple : xExemple : x
00
= 7534= 7534(7534)(7534)22
==
56 7611 5656 7611 56
(7611)(7611)22
==
57 9273 2157 9273 21
(9273)(9273)22
==
85 9885 2985 9885 29
(9885)(9885)22
==
97 7132 2597 7132 25
........
d'od'oùù
la suite 7611 9273 9885 7132 la suite 7611 9273 9885 7132
InconvInconvéénients majeurs : dnients majeurs : déépendance au nombre de dpendance au nombre de déépart et part et rréégularitgularitéés nombreuses (permanence de 0 ou de ss nombreuses (permanence de 0 ou de sééries ries particuliparticulièères).res).
49494949
MMééthodes de congruencethodes de congruenceElles reposent sur des suites récurrentes :
choix arbitraire d’un entier x 0
appelé
germe (ou seed ou graine)
génération d’une séquence (x1
,..., xn ) d’entiers :Xi+1 =a xi +b (modulo m) pour i = 1, ..., n ,
où
a, b et m sont des entiers appelés respectivement multiplicateur, incrément et modulo.
On vérifie : 0< xi < m pour i 1, ..., n .
Intérêt : les nombres u1
...,un
où
forment un échantillon pseudo-aléatoire de la loi uniforme sur [0,1] si les entiers a, b et m sont «
bien »
choisis.
ixum
Intuition de l’horloge : les heures 9h et 21 sont Congrues modulo 12
50505050
Le procédé
étant déterministe, ces nombres sont dits pseudo-aléatoires.
Exemple : x0 = 1 ; a = 6 ; b = 0 ; m = 25x0
= 1 x1 = 6 [25] = 6 x2
= 36[25] =11x3
= 66[25] = 16 x4
= 21 x5 = 1 = x0Ce cycle a pour longueur 5.
Remarque :
La séquence xi
i=1,...,n contient au plus m termes distincts.
Cette suite est donc périodique de période p avec p m Si p = m, la période est dite pleine.
51515151
Choix des entiers a, b et m :
Ils sont déterminés de telle sorte que la séquence ait les meilleures propriétés possibles.
En particulier, m est pris aussi grand que possible pour assurer une grande variété
de valeurs dans la suite xi
Hull et Dobell (1962) ont montré
que les séquences de
période pleine sont obtenues si et seulement si :
b et m sont premiers entre eux,
(a-1) est un multiple de chaque nombre premier qui divise m
si m est un multiple de 4 alors (a-1) aussi
Un algorithme très usité
est la méthode congruentielle de Lehmer (1948) qui pose b = 0.
52525252
MMééthode de Lehmer :thode de Lehmer :xx
i+1i+1
=ax=ax ii
(m)(m)(Sur machines 32 bits m aussi grand que possible (Sur machines 32 bits m aussi grand que possible
m=2m=23131--1)1)
choix classiques:choix classiques:
a=7a=755
=16807 m=2=16807 m=23131--11
a= 2a= 21616+3=65539 m=2+3=65539 m=23131--11
a=279470273 m=4294967291a=279470273 m=4294967291
Remarque : a= 2Remarque : a= 21616+3=65539 m=2+3=65539 m=23131--1 : 1 : RANDURANDU(introduit dans les ann(introduit dans les annéées 1960, sur des machines IBM. Il est tres 1960, sur des machines IBM. Il est trèès s impopulaire car il possimpopulaire car il possèède de nombreux biais auxquels ont dde de nombreux biais auxquels ont dûû
faire face les faire face les
personnes qui l'ont utilispersonnes qui l'ont utiliséé).).
5353
RANDURANDU
a= 2a= 21616+3=65539 m=2+3=65539 m=23131--1 1
mm = 2= 21616
+ 3 + 3
mm²²=6m=6m--9 mod 29 mod 23131
Pb : trPb : trois nombres successifs ois nombres successifs XX
nn
XX
nn + 1+ 1
et et XX
nn + 2+ 2
vvéérifient toujours la rifient toujours la relation relation XX
nn + 2+ 2
= 6= 6XX
nn + 1+ 1
--99
XX
nn
Cette relation donne un caractCette relation donne un caractèère re ‘‘prpréédictifdictif’’
àà
la sla séérie pseaudo alrie pseaudo alééatoire: par atoire: par exemple, une modification des valeurs de exemple, une modification des valeurs de XX
nn
et et XX
nn + 1+ 1
de l'ordre de 0,01, de l'ordre de 0,01, change la valeur de change la valeur de XX
nn + 2+ 2
d'au plus 0,15. d'au plus 0,15.
Pour avoir un "bon" gPour avoir un "bon" géénnéérateur, on souhaite une relation avec des rateur, on souhaite une relation avec des coefficients beaucoup plus grands, de telle manicoefficients beaucoup plus grands, de telle manièère qu'une petite re qu'une petite modification de modification de XX
nn
et et XX
nn + 1+ 1
change complchange complèètement tement XX
nn + 2+ 2
5353
54545454
http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file
http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file
55555555
Solutions variSolutions variéées: congruences avec retard es: congruences avec retard xi = a xi -r
+b [m]
Exemple: rr
i+1i+1
=(1664525r=(1664525r
ii
+1013904223) m = 2+1013904223) m = 232 32
(Numerical Recipes in C(Numerical Recipes in C ))
Nombreux tests pour valider le caractère uniforme et l’indépendance des réalisations
Chi-deux, Kolmogorov, tests de séquences, de non corrélation
56565656
estimation de
http://wwwhttp://www-- sop.inria.fr/mefisto/java/tutorial1/node15.html#SECTION000331200sop.inria.fr/mefisto/java/tutorial1/node15.html#SECTION0003312000000000000
000000000000
57575757
Calcul d’intégrales: méthode de Monte Carlo
PremiPremièère mre mééthodethode
::
on simule on simule nn valeurs de valeurs de UU
DeuxiDeuxièème mme mééthode:thode:
fonction dfonction d’’importanceimportance
T variable sur [0T variable sur [0
;1] de densit;1] de densitéé
p(t) p(t)
1
0( ) ( ( ))I g t dt E g U
1
1ˆ ( )n
ii
I g un
1
0
( ) ( )( )( ) ( )
g t g TI p t dt Ep t p T
1
( )1ˆ( )
ni
i i
g tIn p t
5858
Générateurs pseudo-aléatoires cryptographiques
Doivent être capable de produire des sDoivent être capable de produire des sééries dont le ries dont le caractcaractèère pseudo alre pseudo alééatoire est moins discernable pour atoire est moins discernable pour mméériter ce titreriter ce titre
……
Mais plus lentsMais plus lents
Un gUn géénnéérateur congruenciel rapide et possrateur congruenciel rapide et posséédant de dant de bonnes propribonnes propriééttéés : Mersenne Twister (1997)s : Mersenne Twister (1997)
Mais nMais n’’est pas considest pas considéérréé
comme gcomme géénnéérateur rateur
cryptographiquecryptographique
UtilisUtiliséé
dans SPSS dans SPSS àà
partir de la version 12partir de la version 12
5858
59595959
ALGORITHMES DE TIRAGE
QualitQualitéés souhaits souhaitéées:es:
Sans remiseSans remise
SSééquentielquentiel
RapideRapide
Respecte les probabilitRespecte les probabilitéés ds d’’inclusioninclusion
De taille fixeDe taille fixe
Utilisable si N est inconnuUtilisable si N est inconnu
Etc.Etc.
6060
Une méthode inefficace : énumération puis sélection
(Yves Till(Yves Tilléé, , ‘‘Sampling AlgorithmsSampling Algorithms’’
p 31)p 31)
Si le plan de sondage est connu, et que la population nSi le plan de sondage est connu, et que la population n’’est par trop est par trop large, une mlarge, une mééthode pour sthode pour séélectionner un lectionner un ééchantillon est lchantillon est l’’approche approche éénumnuméérative : rative : éénumnuméérer tous les rer tous les ééchantillons possibles, puis en chantillons possibles, puis en sséélectionner 1 au hasard.lectionner 1 au hasard.……
mmééthode pure et simple conceptuellement mais impossible dthode pure et simple conceptuellement mais impossible dèès que s que
la population dla population déépasse quelques dizainespasse quelques dizaines
LL’’objectif des algorithmes de tirage est de tirer un objectif des algorithmes de tirage est de tirer un ééchantillon en chantillon en respectant le plan de sondage et en respectant le plan de sondage et en éévitant une vitant une éénumnuméération complration complèète te au prau prééalablealable
6060
6161
Classes de méthodes (Yves Tillé
pp 32 –
39)
MartingalesMartingales
Algorithmes sAlgorithmes sééquentielsquentiels
SSéélection pas lection pas àà
paspas
Par Par ééliminationlimination
Sondages rSondages rééjectifsjectifs
6161
6262
Notion d’entropie
6262
On montre aisOn montre aiséément que I(p) est toujours positif. ment que I(p) est toujours positif.
Plus lPlus l’’entropie est entropie est éélevlevéée, plus le plan de sondage est en un certain e, plus le plan de sondage est en un certain cas alcas alééatoireatoire
A dA dééfaut dfaut d’’information auxiliaire, on peut chercher le plan le plus information auxiliaire, on peut chercher le plan le plus alalééatoire (au sens de latoire (au sens de l’’entropie) qui ventropie) qui véérifie les probabilitrifie les probabilitéés ds d’’inclusion inclusion fixfixééeses
63636363
Plans à
probabilités égales sans remise
64646464
Plans à
probabilités égales sans remise
Tirage de Bernoulli:Tirage de Bernoulli:
on tire N nombres alon tire N nombres alééatoires. Latoires. L’’unitunitéé
i est retenue si Ui est retenue si U
ii
<<
. .
65656565
Tirage de BernoulliTirage de Bernoulli
66666666
Tri alTri alééatoireatoire
67676767
SSéélectionlection--rejetrejetsi Usi U
11
<n/N on prend l<n/N on prend l’’unitunitéé
1. Puis n=n1. Puis n=n--1 et N=N1 et N=N--1. On s1. On séélectionne lectionne ll’’unitunitéé
2 si U2 si U
22
<n<n--1/N1/N--11Si USi U
11
>n/N, on passe >n/N, on passe àà
ll’’unitunitéé
2 avec N=N2 avec N=N--1. On s1. On séélectionne llectionne l’’unitunitéé 2 si U2 si U
22
<n/N<n/N--1 etc.1 etc.
j= nb d’unitésdéjà
sélectionnées
68686868
MMééthode de mise thode de mise àà
jour de ljour de l’é’échantillonchantillon
69696969
70707070
Pas alPas alééatoires atoires
Tirer U et trouver s tel que Tirer U et trouver s tel que
sséélectionner llectionner l’’unitunitéé
s+1, faire N=Ns+1, faire N=N--ss--1 et n=n1 et n=n--1 etc.1 etc.
et aussi le tirage systet aussi le tirage systéématiquematique……
11nN s
nN
CUC
71717171
Tirage systTirage systéématiquematique
DDééfinir un finir un paspas
de tirage = N/n (entier par arrondi) de tirage = N/n (entier par arrondi)
Tirer une unitTirer une unitéé
au hasard au dau hasard au déébut du fichier entre 1 but du fichier entre 1
et et paspas
SSéélectionner une unitlectionner une unitéé
tous les tous les paspas
Avantages: simplicitAvantages: simplicitéé, N pas n, N pas néécessairement connu a cessairement connu a priori, peut être plus efficace que le tirage alpriori, peut être plus efficace que le tirage alééatoire si atoire si le fichier est trile fichier est triéé
selon une variable bien corrselon une variable bien corréélléée e àà
la la
variable dvariable d’’intintéérêt (cf cours sur le sondage en grappes)rêt (cf cours sur le sondage en grappes)
72727272
InconvInconvéénientsnients
Si pSi péériodicitriodicitéé
dans le fichier (Ardilly)dans le fichier (Ardilly)
73737373
Probabilités inégales sans remise
InfinitInfinitéé
de plans de sondage pour des de plans de sondage pour des
i i fixfixééss
Plus de 50 mPlus de 50 mééthodes de tirage! Aucune ne satisfait tous les thodes de tirage! Aucune ne satisfait tous les critcritèères.res.
Quelques techniques simples:Quelques techniques simples:
Tirage avec remise et conservation des unitTirage avec remise et conservation des unitéés distinctes mais s distinctes mais taille non fixetaille non fixe
Rejet de lRejet de l’é’échantillon si il y a des doublons mais proba chantillon si il y a des doublons mais proba dd’’inclusion non proportionnelles aux xinclusion non proportionnelles aux x
ii
74747474
Tirage successif sans remise:Tirage successif sans remise:
On recalcule les probas dOn recalcule les probas d’’inclusion aprinclusion aprèès tirage de s tirage de chaque individu. Si j est tirchaque individu. Si j est tiréé: :
Ne respecte pas les probas dNe respecte pas les probas d’’inclusion dinclusion d’’ordre 1ordre 1
Tirage poissonnien: sTirage poissonnien: séélectionner i si Ulectionner i si U ii
<<ii
ijij
= = ii
j j variance simplevariance simple
Mais taille non fixeMais taille non fixe
' ii
j
1
75757575
(S.Rousseau, 2004)Tirage poissonnien
76767676
MMééthode de Sunter thode de Sunter (g(géénnééralisation de la mralisation de la mééthode de thode de sséélectionlection--rejet)rejet)
77777777
78787878
MMééthode RHC (Rao, Hartley,Cochran)thode RHC (Rao, Hartley,Cochran)
Pour un tirage Pour un tirage àà
probabilitprobabilitéés proportionnelles s proportionnelles àà
la la
taille Xtaille X
Trier les unitTrier les unitéés dans un ordre als dans un ordre aléétaoiretaoire
TronTronççonner le fichier en n groupes successifs de N/n onner le fichier en n groupes successifs de N/n unitunitééss
Tirer dans chaque groupe Tirer dans chaque groupe uneune
unitunitéé
proportionnellement proportionnellement àà
la taillela taille
Simple et performantSimple et performant
Remarque: procRemarque: procééddéé
««
inexactement proportionnel inexactement proportionnel àà
la la
tailletaille
»»
car les groupes ne sont pas de même taille car les groupes ne sont pas de même taille
7979
SONDAGES STRATIFIES
Gilbert Saporta, Philippe Périé
(IPSOS)
8080
Information auxiliaire
8181
STRATIFICATION
IdIdéée :e :
SS’’il existe dans la base de sondage un critil existe dans la base de sondage un critèère permettant de re permettant de distinguer a priori entre eux les individus, on aura tout distinguer a priori entre eux les individus, on aura tout àà
gagner gagner
àà
utiliser cette information pour rutiliser cette information pour réépartir lpartir l’é’échantillon dans chantillon dans chaque souschaque sous--population. population.
CC’’est le principe de la stratification: dest le principe de la stratification: déécouper la population en couper la population en sous ensembles homogsous ensembles homogèènes appelnes appeléés strates et rs strates et rééaliser un aliser un sondage dans chacune dsondage dans chacune d’’elles.elles.
La stratification a pour objectifs de pour objectif de La stratification a pour objectifs de pour objectif de diminuer la variance, augmenter la prdiminuer la variance, augmenter la préécisioncision
8282
Intuition
8282
Dans un sondage aléatoire simple, toutes les combinaisons de n éléments parmi N sont possibles avec la même probabilité.
Or, il arrive que certaines d’entre elles puissent s’avérer a priori indésirablesN=5Variable d’intérêt Y {13 15 17 25 30} dépôt en k€Ymoy = 20
Recensement des résultats possibles n=2
Par exemple, parmi ces échantillons de 2 unités, on trouve les cas extrêmes (13, 15) et (25, 30) qui sont particulièrement « mauvais ».
S’il existe dans la base de sondage un critère permettant de distinguer a priori les catégories des petits et gros clients, on aura tout à gagner à utiliser cette information pour répartir l’échantillon dans chaque sous- population.
8383
Intuition
8383
Le principe de la stratification :
Découper la population en sous-ensembles appelés strates et réaliser un sondage dans chacune d’elles : on espère ainsi exclure les échantillons extrêmes, et - plus généralement – améliorer la précision des estimateurs(On a vu qu’à taille égale un échantillon est plus efficace dans une population homogène que dans une population hétérogène. Plus précisément, l’erreur type d’estimation est lié à la variance du caractère étudié dans la population.)
Chaque sondage partiel s’effectuera ainsi de façon plus efficace et l’assemblage de sondages partiels plus précis donnera des résultats plus fiables qu’un sondage de même taille effectué « en vrac »
La plupart des fois la stratification correspond par ailleurs à un objectif de réduction des coûts d’enquête ou d’optimisation de sa gestionC’est en particulier le cas lorsque l’on utilise un critère de découpage géographique comme la région, ou, dans les échantillon d’entreprise, un critère sectoriel permettant de spécialiser les enquêteurs
8484
Intuition
8484
L’unité échantillonnée dans la première strate est désignée pour en représenter trois, celle de la deuxième strate vaut pour deux. Il convient donc de pondérer chaque valeur par le poids de la strate dont elle est issue
N=5Variable d’intérêt Y {13 15 17 25 30} dépôt en k€Ymoy = 20
Échantillons avec stratification n=2 (un chez les petits, un chez les grands)
1 23 25 5moyy y y
On peut vérifier que la moyenne des six valeurs réalisables pour ymoy est encore 20. Cela signifie que la variable aléatoire ymoy a Ymoy pour espérance mathématique et qu’elle est donc un estimateur sans biais pour ce paramètre.
8585
Intuition
8585
On remarque également que la plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas du SAS : les valeurs extrêmes sont moins éloignées, l’erreur type (c’est-à-dire la racine carrée de la variance des six valeurs) vaut 1,40 au lieu de 3,95.
N=5Variable d’intérêt Y {13 15 17 25 30} dépôt en k€Ymoy = 20
Échantillons avec stratification n=2 (un chez les petits, un chez les grands)
8686
STRATIFICATIONDDééterminer des strates les plus homogterminer des strates les plus homogèènes possibles, par rapport au nes possibles, par rapport au sujet sujet éétuditudiéé..
2 types de consid2 types de considéérations vont conduire au choix des critrations vont conduire au choix des critèères de res de stratification :stratification :1. disponibilit1. disponibilitéé
des critdes critèères dans la base de sondage ;res dans la base de sondage ;
2. pertinence des diff2. pertinence des difféérents critrents critèères pour crres pour crééer des strates er des strates homoghomogèènes. nes.
Ceci nCeci néécessite une connaissancecessite une connaissance••
soit intuitive,soit intuitive,
••
soit venant dsoit venant d’é’études rtudes rééalisaliséées antes antéérieurement.rieurement.
8686
87878787
STRATIFICATION
UUtilisation dtilisation d’’uneuneinformation auxiliaireinformation auxiliairequalitativequalitative
Toujours efficaceToujours efficace
kj
P1
P2
PH
S1S2
88888888
STRATIFICATION, notations
Strates:Strates:
ÉÉchantillon:chantillon:
1 2 h HN , N ......N .......N
, ....... .......h HY Y Y Y1 2
2 2 2 21 , .... .....h H 2
hN Nh
hNY YN
h h
h hN N Y YN N
22 2
1 2, ,......... ,...........h Hn n n n
1 2, ,........ ,...........h Hy y y y
2 2 2 21 2ˆ ˆ ˆ ˆ, ,..... ............h H
hn nh
hny yn
kj
P1
P2
PH
S1S2
89898989
STRATIFICATION
Variance totale=Variance totale=moyenne des variances (moyenne des variances (variance intravariance intra))
+variance des moyennes (+variance des moyennes (variance intervariance inter) )
h hh h W B
N N Y YN N
22 2 2 2
9090
STRATIFICATION
Pour la suite, on se placera dans le cas dPour la suite, on se placera dans le cas d’’un un tirage altirage alééatoire simple sans remiseatoire simple sans remise, , àà
ll’’intintéérieur de chaque strate.rieur de chaque strate.
9090
91919191
STRATIFICATION
Estimateur sans biais de (Horvitz Thomson)Estimateur sans biais de (Horvitz Thomson)
Variance:Variance:
Yˆ hstr h
NY yN
ˆ( ) ( )
( )
Hh h h h h
str hh h h
Hh
h h hh h
N N N nV Y V yN N n N
SN N nN n
2 2 2
1
2
21
1
1
92929292
STRATIFICATION, répartition proportionnelle
ÉÉchantillon dit chantillon dit ««
reprrepréésentatifsentatif
»»::
Taux de sondage constant dans chaque Taux de sondage constant dans chaque stratestrate
h h hh
h
n N n nn N N N
1 1
ˆ ˆH Hh h
str h h proph h
N nY y y y YN n
93939393
STRATIFICATION, répartition proportionnelle
variance :variance :
Si Si NNhh
est grandest grand::
ˆ( ) ( )
( ) ( )
H Hh h h
prop h h h h hh hh h
H H Hh h
h h h h hh h hh
S N nV Y N N n N SN n N n
N N N n NN S N S SN n N n nN N
22
2 21 1
2 2 22 2
1 1 1
1 1
1 11 1
ˆ( )H H
h h wprop h h
h h
N n N N n N N nV Y SnN N nN N N n
22 2
1 1
94949494
STRATIFICATION, répartition proportionnelle
Variance de lVariance de l’’estimateur du SAS sans remise:estimateur du SAS sans remise:
Avec les mêmes probabilitAvec les mêmes probabilitéés ds d’’inclusion dinclusion d’’ordre 1, ordre 1, ll’é’échantillon stratifichantillon stratifiéé
reprrepréésentatif est plus efficace sentatif est plus efficace
ququ’’un un ééchantillon simple de même taille dchantillon simple de même taille dèès que s que les sont diffles sont difféérents.rents.hY
( ) ( )n S N n S N nV yN n N n N n
2 2 2
1
95959595
STRATIFICATION optimale
RRéépartition optimale:partition optimale:
avec avec
cchh
––
cocoûût unitaire dt unitaire d’’une observationune observation
22
1( ) h h hstr h
h
N N nV Y S
N n
2 2
1
h
h hh
NSN
2
0
m in
h h hh
h
h h
N N nS
nn c c
22 2
hh h h
h fixe
N S N Sn
96969696
STRATIFICATION optimale
Solution:Solution:
proportionnel proportionnel àà
cchh
Si cSi chh
constant:constant:
--
RRéépartition de Neymanpartition de Neyman
2 2
2h h
h
N Sn
h h
h h
n SN c
h hh
h h
N Sn nN S
9797
STRATIFICATION optimale
Cette rCette réépartition utilise un taux de sondage partition utilise un taux de sondage f f proportionnel proportionnel àà
la dispersion la dispersion SShh
de de X X éétuditudiéée e dans chaque strate.dans chaque strate.
Plus une strate est hPlus une strate est hééttéérogrogèène visne vis--àà--vis de vis de la la variable variable éétuditudiéée, plus on utilise un taux de e, plus on utilise un taux de sondage important.sondage important.
La thLa thééorie montre que cette rorie montre que cette réépartition est celle partition est celle qui fournit la variance la plus faible une fois les qui fournit la variance la plus faible une fois les strates dstrates dééterminterminéées.es.
9797
9898
STRATIFICATION optimale
Remarquons que lRemarquons que l’é’échantillon de Neyman chantillon de Neyman ddéépend du caractpend du caractèère que lre que l’’on veut estimer en on veut estimer en prioritprioritéé. C. C’’est pour ce caractest pour ce caractèère que lre que l’’on prendra on prendra la variance en considla variance en considéération. ration.
En gEn géénnééral, celleral, celle--ci ne sera pas connue ci ne sera pas connue a prioria priori. . Elle pourra être estimElle pourra être estiméée e àà
partir dpartir d’’une enquête une enquête
antantéérieure ou drieure ou d’é’études limittudes limitéées.es.
9898
99999999
STRATIFICATION
Exemple nExemple n°°
1: pr1: préésondage de 155 unitsondage de 155 unitééssStratesStrates 11 22 33 44
NNhh37503750 32723272 13871387 24752475 10 88410 884
nnhh5050 4545 3030 3030 155155
12.612.6 14.514.5 18.618.6 13.813.8
2.82.8 2.92.9 4.84.8 3.23.2
hy
2ˆh
100100100100
STRATIFICATION
Exemple nExemple n°°
1:1:
Intervalle de confiance Intervalle de confiance àà
95% pour :95% pour :
Pour T:Pour T:
x x3750 12.6 ..... 2475 13.8 14.21
10884h
hNY yN
22
2ˆ ( ) 0 .02059 (0 .14 )hh
h
NV YN n
Y
x14.21 2 0.14 soit: 13.93 Y 154662 3047
101101101101
STRATIFICATION
Exemple nExemple n°°
1:1:
On estime: par On estime: par
par par
parpar
2
2 2h hh h
N N Y YN N
2h 2
1
hh
h
nn
hYhy
Y
2 26.06 2.46
ˆstrY
ˆstrY
102102102102
STRATIFICATION
Suite: RSuite: Réépartition de Neyman pour n=1000:partition de Neyman pour n=1000:
NN11
SS11
= 6275= 6275 nn11
= 1000 x 6275/19 312 = 325= 1000 x 6275/19 312 = 325NN22
SS22
= 5572= 5572 nn22
= 288= 288NN33
SS33
= 3038= 3038 nn33
= 157= 157NN44
SS44
= 4427= 4427 nn44
= 229= 22919 31219 312
Variance:Variance:
connu connu àà
++
2 x 0.0542 soit 2 x 0.0542 soit ++
0.1080.108T connu T connu àà
++
11791179
222
1 0.0029 0.0542h h hh
h
N N nS
N n
Y
103103103103
STRATIFICATION
ÉÉchantillon simple chantillon simple àà
1000:1000:
connu connu àà
++
0.15; T connu 0.15; T connu àà
++
16151615
ÉÉchantillon stratifichantillon stratifiéé
reprrepréésentatif:sentatif:nn11
= 345= 345nn22
= 301= 301nn33
= 127= 127nn44
= 227= 227
2
20.0055 0.07421
N nn N
Y
104104104104
STRATIFICATION
Estimation dEstimation d’’une proportion pune proportion p
Même dMême déémarche: une proportion est une marche: une proportion est une
moyenne particulimoyenne particulièèrere
12
1
2
1
ˆ
(1 )ˆ( )1
(1 )ˆ ˆ( ) 1
Hh
str hh
Hh h h h h
strh h h
Hh h h h
strh h h
Np fN
N p p N nV pN n N
N f f nV pN n N
105105105105
STRATIFICATION
Comment stratifier?Comment stratifier?
Remarque prRemarque prééalable: dans un sondage alable: dans un sondage àà
probabilitprobabilitéé ininéégale gale i i proportionnel proportionnel àà
YYii
annule la variance.annule la variance.
Nombre de strates: le maximum maisNombre de strates: le maximum mais……
Limites de strates optimales:Limites de strates optimales:mmééthode de Dalenius et Hodges. Regrouper des thode de Dalenius et Hodges. Regrouper des
classes selon le cumul de la racine des effectifsclasses selon le cumul de la racine des effectifs
106106106106
STRATIFICATION
RRéépartition dans les strates:partition dans les strates:Si Sh Si Sh inconnu : répartition proportionnelleSi Sh connu: NeymanSi Sh connu: Neyman Sinon, hypothSinon, hypothèèse frse frééquente dquente d’’ooùù
nnhh
proportionnel proportionnel àà
la somme de la variable la somme de la variable éétuditudiéée ou e ou dd’’une variable corrune variable corréélléée. e. Exemple: Exemple: ééchantillon dchantillon d’’entreprises proportionnel au CA entreprises proportionnel au CA ou ou àà
ll’’effectif de la strate.effectif de la strate.
h
h
S cY
107107107107
STRATIFICATION
Variable de stratification: en thVariable de stratification: en thééorie Y; orie Y; sinon, variable bien corrsinon, variable bien corréélléée avec Y.e avec Y.
En pratique quand il y a plusieurs En pratique quand il y a plusieurs variables dvariables d’’intintéérêt et une variable de rêt et une variable de stratification, on utilise la rstratification, on utilise la réépartition partition proportionnelle proportionnelle
108108
Exemples
Enquêtes INSEE auprEnquêtes INSEE auprèès des entreprises, sondages B2B en s des entreprises, sondages B2B en institut.institut.
« Le plan de sondage des enquêtes de l'INSEE auprès des entreprises est en général un plan de sondage stratifié
avec un sondage aléatoire simple sans remise dans chaque strate. »
108108
109109
Exemples
Indice des prixIndice des prixhttp://www.insee.fr/fr/methodes/default.asp?page=sources/opehttp://www.insee.fr/fr/methodes/default.asp?page=sources/ope--ipc.htmipc.htm
«
Le plan de sondage est stratifié
selon trois types de critères :
-
critère géographique : les relevés sont effectués dans 96 agglomérations de plus de 2 000 habitants dispersées sur le territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ;
-
type de produit : un échantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est défini pour tenir compte de l'hétérogénéité
des produits au sein des postes. La variété
est le niveau de base pour le suivi des produits et le calcul de l'indice. La liste des variétés reste confidentielle et l'IPC n'est pas diffusé
à
ce niveau ;
-
type de point de vente : un échantillon de 27 000 points de vente, stratifié
par forme de vente, a été
constitué
pour représenter la diversité
des produits et modes d'achat des consommateurs et prendre en compte des variations de prix différenciées selon les formes de vente.
Le croisement de ces différents critères aboutit à
suivre un peu plus de 140 000 séries (produits précis dans un point de vente donné) donnant lieu à
près de 160 000 relevés mensuels.
»
109109
110110
Taille des strates Autres considérations
Dans la pratique, dDans la pratique, d’’autres considautres considéérations que la prrations que la préécision cision optimale peuvent guider loptimale peuvent guider l’’allocation dans les strates, allocation dans les strates, comme la ncomme la néécessitcessitéé
dd’’avoir des bases de lectures avoir des bases de lectures
suffisantes sur chaque stratesuffisantes sur chaque strate
LL’é’étude dtude d’’audience de la presse audience de la presse ‘‘Audipresse ONEAudipresse ONE’’
part dpart d’’une une rréépartition gpartition gééographique proportionnelle, ographique proportionnelle, àà
partir de laquelle on partir de laquelle on
impose des seuils minimaux dans chaque dimpose des seuils minimaux dans chaque déépartement. partement.
Citons aussi le type dCitons aussi le type d’’abonnement pour le secteur des tabonnement pour le secteur des téélléécoms, les coms, les classes dclasses d’’anciennetanciennetéé, les canaux de recrutement des client pour les , les canaux de recrutement des client pour les éétudes de satisfaction, tudes de satisfaction, ……..
110110
111111
SONDAGE A DEUX DEGRÉS
Population dPopulation déécoupcoupéée en souse en sous--populations dites populations dites unitunitéés primaires s primaires DDééfinition: tirage de finition: tirage de mm unitunitéés primaires puis de s primaires puis de nnii
unitunitééss
secondairessecondairesAvantages: Avantages:
frais de dfrais de dééplacement rplacement rééduitsduits absence de liste autorisabsence de liste autorisééee
Mais:Mais:
prpréécision moindre: effet de grappe.cision moindre: effet de grappe.
Taille dTaille d’é’échantillon en gchantillon en géénnééral alral alééatoireatoire
112112
SONDAGE A DEUX DEGRÉS MM unitunitéés primaires de taille s primaires de taille NN
ii
--
total de ltotal de l’’UP nUP n°°ii
Tirage alTirage alééatoire simple atoire simple àà
chaque degrchaque degréé..
Remarque: inutile de connaRemarque: inutile de connaîître N pour estimer T.tre N pour estimer T.
22
2 ,2 21
in t in t
1 1 iii
i i
V a r ia n c e V a r ia n c ee r r a
U P U P
SnSm MV T M NM m m N n
2
22,
1
11
iN
ii ijii
S Y YN
i
iij
i s j Si
M NT ym n
2
21
1
11
M
ii
S T TM
1
M
ii
N N
1
N i
i i jj
T Y
113113
SONDAGE A DEUX DEGRÉS
estimestiméé
par si m>1par si m>1
idem pour Sidem pour S22 2,i2,i
Si nSi n
ii
proportionnel proportionnel àà
NN
ii
::
taille dtaille d’é’échantillon alchantillon alééatoireatoire
21S 2
21
1
11
m
ii
Ts Tm M
00 0 0 ( ) ( )
i i
i i ii s
i S k U
N N N m n mn n E n E n nN N N M M
114114
SONDAGE A DEUX DEGRÉS
Sondage autopondSondage autopondéérréé::--
m unitm unitéés primaires tirs primaires tiréées es àà
probabilitprobabilitéés proportionnelles s proportionnelles àà
leur tailleleur taille--
tirage dtirage d’é’échantillons de taille fixe nchantillons de taille fixe n
00
probabilitprobabilitéés ds d’’inclusion constantesinclusion constantes
Estimateur de la moyenne: N peut être inconnuEstimateur de la moyenne: N peut être inconnu
0 0ji
j
N n mnmN N N
Y y
115115
SONDAGES A DEUX DEGRÉS Comment améliorer la précision ?
Avant tout, construire des UP le plus Avant tout, construire des UP le plus ressemblantes possible entre elles pour limiter ressemblantes possible entre elles pour limiter les effets de grappes.les effets de grappes.
Exemple : lExemple : l’’unitunitéé
mméénage est intnage est intééressante pour ressante pour
estimer des variables comme le sexe, lestimer des variables comme le sexe, l’’activitactivitéé, l, l’’âge, âge, etc, mais elle est moins efficace pour etc, mais elle est moins efficace pour éétudier le tudier le niveau d'instruction, la CS , etc.niveau d'instruction, la CS , etc.
PrivilPriviléégier le nombre d'UP enquêtgier le nombre d'UP enquêtéées plutôt que es plutôt que le nombre d'USle nombre d'US
Tirer les UP Tirer les UP àà
probabilitprobabilitéés ins inéégalesgales
Stratifier au niveau des UPStratifier au niveau des UP
116116
CAS PARTICULIER: SONDAGE EN GRAPPES
DDééfinition: toutes les US sont observfinition: toutes les US sont observéées dans les es dans les UP tirUP tiréées.es.
««
RecensementRecensement
»»
au deuxiau deuxièème degrme degréé
Le tirage systLe tirage systéématique est un tirage dmatique est un tirage d’’une grappe. une grappe.
117117
SONDAGE EN GRAPPES
Cas gCas géénnééral :tirage de grappes ral :tirage de grappes àà
probabilitprobabilitéés s ininéégalesgales
Estimation du total:Estimation du total:
Estimation dEstimation d’’une moyenneune moyenne
pbpb
si N inconnu: utiliser lsi N inconnu: utiliser l’’estimateur de Hajekestimateur de Hajek
1
1 mi i
i i
N YYN
ˆm
i
i i
TT
1
1
1
mi i
i iHajek m
i
i i
N Y
YN
118118
SONDAGE EN GRAPPES
Tirage de grappes Tirage de grappes àà
probabilitprobabilitéés s éégalesgales
taille dtaille d’é’échantillon alchantillon alééatoireatoire
EstimationEstimation
1
1 m
iii
MY NYmN
imM
i
i s
MT Tm
2
2 11 SmV T MM m
( ) ( )i i
s i ii S k U
m NmE n E N NM M
119119
SONDAGE EN GRAPPES
Tirage de grappes Tirage de grappes àà
probabilitprobabilitéés s proportionnelles proportionnelles àà
la taille la taille
ii
NmN
1
1 m
ii
Y Ym
2
1 ( ) ( )
i i
Mi
s i i ii S i U i
N m mE n E N N NN N
2
1
1ˆ( ) (1 )( )( 1)
mi
ii
NV Y m Y Ym m N
120120
SONDAGE EN GRAPPES conseils pratiques
Faire des grappes homogFaire des grappes homogèènes en inter et nes en inter et hhééttéérogrogèènes en intra (contraire de la stratification).nes en intra (contraire de la stratification).
Faire beaucoup de grappes de tailles voisines et Faire beaucoup de grappes de tailles voisines et
petitespetites En tirer un maximumEn tirer un maximum
121121
Le tirage systématique
TrTrèès utiliss utiliséé
àà
la place dla place d’’un tirage alun tirage alééatoire atoire àà
probabilitprobabilitéés s éégalesgales
Soit N multiple de n. Par exemple on veut tirer 10 Soit N multiple de n. Par exemple on veut tirer 10 individus parmi 1000 : on commence par tirer au hasard individus parmi 1000 : on commence par tirer au hasard un nombre entier entre 1 et 100, si ce nombre est 27, le un nombre entier entre 1 et 100, si ce nombre est 27, le premier individu sera le npremier individu sera le n°°27, le deuxi27, le deuxièème le nme le n°°127 etc. 127 etc. jusqujusqu’’au nau n°°927. 927.
De faDe faççon gon géénnéérale si on a tirrale si on a tiréé
un entier h , les individus un entier h , les individus
sséélectionnlectionnéés ont les nums ont les numééros : ros : h , h+M, h+2M, h , h+M, h+2M, ……, , h+(nh+(n--1)M1)M.. Tirage dTirage d’’une seule grappeune seule grappe
parmi M=N/n grappes.parmi M=N/n grappes.
122122
Le tirage systématique
LL’’estimateur de la moyenne est simplement la moyenne de la estimateur de la moyenne est simplement la moyenne de la grappe sgrappe séélectionnlectionnéée et sa variance est e et sa variance est
Lorsque le fichier se trouve être triLorsque le fichier se trouve être triéé
selon un ordre proche de Y, la selon un ordre proche de Y, la variance peut être notablement plus faible que pour le tirage alvariance peut être notablement plus faible que pour le tirage alééatoire atoire simple. Exemple Ysimple. Exemple Y
ii
= i = i Mais la variance nMais la variance n’’est pas estimable .est pas estimable .
Voir formule Voir formule
Il est incorrect dIl est incorrect d’’utiliser la variance de lutiliser la variance de l’’estimateur du tirage alestimateur du tirage alééatoire atoire simple sauf si la base de sondage a simple sauf si la base de sondage a ééttéé
tritriéée pre prééalablement au hasard. alablement au hasard.
2
1
ˆ Mi i
i
Y N YV Y MN M
2
21
1
11
m
ii
Ts Tm M
123123
Tirage systématique: un exemple théorique
Yi =i Population triée par ordre croissant N=Kn
•Tirage équiprobable sans remise :
221 ( 1)
2 12N NY S
2 2( 1) 1 ( 1)( ) 1 112 12sr
n N KnV yN n K n
124124
• Tirage systématique :
une grappe : h, h+K, h+2K,.., h+(n-1)K
•Moyenne
•Variance
Exemple N=20 n=4
12
1 1 1 1 1( ) ( )2 2 2 2 2
h
h
nY h K
n K n nK NE Y E h K K
21 1ˆ( ) ( ) ( ) ( )2 12syst
n KV Y V h K V h V h
ˆ( ) ( )syst srV Y V y
ˆ( ) 1.33 ( ) 7.35syst srV Y V y
125125
Redressements
STA108 Enquêtes et sondages
Sylvie Rousseau, Gilbert Saporta, novembre 2011
STA108 Enquêtes et sondages
126126126126
SOMMAIRE
1.
Estimateur par le quotient (ou ratio)2.
Estimateur par la régression
3.
Estimateur post-stratifié4.
Estimateur du raking-ratio
5.
Calage sur marges
127127127127
MÉTHODES DE REDRESSEMENT OU DE REPONDÉRATION
Principe :Utiliser a posteriori une information supplémentaire corrélée avec la variable à
étudier
De sorte à
:oaccroître la précision de l’estimationoassurer la cohérence des résultats par rapport à
l’information supplémentaire
Information auxiliaire : Variables de contrôle dont on connaît :odes caractéristiques globales, oou des caractéristiques par classes, oou les valeurs pour chaque unité
de la population
128128128128
ESTIMATEUR PAR LE QUOTIENT EXEMPLE
• Cadre : • La variable auxiliaire est quantitative• On connaît le total (ou la moyenne) de cette variable sur
l’échantillon et
sur la population• On va ajuster l’estimation sur cette grandeur connue
• Exemple : o On veut estimer le CA moyen d’hypermarchés ( )o On a enquêté 80 hypermarchéso On sait que le nombre moyen de caisses dans la
population des hypermarchés est o On relève sur l’échantillon
o L’estimateur par le quotient vaut :
Y
28X
€ 2,110ˆ kY 8,28ˆ X
€ 1,10728,8282,110ˆ kYQ
129129129129
ESTIMATEUR PAR LE QUOTIENT FORMULE GÉNÉRALE
• Principe : règle de 3
• Formule générale :
• Hypothèse de proportionnalité
• Biaisé
mais négligeable si n>1000
• Gain de précision par rapport à
un PESR de même taille pourvu que l’hypothèse de proportionnalité
soit valide
X
XYYQ ˆˆˆ
130130
ESTIMATEUR PAR LE QUOTIENT INTERPRÉTATION GRAPHIQUE
130130
131131131131
ESTIMATEUR PAR LE QUOTIENT POIDS APRÈS REDRESSEMENT
• On a :
et
• Le poids après redressement de k vaut
• Le poids de sondage valaitk
1
Sk k
ky
YT
ˆ
X
XYT
sk k
kQy ˆ
ˆ
X
X
kk TT
X
Xˆ
1ˆ
1
132132132132
ESTIMATEUR PAR LE QUOTIENT ESPÉRANCE
• Cas général
o Dans le cas d’un PESR de n parmi N :
• Biais en 1/n
• Biais nul si Y et X sont proportionnelles (droite de régression passant par l’origine)
i.e.
o Dans le cas d’un PESR :
YX
YXCov
X
XVarYYE Q
ˆ,ˆ
²
ˆ
1ˆ
YXS
XS
NnYYE yxx
Q,
2
²111ˆ
Biais
RXY
XVar
YXCov
ˆ
ˆ,ˆ
RXY
S
S
x
yx 2,
kkk uRXY
133133133133
ESTIMATEUR PAR LE QUOTIENT ESPÉRANCE
• Développement limité
en 0 avec soit
XXXXRYXRY
XRYXXYY
XXYXY
X
XYXYYX
XYYYQ
ˆ1ˆˆ1ˆˆ
1
ˆˆ
1
ˆˆ
)1(
ˆ..ˆ
ˆ
ˆ..ˆ
ˆˆˆ
XXX
ˆ
1ˆ XX
XYXCovXVarR
XRXERXYXYEX
XXXXRYE
XXXXRYEYYE Q
)ˆ,()ˆ(.
².²)ˆ(..)ˆ.ˆ(1
ˆˆˆˆ1ˆˆˆ
XYRoù
134134134134
ESTIMATEUR PAR LE QUOTIENT ERREUR QUADRATIQUE MOYENNE
• Cas général :
o Cas d’un PESR de taille n parmi N :
• Estimée par :
o Cas d’un PESR de taille n parmi N :
XarVRYXovCRYarVYQME Q
ˆˆˆˆ,ˆˆˆ2ˆˆˆˆ 2
XVarRYXRCovYVar
XRYVarYYEYEQM QQ
ˆˆ,ˆ2ˆ
ˆˆˆˆ
2
2
X
YR ˆ
ˆˆ avec
nSRRSS
NnYEQM xxyy
Q
222 21ˆ
nSRSRS
NnYQME xxyy
Q
222 ˆˆˆˆ2ˆ1ˆˆ
135135135135
ESTIMATEUR PAR LE QUOTIENT COMPARAISON AVEC UN PESR
• Cas général :
o Cas d’un PESR de taille n parmi N :
L'estimation par la méthode du ratio est efficace si les variables Y et X sont «
à
peu près
»
proportionnelles
0ˆ²ˆ,ˆ2ˆˆ
XVarRYXRCovYVarYEQM Q
02ˆˆ 22
xxyQ SRRSYVarYEQM
22R
S
S
x
xy positives) et ( YX
XYb
21
( 2x
xy
S
Sb
)sur de régression de droite la de pente XY
136136136136
COMPLÉMENT : ESTIMATION D’UN RATIO
Exemple : sélection de n fermes d’élevage par PESR et observation de Xi
nombre de vaches et de Yi
production
Rendement par vache :
Estimé
par :
Biaisé
o Rapport de deux variables aléatoires
o Développement limité
XYR
ˆ
ˆˆ
X
YR
YXS
XS
NnRRRE yxx
.²11ˆ ,
2
137137137137
ESTIMATEUR PAR LA RÉGRESSION PRINCIPE
• Cadre :o La variable auxiliaire est quantitativeo On l’observe pour chaque individu de l’échantillon et on en
connaît la vraie moyenne sur la populationo On va ajuster l’estimation sur cette grandeur connue
• Hypothèse : relation affine entre Y et X
• Formule générale :
avec
pente estimée de la droite de régression de Y sur X
y a bx
XXbYYreg
ˆˆˆˆ
ˆ
ˆˆ
2x
xy
S
Sb
138138138138
ESTIMATEUR PAR LA RÉGRESSION INTERPRÉTATION GRAPHIQUE
139139139139
ESTIMATEUR PAR LA RÉGRESSION PROPRIÉTÉS
• Biaisé
mais biais négligeable pour n assez grand
• Erreur quadratique moyenne dans le cas d’un PESR
• Estimée par :
²11ˆ2
nS
NnYEQM y
regyx
xy
SS
S avec
²ˆ1ˆ
1ˆˆ2
nS
NnYQME y
regyx
xy
SS
Sˆˆ
ˆˆ avec
140140140140
ESTIMATEUR PAR LA RÉGRESSION COMPARAISON
• Meilleur que l’estimateur d’Horvitz-Thompson
(toujours vrai)
• Meilleur que l’estimateur par le quotient
(toujours vrai)
o Si la relation entre X et Y est linéaire et non affine (ordonnée à l’origine nulle), alors l’estimateur par la régression est égal à
l’estimateur par le quotient
0²1ˆˆ
Qreg YVarYEQM
2222 2²1ˆˆxxyyyQreg SRRSSSYEQMYEQM
0
02
02
22
2242
2
222
xyx
xyxyxx
xyx
xyx
SRS
SSRSSR
RSS
SSR
141141141141
ESTIMATEUR POST-STRATIFIÉ
• Cadre : o La variable auxiliaire est qualitativeo On définit après l'enquête des groupes d'individus, appelés
post-strates.o On observe les effectifs des post-strates sur l’échantillon o On connaît la répartition de la population selon ces post-strateso On va ajuster l’estimation sur cette répartition
• Remarques :o Les effectifs des post-strates dans l'échantillon ne sont connus
qu'après enquêteo Ils dépendent de l'échantillon choisi : ce sont des variables
aléatoires
142142142142
ESTIMATEUR POST-STRATIFIÉ 1ER
EXEMPLE
• On veut estimer le taux de fréquentation des salles de cinéma • On sait que cette activité est liée à la possession de TV• On connait le taux d’équipement en TV : ptélé
= 80%• On observe sur un échantillon de taille 1000 choisi par PESR :
• Résultats après redressement
CinémaTélé
Oui Non Total
Oui 20 680 700 70 % et non 80 % ×8/7Non 80 220 300 ×2/3Total 100 900 1000
CinémaTélé
Oui Non Total
Oui 23 777 800Non 53 147 200Total 76 924 1000
143143143143
ESTIMATEUR POST-STRATIFIÉ 2ND
EXEMPLE
• Enquête concernant les revenus : on observe X=classe d’âge et Y=revenu
• Résultats observés :
• Estimateur d’Horvitz-Thompson :
• Estimateur post-stratifié
Tranche d’âge ≤
20 21 -
35 36 -
50 ≥
50
Proportion observée
15 % 30 % 30 % 25 %
Vraie proportion 20 % 35 % 30 % 15 %
Revenu moyen observé
6 000 9 000 15 000 12 000
1110025,0120003,0150003,0900015,06000ˆ Y
1065015,0120003,01500035,090002,06000ˆ postY
144144144144
ESTIMATEUR POST-STRATIFIÉ PRINCIPE
• Total et moyenne sur la population :
• Estimateurs d’Horvitz-Thompson :
• Estimateurs post-stratifié
H
h Skk
hh
H
hhhposty
h
yn
NyNT11
1ˆˆ
H
h
H
hhhyh
Uk
H
h
N
kkky YNTyyT
h
1 11 1h
H
h
hy YNN
NT
Y 1
Sk
ky y
nNT
Y 1ˆˆ
H
h Skk
h
hH
hh
hpost
h
ynN
Ny
NN
Y11
1ˆˆ
H
hh
hH
h Skk
Skk
Sk k
ky y
nn
NynNy
nNy
Th 11
ˆˆ
145145145145
ESTIMATEUR POST-STRATIFIÉ POIDS APRÈS REDRESSEMENT
• On a :
et
• Le poids après redressement de k vaut
• Le poids de sondage valait
H
h Skk
hhpost
h
yn
NyT1
1ˆ
h
hnN
nN
Sk
ky ynNT
146146146146
ESTIMATEUR POST-STRATIFIÉ ESPÉRANCE
car si nh
est fixé, le plan est un PESR
• Les effectifs nh
peuvent être nuls, d’où
le léger biais de l’estimateur post-stratifié
• Pour l’éviter, définir les post-strates de sorte à
vérifier :
Hhnpostypostyh
TEETE ,...,1,/ˆˆ
H
nh
yhyH
nh
hhH
hhhhHhnposty
hh
hTTYNHhnYENTE
01
011,...,1,/
,...,1,/ˆˆ
H
hhyhyposty nPTTTE
10ˆ
HhNN
n h ,...,1 30
147147147147
ESTIMATEUR POST-STRATIFIÉ VARIANCE
HhnpostyHhnpostypostyhh
TEVarTVarETVar ,...,1,/,...,1,/ˆˆˆ
0
01
H
nh
yhy
h
TTVar
H
h h
yh
h
hHhnposty n
SNn
NTVarhh 1
22
,...,1,/1ˆ
H
hyh
hhh
H
hyh
hhposty Sn
ENNSNn
NETVarh 1
2
1
22 1111ˆ
Hhnpostypostyh
TVarETVar,...,1,/
ˆˆ
148148148148
ESTIMATEUR POST-STRATIFIÉ VARIANCE
• Calcul de
par développement limité
en 0 avecsoit
• D’où
:
• Or : i.e.
• On en déduit :
hnE /1
h
hnE
n1
hhh nEE
nEE
nE 1²11
111
),,( hh NNnHn
11)(
)(
NnN
NN
NN
nnVar
NN
nnE
hhh
hh
)1²()()(
²)(²
011111
2
2
2
NnnN
NNNN
nNN
NnnVarN
nNN
nNNn
nNNn
EnN
Nn
E
h
h
h
h
h
hh
h
h
h
hh
hhhh nEn
nEn 11
111
149149149149
ESTIMATEUR POST-STRATIFIÉ VARIANCE
• On a :
avec
D’où
la variance d’échantillonnage :
Qu’on estime par :
H
hyh
hhhposty S
nENNTVar
1
211ˆ
)1²()()(1
2
Nn
nNN
NNNnN
Nn
Eh
h
hh
H
hyh
hH
hyh
hposty S
NN
nNnNNS
NN
nNnNTVar
1
2
1
2 1²
11
²11²ˆ
H
hyh
hH
hyh
hposty S
NN
nNnNNS
NN
nNnNTarV
1
2
1
2 ˆ1²
11
²ˆ11²ˆˆ
150150150150
ESTIMATEUR POST-STRATIFIÉ COMPARAISON
Avec un plan stratifié
et des allocations proportionnelles
Il vaut toujours mieux stratifier a priori que post-stratifierLorsque que stratifier a priori n’est pas possible, la post-
stratification peut être intéressante Pourvu que le critère de post-stratification soit bien lié
avec
la variable d’intérêt
H
hyh
hH
hyh
hposty S
NN
nNnNNS
NN
nNnNTVar
1
2
1
2 1²
11
²11²ˆ
H
hyh
hy S
NN
nNnNTVar
prop 1
211²ˆ
nO
TVar
TVar
propy
posty 11ˆ
ˆ
151151
ESTIMATEUR POST-STRATIFIÉ CONCLUSION
• Pour avoir une bonne post-stratification :o Variable auxiliaire bien corrélée avec Yo n grando Grandes post-strates i.e. (N-Nh
)/N petit o Effectifs Nh
ou poids des post-strates connus
• Mais : o Ne pas utiliser que des variables socio-démographiqueso Ne pas multiplier les critères de redressement
151151
152152
ESTIMATEUR DU RAKING-RATIO EXEMPLE
152152
1000 individus ont été interrogés. La répartition par sexe et profession est la suivante
P1 P2 P3 Total H 300 100 200 600 F 100 150 150 400 Total 400 250 150 1000
Vraies marges 500 et 500 pour le sexe et 350,300, 350 pour la profession. Une première règle de 3 permet d’obtenir les marges souhaitées pour le sexe : on
multiplie la première ligne par 500/600 et la deuxième ligne par 500/400
P1 P2 P3 Total H 250 83 167 500 F 125 187.5 187.5 500 Total 375 270.5 354.5 1000
153153
ESTIMATEUR DU RAKING-RATIO
153153
On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profession, ce qui change les marges en ligne : P1 P2 P3 Total H 233 92 165 490 F 117 208 185 510 Total 350 300 350 1000 Puis en ligne : P1 P2 P3 Total H 238 94 168 500 F 115 204 181 500 Total 353 298 349 1000
En l’absence de cases vides, l’algorithme converge rapidement et donne les poids de redressement à appliquer à chaque case. Ainsi à la quatrième itération (très proche du résultat souhaité) , les 300 individus H et P1 ont chacun un poids de 0.236. La somme des poids de redressement des 1000 individus vaut 1000. P1 P2 P3 Total H 236 95 168 499 F 114 205 182 501 Total 350 300 350 1000
154154
GÉNÉRALISATION
: CALAGE
SUR
MARGES OBJECTIFS
• Améliorer la précision des estimateurs des paramètres d’intérêt d’une enquêteo Pourvu que les critères de calage soient liés aux
variables d’intérêt
• Assurer la cohérence des résultats avec des informations synthétiques connues par ailleurs. Ainsi, après calage, l’échantillon restitue :o les totaux de variables quantitatives connus sur la
populationo les effectifs de modalités de variables catégorielles
connus sur la population 154154
155155
GÉNÉRALISATION
: CALAGE
SUR
MARGES PRINCIPE
Re-pondérer les individus échantillonnés en utilisant une information auxiliaire disponible sur un certain nombre de variables, appelées variables de calage
Cas particuliers : les estimateurs par le ratio, par la régression, par le raking-ratio
155155
156156156156
CALAGE SUR MARGES MÉTHODE
• Supposons connus les totaux sur la population de J variables auxiliaires
• Pour les caractères catégoriels, les totaux sont les effectifs de chaque modalité
(= totaux des variables indicatrices
associées à
ces modalités)
• On va tenir compte de cette information pour améliorer l’estimateur d’Horvitz-Thompson
• En formant un nouvel estimateur où
les nouveaux poids à
rechercher :
o sont «
proches
»
des poids initiauxo vérifient les équations de calage :
ˆk
Skk
Sk k
ky yd
yT
ˆ, k
Skkcaléy ywT
j ˆ,,
jcaléj xkjSk
kx TxwT
sondage) de poids1( k
kd
Jj xxxX TTTT ,...,,...,
1
157157157157
CALAGE SUR MARGES MÉTHODE
• On choisit une fonction de distance entre le poids initial et le poids final : G(wk, dk
)
• Les poids cherchés sont solutions du problème d'optimisation :
• Résolution du système non linéaire
o où
F est la fonction réciproque de la dérivée de la fonction Go et λ un vecteur de multiplicateurs de Lagrange
• Ce système d'équations peut être résolu par la méthode itérative de Newton
• En pratique, macro SAS CALMAR de l’Insee
j avec min ,
j
kxkj
Skk
k
k
Skk
wTxw
dw
Gw
T ' X
kSk
k xFd
158158
CALAGE
SUR
MARGES FONCTIONS DE DISTANCE
158158
G 1'GF Type de distance
2121
x u1 Khi-deux
Méthode linéaire (1) i.e. estimateur par la régression
1log xxx uexp Entropie
Méthode du raking -ratio (2)
1log
1log
1
UxUxU
LLxLx
A
)1)(1(
ULLU ; ULx , , )sin( on
uLUuLUUL
exp)1()1(exp)1()1(
UL,
Logistique
Méthode du raking ratio tronquée (3)
2121
x si ULx ,
sinon
uqi1 UL,
Khi-deux tronquée
Méthode linéaire tronquée (3)
159159159159
CALAGE SUR MARGES FONCTIONS DE DISTANCE
Méthode linéaire o converge toujours en 2 étapeso redonne l’estimateur par régressiono peut donner des poids négatifso rapports de poids non bornés supérieurement
Méthode exponentielle o poids positifs o redonne l’estimateur du raking-ratio o rapports de poids non bornés supérieurement, en général supérieurs à
la méthode linéaire
Méthodes logit, linéaire tronquéeo poids positifs o contrôle des rapports de poids
160160
CALAGE
SUR
MARGES PROPRIÉTÉS
EspéranceQuelle que soit la méthode utilisée, l'estimateur calé
est
approximativement sans biais
VarianceQuelle que soit la méthode utilisée, la variance de l'estimateur calé
est approximativement égale à
celle de
l'estimateur par régression : toutes les méthodes sont asymptotiquement équivalentes
160160
161161161161
CALAGE SUR MARGES MACRO CALMAR
Insee, 1993
Macro SAS
Disponible sur www.insee.fr
Syntaxe (paramètres obligatoires)
%CALMAR (data =, poids =,ident =,datamar =, M =, LO=, UP=, datapoi =, poidsfin=);
162162162162
CALAGE SUR MARGES EXEMPLE
1. les données individuellesDATA echant;INPUT nom $ x $ y $ z pond;CARDS;A 1 f 1 10B 1 h 2 0C 1 h 3 .D 5 f 1 11E 5 f 3 13F 5 h 2 7H 1 h 2 8G 5 h 2 8I 5 f 2 9J . h 2 10K 5 h 2 14;;RUN;RUN;
2. la table des marges DATA marges;INPUT var $ n mar1 mar2;CARDS;X 2 20 60Y 2 30 50Z 0 140 .;RUN ;
3. lancement de Calmar %CALMAR(DATA = echant,POIDS = pond,
IDENT = nom,DATAMAR = marges, M = 2, OBSELI = oui, DATAPOI = sortie, POIDSFIN = pondfin,LABELPOI = poids raking ratio);
163163163163
CALAGE SUR MARGES EXEMPLE
Avant calage
Après calage
164164
CALAGE SUR MARGES EXEMPLE
165165165165
CALAGE SUR MARGES EXEMPLE
166166166166
CALAGE SUR MARGES EXEMPLE
167167
CALAGE SUR MARGES EXEMPLE
168168168168
BIBLIOGRAPHIE
Sautory O. (1993). «
Redressement d’un échantillon par calage sur marges
», Document de travail de la DSDS n°F9310,, www.insee.fr .
Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). «
Generalized raking procedures in survey sampling
», Journal of the American Statistical
Association, vol 88, n°423, pp. 1013-1020.
Deville, J.-C. (1998). «
La correction de la non-réponse par calage ou par échantillonnage équilibré
». Papier présenté
au colloque de la Société
Statistique du Canada, Sherbrooke.
Dupont, F. (1996). «
Calage et redressement de la non-réponse totale
». Actes des journées de méthodologie statistique, 15 et 16 décembre 1993, INSEE-Méthodes n°56-57-58.
Roy, G., et Vanheuverzwyn, A. (2001). «
Redressement par la macro CALMAR
: applications et pistes d'amélioration
», Traitements des fichiers
d'enquête, pp. 31-46. Presses Universitaires de Grenoble.
169
Sources d’erreur et biais
Oliviero Marchese, décembre 2010
170
Sources d’erreur et biais
Utilisations des données d’enquête : « Describers » & « Modelers »
Sources d’erreur« Nonsampling errors »
Populations d’intérêtDéfaut ou excès de couvertureNon-réponseErreur de mesure
Sources d’erreur et phases d’enquêteLa pointe de l’iceberg … et le resteSources d’erreur, contraintes, mode de réalisationL’ «art» du sondeur
171
Utilisations des données d’enquête : « Describers » & « Modelers »
Différents langages, différentes préoccupations
« Describers » « Modelers »Accent sur l’estimation des caractéris- tiques d’une population
Accent sur la validation d’hypothèses théoriques
Accent sur l’estimation de moyennes et proportions
Accent sur l’exploration de structures de covariance
Forte attention aux erreurs de non- observation (défauts de couverture, non-réponse)
Forte attention aux erreurs d’obser- vation (questionnaire)
172
Sources d’erreur {1/3}
Erreur d’échantillonnageHétérogénéité des mesures parmi les individus de la population
Défaut ou excès de couvertureProbabilité de sélection nulle ou non connue pour les individus de la population
Non-réponseDéfaut de collecte de toute ou partie de l’information pour certains individus de l’échantillon
Erreur de mesureInfluence de l’enquêteur sur les réponses des personnes interrogéesIncapacité (ou manque de volonté) des personnes interrogées à répondre aux questions : mémoire, impréparation, facteurs psychologiques, …Défauts de l’instrument de mesure (questionnaire ou autre)Effets du mode de recueil (face à face, téléphone, auto-administré papier ou Internet)
173
Sources d’erreur {2/3}
Ces erreurs peuvent être liées les unes aux autresEg : Faire du « forcing » pour réduire la non-réponse peut amener à amplifier les erreurs de mesure
En général, les efforts de modélisation et de mesure sont portés sur l’erreur d’échantillonnage et la non-réponse
Souvent on ne sait que très peu – et parfois rien du tout - sur les erreurs d’observation et les défauts de couverture
Or, cela peut s’avérer létal, car ces erreurs - qui ont essentiellement la nature de biais – ne diminuent pas lorsque la taille d’échantillon augmente
174
Sources d’erreur {3/3}
Moralité
Les efforts visant à affiner une méthode de tirage ou l’expression d’un estimateur pour obtenir un gain de précision peuvent s’avérer bien illusoires si, par ailleurs, les erreurs d’observation, les défauts de couverture ou la non-réponse sont importants
Dans une telle situation, une taille d’échantillon très importante ne sera pas non plus de nature à éviter la déroute
Lors de la Présidentielle américaine de 1936, le « vote de paille » organisé par le Literary Digest - portant sur près de deux millions de lecteurs - donnait une confortable avance à Alfred Landon (54%) … alors que Franklin Roosevelt allait recueillir 61% des suffrages !
175
« Nonsampling errors » : Populations d’intérêt
Population objet de l’inférence (population of inference)Ensemble des unités à étudier
Population cible du sondage (target population)Ensemble des unités étudiées
Base de sondage (frame population)Liste des unités utilisée pour la sélection de l’échantillon: l’« univers » auquel font référence la plupart des livres de statistique
Population enquêtable (survey population)Liste des unités accessibles, physiquement et mentalement prêtes à répondre, souhaitant répondre aux questionsIl s’agit bien évidemment d’une abstraction, puisque elle ne peut être observée indépendamment des opérations d’échantillonnage elles-mêmes
Non-réponse divergences entre « frame » et « survey population »
Erreurs de couverturedivergences entre « frame » et « target population»
Kish, L., Populations for Survey Sampling, Survey Statistician, No. 1, février 1979, pp.14-15
176
« Nonsampling errors » : Défaut ou excès de couverture {1/2}
Ambiguïté du repérage des unités de la populationUne base de sondage se doit pour le moins d’être une liste d’identifiants de bonne qualité
Manque d’exhaustivitéChaque unité faisant partie du champ de l’enquête doit être présente dans la liste des identifiants
Doubles comptesAucune unité doit être présente plusieurs fois dans la base (surtout si le nombre de fois n’est pas connu)
Absence d’informations auxiliairesLeur disponibilité peut être mise à profit pour améliorer soit la méthode de tirage, soit l’estimateur, soit les deux
Vieillissement de la base elle-mêmeAbsence ou inaccessibilité de la base de sondage
(situation finalement pas si rare!)
177
« Nonsampling errors » : Défaut ou excès de couverture {2/2}
L’erreur de couverture est une fonctionde la proportion de population non couverte par la base de sondagede la différence dans la valeur de la variable d’intérêt entre « frame » et « target population»
Y c = Y + (Nnc / N) * (YC – Ync )où Y représente la valeur auprès des N unités de la target population
Yc représente la valeur auprès des Nc unités couvertes par la « frame population »
Ync représente la valeur auprès des Nnc unités non couvertes par la « frame population »
L’erreur de couverture est liée à la variable d’intérêtn’est pas une propriété de l’échantillon
178
« Nonsampling errors » : Non-réponse {1/3}
Comme pour le défaut de couverture dû au manque d’exhaustivité de la base de sondage, la non-réponse
nous met dans l’impossibilité d’observer la valeur de la variable d’intérêtengendre un biais non mesurable, puisque l’on ne sait pas si les unités observées sont comparables aux unités non observées
A différence du défaut de couverture, la non réponseest d’ampleur mesurable, à partir de l’échantillon tiré (taux de non-réponse calculable)peut être complète ou partielle (l’individu sélectionné répond à certaines questions et pas à d’autres)
En diminuant la taille de l’échantillon, la non-réponse occasionne une perte de précision (quelles que soient les hypothèses formulées sur le profile des non-répondants)
179
« Nonsampling errors » : Non-réponse {2/3}
Le taux de non-réponse est souvent interprété comme LA mesure de qualité de l’estimation de la variable d’intérêt
or, il ne s’agit que d’une composante de l’erreur et ne peut pas en donner seul la mesure
L’erreur dû à la non-réponse est une fonctiondu taux de non-réponsede la différence dans la valeur de la variable d’intérêt entre répondants et non-répondants
y r = yn + (nr / n) * (yr – ynr )
L’erreur de non-réponse est liée à la variable d’intérêtn’est pas une propriété de l’échantillon
180
« Nonsampling errors » : Non-réponse {3/3}
Une expression plus complète de la variable d’intérêt estimée devrait être
y r = yn + (nc / n) * (yr – ync ) ++ (ni / n) * (yr – yni ) ++ (rf / n) * (yr – yrf )
où ync représente la valeur auprès des nc unités non contactéyni représente la valeur auprès des ni unités incapables de fournir
une réponseyrf représente la valeur auprès des rf unités refusant l’interview
avec nc + ni + rf = nr
181
« Nonsampling errors » : Erreur de mesure
Il y a erreur de mesure lorsque la valeur de la variable d’intérêt collectée pour un individu est différente de la vraie valeur attachée à ce même individu. Quelques cas (liste non ordonnée et non exhaustive !) :
Questions faisant appel à la mémoire des personnes interrogéesQuestions portants sur des sujets sensibles (revenus, comportements sexuels, consommation de drogues, …)Mécanismes psychologiques liés à l’interaction enquêteur/enquêtéInterprétation des réponses de la part de l’enquêteur« Suggestions » de l’enquêteur à l’enquêtéMauvaise compréhension de la question (surtout en cas de traduction des questions depuis une langue étrangère)Formulation de la question, effets d’ordre, …Fatigue due à la durée d’interviewsAutres effets enquêteur : le sexe, l’âge de l’enquêteur, sa façon de se présenter … ne sont pas sans conséquences sur la qualité des réponses obtenues
182
Sources d’erreur et biais. Les défis à relever
Concept [Dimensions / indicateurs]
Mesure
Réponse
Réponse codée
Population cible
Base de sondage
Echantillon
Répondants
Imputation / redressement
Estimation
Validité
Erreur de mesure
Erreur de codification
Erreur de couverture
Erreur d’échantillonnage
Erreur liée à la non-réponse
Erreur d’imputation / redressement
Mesure Représentativité
Survey life cycle from a quality perspective [Robert M. Groves et al. , Survey Methodology, Wiley, 2009]
183
Objectifs et contraintes
Conception du questionnaire
Base de sondage
Échantillonnage
Collecte des données
CodificationSaisie
Contrôles
EstimationsRedressement
Analyse des données
PublicationsÉvaluations
Sources d’erreur et phases d’ enquête
CouvertureNon-réponseÉchantillonnageErreurs de mesure
SaisieCodificationTraitementPrésentation
!!! Choix du mode de collecte le plus approprié et contrôle des enquêteurs !!!
!!! Contrôles de cohérence, contrôles de qualité de la codification et de la saisie !!!
!!! Prise en compte du plan de sondage !!!
!!! Contrôle / relecture du rapport d’étude / des tableaux statistiques, … !!!
!!! Choix de la base de sondage et de l’algorithme de tirage !!!
!!! Pertinence, formulation, ordre des questions; longueur du questionnaire !!!
!!! Définition des variables d’intérêt, du champ de l’enquête, du budget et des délais !!!
Ardilly, P. (2006), Les techniques de sondage, Editions Technip, Paris
184
Erreur d’échantillonnage
Erreur de Couverture
Non réponse totale
Sélection des répondants
Exactitude des réponses
Mode de réalisation
Non réponse partielle
Erreur de mesure due aux enquêteurs
Erreur de mesure due aux répondants
Erreurs de traitement
Effets liés au mode de recueilErreurs de comparaison (dessins différents, …)
La pointe de l’iceberg … et le reste
Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago
185
Sources d’erreur, contraintes, mode de réalisation
Sources d’erreur et biais
•Echantillonnage
•Couverture
•Non-réponse
•Mesure
Contraintes
•Coûts
•Délais
•Etique
Effets du mode de réalisation de l’enquête
•Questionnaire
•Mode de recueil
•Effets de comparaison (plan d’échantillonnage, temps, …)
Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago
186
L’ «art» du sondeur
La théorie statistique nous aide à mesurer et à réduire l’erreur d’échantillonnageL’«art» du sondeur, praticien d’enquête, consiste à juger de l’importance du non mesurable La pratique de cet « art » requière la compréhension
des causes qui sont à l’origine des erreursde leur importance relativedes effets générésdes coûts relatifs aux efforts de réduction des erreurs
Juger de l’importance du non mesurable est un « art » qui ne doit pas se transformer en alibi pour arrêter tout effort de modélisation et mesure de l’erreur
187
Lecture minimale Ardilly, P. (2ème édition actualisée et augmentée, 2006), Les techniques de sondage, Editions Technip, Paris
Chapitre I. Aspects universels, principes de base
Pour aller plus loinGroves, R.M. (1989), Survey errors and survey costs, Wiley, New York
Chapitres I,III,IV,VIIGroves, R.M., Fowler Jr., F.J., Couper, M.P., Lepkowski, J.M., Singer, E., Tourangeau, R., (2nd ed. 2009), Survey Methodology, Wiley, New York
Chapitre 2Floyd J. Fowler, Jr., (4th ed. 2009), Survey Research Methods, Wiley, New York
Chapitre 2Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago
Chapitres 2, 14, 15
Bibliographie
188
NON-RÉPONSES ET DONNEES MANQUANTES
Gilbert SaportaConservatoire National des Arts et Métiers
[email protected]://cedric.cnam.fr/~saporta
189
Non-réponse: - totale- partielle (données manquantes)
Causes des non-réponses:
Bases de sondage inexactes
Refus
Réponses inexploitables, perte, destructions
190
Biais de non -réponse
Deux stratesP0Non -répondant
P1Répondant
0Y1Y
0 0 0 00 1 0 1 1
N N N N NY Y Y Y Y YN N N N
1
01 0 1
En l'absence d'hypothèse sur le mécanisme des données manquantes, seul peut être estimé
Biais :
YNY Y Y YN
191
Quelques remèdes:
Non-réponses:Stratégie de relance
Post-stratification pour redresser
192
Questions sensibles ou indiscrètes: la méthode des questions aléatoires
Première technique:On tire au sort dans une urne avec θ
boules blanches et 1- θ
boules noires
la questionSi blanc: question A: « Avez-vous fraudé le fisc? »Si noire: question : « Je n’ai pas fraudé »On veut estimer PA . On recueille Π
= Proba de Oui =
% de « Oui »
Inconvénient: aussi indiscrète que A!
1 1A AP P A
1
2AP
2 2
1 11 12 2
A AA
P PV P V
n n
A
193
Deuxième technique:Si blanche, question A sensibleSi noire, question B banale
PB peut être connu à l’avance ou estimé par une autre enquête.Exemple:
A: combien de fois avez-vous avorté?B: nombre idéal d’enfants?
1A BP P 1 B
A
PP
21 1 1B BA
P PV P
n n
194
Exemple: Brown 320 officiersConsommation de drogue: 2 enquêtes, une anonyme, l’autre à question aléatoire
Drogue Q. Anonyme Q. aléatoire
Marijuana 5% (1.2) 9% (4.1)
Hallucinogène 1.6% (0.7) 11.6% (4.1)
Amphétamine 1.9% (0.7) 8% (3.3)
Barbiturique 0.6% (0.7) 7.9% (3.9)
Narcotique 0.3% (0.3) 4% (3.9)
195
Données manquantes• Les mécanismes (Rubin,1976)
– MCAR (Missing Completely at Random)• P(Y manquant) indépendant de Y et du reste• Hypothèse forte mais réaliste si volontaire
– MAR (Missing at random)• P(Y manquant/Y,X)=P(Ymanquant/X)• Non testable
– MCAR et MAR: données manquantes ignorables– Cas non ignorable: nécessité de modéliser le
mécanisme pour obtenir des estimations sans biais• Ignorer ou estimer les données manquantes?
196
Supprimer les DM?
• « listwise »– Perte d’information– Marche pour MCAR et en régression pour les X
si MAR selon Y• « Pairwise »
– Utilisable pour modéle linéaire, ACP • Matrices non positives, statistiques de tests biaisées
197
Estimer les DM: l’imputation
• Compléter la non-réponse par une valeur plausible.– Méthodes implicites – modèles
198
Estimation basée sur des modèles
• Une donnée manquante sur une variable Y est modélisée à partir des variables X selon un modèle de régression
régression simple en prenant la variable la plus corrélée.régression multiplemodèle linéaire général si X est nominale et la variable à
expliquer est quantitative.Analyse discriminante, ou régression logistique si Y
nominal
Remarque: cas particulier de l’estimation par la moyenne
199
Algorithme EM (espérance, maximisation)
– étape E: espérance conditionnelle de chaque donnée manquante sachant les données observées, d’où estimation des paramètres.
– étape M calcule les estimateurs du maximum de vraisemblance des paramètres, avec les lois conditionnelles des données manquantes.
convergence vers la valeur la plus probable de chaque donnée manquante pour l'estimation obtenue des paramètres
200
Maximisation de la cohérence interne, ou de l'homogénéité
• Présentation hollandaise de l’ACM de G=(G1|G2|…|Gm) comme la minimisation d ’une fonction de perte:
Xm
G Yj j
j
m
1
1
' ' 'j j j j
1
1(X, Y) (X - G Y ) (X - G Y )m
jm
201
• Les données manquantes sont complétées pour avoir
minimal: ACM
avec valeurs propres maximales.MCA with missing data
Unit Income Age Car1 x young am2 medium medium am3 y old jap4 low young jap5 medium young am6 high old am7 low young jap8 high medium am9 high z am10 low young am
202
Results of the 27 MCA
x y z 1 x y z 1 x y z 1l l j .70104 m l y .63594 h l y .61671l l m .77590 m l m .72943 h l m .66458l l o .76956 m l o .72636 h l o .65907l m j .78043 m m y .70106 h m y .70106l m m .84394 m m m .77839 h m m .74342l m o .84394 m m o .84394 h m o .74342l h j .78321 m h y .73319 h h y .68827l h m .84907 m h m .80643 h h m .74193l h o *.84964 m h o .80949 h h o .74198
203
• Solution unidimensionnelle peu réaliste:max (1 +2 +…+k )
• Recherche exhaustive impossible. Algorithmes itératifs.
204
IMPUTATION MULTIPLE (Rubin)
– imputer chaque donnée par m>2 valeurs obtenues par tirage dans un ou plusieurs modèles d'estimation. Puis analyse des données sur chacun des m jeux de données complétés
– simulation de la distribution a posteriori des données manquantes , variances correctes.
– Mais: complexité des calculs, temps de calcul et volume considérable.
205
Les méthodes d'imputation de type “ hot- deck ”
• la valeur manquante est remplacée par la valeur observée chez un répondant “ proche ”, le “ donneur ”. – - le hot-deck d'ensemble : le donneur est
choisi de façon aléatoire.– - le hot-deck par classe : – - le hot-deck séquentiel : l'individu le plus
“ récent ” du tableau de données
206
deux inconvénients majeurs pour toutes ces méthodes:
• risque d’incohérence: si plusieurs données manquantes sont estimées une par une et non conjointement, sans prendre en compte les corrélations
• variabilité sous-estimée: deux unités ayant les mêmes valeurs de X auront la même estimation pour la valeur manquante de Y
207
– le hot-deck hiérarchisé : On remplace l'unité défaillante par une unité ayant les mêmes valeurs pour C1, C2,…, Ck. S'il n'en existe pas alors on la remplace par une unité ayant les mêmes valeurs pour C1, C2,…, Ck-1; etc. …
– - le hot-deck métrique ou méthode du plus proche voisin avec une distance d(i,j)
208
Fusions et greffes• Fusions de fichiers et greffes d'enquêtes:
combiner des données provenant de sources différentes.
• en amont du processus de « data mining » . • fusionner différentes bases: enquêtes, sources
administratives, fichiers clients, données socio- économiques agrégées, etc.
• Chaque base peut être constituée d'unités statistiques différentes ou d'agrégation de ces unités à différents niveaux.
209
• Fusion de fichiers. Cas élémentaire:• deux fichiers: F1 p+q variables mesurées
sur n0 unités, F2 sous-ensemble de p variables pour n1 unités. Souvent n0 est faible par rapport à n1 .
X0 Y0 X1
?
210
• Un cas plus complexe
X0 Y0
X1 Z1
211
Modèles et méthodes pour la fusion de données• Appliquer industriellement une technique
de traitement de données manquantes.• deux approches:
– Méthodes d’imputation: compléter la non- réponse par une valeur plausible.
– Repondération : affecter aux répondants des pondérations pour compenser les non- réponses
212
• conditions à vérifier préalablement:– la taille de la population du fichier donneur est
suffisamment importante par rapport au fichier receveur
– les variables communes et les variables spécifiques possèdent des liaisons relativement fortes entre elles.
213
Les méthodes implicites:
• fusion par appariements intra-cellulaires, • imputation par Hot-Deck,• méthode des plus proches voisins etc.…• donner simultanément aux variables du
fichier receveur toute l'information et les renseignements détenus par les variables du fichier donneur.
214
FICHIER DONNEUR
IX0 Y0
Plus proche voisin Imputation
X1 ?
J
FICHIER RECEVEUR
215
La fusion sur référentiel factoriel
• Fréquemment utilisée en France. Son principe (Santini 1984) repose sur :
- les variables critiques : servent à déterminer pour l'individu du fichier receveur ses donneurs éligibles.
- les variables de rapprochement : une partie des variables communes, par un calcul de distance, permettant de choisir pour chaque receveur le donneur éligible le plus proche
216
• Réferentiel factoriel: ACM sur l’ensemble des variables critiques ou communes
• Détermination d’un voisinage du receveur• Choix final parmi les donneurs éligibles selon les
variables de rapprochement (sexe, age, …)• Pénalisation pour éviter de prendre trop souvent
les mêmes donneurs (voir fusion par mariage)
Axis II
Axis I
217
Un exemple:• Données SPAD 992 interviews, divisées
aléatoirement en deux fichiers : 800 donneur 192 receveur.
• 4 variables communes:Q1 - classe d'age(5 catégories), Q2 - taille d'agglomération (5 catégories),Q3 - heure de coucher (7 catégories),Q4 - age de fin d'études (5 catégories) .
• 3 variables d ’opinion Y à imputer:Q5 - La famille est le seul endroit où on se sent bien ? (oui, non)Q6 - Plus haut diplôme obtenu (7 catégories),Q7 - Taux d'écoute TV (4 catégories).
218
Table 3 performances individuelles
Méthode Classifications correctesAléatoire 49%
Homogénéité max. 54%FRF 47%
Table 4 performances marginales
Q5 Vraies marges Homogénéité max FRF1 136 136 1252 56 56 67
Q6
1 36 6 492 70 114 653 35 16 274 29 23 335 4 33 16 18 33 157 0 0 2
Q7
1 100 118 1002 36 18 433 37 29 314 19 27 18
219
Fusion par mariages
• éviter qu'un même donneur transmette son information à plusieurs receveurs (mariages multiples)
• si un donneur est déjà marié à n receveurs, d est pénalisée par :
' 1 (1 )nd d
220
• G. Santini a imaginé 6 types différents de relations de voisinage par “ mariage ”: A receveur, B donneur.
le mariage par “ coup de foudre ” (voisins réciproques) : si A est le plus proche voisin de B et si B est le plus proche voisin de A et n'a jamais été marié, alors A et B sont immédiatement mariés.
le mariage avec “ l'ami d'enfance ” : si B est le plus proche voisin de A, mais B est déjà marié à A' , alors A sera marié à B' qui est le plus proche voisin de A après B.
le mariage par “ adultère ” : variante du cas précédent quand d(B ’,A) est plus grand que la distance pénalisée entre A et B (puisque B est déjà marié a A'). On marie alors A et B.
221
• Fusion avec collage du vecteur entier du donneur– moins bon pour la reconstitution de données
individuelles,mais garde la structure de corrélation et évite les incohérences
• Régression variable par variable. – C’est l’inverse
• Dans tous les cas il est nécessaire d'avoir:
Un nombre suffisant de variables communes
Des corrélations élevées entre variables communes et variables à imputer.
Une structure commune entre fichier donneur et fichier receveur: distributions comparables des variables communes ou critiques, sinon résultats biaisés. Redressements souvent nécessaires.
222
Fusion par scores de « propensity»
• Origine: essais cliniques avec affectation non- aléatoire entre traitement et témoin (contrôle)– Z=1 traité, Z=0 sinon. p covariables X= (x1,x2, ..,xp)– propensity score e(x)=P(Z=1/X)
• Résumé unidimensionnel: permet de stratifier, de chercher des jumeaux (appariement), de repondérer en cas de données manquantes
• Estimé habituellement par une régression logistique
223
S.Rässler, 2002
224
Application: données manquantes
• Si mécanisme ignorable:
1
1ˆ( )
Ni i
i i
z yYN e
x
010
(1 ( ))1ˆ( )
Ni i i
i i
z y eYn e
xx
225
• rééquilibrage d’enquête– une enquête de référence aléatoire,– une enquête web
• plus simple que la post-stratification sur plusieurs variables (calage sur marges)
226
Yoshimura,
227
Propriétés (1)• Equilibrage:
Pour un score donné e(X), on tire des échantillons aléatoires simples parmi Z=1 et Z=0.Alors les lois de X dans chaque groupe sont les mêmes:P(X / Z=1,e(X))= P(X / Z=0,e(X))
• Avantage: facile de fabriquer des échantillons appariés même si X est de grande dimension– Si appariement exact impossible : ppv ou strates
228
Propriétés (2)
• Consistence : estimation sans biais de l’effet
d’un traitement Y :
–
= E(Yt )-E(Yc )– si l’effet de l’affectation traitement-contrôle
est ignorable conditionnellement à X (donc à e(X)) et si 0<P(Z=1/X)<1 (Yt et Yc sont indépendants de Z conditionnellement à X)
– alors
est estimé sans biais par la moyenne des différence entre observations appariées selon e(X)
229
Propriétés (3)
• Etudes d’observation non randomisées– résout le problème de l’inférence causale– réduit les biais « ouverts »: ex: comparer la
mortalité des fumeurs et non-fumeurs alors que les fumeurs sont en moyenne plus vieux que les non-fumeurs
– à comparer avec la post-stratification
230
Conclusions• Techniques:
– La fusion: un problème de données manquantes massives, stimulant pour les statisticiens.
– besoin réel de fournir à l'utilisateur final une base unique sans “ trou ”.
231
– Prudence quand on utilise des “ données ” qui sont en réalité des estimations et non des valeurs observées: ne jamais utiliser à un niveau individuel, mais uniquement agrégé.
– Conséquence perverse: un moindre effort de collecte, puisque l'on peut reconstituer des données…
– Nécessité de valider
232
Validation
• procédures empiriques où on estime des données connues mais cachées que l'on compare ensuite aux vraies valeurs:validation croisées, bootstrap …
• Indicateurs:– reconstitutions de données individuelles– prévisions au niveau de groupes– reconstitutions de marges, de croisements
233
• Déontologiques (confidentialité et protection de la vie privée) :
– des données qui n'ont pas été recueillies mais estimées, peuvent être ajoutées dans des fichiers à l'insu des individus concernés. Quid de La loi “ Informatique et Liberté ” ?
– paradoxe alors que les INS développent des techniques pour assurer la confidentialité
234
Références• Allison P. (2002) Missing data, Sage Publications• Co V. (1997) Méthodes statistiques et informatiques pour
le traitement des données manquantes.Doctorat, CNAM. Paris.
• Fischer N. (2004) Fusion Statistique de Fichiers de Données. Doctorat, CNAM, Paris.
• Rässler S. (2002), Statistical matching, Springer• Rosenbaum P.R., Rubin D. (1983) the central role of
propensity scores in observational studies for causal effects, Biometrika 70, 41-55
• Saporta G. (2002) Data fusion and data grafting . Computational Statistics and Data Analysis, 38(4),465-473