Cours de sondages Master IS 2011-2012maths.cnam.fr/IMG/pdf/SondageMaster__IS_2012.pdf · 1 Cours de...

11

Cours de sondages Master IS 2011-2012

Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC

CNAM 292 rue Saint Martin, F-75003 Paris

[email protected] http://cedric.cnam.fr/~saporta

mailto:[email protected]

http://cedric.cnam.fr/~saporta

2

Ouvrages recommandés:

J.ANTOINE Histoire des sondages (Odile Jacob, 2005)

P.ARDILLY Les techniques de sondage, 2ème

édition (Technip, 2006)

P.ARDILLY, Y.TILLE Exercices corrigés de méthodes de sondage (Ellipses, 2003)

A.M. DUSSAIX, J.M. GROSBRAS Exercices de sondages (Economica, 1992)

SYNTEC Etudes Marketing et Opinion -

Fiabilité

des méthodes et bonnes

pratiques (Dunod, 2007)

Y.TILLÉ

Théorie des sondages (Dunod, 2001)

Sites internet:

Cours de statistique : http://www.agro-montpellier.fr/cnam-lr/statnet/

Autorité

de la statistique publique http://www.autorite-statistique-

publique.fr

CNIS http://www.cnis.fr/

INSEE : http://www.insee.fr

IPSOS: http://www.ipsos.fr/

Assoc. Intern. Statisticiens d’enquête: http://isi.cbs.nl/iass/allFR.htm

SYNTEC Etudes http://www.syntec-etudes.com/

3

Introduction: aperçu du secteur

La statistique publique: 8000 employés dont 5800 à

l’INSEE

Une organisation ternaire:

Le Conseil national de l'information statistique

(Cnis) assure en amont la concertation entre ses producteurs et ses utilisateurs.

Le service statistique public

(Insee et services statistiques ministériels ) est le moteur dans sa conception, sa production et sa diffusion.

L'Autorité

de la statistique publique

veille au respect des principes d'indépendance professionnelle, d'impartialité, d'objectivité, de pertinence et de qualité

dans son élaboration et sa diffusion.

4

Près de 400 instituts d’étude de marché et d’opinion identifiés en France

Marché estimé de 2 milliards d'euros en 2010

Environ 12 000 personnes, hors enquêteurs

un secteur privé qui ne connait pas la crise

6

L’opinion: une faible part de l’activité

des instituts

Source: rapport Portelli-Sueur, Sénat

8

Une histoire récente

1895

–

Kiaer, dénombrements représentatifs1925

– Jensen,

1934

–

Neyman: la théorie

1936

–

Election de Roosevelt

1938

–

Fondation de l’IFOP1952

–

Horvitz et Thompson, Sondages à

probabilités inégales

1965

–

Ballottage De Gaulle

9

LES TECHNIQUES DE SONDAGE

Problèmes essentiels:

Sélection de l’échantillon;

Agrégation des réponses

estimateur;

précision;

10

Les principales étapes

source: P.Ardilly

11


Méthodes aléatoires:

Plans de sondage

Simples:

-

à

probabilités égales-

à


Complexes:

-

stratifié-

en grappe

-

plusieurs degrés

12


Méthodes par choix raisonné

ou judicieux:

Quotas;

Itinéraires;

Unités –

types;

Volontariat;

Échantillonnage sur place;

14

Représentativité

15

Représentativité

Notion peu scientifique

Souvent confondue avec le respect de certaines proportions (modèle réduit)

Un sondage à

probabilités inégales , un sondage stratifié

ou à

plusieurs degrés peuvent être

représentatifs en un autre sens:

Sondage extrapolable

: probabilités d’inclusion

connues et non nulles

16

Fluctuations et biais

Fluctuations d’échantillonnage : avec les mêmes probabilités d’inclusion, répéter q fois un sondage donnera q résultats différents

Sans biais: si la moyenne des moyennes de tous les échantillons possibles est égale à

la moyenne de la

population (pas d’écart systématique)

Y1 2, ,..., qy y y

17

SONDAGE ALEATOIRE SIMPLE

Notations:Population ou base de sondage: N Identifiant: iVariable d’intérêt: Y

(Y1, Y2……YN)

N

ii=1

1Y = Y ;N

N

ii

T Y

1

2 2

1

1 ( ) ;

N

ii

Y YN

2 2 2

1

1 ( )1 1

N

ii

NS Y YN N

18

SONDAGE ALÉATOIRE SIMPLE

Définition: tirage équiprobable sans remise de n unités;

Taux de sondage:

échantillons possibles;

i

probabilité

d’inclusion

(plan de taille fixe):

Équiprobabilité:

Remarque:

nNC

inN

( )

( )i

s i s

p s

nN

N

ii

n

1

19


Estimation du total et de la moyenne:-

estimateur de

N -

estimateur de T;

Démonstration avec les variables de Cornfield

yi

=variable aléatoire; Yi

= variable non aléatoire

y Y

( )E y Y ( )E N y T

i

s i i ssi i s

10

( )( ) ( ) cov( ; )

i i

i i i i j ij i j

EV

1

N

i ii i

i s i s ii i

y YN y Tn

1

( ) ( )N N

ii i

i ii

YE T E Y T

1 1

y

20

SONDAGE ALEATOIRE SIMPLE

Covariance entre variables de Cornfield

Variance de la moyenne

2

22

,

cov( ; )

( 1) 1( )( 1) 1

(1 )cov( ; )1

i j ij i j ij

nN

ij ns i j s N

i j

C n n np sC N N N

N

22

1 1

22 2

2 21

1 1( ) ( ) cov( ; )

(1 ) (1 ) (1 )1

N N

i i i i i j i ji i i j

Ni j

ii i j

V y V Y Y V YYn n

YY SY NSn N n n

21


Variances:

Estimation de S2:

2

22

( ) (1 )

ˆ( ) (1 )

SV yn

SV T Nn

2 2

2 2

2

22

1 ( )1

( )

( ) (1 )

ˆ( ) (1 )

ii s

s y yn

E s S

sV yn

sV T Nn

22


Intervalles de confiance pour un paramètre d’intérêt («

fourchette

»)

Intervalle ayant une probabilité

1-

(niveau de confiance) de contenir la vraie valeur du paramètre.

risque d’erreur, généralement partagé

de façon symétrique /2 et /2

Nécessite de connaitre au moins approximativement la distribution de probabilité

de l’estimateur

La longueur de l’intervalle diminue avec n et augmente avec le niveau de confiance et avec la variance de l’estimateur (elle-même fonction de la variance de la population)

23

Le théorème « central limite »

La moyenne d’un échantillon de n observations indépendantes issues d’une population de moyenne

et d’écart-type

converge si n

augmente vers une loi normale:

Illustration animée:

http://www.vias.org/simulations/simusoft_cenliit.html

n>30 est souvent suffisant

( ; )Nn

Cenlimit.exe

24

Intervalle de confiance théorique pour une moyenne

Tirages indépendants (avec remise) et n>30

Tirages sans remise

On pourra admettre que:

Si le taux de sondage est faible la précision ne dépend pas de N

/2 /2

/2pour 5% 2

y u Y y un n

u

/ 2 / 21 1S Sy u Y y un n

25

Intervalles de confiance estimés à 95%

Pour une moyenne:

Pour un pourcentage:

1 12 2y s Y y sn n

iY

10

Y p

(1 )ˆ( ) (1 )1

p p NV pn N

ˆ ˆ ˆ ˆ(1 ) (1 )ˆ( ) (1 ) si faible

1p p p pV p

n n

ˆy p fréquence observée

ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ2 2p p p pp p pn n

26

Calculs de taille d’échantillon

Pour une précision fixée

Nécessite de connaitre S !

2

2

1 12 d'où 1

4

S n NNn

S

27

Pour une proportion

Si n grand et

faible

Utile si on connait approximativement p a priori

2

(1 ) 4 (1 )2 d'où =p p p pnn

Ardilly, 2006

Ardilly, 2006

28

Solution prudente (ou pessimiste)Se placer dans le cas p=0.50 avec =0.05

2

1n

29

Pour

fort , dans le cas p=0.50 avec un niveau de confiance de 95%:

21NnN

30

Précision absolue ou précision relative?

Pour une population rare, on aboutit à

une taille

d’échantillon souvent excessive

Viser un /p change tout

Compromis à

faire quand il y a plusieurs variables d’intérêt

Attention aux non-réponses: la précision dépend du nombre de répondants

3131

SONDAGE A PROBABILITÉS INÉGALES

Les plans simples Les plans simples ééquiprobables ne sont utilisquiprobables ne sont utiliséés qus qu’’en en ll’’absence de toute autre informationabsence de toute autre information

Tirage Tirage àà

probabilitprobabilitéés ins inéégales: une manigales: une manièère dre d’’utiliser de utiliser de

ll’’information auxiliaireinformation auxiliaire

InfinitInfinitéé

de plans de plans àà

probabilitprobabilitéés ins inéégales et sans remisegales et sans remise

3232


Estimateur de Estimateur de HorvitzHorvitz--Thompson ou des valeurs Thompson ou des valeurs dilatdilatéées pour un total:es pour un total:

Pour que soit sans biais: Pour que soit sans biais:

N

i i i i ii s i

T a y aY

1

( ) ( )N N

i i i i i ii i

ET aY E a Y

1 1

T ( )N

ii

E T Y

1

1i ia

3333


ThThééororèème:me:est le seul estimateur linest le seul estimateur linééaire sans biaisaire sans biais

de Tde T

Pour une moyenne Pour une moyenne

i

i s i

yT

Y i

i s i

yYN

1

3434

SONDAGE A PROBABILITÉS INÉGALESExemple (Ardilly) : nombre dExemple (Ardilly) : nombre d’’habitants Y inconnu, nombre de logements X connu. habitants Y inconnu, nombre de logements X connu.

Estimation du nombre moyen dEstimation du nombre moyen d’’habitants par tirage habitants par tirage àà

probabilitprobabilitéés s proportionnelles au nombre de logementsproportionnelles au nombre de logements

3535

SONDAGE A PROBABILITÉS INÉGALESEchantillons de deux communes:Echantillons de deux communes:

3636


Si N est inconnu:Si N est inconnu:

LL’’estimateur de N est donc:estimateur de N est donc:

DD’’ooùù::

N

iN

1

1

ˆi s i

N

1

( )i s i

E N

1

3737


Estimateur de Estimateur de HajekHajek::

Poids alPoids alééatoires de somme 1.atoires de somme 1.

Estimateur lEstimateur lééggèèrement biaisrement biaiséé

ˆ i

i s i si i

yY

11

3838


Un cas gênant:Un cas gênant:

CommeComme

alorsalors

Mais:Mais:

iY C

i

i s i si i

Y CyN N

1 1

i s i

N

1 y C

( )E y C

3939


Variance:Variance:

si n fixe fsi n fixe formule de Yatesormule de Yates--GrundyGrundy

::

( )N N

ji ii ij i j

i i ji i j

YY YV T

2

1

1

( )N

jii j ij

i j i j

YYV T

212

4040


Estimation de la variance (par HorvitzEstimation de la variance (par Horvitz--Thomson):Thomson):

PremiPremièère formule:re formule:

peut être peut être < 0< 0

DeuxiDeuxièème formule: me formule:

ˆ( ) i j i jii i j

i s i j si i j ij

V T y y y

2

2

1

,

ˆ( ) j i j iji

i j s i j ij

yyV T

212

4141


La formule de Yates Grundy montre que La formule de Yates Grundy montre que ll’’on a inton a intéérêt rêt àà

tirer proportionnellement tirer proportionnellement

aux valeurs daux valeurs d’’une variable auxiliaire X une variable auxiliaire X corrcorréélléée (positivement!) e (positivement!) àà

Y.Y.

IntIntééressant en cas dressant en cas d’’effet taille (CA, nb effet taille (CA, nb dd’’employemployéés, bs, béénnééficefice……))

4242


Calcul des probabilitCalcul des probabilitéés ds d’’inclusion inclusion

Exemple: tirage de 3 individus parmi 6 Exemple: tirage de 3 individus parmi 6 proportionnellement proportionnellement àà

xx11

=300 x=300 x22

=90 x=90 x33

=70 x=70 x44

=50 x=50 x55

=20 x=20 x66

=20=20

ii N

ii

nx

x

1

4343


UnitUnitéés ss séélectionnlectionnéées des d’’office et unitoffice et unitéés s tirtiréées au hasard.es au hasard.

InfinitInfinitéé

de plans de sondage pour des de plans de sondage pour des i i

fixfixéés. s.

4444

Sondage systématique à


On cumule pour tous les individus les probabilitOn cumule pour tous les individus les probabilitéés s d'inclusion:d'inclusion:

VV

kk

= = 11

+ + 22

+ ...+ + ...+ kk

On gOn géénnéére une seule rre une seule rééalisation alisation u u de la loi de la loi U[0,1[U[0,1[

On sOn séélectionne lectionne k k tel que tel que VV

kk--11

u < Vu < V

kk

puis puis i i tel quetel queVV

ii--11

u + 1 < Vu + 1 < V

ii

puis puis j j tel que tel que VV

jj--11

u + 2 < Vu + 2 < V

jj

etc ... on obtient in fine etc ... on obtient in fine n n individusindividus

4545

SimplicitSimplicitéé

InconvInconvéénients: nients:

certaines probabilitcertaines probabilitéés ds d’’inclusion dinclusion d’’ordre 2 ordre 2 peuvent être nullespeuvent être nulles

DDéépend de lpend de l’’ordre du fichierordre du fichier

Tri alTri alééatoire avant tirage?atoire avant tirage?

46464646

NOMBRES ALEATOIRES et PSEUDO-ALEATOIRES

G.Saporta, P.Périé

et S.Rousseau, octobre 2011

Utiles pour rUtiles pour rééaliser des tirages et simuler des aliser des tirages et simuler des phphéénomnomèènes alnes alééatoiresatoires

Nombres alNombres alééatoires: suite de ratoires: suite de rééalisations alisations indindéépendantes dpendantes d’’une variable uniforme sur [0;1]une variable uniforme sur [0;1]

Peuvent être obtenus par des procPeuvent être obtenus par des procééddéés physiques:s physiques:

roues de loterie, roues de loterie,

ééclairage clairage àà

intervalles irrintervalles irrééguliers d'un disque divisguliers d'un disque diviséé

en 10 en 10 secteurs isomsecteurs isoméétriques et numtriques et numéérotrotéés de 0 s de 0 àà

9 : table de 9 : table de

Kendall et Babington SmithKendall et Babington Smith

47474747

Nombres pseudo aléatoires

ProcProcééddéés ds dééterministes mais fournissant terministes mais fournissant une suite de nombres en apparence iid sur une suite de nombres en apparence iid sur [0; 1][0; 1]

Suites mathSuites mathéématiquesmatiques

ddéécimales de cimales de , des tables de logarithmes, des tables de logarithmes

ProcProcééddéés arithms arithméétiquestiques

Milieu du carrMilieu du carréé

de Von Neumann (1946)de Von Neumann (1946)

48484848

On part d'un nombre entierOn part d'un nombre entier

On lOn l’é’éllèève au carrve au carréé

On extrait les chiffres du centre comme nombres alOn extrait les chiffres du centre comme nombres alééatoires.atoires.

Exemple : xExemple : x

00

= 7534= 7534(7534)(7534)22

==

56 7611 5656 7611 56

(7611)(7611)22

==

57 9273 2157 9273 21

(9273)(9273)22

==

85 9885 2985 9885 29

(9885)(9885)22

==

97 7132 2597 7132 25

........

d'od'oùù

la suite 7611 9273 9885 7132 la suite 7611 9273 9885 7132

InconvInconvéénients majeurs : dnients majeurs : déépendance au nombre de dpendance au nombre de déépart et part et rréégularitgularitéés nombreuses (permanence de 0 ou de ss nombreuses (permanence de 0 ou de sééries ries particuliparticulièères).res).

49494949

MMééthodes de congruencethodes de congruenceElles reposent sur des suites récurrentes :

choix arbitraire d’un entier x 0

appelé

germe (ou seed ou graine)

génération d’une séquence (x1

,..., xn ) d’entiers :Xi+1 =a xi +b (modulo m) pour i = 1, ..., n ,

où

a, b et m sont des entiers appelés respectivement multiplicateur, incrément et modulo.

On vérifie : 0< xi < m pour i 1, ..., n .

Intérêt : les nombres u1

...,un

où

forment un échantillon pseudo-aléatoire de la loi uniforme sur [0,1] si les entiers a, b et m sont «

bien »

choisis.

ixum

Intuition de l’horloge : les heures 9h et 21 sont Congrues modulo 12

50505050

Le procédé

étant déterministe, ces nombres sont dits pseudo-aléatoires.

Exemple : x0 = 1 ; a = 6 ; b = 0 ; m = 25x0

= 1 x1 = 6 [25] = 6 x2

= 36[25] =11x3

= 66[25] = 16 x4

= 21 x5 = 1 = x0Ce cycle a pour longueur 5.

Remarque :

La séquence xi

i=1,...,n contient au plus m termes distincts.

Cette suite est donc périodique de période p avec p m Si p = m, la période est dite pleine.

51515151

Choix des entiers a, b et m :

Ils sont déterminés de telle sorte que la séquence ait les meilleures propriétés possibles.

En particulier, m est pris aussi grand que possible pour assurer une grande variété

de valeurs dans la suite xi

Hull et Dobell (1962) ont montré

que les séquences de

période pleine sont obtenues si et seulement si :

b et m sont premiers entre eux,

(a-1) est un multiple de chaque nombre premier qui divise m

si m est un multiple de 4 alors (a-1) aussi

Un algorithme très usité

est la méthode congruentielle de Lehmer (1948) qui pose b = 0.

52525252

MMééthode de Lehmer :thode de Lehmer :xx

i+1i+1

=ax=ax ii

(m)(m)(Sur machines 32 bits m aussi grand que possible (Sur machines 32 bits m aussi grand que possible

m=2m=23131--1)1)

choix classiques:choix classiques:

a=7a=755

=16807 m=2=16807 m=23131--11

a= 2a= 21616+3=65539 m=2+3=65539 m=23131--11

a=279470273 m=4294967291a=279470273 m=4294967291

Remarque : a= 2Remarque : a= 21616+3=65539 m=2+3=65539 m=23131--1 : 1 : RANDURANDU(introduit dans les ann(introduit dans les annéées 1960, sur des machines IBM. Il est tres 1960, sur des machines IBM. Il est trèès s impopulaire car il possimpopulaire car il possèède de nombreux biais auxquels ont dde de nombreux biais auxquels ont dûû

faire face les faire face les

personnes qui l'ont utilispersonnes qui l'ont utiliséé).).

5353

RANDURANDU

a= 2a= 21616+3=65539 m=2+3=65539 m=23131--1 1

mm = 2= 21616

+ 3 + 3

mm²²=6m=6m--9 mod 29 mod 23131

Pb : trPb : trois nombres successifs ois nombres successifs XX

nn

XX

nn + 1+ 1

et et XX

nn + 2+ 2

vvéérifient toujours la rifient toujours la relation relation XX

nn + 2+ 2

= 6= 6XX

nn + 1+ 1

--99

XX

nn

Cette relation donne un caractCette relation donne un caractèère re ‘‘prpréédictifdictif’’

àà

la sla séérie pseaudo alrie pseaudo alééatoire: par atoire: par exemple, une modification des valeurs de exemple, une modification des valeurs de XX

nn

et et XX

nn + 1+ 1

de l'ordre de 0,01, de l'ordre de 0,01, change la valeur de change la valeur de XX

nn + 2+ 2

d'au plus 0,15. d'au plus 0,15.

Pour avoir un "bon" gPour avoir un "bon" géénnéérateur, on souhaite une relation avec des rateur, on souhaite une relation avec des coefficients beaucoup plus grands, de telle manicoefficients beaucoup plus grands, de telle manièère qu'une petite re qu'une petite modification de modification de XX

nn

et et XX

nn + 1+ 1

change complchange complèètement tement XX

nn + 2+ 2

5353

54545454

http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file

http://en.wikipedia.org/wiki/Image:Lcg_3d.gif#file

55555555

Solutions variSolutions variéées: congruences avec retard es: congruences avec retard xi = a xi -r

+b [m]

Exemple: rr

i+1i+1

=(1664525r=(1664525r

ii

+1013904223) m = 2+1013904223) m = 232 32

(Numerical Recipes in C(Numerical Recipes in C ))

Nombreux tests pour valider le caractère uniforme et l’indépendance des réalisations

Chi-deux, Kolmogorov, tests de séquences, de non corrélation

56565656

estimation de

http://wwwhttp://www-- sop.inria.fr/mefisto/java/tutorial1/node15.html#SECTION000331200sop.inria.fr/mefisto/java/tutorial1/node15.html#SECTION0003312000000000000

000000000000

57575757

Calcul d’intégrales: méthode de Monte Carlo

PremiPremièère mre mééthodethode

::

on simule on simule nn valeurs de valeurs de UU

DeuxiDeuxièème mme mééthode:thode:

fonction dfonction d’’importanceimportance

T variable sur [0T variable sur [0

;1] de densit;1] de densitéé

p(t) p(t)

1

0( ) ( ( ))I g t dt E g U

1

1ˆ ( )n

ii

I g un

1

0

( ) ( )( )( ) ( )

g t g TI p t dt Ep t p T

1

( )1ˆ( )

ni

i i

g tIn p t

5858

Générateurs pseudo-aléatoires cryptographiques

Doivent être capable de produire des sDoivent être capable de produire des sééries dont le ries dont le caractcaractèère pseudo alre pseudo alééatoire est moins discernable pour atoire est moins discernable pour mméériter ce titreriter ce titre

……

Mais plus lentsMais plus lents

Un gUn géénnéérateur congruenciel rapide et possrateur congruenciel rapide et posséédant de dant de bonnes propribonnes propriééttéés : Mersenne Twister (1997)s : Mersenne Twister (1997)

Mais nMais n’’est pas considest pas considéérréé

comme gcomme géénnéérateur rateur

cryptographiquecryptographique

UtilisUtiliséé

dans SPSS dans SPSS àà

partir de la version 12partir de la version 12

5858

59595959

ALGORITHMES DE TIRAGE

QualitQualitéés souhaits souhaitéées:es:

Sans remiseSans remise

SSééquentielquentiel

RapideRapide

Respecte les probabilitRespecte les probabilitéés ds d’’inclusioninclusion

De taille fixeDe taille fixe

Utilisable si N est inconnuUtilisable si N est inconnu

Etc.Etc.

6060

Une méthode inefficace : énumération puis sélection

(Yves Till(Yves Tilléé, , ‘‘Sampling AlgorithmsSampling Algorithms’’

p 31)p 31)

Si le plan de sondage est connu, et que la population nSi le plan de sondage est connu, et que la population n’’est par trop est par trop large, une mlarge, une mééthode pour sthode pour séélectionner un lectionner un ééchantillon est lchantillon est l’’approche approche éénumnuméérative : rative : éénumnuméérer tous les rer tous les ééchantillons possibles, puis en chantillons possibles, puis en sséélectionner 1 au hasard.lectionner 1 au hasard.……

mmééthode pure et simple conceptuellement mais impossible dthode pure et simple conceptuellement mais impossible dèès que s que

la population dla population déépasse quelques dizainespasse quelques dizaines

LL’’objectif des algorithmes de tirage est de tirer un objectif des algorithmes de tirage est de tirer un ééchantillon en chantillon en respectant le plan de sondage et en respectant le plan de sondage et en éévitant une vitant une éénumnuméération complration complèète te au prau prééalablealable

6060

6161

Classes de méthodes (Yves Tillé

pp 32 –

39)

MartingalesMartingales

Algorithmes sAlgorithmes sééquentielsquentiels

SSéélection pas lection pas àà

paspas

Par Par ééliminationlimination

Sondages rSondages rééjectifsjectifs

6161

6262

Notion d’entropie

6262

On montre aisOn montre aiséément que I(p) est toujours positif. ment que I(p) est toujours positif.

Plus lPlus l’’entropie est entropie est éélevlevéée, plus le plan de sondage est en un certain e, plus le plan de sondage est en un certain cas alcas alééatoireatoire

A dA dééfaut dfaut d’’information auxiliaire, on peut chercher le plan le plus information auxiliaire, on peut chercher le plan le plus alalééatoire (au sens de latoire (au sens de l’’entropie) qui ventropie) qui véérifie les probabilitrifie les probabilitéés ds d’’inclusion inclusion fixfixééeses

63636363

Plans à

probabilités égales sans remise

64646464

Plans à

probabilités égales sans remise

Tirage de Bernoulli:Tirage de Bernoulli:

on tire N nombres alon tire N nombres alééatoires. Latoires. L’’unitunitéé

i est retenue si Ui est retenue si U

ii

<<

. .

65656565

Tirage de BernoulliTirage de Bernoulli

66666666

Tri alTri alééatoireatoire

67676767

SSéélectionlection--rejetrejetsi Usi U

11

<n/N on prend l<n/N on prend l’’unitunitéé

1. Puis n=n1. Puis n=n--1 et N=N1 et N=N--1. On s1. On séélectionne lectionne ll’’unitunitéé

2 si U2 si U

22

<n<n--1/N1/N--11Si USi U

11

>n/N, on passe >n/N, on passe àà

ll’’unitunitéé

2 avec N=N2 avec N=N--1. On s1. On séélectionne llectionne l’’unitunitéé 2 si U2 si U

22

<n/N<n/N--1 etc.1 etc.

j= nb d’unitésdéjà

sélectionnées

68686868

MMééthode de mise thode de mise àà

jour de ljour de l’é’échantillonchantillon

69696969

70707070

Pas alPas alééatoires atoires

Tirer U et trouver s tel que Tirer U et trouver s tel que

sséélectionner llectionner l’’unitunitéé

s+1, faire N=Ns+1, faire N=N--ss--1 et n=n1 et n=n--1 etc.1 etc.

et aussi le tirage systet aussi le tirage systéématiquematique……

11nN s

nN

CUC

71717171

Tirage systTirage systéématiquematique

DDééfinir un finir un paspas

de tirage = N/n (entier par arrondi) de tirage = N/n (entier par arrondi)

Tirer une unitTirer une unitéé

au hasard au dau hasard au déébut du fichier entre 1 but du fichier entre 1

et et paspas

SSéélectionner une unitlectionner une unitéé

tous les tous les paspas

Avantages: simplicitAvantages: simplicitéé, N pas n, N pas néécessairement connu a cessairement connu a priori, peut être plus efficace que le tirage alpriori, peut être plus efficace que le tirage alééatoire si atoire si le fichier est trile fichier est triéé

selon une variable bien corrselon une variable bien corréélléée e àà

la la

variable dvariable d’’intintéérêt (cf cours sur le sondage en grappes)rêt (cf cours sur le sondage en grappes)

72727272

InconvInconvéénientsnients

Si pSi péériodicitriodicitéé

dans le fichier (Ardilly)dans le fichier (Ardilly)

73737373

Probabilités inégales sans remise

InfinitInfinitéé

de plans de sondage pour des de plans de sondage pour des

i i fixfixééss

Plus de 50 mPlus de 50 mééthodes de tirage! Aucune ne satisfait tous les thodes de tirage! Aucune ne satisfait tous les critcritèères.res.

Quelques techniques simples:Quelques techniques simples:

Tirage avec remise et conservation des unitTirage avec remise et conservation des unitéés distinctes mais s distinctes mais taille non fixetaille non fixe

Rejet de lRejet de l’é’échantillon si il y a des doublons mais proba chantillon si il y a des doublons mais proba dd’’inclusion non proportionnelles aux xinclusion non proportionnelles aux x

ii

74747474

Tirage successif sans remise:Tirage successif sans remise:

On recalcule les probas dOn recalcule les probas d’’inclusion aprinclusion aprèès tirage de s tirage de chaque individu. Si j est tirchaque individu. Si j est tiréé: :

Ne respecte pas les probas dNe respecte pas les probas d’’inclusion dinclusion d’’ordre 1ordre 1

Tirage poissonnien: sTirage poissonnien: séélectionner i si Ulectionner i si U ii

<<ii

ijij

= = ii

j j variance simplevariance simple

Mais taille non fixeMais taille non fixe

' ii

j

1

75757575

(S.Rousseau, 2004)Tirage poissonnien

76767676

MMééthode de Sunter thode de Sunter (g(géénnééralisation de la mralisation de la mééthode de thode de sséélectionlection--rejet)rejet)

77777777

78787878

MMééthode RHC (Rao, Hartley,Cochran)thode RHC (Rao, Hartley,Cochran)

Pour un tirage Pour un tirage àà

probabilitprobabilitéés proportionnelles s proportionnelles àà

la la

taille Xtaille X

Trier les unitTrier les unitéés dans un ordre als dans un ordre aléétaoiretaoire

TronTronççonner le fichier en n groupes successifs de N/n onner le fichier en n groupes successifs de N/n unitunitééss

Tirer dans chaque groupe Tirer dans chaque groupe uneune

unitunitéé

proportionnellement proportionnellement àà

la taillela taille

Simple et performantSimple et performant

Remarque: procRemarque: procééddéé

««

inexactement proportionnel inexactement proportionnel àà

la la

tailletaille

»»

car les groupes ne sont pas de même taille car les groupes ne sont pas de même taille

7979

SONDAGES STRATIFIES

Gilbert Saporta, Philippe Périé

(IPSOS)

8080

Information auxiliaire

8181

STRATIFICATION

IdIdéée :e :

SS’’il existe dans la base de sondage un critil existe dans la base de sondage un critèère permettant de re permettant de distinguer a priori entre eux les individus, on aura tout distinguer a priori entre eux les individus, on aura tout àà

gagner gagner

àà

utiliser cette information pour rutiliser cette information pour réépartir lpartir l’é’échantillon dans chantillon dans chaque souschaque sous--population. population.

CC’’est le principe de la stratification: dest le principe de la stratification: déécouper la population en couper la population en sous ensembles homogsous ensembles homogèènes appelnes appeléés strates et rs strates et rééaliser un aliser un sondage dans chacune dsondage dans chacune d’’elles.elles.

La stratification a pour objectifs de pour objectif de La stratification a pour objectifs de pour objectif de diminuer la variance, augmenter la prdiminuer la variance, augmenter la préécisioncision

8282

Intuition

8282

Dans un sondage aléatoire simple, toutes les combinaisons de n éléments parmi N sont possibles avec la même probabilité.

Or, il arrive que certaines d’entre elles puissent s’avérer a priori indésirablesN=5Variable d’intérêt Y {13 15 17 25 30} dépôt en k€Ymoy = 20

Recensement des résultats possibles n=2

Par exemple, parmi ces échantillons de 2 unités, on trouve les cas extrêmes (13, 15) et (25, 30) qui sont particulièrement « mauvais ».

S’il existe dans la base de sondage un critère permettant de distinguer a priori les catégories des petits et gros clients, on aura tout à gagner à utiliser cette information pour répartir l’échantillon dans chaque sous- population.

8383

Intuition

8383

Le principe de la stratification :

Découper la population en sous-ensembles appelés strates et réaliser un sondage dans chacune d’elles : on espère ainsi exclure les échantillons extrêmes, et - plus généralement – améliorer la précision des estimateurs(On a vu qu’à taille égale un échantillon est plus efficace dans une population homogène que dans une population hétérogène. Plus précisément, l’erreur type d’estimation est lié à la variance du caractère étudié dans la population.)

Chaque sondage partiel s’effectuera ainsi de façon plus efficace et l’assemblage de sondages partiels plus précis donnera des résultats plus fiables qu’un sondage de même taille effectué « en vrac »

La plupart des fois la stratification correspond par ailleurs à un objectif de réduction des coûts d’enquête ou d’optimisation de sa gestionC’est en particulier le cas lorsque l’on utilise un critère de découpage géographique comme la région, ou, dans les échantillon d’entreprise, un critère sectoriel permettant de spécialiser les enquêteurs

8484

Intuition

8484

L’unité échantillonnée dans la première strate est désignée pour en représenter trois, celle de la deuxième strate vaut pour deux. Il convient donc de pondérer chaque valeur par le poids de la strate dont elle est issue

N=5Variable d’intérêt Y {13 15 17 25 30} dépôt en k€Ymoy = 20

Échantillons avec stratification n=2 (un chez les petits, un chez les grands)

1 23 25 5moyy y y

On peut vérifier que la moyenne des six valeurs réalisables pour ymoy est encore 20. Cela signifie que la variable aléatoire ymoy a Ymoy pour espérance mathématique et qu’elle est donc un estimateur sans biais pour ce paramètre.

8585

Intuition

8585

On remarque également que la plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas du SAS : les valeurs extrêmes sont moins éloignées, l’erreur type (c’est-à-dire la racine carrée de la variance des six valeurs) vaut 1,40 au lieu de 3,95.

N=5Variable d’intérêt Y {13 15 17 25 30} dépôt en k€Ymoy = 20

Échantillons avec stratification n=2 (un chez les petits, un chez les grands)

8686

STRATIFICATIONDDééterminer des strates les plus homogterminer des strates les plus homogèènes possibles, par rapport au nes possibles, par rapport au sujet sujet éétuditudiéé..

2 types de consid2 types de considéérations vont conduire au choix des critrations vont conduire au choix des critèères de res de stratification :stratification :1. disponibilit1. disponibilitéé

des critdes critèères dans la base de sondage ;res dans la base de sondage ;

2. pertinence des diff2. pertinence des difféérents critrents critèères pour crres pour crééer des strates er des strates homoghomogèènes. nes.

Ceci nCeci néécessite une connaissancecessite une connaissance••

soit intuitive,soit intuitive,

••

soit venant dsoit venant d’é’études rtudes rééalisaliséées antes antéérieurement.rieurement.

8686

87878787

STRATIFICATION

UUtilisation dtilisation d’’uneuneinformation auxiliaireinformation auxiliairequalitativequalitative

Toujours efficaceToujours efficace

kj

P1

P2

PH

S1S2

88888888

STRATIFICATION, notations

Strates:Strates:

ÉÉchantillon:chantillon:

1 2 h HN , N ......N .......N

, ....... .......h HY Y Y Y1 2

2 2 2 21 , .... .....h H 2

hN Nh

hNY YN

h h

h hN N Y YN N

22 2

1 2, ,......... ,...........h Hn n n n

1 2, ,........ ,...........h Hy y y y

2 2 2 21 2ˆ ˆ ˆ ˆ, ,..... ............h H

hn nh

hny yn

kj

P1

P2

PH

S1S2

89898989

STRATIFICATION

Variance totale=Variance totale=moyenne des variances (moyenne des variances (variance intravariance intra))

+variance des moyennes (+variance des moyennes (variance intervariance inter) )

h hh h W B

N N Y YN N

22 2 2 2

9090

STRATIFICATION

Pour la suite, on se placera dans le cas dPour la suite, on se placera dans le cas d’’un un tirage altirage alééatoire simple sans remiseatoire simple sans remise, , àà

ll’’intintéérieur de chaque strate.rieur de chaque strate.

9090

91919191

STRATIFICATION

Estimateur sans biais de (Horvitz Thomson)Estimateur sans biais de (Horvitz Thomson)

Variance:Variance:

Yˆ hstr h

NY yN

ˆ( ) ( )

( )

Hh h h h h

str hh h h

Hh

h h hh h

N N N nV Y V yN N n N

SN N nN n

2 2 2

1

2

21

1

1

92929292

STRATIFICATION, répartition proportionnelle

ÉÉchantillon dit chantillon dit ««

reprrepréésentatifsentatif

»»::

Taux de sondage constant dans chaque Taux de sondage constant dans chaque stratestrate

h h hh

h

n N n nn N N N

1 1

ˆ ˆH Hh h

str h h proph h

N nY y y y YN n

93939393


variance :variance :

Si Si NNhh

est grandest grand::

ˆ( ) ( )

( ) ( )

H Hh h h

prop h h h h hh hh h

H H Hh h

h h h h hh h hh

S N nV Y N N n N SN n N n

N N N n NN S N S SN n N n nN N

22

2 21 1

2 2 22 2

1 1 1

1 1

1 11 1

ˆ( )H H

h h wprop h h

h h

N n N N n N N nV Y SnN N nN N N n

22 2

1 1

94949494


Variance de lVariance de l’’estimateur du SAS sans remise:estimateur du SAS sans remise:

Avec les mêmes probabilitAvec les mêmes probabilitéés ds d’’inclusion dinclusion d’’ordre 1, ordre 1, ll’é’échantillon stratifichantillon stratifiéé

reprrepréésentatif est plus efficace sentatif est plus efficace

ququ’’un un ééchantillon simple de même taille dchantillon simple de même taille dèès que s que les sont diffles sont difféérents.rents.hY

( ) ( )n S N n S N nV yN n N n N n

2 2 2

1

95959595

STRATIFICATION optimale

RRéépartition optimale:partition optimale:

avec avec

cchh

––

cocoûût unitaire dt unitaire d’’une observationune observation

22

1( ) h h hstr h

h

N N nV Y S

N n

2 2

1

h

h hh

NSN

2

0

m in

h h hh

h

h h

N N nS

nn c c

22 2

hh h h

h fixe

N S N Sn

96969696


Solution:Solution:

proportionnel proportionnel àà

cchh

Si cSi chh

constant:constant:

--

RRéépartition de Neymanpartition de Neyman

2 2

2h h

h

N Sn

h h

h h

n SN c

h hh

h h

N Sn nN S

9797


Cette rCette réépartition utilise un taux de sondage partition utilise un taux de sondage f f proportionnel proportionnel àà

la dispersion la dispersion SShh

de de X X éétuditudiéée e dans chaque strate.dans chaque strate.

Plus une strate est hPlus une strate est hééttéérogrogèène visne vis--àà--vis de vis de la la variable variable éétuditudiéée, plus on utilise un taux de e, plus on utilise un taux de sondage important.sondage important.

La thLa thééorie montre que cette rorie montre que cette réépartition est celle partition est celle qui fournit la variance la plus faible une fois les qui fournit la variance la plus faible une fois les strates dstrates dééterminterminéées.es.

9797

9898


Remarquons que lRemarquons que l’é’échantillon de Neyman chantillon de Neyman ddéépend du caractpend du caractèère que lre que l’’on veut estimer en on veut estimer en prioritprioritéé. C. C’’est pour ce caractest pour ce caractèère que lre que l’’on prendra on prendra la variance en considla variance en considéération. ration.

En gEn géénnééral, celleral, celle--ci ne sera pas connue ci ne sera pas connue a prioria priori. . Elle pourra être estimElle pourra être estiméée e àà

partir dpartir d’’une enquête une enquête

antantéérieure ou drieure ou d’é’études limittudes limitéées.es.

9898

99999999

STRATIFICATION

Exemple nExemple n°°

1: pr1: préésondage de 155 unitsondage de 155 unitééssStratesStrates 11 22 33 44

NNhh37503750 32723272 13871387 24752475 10 88410 884

nnhh5050 4545 3030 3030 155155

12.612.6 14.514.5 18.618.6 13.813.8

2.82.8 2.92.9 4.84.8 3.23.2

hy

2ˆh

100100100100

STRATIFICATION


1:1:

Intervalle de confiance Intervalle de confiance àà

95% pour :95% pour :

Pour T:Pour T:

x x3750 12.6 ..... 2475 13.8 14.21

10884h

hNY yN

22

2ˆ ( ) 0 .02059 (0 .14 )hh

h

NV YN n

Y

x14.21 2 0.14 soit: 13.93 Y 154662 3047

101101101101

STRATIFICATION


1:1:

On estime: par On estime: par

par par

parpar

2

2 2h hh h

N N Y YN N

2h 2

1

hh

h

nn

hYhy

Y

2 26.06 2.46

ˆstrY

ˆstrY

102102102102

STRATIFICATION

Suite: RSuite: Réépartition de Neyman pour n=1000:partition de Neyman pour n=1000:

NN11

SS11

= 6275= 6275 nn11

= 1000 x 6275/19 312 = 325= 1000 x 6275/19 312 = 325NN22

SS22

= 5572= 5572 nn22

= 288= 288NN33

SS33

= 3038= 3038 nn33

= 157= 157NN44

SS44

= 4427= 4427 nn44

= 229= 22919 31219 312

Variance:Variance:

connu connu àà

++

2 x 0.0542 soit 2 x 0.0542 soit ++

0.1080.108T connu T connu àà

++

11791179

222

1 0.0029 0.0542h h hh

h

N N nS

N n

Y

103103103103

STRATIFICATION

ÉÉchantillon simple chantillon simple àà

1000:1000:

connu connu àà

++

0.15; T connu 0.15; T connu àà

++

16151615

ÉÉchantillon stratifichantillon stratifiéé

reprrepréésentatif:sentatif:nn11

= 345= 345nn22

= 301= 301nn33

= 127= 127nn44

= 227= 227

2

20.0055 0.07421

N nn N

Y

104104104104

STRATIFICATION

Estimation dEstimation d’’une proportion pune proportion p

Même dMême déémarche: une proportion est une marche: une proportion est une

moyenne particulimoyenne particulièèrere

12

1

2

1

ˆ

(1 )ˆ( )1

(1 )ˆ ˆ( ) 1

Hh

str hh

Hh h h h h

strh h h

Hh h h h

strh h h

Np fN

N p p N nV pN n N

N f f nV pN n N

105105105105

STRATIFICATION

Comment stratifier?Comment stratifier?

Remarque prRemarque prééalable: dans un sondage alable: dans un sondage àà

probabilitprobabilitéé ininéégale gale i i proportionnel proportionnel àà

YYii

annule la variance.annule la variance.

Nombre de strates: le maximum maisNombre de strates: le maximum mais……

Limites de strates optimales:Limites de strates optimales:mmééthode de Dalenius et Hodges. Regrouper des thode de Dalenius et Hodges. Regrouper des

classes selon le cumul de la racine des effectifsclasses selon le cumul de la racine des effectifs

106106106106

STRATIFICATION

RRéépartition dans les strates:partition dans les strates:Si Sh Si Sh inconnu : répartition proportionnelleSi Sh connu: NeymanSi Sh connu: Neyman Sinon, hypothSinon, hypothèèse frse frééquente dquente d’’ooùù

nnhh


la somme de la variable la somme de la variable éétuditudiéée ou e ou dd’’une variable corrune variable corréélléée. e. Exemple: Exemple: ééchantillon dchantillon d’’entreprises proportionnel au CA entreprises proportionnel au CA ou ou àà

ll’’effectif de la strate.effectif de la strate.

h

h

S cY

107107107107

STRATIFICATION

Variable de stratification: en thVariable de stratification: en thééorie Y; orie Y; sinon, variable bien corrsinon, variable bien corréélléée avec Y.e avec Y.

En pratique quand il y a plusieurs En pratique quand il y a plusieurs variables dvariables d’’intintéérêt et une variable de rêt et une variable de stratification, on utilise la rstratification, on utilise la réépartition partition proportionnelle proportionnelle

108108

Exemples

Enquêtes INSEE auprEnquêtes INSEE auprèès des entreprises, sondages B2B en s des entreprises, sondages B2B en institut.institut.

« Le plan de sondage des enquêtes de l'INSEE auprès des entreprises est en général un plan de sondage stratifié

avec un sondage aléatoire simple sans remise dans chaque strate. »

108108

109109

Exemples

Indice des prixIndice des prixhttp://www.insee.fr/fr/methodes/default.asp?page=sources/opehttp://www.insee.fr/fr/methodes/default.asp?page=sources/ope--ipc.htmipc.htm

«

Le plan de sondage est stratifié

selon trois types de critères :

-

critère géographique : les relevés sont effectués dans 96 agglomérations de plus de 2 000 habitants dispersées sur le territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ;

-

type de produit : un échantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est défini pour tenir compte de l'hétérogénéité

des produits au sein des postes. La variété

est le niveau de base pour le suivi des produits et le calcul de l'indice. La liste des variétés reste confidentielle et l'IPC n'est pas diffusé

à

ce niveau ;

-

type de point de vente : un échantillon de 27 000 points de vente, stratifié

par forme de vente, a été

constitué

pour représenter la diversité

des produits et modes d'achat des consommateurs et prendre en compte des variations de prix différenciées selon les formes de vente.

Le croisement de ces différents critères aboutit à

suivre un peu plus de 140 000 séries (produits précis dans un point de vente donné) donnant lieu à

près de 160 000 relevés mensuels.

»

109109

http://www.insee.fr/fr/methodes/default.asp?page=sources/ope-ipc.htm



110110

Taille des strates Autres considérations

Dans la pratique, dDans la pratique, d’’autres considautres considéérations que la prrations que la préécision cision optimale peuvent guider loptimale peuvent guider l’’allocation dans les strates, allocation dans les strates, comme la ncomme la néécessitcessitéé

dd’’avoir des bases de lectures avoir des bases de lectures

suffisantes sur chaque stratesuffisantes sur chaque strate

LL’é’étude dtude d’’audience de la presse audience de la presse ‘‘Audipresse ONEAudipresse ONE’’

part dpart d’’une une rréépartition gpartition gééographique proportionnelle, ographique proportionnelle, àà

partir de laquelle on partir de laquelle on

impose des seuils minimaux dans chaque dimpose des seuils minimaux dans chaque déépartement. partement.

Citons aussi le type dCitons aussi le type d’’abonnement pour le secteur des tabonnement pour le secteur des téélléécoms, les coms, les classes dclasses d’’anciennetanciennetéé, les canaux de recrutement des client pour les , les canaux de recrutement des client pour les éétudes de satisfaction, tudes de satisfaction, ……..

110110

111111

SONDAGE A DEUX DEGRÉS

Population dPopulation déécoupcoupéée en souse en sous--populations dites populations dites unitunitéés primaires s primaires DDééfinition: tirage de finition: tirage de mm unitunitéés primaires puis de s primaires puis de nnii

unitunitééss

secondairessecondairesAvantages: Avantages:

frais de dfrais de dééplacement rplacement rééduitsduits absence de liste autorisabsence de liste autorisééee

Mais:Mais:

prpréécision moindre: effet de grappe.cision moindre: effet de grappe.

Taille dTaille d’é’échantillon en gchantillon en géénnééral alral alééatoireatoire

112112

SONDAGE A DEUX DEGRÉS MM unitunitéés primaires de taille s primaires de taille NN

ii

--

total de ltotal de l’’UP nUP n°°ii

Tirage alTirage alééatoire simple atoire simple àà

chaque degrchaque degréé..

Remarque: inutile de connaRemarque: inutile de connaîître N pour estimer T.tre N pour estimer T.

22

2 ,2 21

in t in t

1 1 iii

i i

V a r ia n c e V a r ia n c ee r r a

U P U P

SnSm MV T M NM m m N n

2

22,

1

11

iN

ii ijii

S Y YN

i

iij

i s j Si

M NT ym n

2

21

1

11

M

ii

S T TM

1

M

ii

N N

1

N i

i i jj

T Y

113113


estimestiméé

par si m>1par si m>1

idem pour Sidem pour S22 2,i2,i

Si nSi n

ii


NN

ii

::

taille dtaille d’é’échantillon alchantillon alééatoireatoire

21S 2

21

1

11

m

ii

Ts Tm M

00 0 0 ( ) ( )

i i

i i ii s

i S k U

N N N m n mn n E n E n nN N N M M

114114


Sondage autopondSondage autopondéérréé::--

m unitm unitéés primaires tirs primaires tiréées es àà

probabilitprobabilitéés proportionnelles s proportionnelles àà

leur tailleleur taille--

tirage dtirage d’é’échantillons de taille fixe nchantillons de taille fixe n

00

probabilitprobabilitéés ds d’’inclusion constantesinclusion constantes

Estimateur de la moyenne: N peut être inconnuEstimateur de la moyenne: N peut être inconnu

0 0ji

j

N n mnmN N N

Y y

115115

SONDAGES A DEUX DEGRÉS Comment améliorer la précision ?

Avant tout, construire des UP le plus Avant tout, construire des UP le plus ressemblantes possible entre elles pour limiter ressemblantes possible entre elles pour limiter les effets de grappes.les effets de grappes.

Exemple : lExemple : l’’unitunitéé

mméénage est intnage est intééressante pour ressante pour

estimer des variables comme le sexe, lestimer des variables comme le sexe, l’’activitactivitéé, l, l’’âge, âge, etc, mais elle est moins efficace pour etc, mais elle est moins efficace pour éétudier le tudier le niveau d'instruction, la CS , etc.niveau d'instruction, la CS , etc.

PrivilPriviléégier le nombre d'UP enquêtgier le nombre d'UP enquêtéées plutôt que es plutôt que le nombre d'USle nombre d'US

Tirer les UP Tirer les UP àà

probabilitprobabilitéés ins inéégalesgales

Stratifier au niveau des UPStratifier au niveau des UP

116116

CAS PARTICULIER: SONDAGE EN GRAPPES

DDééfinition: toutes les US sont observfinition: toutes les US sont observéées dans les es dans les UP tirUP tiréées.es.

««

RecensementRecensement

»»

au deuxiau deuxièème degrme degréé

Le tirage systLe tirage systéématique est un tirage dmatique est un tirage d’’une grappe. une grappe.

117117

SONDAGE EN GRAPPES

Cas gCas géénnééral :tirage de grappes ral :tirage de grappes àà

probabilitprobabilitéés s ininéégalesgales

Estimation du total:Estimation du total:

Estimation dEstimation d’’une moyenneune moyenne

pbpb

si N inconnu: utiliser lsi N inconnu: utiliser l’’estimateur de Hajekestimateur de Hajek

1

1 mi i

i i

N YYN

ˆm

i

i i

TT

1

1

1

mi i

i iHajek m

i

i i

N Y

YN

118118

SONDAGE EN GRAPPES

Tirage de grappes Tirage de grappes àà

probabilitprobabilitéés s éégalesgales

taille dtaille d’é’échantillon alchantillon alééatoireatoire

EstimationEstimation

1

1 m

iii

MY NYmN

imM

i

i s

MT Tm

2

2 11 SmV T MM m

( ) ( )i i

s i ii S k U

m NmE n E N NM M

119119

SONDAGE EN GRAPPES

Tirage de grappes Tirage de grappes àà

probabilitprobabilitéés s proportionnelles proportionnelles àà

la taille la taille

ii

NmN

1

1 m

ii

Y Ym

2

1 ( ) ( )

i i

Mi

s i i ii S i U i

N m mE n E N N NN N

2

1

1ˆ( ) (1 )( )( 1)

mi

ii

NV Y m Y Ym m N

120120

SONDAGE EN GRAPPES conseils pratiques

Faire des grappes homogFaire des grappes homogèènes en inter et nes en inter et hhééttéérogrogèènes en intra (contraire de la stratification).nes en intra (contraire de la stratification).

Faire beaucoup de grappes de tailles voisines et Faire beaucoup de grappes de tailles voisines et

petitespetites En tirer un maximumEn tirer un maximum

121121

Le tirage systématique

TrTrèès utiliss utiliséé

àà

la place dla place d’’un tirage alun tirage alééatoire atoire àà

probabilitprobabilitéés s éégalesgales

Soit N multiple de n. Par exemple on veut tirer 10 Soit N multiple de n. Par exemple on veut tirer 10 individus parmi 1000 : on commence par tirer au hasard individus parmi 1000 : on commence par tirer au hasard un nombre entier entre 1 et 100, si ce nombre est 27, le un nombre entier entre 1 et 100, si ce nombre est 27, le premier individu sera le npremier individu sera le n°°27, le deuxi27, le deuxièème le nme le n°°127 etc. 127 etc. jusqujusqu’’au nau n°°927. 927.

De faDe faççon gon géénnéérale si on a tirrale si on a tiréé

un entier h , les individus un entier h , les individus

sséélectionnlectionnéés ont les nums ont les numééros : ros : h , h+M, h+2M, h , h+M, h+2M, ……, , h+(nh+(n--1)M1)M.. Tirage dTirage d’’une seule grappeune seule grappe

parmi M=N/n grappes.parmi M=N/n grappes.

122122

Le tirage systématique

LL’’estimateur de la moyenne est simplement la moyenne de la estimateur de la moyenne est simplement la moyenne de la grappe sgrappe séélectionnlectionnéée et sa variance est e et sa variance est

Lorsque le fichier se trouve être triLorsque le fichier se trouve être triéé

selon un ordre proche de Y, la selon un ordre proche de Y, la variance peut être notablement plus faible que pour le tirage alvariance peut être notablement plus faible que pour le tirage alééatoire atoire simple. Exemple Ysimple. Exemple Y

ii

= i = i Mais la variance nMais la variance n’’est pas estimable .est pas estimable .

Voir formule Voir formule

Il est incorrect dIl est incorrect d’’utiliser la variance de lutiliser la variance de l’’estimateur du tirage alestimateur du tirage alééatoire atoire simple sauf si la base de sondage a simple sauf si la base de sondage a ééttéé

tritriéée pre prééalablement au hasard. alablement au hasard.

2

1

ˆ Mi i

i

Y N YV Y MN M

2

21

1

11

m

ii

Ts Tm M

123123

Tirage systématique: un exemple théorique

Yi =i Population triée par ordre croissant N=Kn

•Tirage équiprobable sans remise :

221 ( 1)

2 12N NY S

2 2( 1) 1 ( 1)( ) 1 112 12sr

n N KnV yN n K n

124124

• Tirage systématique :

une grappe : h, h+K, h+2K,.., h+(n-1)K

•Moyenne

•Variance

Exemple N=20 n=4

12

1 1 1 1 1( ) ( )2 2 2 2 2

h

h

nY h K

n K n nK NE Y E h K K

21 1ˆ( ) ( ) ( ) ( )2 12syst

n KV Y V h K V h V h

ˆ( ) ( )syst srV Y V y

ˆ( ) 1.33 ( ) 7.35syst srV Y V y

125125

Redressements

STA108 Enquêtes et sondages

Sylvie Rousseau, Gilbert Saporta, novembre 2011

STA108 Enquêtes et sondages

126126126126

SOMMAIRE

1.

Estimateur par le quotient (ou ratio)2.

Estimateur par la régression

3.

Estimateur post-stratifié4.

Estimateur du raking-ratio

5.

Calage sur marges

127127127127

MÉTHODES DE REDRESSEMENT OU DE REPONDÉRATION

Principe :Utiliser a posteriori une information supplémentaire corrélée avec la variable à

étudier

De sorte à

:oaccroître la précision de l’estimationoassurer la cohérence des résultats par rapport à

l’information supplémentaire

Information auxiliaire : Variables de contrôle dont on connaît :odes caractéristiques globales, oou des caractéristiques par classes, oou les valeurs pour chaque unité

de la population

128128128128

ESTIMATEUR PAR LE QUOTIENT EXEMPLE

• Cadre : • La variable auxiliaire est quantitative• On connaît le total (ou la moyenne) de cette variable sur

l’échantillon et

sur la population• On va ajuster l’estimation sur cette grandeur connue

• Exemple : o On veut estimer le CA moyen d’hypermarchés ( )o On a enquêté 80 hypermarchéso On sait que le nombre moyen de caisses dans la

population des hypermarchés est o On relève sur l’échantillon

o L’estimateur par le quotient vaut :

Y

28X

€ 2,110ˆ kY 8,28ˆ X

€ 1,10728,8282,110ˆ kYQ

129129129129

ESTIMATEUR PAR LE QUOTIENT FORMULE GÉNÉRALE

• Principe : règle de 3

• Formule générale :

• Hypothèse de proportionnalité

• Biaisé

mais négligeable si n>1000

• Gain de précision par rapport à

un PESR de même taille pourvu que l’hypothèse de proportionnalité

soit valide

X

XYYQ ˆˆˆ

130130

ESTIMATEUR PAR LE QUOTIENT INTERPRÉTATION GRAPHIQUE

130130

131131131131

ESTIMATEUR PAR LE QUOTIENT POIDS APRÈS REDRESSEMENT

• On a :

et

• Le poids après redressement de k vaut

• Le poids de sondage valaitk

1

Sk k

ky

YT

ˆ

X

XYT

sk k

kQy ˆ

ˆ

X

X

kk TT

X

Xˆ

1ˆ

1

132132132132

ESTIMATEUR PAR LE QUOTIENT ESPÉRANCE

• Cas général

o Dans le cas d’un PESR de n parmi N :

• Biais en 1/n

• Biais nul si Y et X sont proportionnelles (droite de régression passant par l’origine)

i.e.

o Dans le cas d’un PESR :

YX

YXCov

X

XVarYYE Q

ˆ,ˆ

²

ˆ

1ˆ

YXS

XS

NnYYE yxx

Q,

2

²111ˆ

Biais

RXY

XVar

YXCov

ˆ

ˆ,ˆ

RXY

S

S

x

yx 2,

kkk uRXY

133133133133

ESTIMATEUR PAR LE QUOTIENT ESPÉRANCE

• Développement limité

en 0 avec soit

XXXXRYXRY

XRYXXYY

XXYXY

X

XYXYYX

XYYYQ

ˆ1ˆˆ1ˆˆ

1

ˆˆ

1

ˆˆ

)1(

ˆ..ˆ

ˆ

ˆ..ˆ

ˆˆˆ

XXX

ˆ

1ˆ XX

XYXCovXVarR

XRXERXYXYEX

XXXXRYE

XXXXRYEYYE Q

)ˆ,()ˆ(.

².²)ˆ(..)ˆ.ˆ(1

ˆˆˆˆ1ˆˆˆ

XYRoù

134134134134

ESTIMATEUR PAR LE QUOTIENT ERREUR QUADRATIQUE MOYENNE

• Cas général :

o Cas d’un PESR de taille n parmi N :

• Estimée par :


XarVRYXovCRYarVYQME Q

ˆˆˆˆ,ˆˆˆ2ˆˆˆˆ 2

XVarRYXRCovYVar

XRYVarYYEYEQM QQ

ˆˆ,ˆ2ˆ

ˆˆˆˆ

2

2

X

YR ˆ

ˆˆ avec

nSRRSS

NnYEQM xxyy

Q

222 21ˆ

nSRSRS

NnYQME xxyy

Q

222 ˆˆˆˆ2ˆ1ˆˆ

135135135135

ESTIMATEUR PAR LE QUOTIENT COMPARAISON AVEC UN PESR

• Cas général :


L'estimation par la méthode du ratio est efficace si les variables Y et X sont «

à

peu près

»

proportionnelles

0ˆ²ˆ,ˆ2ˆˆ

XVarRYXRCovYVarYEQM Q

02ˆˆ 22

xxyQ SRRSYVarYEQM

22R

S

S

x

xy positives) et ( YX

XYb

21

( 2x

xy

S

Sb

)sur de régression de droite la de pente XY

136136136136

COMPLÉMENT : ESTIMATION D’UN RATIO

Exemple : sélection de n fermes d’élevage par PESR et observation de Xi

nombre de vaches et de Yi

production

Rendement par vache :

Estimé

par :

Biaisé

o Rapport de deux variables aléatoires

o Développement limité

XYR

ˆ

ˆˆ

X

YR

YXS

XS

NnRRRE yxx

.²11ˆ ,

2

137137137137

ESTIMATEUR PAR LA RÉGRESSION PRINCIPE

• Cadre :o La variable auxiliaire est quantitativeo On l’observe pour chaque individu de l’échantillon et on en

connaît la vraie moyenne sur la populationo On va ajuster l’estimation sur cette grandeur connue

• Hypothèse : relation affine entre Y et X

• Formule générale :

avec

pente estimée de la droite de régression de Y sur X

y a bx

XXbYYreg

ˆˆˆˆ

ˆ

ˆˆ

2x

xy

S

Sb

138138138138

ESTIMATEUR PAR LA RÉGRESSION INTERPRÉTATION GRAPHIQUE

139139139139

ESTIMATEUR PAR LA RÉGRESSION PROPRIÉTÉS

• Biaisé

mais biais négligeable pour n assez grand

• Erreur quadratique moyenne dans le cas d’un PESR

• Estimée par :

²11ˆ2

nS

NnYEQM y

regyx

xy

SS

S avec

²ˆ1ˆ

1ˆˆ2

nS

NnYQME y

regyx

xy

SS

Sˆˆ

ˆˆ avec

140140140140

ESTIMATEUR PAR LA RÉGRESSION COMPARAISON

• Meilleur que l’estimateur d’Horvitz-Thompson

(toujours vrai)

• Meilleur que l’estimateur par le quotient

(toujours vrai)

o Si la relation entre X et Y est linéaire et non affine (ordonnée à l’origine nulle), alors l’estimateur par la régression est égal à

l’estimateur par le quotient

0²1ˆˆ

Qreg YVarYEQM

2222 2²1ˆˆxxyyyQreg SRRSSSYEQMYEQM

0

02

02

22

2242

2

222

xyx

xyxyxx

xyx

xyx

SRS

SSRSSR

RSS

SSR

141141141141

ESTIMATEUR POST-STRATIFIÉ

• Cadre : o La variable auxiliaire est qualitativeo On définit après l'enquête des groupes d'individus, appelés

post-strates.o On observe les effectifs des post-strates sur l’échantillon o On connaît la répartition de la population selon ces post-strateso On va ajuster l’estimation sur cette répartition

• Remarques :o Les effectifs des post-strates dans l'échantillon ne sont connus

qu'après enquêteo Ils dépendent de l'échantillon choisi : ce sont des variables

aléatoires

142142142142

ESTIMATEUR POST-STRATIFIÉ 1ER

EXEMPLE

• On veut estimer le taux de fréquentation des salles de cinéma • On sait que cette activité est liée à la possession de TV• On connait le taux d’équipement en TV : ptélé

= 80%• On observe sur un échantillon de taille 1000 choisi par PESR :

• Résultats après redressement

CinémaTélé

Oui Non Total

Oui 20 680 700 70 % et non 80 % ×8/7Non 80 220 300 ×2/3Total 100 900 1000

CinémaTélé

Oui Non Total

Oui 23 777 800Non 53 147 200Total 76 924 1000

143143143143

ESTIMATEUR POST-STRATIFIÉ 2ND

EXEMPLE

• Enquête concernant les revenus : on observe X=classe d’âge et Y=revenu

• Résultats observés :

• Estimateur d’Horvitz-Thompson :

• Estimateur post-stratifié

Tranche d’âge ≤

20 21 -

35 36 -

50 ≥

50

Proportion observée

15 % 30 % 30 % 25 %

Vraie proportion 20 % 35 % 30 % 15 %

Revenu moyen observé

6 000 9 000 15 000 12 000

1110025,0120003,0150003,0900015,06000ˆ Y

1065015,0120003,01500035,090002,06000ˆ postY

144144144144

ESTIMATEUR POST-STRATIFIÉ PRINCIPE

• Total et moyenne sur la population :

• Estimateurs d’Horvitz-Thompson :

• Estimateurs post-stratifié

H

h Skk

hh

H

hhhposty

h

yn

NyNT11

1ˆˆ

H

h

H

hhhyh

Uk

H

h

N

kkky YNTyyT

h

1 11 1h

H

h

hy YNN

NT

Y 1

Sk

ky y

nNT

Y 1ˆˆ

H

h Skk

h

hH

hh

hpost

h

ynN

Ny

NN

Y11

1ˆˆ

H

hh

hH

h Skk

Skk

Sk k

ky y

nn

NynNy

nNy

Th 11

ˆˆ

145145145145

ESTIMATEUR POST-STRATIFIÉ POIDS APRÈS REDRESSEMENT

• On a :

et

• Le poids après redressement de k vaut

• Le poids de sondage valait

H

h Skk

hhpost

h

yn

NyT1

1ˆ

h

hnN

nN

Sk

ky ynNT

146146146146

ESTIMATEUR POST-STRATIFIÉ ESPÉRANCE

car si nh

est fixé, le plan est un PESR

• Les effectifs nh

peuvent être nuls, d’où

le léger biais de l’estimateur post-stratifié

• Pour l’éviter, définir les post-strates de sorte à

vérifier :

Hhnpostypostyh

TEETE ,...,1,/ˆˆ

H

nh

yhyH

nh

hhH

hhhhHhnposty

hh

hTTYNHhnYENTE

01

011,...,1,/

,...,1,/ˆˆ

H

hhyhyposty nPTTTE

10ˆ

HhNN

n h ,...,1 30

147147147147

ESTIMATEUR POST-STRATIFIÉ VARIANCE

HhnpostyHhnpostypostyhh

TEVarTVarETVar ,...,1,/,...,1,/ˆˆˆ

0

01

H

nh

yhy

h

TTVar

H

h h

yh

h

hHhnposty n

SNn

NTVarhh 1

22

,...,1,/1ˆ

H

hyh

hhh

H

hyh

hhposty Sn

ENNSNn

NETVarh 1

2

1

22 1111ˆ

Hhnpostypostyh

TVarETVar,...,1,/

ˆˆ

148148148148


• Calcul de

par développement limité

en 0 avecsoit

• D’où

:

• Or : i.e.

• On en déduit :

hnE /1

h

hnE

n1

hhh nEE

nEE

nE 1²11

111

),,( hh NNnHn

11)(

)(

NnN

NN

NN

nnVar

NN

nnE

hhh

hh

)1²()()(

²)(²

011111

2

2

2

NnnN

NNNN

nNN

NnnVarN

nNN

nNNn

nNNn

EnN

Nn

E

h

h

h

h

h

hh

h

h

h

hh

hhhh nEn

nEn 11

111

149149149149


• On a :

avec

D’où

la variance d’échantillonnage :

Qu’on estime par :

H

hyh

hhhposty S

nENNTVar

1

211ˆ

)1²()()(1

2

Nn

nNN

NNNnN

Nn

Eh

h

hh

H

hyh

hH

hyh

hposty S

NN

nNnNNS

NN

nNnNTVar

1

2

1

2 1²

11

²11²ˆ

H

hyh

hH

hyh

hposty S

NN

nNnNNS

NN

nNnNTarV

1

2

1

2 ˆ1²

11

²ˆ11²ˆˆ

150150150150

ESTIMATEUR POST-STRATIFIÉ COMPARAISON

Avec un plan stratifié

et des allocations proportionnelles

Il vaut toujours mieux stratifier a priori que post-stratifierLorsque que stratifier a priori n’est pas possible, la post-

stratification peut être intéressante Pourvu que le critère de post-stratification soit bien lié

avec

la variable d’intérêt

H

hyh

hH

hyh

hposty S

NN

nNnNNS

NN

nNnNTVar

1

2

1

2 1²

11

²11²ˆ

H

hyh

hy S

NN

nNnNTVar

prop 1

211²ˆ

nO

TVar

TVar

propy

posty 11ˆ

ˆ

151151

ESTIMATEUR POST-STRATIFIÉ CONCLUSION

• Pour avoir une bonne post-stratification :o Variable auxiliaire bien corrélée avec Yo n grando Grandes post-strates i.e. (N-Nh

)/N petit o Effectifs Nh

ou poids des post-strates connus

• Mais : o Ne pas utiliser que des variables socio-démographiqueso Ne pas multiplier les critères de redressement

151151

152152

ESTIMATEUR DU RAKING-RATIO EXEMPLE

152152

1000 individus ont été interrogés. La répartition par sexe et profession est la suivante

P1 P2 P3 Total H 300 100 200 600 F 100 150 150 400 Total 400 250 150 1000

Vraies marges 500 et 500 pour le sexe et 350,300, 350 pour la profession. Une première règle de 3 permet d’obtenir les marges souhaitées pour le sexe : on

multiplie la première ligne par 500/600 et la deuxième ligne par 500/400

P1 P2 P3 Total H 250 83 167 500 F 125 187.5 187.5 500 Total 375 270.5 354.5 1000

153153

ESTIMATEUR DU RAKING-RATIO

153153

On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profession, ce qui change les marges en ligne : P1 P2 P3 Total H 233 92 165 490 F 117 208 185 510 Total 350 300 350 1000 Puis en ligne : P1 P2 P3 Total H 238 94 168 500 F 115 204 181 500 Total 353 298 349 1000

En l’absence de cases vides, l’algorithme converge rapidement et donne les poids de redressement à appliquer à chaque case. Ainsi à la quatrième itération (très proche du résultat souhaité) , les 300 individus H et P1 ont chacun un poids de 0.236. La somme des poids de redressement des 1000 individus vaut 1000. P1 P2 P3 Total H 236 95 168 499 F 114 205 182 501 Total 350 300 350 1000

154154

GÉNÉRALISATION

: CALAGE

SUR

MARGES OBJECTIFS

• Améliorer la précision des estimateurs des paramètres d’intérêt d’une enquêteo Pourvu que les critères de calage soient liés aux

variables d’intérêt

• Assurer la cohérence des résultats avec des informations synthétiques connues par ailleurs. Ainsi, après calage, l’échantillon restitue :o les totaux de variables quantitatives connus sur la

populationo les effectifs de modalités de variables catégorielles

connus sur la population 154154

155155

GÉNÉRALISATION

: CALAGE

SUR

MARGES PRINCIPE

Re-pondérer les individus échantillonnés en utilisant une information auxiliaire disponible sur un certain nombre de variables, appelées variables de calage

Cas particuliers : les estimateurs par le ratio, par la régression, par le raking-ratio

155155

156156156156

CALAGE SUR MARGES MÉTHODE

• Supposons connus les totaux sur la population de J variables auxiliaires

• Pour les caractères catégoriels, les totaux sont les effectifs de chaque modalité

(= totaux des variables indicatrices

associées à

ces modalités)

• On va tenir compte de cette information pour améliorer l’estimateur d’Horvitz-Thompson

• En formant un nouvel estimateur où

les nouveaux poids à

rechercher :

o sont «

proches

»

des poids initiauxo vérifient les équations de calage :

ˆk

Skk

Sk k

ky yd

yT

ˆ, k

Skkcaléy ywT

j ˆ,,

jcaléj xkjSk

kx TxwT

sondage) de poids1( k

kd

Jj xxxX TTTT ,...,,...,

1

157157157157

CALAGE SUR MARGES MÉTHODE

• On choisit une fonction de distance entre le poids initial et le poids final : G(wk, dk

)

• Les poids cherchés sont solutions du problème d'optimisation :

• Résolution du système non linéaire

o où

F est la fonction réciproque de la dérivée de la fonction Go et λ un vecteur de multiplicateurs de Lagrange

• Ce système d'équations peut être résolu par la méthode itérative de Newton

• En pratique, macro SAS CALMAR de l’Insee

j avec min ,

j

kxkj

Skk

k

k

Skk

wTxw

dw

Gw

T ' X

kSk

k xFd

158158

CALAGE

SUR

MARGES FONCTIONS DE DISTANCE

158158

G 1'GF Type de distance

2121

x u1 Khi-deux

Méthode linéaire (1) i.e. estimateur par la régression

1log xxx uexp Entropie

Méthode du raking -ratio (2)

1log

1log

1

UxUxU

LLxLx

A

)1)(1(

ULLU ; ULx , , )sin( on

uLUuLUUL

exp)1()1(exp)1()1(

UL,

Logistique

Méthode du raking ratio tronquée (3)

2121

x si ULx ,

sinon

uqi1 UL,

Khi-deux tronquée

Méthode linéaire tronquée (3)

159159159159

CALAGE SUR MARGES FONCTIONS DE DISTANCE

Méthode linéaire o converge toujours en 2 étapeso redonne l’estimateur par régressiono peut donner des poids négatifso rapports de poids non bornés supérieurement

Méthode exponentielle o poids positifs o redonne l’estimateur du raking-ratio o rapports de poids non bornés supérieurement, en général supérieurs à

la méthode linéaire

Méthodes logit, linéaire tronquéeo poids positifs o contrôle des rapports de poids

160160

CALAGE

SUR

MARGES PROPRIÉTÉS

EspéranceQuelle que soit la méthode utilisée, l'estimateur calé

est

approximativement sans biais

VarianceQuelle que soit la méthode utilisée, la variance de l'estimateur calé

est approximativement égale à

celle de

l'estimateur par régression : toutes les méthodes sont asymptotiquement équivalentes

160160

161161161161

CALAGE SUR MARGES MACRO CALMAR

Insee, 1993

Macro SAS

Disponible sur www.insee.fr

Syntaxe (paramètres obligatoires)

%CALMAR (data =, poids =,ident =,datamar =, M =, LO=, UP=, datapoi =, poidsfin=);

162162162162

CALAGE SUR MARGES EXEMPLE

1. les données individuellesDATA echant;INPUT nom $ x $ y $ z pond;CARDS;A 1 f 1 10B 1 h 2 0C 1 h 3 .D 5 f 1 11E 5 f 3 13F 5 h 2 7H 1 h 2 8G 5 h 2 8I 5 f 2 9J . h 2 10K 5 h 2 14;;RUN;RUN;

2. la table des marges DATA marges;INPUT var $ n mar1 mar2;CARDS;X 2 20 60Y 2 30 50Z 0 140 .;RUN ;

3. lancement de Calmar %CALMAR(DATA = echant,POIDS = pond,

IDENT = nom,DATAMAR = marges, M = 2, OBSELI = oui, DATAPOI = sortie, POIDSFIN = pondfin,LABELPOI = poids raking ratio);

163163163163


Avant calage

Après calage

164164


165165165165


166166166166


167167


168168168168

BIBLIOGRAPHIE

Sautory O. (1993). «

Redressement d’un échantillon par calage sur marges

», Document de travail de la DSDS n°F9310,, www.insee.fr .

Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). «

Generalized raking procedures in survey sampling

», Journal of the American Statistical

Association, vol 88, n°423, pp. 1013-1020.

Deville, J.-C. (1998). «

La correction de la non-réponse par calage ou par échantillonnage équilibré

». Papier présenté

au colloque de la Société

Statistique du Canada, Sherbrooke.

Dupont, F. (1996). «

Calage et redressement de la non-réponse totale

». Actes des journées de méthodologie statistique, 15 et 16 décembre 1993, INSEE-Méthodes n°56-57-58.

Roy, G., et Vanheuverzwyn, A. (2001). «

Redressement par la macro CALMAR

: applications et pistes d'amélioration

», Traitements des fichiers

d'enquête, pp. 31-46. Presses Universitaires de Grenoble.

169

Sources d’erreur et biais

Oliviero Marchese, décembre 2010

170


Utilisations des données d’enquête : « Describers » & « Modelers »

Sources d’erreur« Nonsampling errors »

Populations d’intérêtDéfaut ou excès de couvertureNon-réponseErreur de mesure

Sources d’erreur et phases d’enquêteLa pointe de l’iceberg … et le resteSources d’erreur, contraintes, mode de réalisationL’ «art» du sondeur

171

Utilisations des données d’enquête : « Describers » & « Modelers »

Différents langages, différentes préoccupations

« Describers » « Modelers »Accent sur l’estimation des caractéris- tiques d’une population

Accent sur la validation d’hypothèses théoriques

Accent sur l’estimation de moyennes et proportions

Accent sur l’exploration de structures de covariance

Forte attention aux erreurs de non- observation (défauts de couverture, non-réponse)

Forte attention aux erreurs d’observation (questionnaire)

172

Sources d’erreur {1/3}

Erreur d’échantillonnageHétérogénéité des mesures parmi les individus de la population

Défaut ou excès de couvertureProbabilité de sélection nulle ou non connue pour les individus de la population

Non-réponseDéfaut de collecte de toute ou partie de l’information pour certains individus de l’échantillon

Erreur de mesureInfluence de l’enquêteur sur les réponses des personnes interrogéesIncapacité (ou manque de volonté) des personnes interrogées à répondre aux questions : mémoire, impréparation, facteurs psychologiques, …Défauts de l’instrument de mesure (questionnaire ou autre)Effets du mode de recueil (face à face, téléphone, auto-administré papier ou Internet)

173


Ces erreurs peuvent être liées les unes aux autresEg : Faire du « forcing » pour réduire la non-réponse peut amener à amplifier les erreurs de mesure

En général, les efforts de modélisation et de mesure sont portés sur l’erreur d’échantillonnage et la non-réponse

Souvent on ne sait que très peu – et parfois rien du tout - sur les erreurs d’observation et les défauts de couverture

Or, cela peut s’avérer létal, car ces erreurs - qui ont essentiellement la nature de biais – ne diminuent pas lorsque la taille d’échantillon augmente

174


Moralité

Les efforts visant à affiner une méthode de tirage ou l’expression d’un estimateur pour obtenir un gain de précision peuvent s’avérer bien illusoires si, par ailleurs, les erreurs d’observation, les défauts de couverture ou la non-réponse sont importants

Dans une telle situation, une taille d’échantillon très importante ne sera pas non plus de nature à éviter la déroute

Lors de la Présidentielle américaine de 1936, le « vote de paille » organisé par le Literary Digest - portant sur près de deux millions de lecteurs - donnait une confortable avance à Alfred Landon (54%) … alors que Franklin Roosevelt allait recueillir 61% des suffrages !

175

« Nonsampling errors » : Populations d’intérêt

Population objet de l’inférence (population of inference)Ensemble des unités à étudier

Population cible du sondage (target population)Ensemble des unités étudiées

Base de sondage (frame population)Liste des unités utilisée pour la sélection de l’échantillon: l’« univers » auquel font référence la plupart des livres de statistique

Population enquêtable (survey population)Liste des unités accessibles, physiquement et mentalement prêtes à répondre, souhaitant répondre aux questionsIl s’agit bien évidemment d’une abstraction, puisque elle ne peut être observée indépendamment des opérations d’échantillonnage elles-mêmes

Non-réponse divergences entre « frame » et « survey population »

Erreurs de couverturedivergences entre « frame » et « target population»

Kish, L., Populations for Survey Sampling, Survey Statistician, No. 1, février 1979, pp.14-15

176

« Nonsampling errors » : Défaut ou excès de couverture {1/2}

Ambiguïté du repérage des unités de la populationUne base de sondage se doit pour le moins d’être une liste d’identifiants de bonne qualité

Manque d’exhaustivitéChaque unité faisant partie du champ de l’enquête doit être présente dans la liste des identifiants

Doubles comptesAucune unité doit être présente plusieurs fois dans la base (surtout si le nombre de fois n’est pas connu)

Absence d’informations auxiliairesLeur disponibilité peut être mise à profit pour améliorer soit la méthode de tirage, soit l’estimateur, soit les deux

Vieillissement de la base elle-mêmeAbsence ou inaccessibilité de la base de sondage

(situation finalement pas si rare!)

177

« Nonsampling errors » : Défaut ou excès de couverture {2/2}

L’erreur de couverture est une fonctionde la proportion de population non couverte par la base de sondagede la différence dans la valeur de la variable d’intérêt entre « frame » et « target population»

Y c = Y + (Nnc / N) * (YC – Ync )où Y représente la valeur auprès des N unités de la target population

Yc représente la valeur auprès des Nc unités couvertes par la « frame population »

Ync représente la valeur auprès des Nnc unités non couvertes par la « frame population »

L’erreur de couverture est liée à la variable d’intérêtn’est pas une propriété de l’échantillon

178

« Nonsampling errors » : Non-réponse {1/3}

Comme pour le défaut de couverture dû au manque d’exhaustivité de la base de sondage, la non-réponse

nous met dans l’impossibilité d’observer la valeur de la variable d’intérêtengendre un biais non mesurable, puisque l’on ne sait pas si les unités observées sont comparables aux unités non observées

A différence du défaut de couverture, la non réponseest d’ampleur mesurable, à partir de l’échantillon tiré (taux de non-réponse calculable)peut être complète ou partielle (l’individu sélectionné répond à certaines questions et pas à d’autres)

En diminuant la taille de l’échantillon, la non-réponse occasionne une perte de précision (quelles que soient les hypothèses formulées sur le profile des non-répondants)

179


Le taux de non-réponse est souvent interprété comme LA mesure de qualité de l’estimation de la variable d’intérêt

or, il ne s’agit que d’une composante de l’erreur et ne peut pas en donner seul la mesure

L’erreur dû à la non-réponse est une fonctiondu taux de non-réponsede la différence dans la valeur de la variable d’intérêt entre répondants et non-répondants

y r = yn + (nr / n) * (yr – ynr )

L’erreur de non-réponse est liée à la variable d’intérêtn’est pas une propriété de l’échantillon

180


Une expression plus complète de la variable d’intérêt estimée devrait être

y r = yn + (nc / n) * (yr – ync ) ++ (ni / n) * (yr – yni ) ++ (rf / n) * (yr – yrf )

où ync représente la valeur auprès des nc unités non contactéyni représente la valeur auprès des ni unités incapables de fournir

une réponseyrf représente la valeur auprès des rf unités refusant l’interview

avec nc + ni + rf = nr

181

« Nonsampling errors » : Erreur de mesure

Il y a erreur de mesure lorsque la valeur de la variable d’intérêt collectée pour un individu est différente de la vraie valeur attachée à ce même individu. Quelques cas (liste non ordonnée et non exhaustive !) :

Questions faisant appel à la mémoire des personnes interrogéesQuestions portants sur des sujets sensibles (revenus, comportements sexuels, consommation de drogues, …)Mécanismes psychologiques liés à l’interaction enquêteur/enquêtéInterprétation des réponses de la part de l’enquêteur« Suggestions » de l’enquêteur à l’enquêtéMauvaise compréhension de la question (surtout en cas de traduction des questions depuis une langue étrangère)Formulation de la question, effets d’ordre, …Fatigue due à la durée d’interviewsAutres effets enquêteur : le sexe, l’âge de l’enquêteur, sa façon de se présenter … ne sont pas sans conséquences sur la qualité des réponses obtenues

182

Sources d’erreur et biais. Les défis à relever

Concept [Dimensions / indicateurs]

Mesure

Réponse

Réponse codée

Population cible

Base de sondage

Echantillon

Répondants

Imputation / redressement

Estimation

Validité

Erreur de mesure

Erreur de codification

Erreur de couverture

Erreur d’échantillonnage

Erreur liée à la non-réponse

Erreur d’imputation / redressement

Mesure Représentativité

Survey life cycle from a quality perspective [Robert M. Groves et al. , Survey Methodology, Wiley, 2009]

183

Objectifs et contraintes

Conception du questionnaire

Base de sondage

Échantillonnage

Collecte des données

CodificationSaisie

Contrôles

EstimationsRedressement

Analyse des données

PublicationsÉvaluations

Sources d’erreur et phases d’ enquête

CouvertureNon-réponseÉchantillonnageErreurs de mesure

SaisieCodificationTraitementPrésentation

!!! Choix du mode de collecte le plus approprié et contrôle des enquêteurs !!!

!!! Contrôles de cohérence, contrôles de qualité de la codification et de la saisie !!!

!!! Prise en compte du plan de sondage !!!

!!! Contrôle / relecture du rapport d’étude / des tableaux statistiques, … !!!

!!! Choix de la base de sondage et de l’algorithme de tirage !!!

!!! Pertinence, formulation, ordre des questions; longueur du questionnaire !!!

!!! Définition des variables d’intérêt, du champ de l’enquête, du budget et des délais !!!

Ardilly, P. (2006), Les techniques de sondage, Editions Technip, Paris

184

Erreur d’échantillonnage

Erreur de Couverture

Non réponse totale

Sélection des répondants

Exactitude des réponses

Mode de réalisation

Non réponse partielle

Erreur de mesure due aux enquêteurs

Erreur de mesure due aux répondants

Erreurs de traitement

Effets liés au mode de recueilErreurs de comparaison (dessins différents, …)

La pointe de l’iceberg … et le reste

Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago

185

Sources d’erreur, contraintes, mode de réalisation


•Echantillonnage

•Couverture

•Non-réponse

•Mesure

Contraintes

•Coûts

•Délais

•Etique

Effets du mode de réalisation de l’enquête

•Questionnaire

•Mode de recueil

•Effets de comparaison (plan d’échantillonnage, temps, …)

Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago

186

L’ «art» du sondeur

La théorie statistique nous aide à mesurer et à réduire l’erreur d’échantillonnageL’«art» du sondeur, praticien d’enquête, consiste à juger de l’importance du non mesurable La pratique de cet « art » requière la compréhension

des causes qui sont à l’origine des erreursde leur importance relativedes effets générésdes coûts relatifs aux efforts de réduction des erreurs

Juger de l’importance du non mesurable est un « art » qui ne doit pas se transformer en alibi pour arrêter tout effort de modélisation et mesure de l’erreur

187

Lecture minimale Ardilly, P. (2ème édition actualisée et augmentée, 2006), Les techniques de sondage, Editions Technip, Paris

Chapitre I. Aspects universels, principes de base

Pour aller plus loinGroves, R.M. (1989), Survey errors and survey costs, Wiley, New York

Chapitres I,III,IV,VIIGroves, R.M., Fowler Jr., F.J., Couper, M.P., Lepkowski, J.M., Singer, E., Tourangeau, R., (2nd ed. 2009), Survey Methodology, Wiley, New York

Chapitre 2Floyd J. Fowler, Jr., (4th ed. 2009), Survey Research Methods, Wiley, New York

Chapitre 2Weisberg, H.F. (2005), The total survey error approach, The University of Chicago, Chicago

Chapitres 2, 14, 15

Bibliographie

188

NON-RÉPONSES ET DONNEES MANQUANTES

Gilbert SaportaConservatoire National des Arts et Métiers

[email protected]://cedric.cnam.fr/~saporta

mailto:[email protected]

http://cedric.cnam.fr/~saporta

189

Non-réponse: - totale- partielle (données manquantes)

Causes des non-réponses:

Bases de sondage inexactes

Refus

Réponses inexploitables, perte, destructions

190

Biais de non -réponse

Deux stratesP0Non -répondant

P1Répondant

0Y1Y

0 0 0 00 1 0 1 1

N N N N NY Y Y Y Y YN N N N

1

01 0 1

En l'absence d'hypothèse sur le mécanisme des données manquantes, seul peut être estimé

Biais :

YNY Y Y YN

191

Quelques remèdes:

Non-réponses:Stratégie de relance

Post-stratification pour redresser

192

Questions sensibles ou indiscrètes: la méthode des questions aléatoires

Première technique:On tire au sort dans une urne avec θ

boules blanches et 1- θ

boules noires

la questionSi blanc: question A: « Avez-vous fraudé le fisc? »Si noire: question : « Je n’ai pas fraudé »On veut estimer PA . On recueille Π

= Proba de Oui =

% de « Oui »

Inconvénient: aussi indiscrète que A!

1 1A AP P A

1

2AP

2 2

1 11 12 2

A AA

P PV P V

n n

A

193

Deuxième technique:Si blanche, question A sensibleSi noire, question B banale

PB peut être connu à l’avance ou estimé par une autre enquête.Exemple:

A: combien de fois avez-vous avorté?B: nombre idéal d’enfants?

1A BP P 1 B

A

PP

21 1 1B BA

P PV P

n n

194

Exemple: Brown 320 officiersConsommation de drogue: 2 enquêtes, une anonyme, l’autre à question aléatoire

Drogue Q. Anonyme Q. aléatoire

Marijuana 5% (1.2) 9% (4.1)

Hallucinogène 1.6% (0.7) 11.6% (4.1)

Amphétamine 1.9% (0.7) 8% (3.3)

Barbiturique 0.6% (0.7) 7.9% (3.9)

Narcotique 0.3% (0.3) 4% (3.9)

195

Données manquantes• Les mécanismes (Rubin,1976)

– MCAR (Missing Completely at Random)• P(Y manquant) indépendant de Y et du reste• Hypothèse forte mais réaliste si volontaire

– MAR (Missing at random)• P(Y manquant/Y,X)=P(Ymanquant/X)• Non testable

– MCAR et MAR: données manquantes ignorables– Cas non ignorable: nécessité de modéliser le

mécanisme pour obtenir des estimations sans biais• Ignorer ou estimer les données manquantes?

196

Supprimer les DM?

• « listwise »– Perte d’information– Marche pour MCAR et en régression pour les X

si MAR selon Y• « Pairwise »

– Utilisable pour modéle linéaire, ACP • Matrices non positives, statistiques de tests biaisées

197

Estimer les DM: l’imputation

• Compléter la non-réponse par une valeur plausible.– Méthodes implicites – modèles

198

Estimation basée sur des modèles

• Une donnée manquante sur une variable Y est modélisée à partir des variables X selon un modèle de régression

régression simple en prenant la variable la plus corrélée.régression multiplemodèle linéaire général si X est nominale et la variable à

expliquer est quantitative.Analyse discriminante, ou régression logistique si Y

nominal

Remarque: cas particulier de l’estimation par la moyenne

199

Algorithme EM (espérance, maximisation)

– étape E: espérance conditionnelle de chaque donnée manquante sachant les données observées, d’où estimation des paramètres.

– étape M calcule les estimateurs du maximum de vraisemblance des paramètres, avec les lois conditionnelles des données manquantes.

convergence vers la valeur la plus probable de chaque donnée manquante pour l'estimation obtenue des paramètres

200

Maximisation de la cohérence interne, ou de l'homogénéité

• Présentation hollandaise de l’ACM de G=(G1|G2|…|Gm) comme la minimisation d ’une fonction de perte:

Xm

G Yj j

j

m

1

1

' ' 'j j j j

1

1(X, Y) (X - G Y ) (X - G Y )m

jm

201

• Les données manquantes sont complétées pour avoir

minimal: ACM

avec valeurs propres maximales.MCA with missing data

Unit Income Age Car1 x young am2 medium medium am3 y old jap4 low young jap5 medium young am6 high old am7 low young jap8 high medium am9 high z am10 low young am

202

Results of the 27 MCA

x y z 1 x y z 1 x y z 1l l j .70104 m l y .63594 h l y .61671l l m .77590 m l m .72943 h l m .66458l l o .76956 m l o .72636 h l o .65907l m j .78043 m m y .70106 h m y .70106l m m .84394 m m m .77839 h m m .74342l m o .84394 m m o .84394 h m o .74342l h j .78321 m h y .73319 h h y .68827l h m .84907 m h m .80643 h h m .74193l h o *.84964 m h o .80949 h h o .74198

203

• Solution unidimensionnelle peu réaliste:max (1 +2 +…+k )

• Recherche exhaustive impossible. Algorithmes itératifs.

204

IMPUTATION MULTIPLE (Rubin)

– imputer chaque donnée par m>2 valeurs obtenues par tirage dans un ou plusieurs modèles d'estimation. Puis analyse des données sur chacun des m jeux de données complétés

– simulation de la distribution a posteriori des données manquantes , variances correctes.

– Mais: complexité des calculs, temps de calcul et volume considérable.

205

Les méthodes d'imputation de type “ hot- deck ”

• la valeur manquante est remplacée par la valeur observée chez un répondant “ proche ”, le “ donneur ”. – - le hot-deck d'ensemble : le donneur est

choisi de façon aléatoire.– - le hot-deck par classe : – - le hot-deck séquentiel : l'individu le plus

“ récent ” du tableau de données

206

deux inconvénients majeurs pour toutes ces méthodes:

• risque d’incohérence: si plusieurs données manquantes sont estimées une par une et non conjointement, sans prendre en compte les corrélations

• variabilité sous-estimée: deux unités ayant les mêmes valeurs de X auront la même estimation pour la valeur manquante de Y

207

– le hot-deck hiérarchisé : On remplace l'unité défaillante par une unité ayant les mêmes valeurs pour C1, C2,…, Ck. S'il n'en existe pas alors on la remplace par une unité ayant les mêmes valeurs pour C1, C2,…, Ck-1; etc. …

– - le hot-deck métrique ou méthode du plus proche voisin avec une distance d(i,j)

208

Fusions et greffes• Fusions de fichiers et greffes d'enquêtes:

combiner des données provenant de sources différentes.

• en amont du processus de « data mining » . • fusionner différentes bases: enquêtes, sources

administratives, fichiers clients, données socio- économiques agrégées, etc.

• Chaque base peut être constituée d'unités statistiques différentes ou d'agrégation de ces unités à différents niveaux.

209

• Fusion de fichiers. Cas élémentaire:• deux fichiers: F1 p+q variables mesurées

sur n0 unités, F2 sous-ensemble de p variables pour n1 unités. Souvent n0 est faible par rapport à n1 .

X0 Y0 X1

?

210

• Un cas plus complexe

X0 Y0

X1 Z1

211

Modèles et méthodes pour la fusion de données• Appliquer industriellement une technique

de traitement de données manquantes.• deux approches:

– Méthodes d’imputation: compléter la non- réponse par une valeur plausible.

– Repondération : affecter aux répondants des pondérations pour compenser les non- réponses

212

• conditions à vérifier préalablement:– la taille de la population du fichier donneur est

suffisamment importante par rapport au fichier receveur

– les variables communes et les variables spécifiques possèdent des liaisons relativement fortes entre elles.

213

Les méthodes implicites:

• fusion par appariements intra-cellulaires, • imputation par Hot-Deck,• méthode des plus proches voisins etc.…• donner simultanément aux variables du

fichier receveur toute l'information et les renseignements détenus par les variables du fichier donneur.

214

FICHIER DONNEUR

IX0 Y0

Plus proche voisin Imputation

X1 ?

J

FICHIER RECEVEUR

215

La fusion sur référentiel factoriel

• Fréquemment utilisée en France. Son principe (Santini 1984) repose sur :

- les variables critiques : servent à déterminer pour l'individu du fichier receveur ses donneurs éligibles.

- les variables de rapprochement : une partie des variables communes, par un calcul de distance, permettant de choisir pour chaque receveur le donneur éligible le plus proche

216

• Réferentiel factoriel: ACM sur l’ensemble des variables critiques ou communes

• Détermination d’un voisinage du receveur• Choix final parmi les donneurs éligibles selon les

variables de rapprochement (sexe, age, …)• Pénalisation pour éviter de prendre trop souvent

les mêmes donneurs (voir fusion par mariage)

Axis II

Axis I

217

Un exemple:• Données SPAD 992 interviews, divisées

aléatoirement en deux fichiers : 800 donneur 192 receveur.

• 4 variables communes:Q1 - classe d'age(5 catégories), Q2 - taille d'agglomération (5 catégories),Q3 - heure de coucher (7 catégories),Q4 - age de fin d'études (5 catégories) .

• 3 variables d ’opinion Y à imputer:Q5 - La famille est le seul endroit où on se sent bien ? (oui, non)Q6 - Plus haut diplôme obtenu (7 catégories),Q7 - Taux d'écoute TV (4 catégories).

218

Table 3 performances individuelles

Méthode Classifications correctesAléatoire 49%

Homogénéité max. 54%FRF 47%

Table 4 performances marginales

Q5 Vraies marges Homogénéité max FRF1 136 136 1252 56 56 67

Q6

1 36 6 492 70 114 653 35 16 274 29 23 335 4 33 16 18 33 157 0 0 2

Q7

1 100 118 1002 36 18 433 37 29 314 19 27 18

219

Fusion par mariages

• éviter qu'un même donneur transmette son information à plusieurs receveurs (mariages multiples)

• si un donneur est déjà marié à n receveurs, d est pénalisée par :

' 1 (1 )nd d

220

• G. Santini a imaginé 6 types différents de relations de voisinage par “ mariage ”: A receveur, B donneur.

le mariage par “ coup de foudre ” (voisins réciproques) : si A est le plus proche voisin de B et si B est le plus proche voisin de A et n'a jamais été marié, alors A et B sont immédiatement mariés.

le mariage avec “ l'ami d'enfance ” : si B est le plus proche voisin de A, mais B est déjà marié à A' , alors A sera marié à B' qui est le plus proche voisin de A après B.

le mariage par “ adultère ” : variante du cas précédent quand d(B ’,A) est plus grand que la distance pénalisée entre A et B (puisque B est déjà marié a A'). On marie alors A et B.

221

• Fusion avec collage du vecteur entier du donneur– moins bon pour la reconstitution de données

individuelles,mais garde la structure de corrélation et évite les incohérences

• Régression variable par variable. – C’est l’inverse

• Dans tous les cas il est nécessaire d'avoir:

Un nombre suffisant de variables communes

Des corrélations élevées entre variables communes et variables à imputer.

Une structure commune entre fichier donneur et fichier receveur: distributions comparables des variables communes ou critiques, sinon résultats biaisés. Redressements souvent nécessaires.

222

Fusion par scores de « propensity»

• Origine: essais cliniques avec affectation non- aléatoire entre traitement et témoin (contrôle)– Z=1 traité, Z=0 sinon. p covariables X= (x1,x2, ..,xp)– propensity score e(x)=P(Z=1/X)

• Résumé unidimensionnel: permet de stratifier, de chercher des jumeaux (appariement), de repondérer en cas de données manquantes

• Estimé habituellement par une régression logistique

223

S.Rässler, 2002

224

Application: données manquantes

• Si mécanisme ignorable:

1

1ˆ( )

Ni i

i i

z yYN e

x

010

(1 ( ))1ˆ( )

Ni i i

i i

z y eYn e

xx

225

• rééquilibrage d’enquête– une enquête de référence aléatoire,– une enquête web

• plus simple que la post-stratification sur plusieurs variables (calage sur marges)

226

Yoshimura,

227

Propriétés (1)• Equilibrage:

Pour un score donné e(X), on tire des échantillons aléatoires simples parmi Z=1 et Z=0.Alors les lois de X dans chaque groupe sont les mêmes:P(X / Z=1,e(X))= P(X / Z=0,e(X))

• Avantage: facile de fabriquer des échantillons appariés même si X est de grande dimension– Si appariement exact impossible : ppv ou strates

228

Propriétés (2)

• Consistence : estimation sans biais de l’effet

d’un traitement Y :

–

= E(Yt )-E(Yc )– si l’effet de l’affectation traitement-contrôle

est ignorable conditionnellement à X (donc à e(X)) et si 0<P(Z=1/X)<1 (Yt et Yc sont indépendants de Z conditionnellement à X)

– alors

est estimé sans biais par la moyenne des différence entre observations appariées selon e(X)

229

Propriétés (3)

• Etudes d’observation non randomisées– résout le problème de l’inférence causale– réduit les biais « ouverts »: ex: comparer la

mortalité des fumeurs et non-fumeurs alors que les fumeurs sont en moyenne plus vieux que les non-fumeurs

– à comparer avec la post-stratification

230

Conclusions• Techniques:

– La fusion: un problème de données manquantes massives, stimulant pour les statisticiens.

– besoin réel de fournir à l'utilisateur final une base unique sans “ trou ”.

231

– Prudence quand on utilise des “ données ” qui sont en réalité des estimations et non des valeurs observées: ne jamais utiliser à un niveau individuel, mais uniquement agrégé.

– Conséquence perverse: un moindre effort de collecte, puisque l'on peut reconstituer des données…

– Nécessité de valider

232

Validation

• procédures empiriques où on estime des données connues mais cachées que l'on compare ensuite aux vraies valeurs:validation croisées, bootstrap …

• Indicateurs:– reconstitutions de données individuelles– prévisions au niveau de groupes– reconstitutions de marges, de croisements

233

• Déontologiques (confidentialité et protection de la vie privée) :

– des données qui n'ont pas été recueillies mais estimées, peuvent être ajoutées dans des fichiers à l'insu des individus concernés. Quid de La loi “ Informatique et Liberté ” ?

– paradoxe alors que les INS développent des techniques pour assurer la confidentialité

234

Références• Allison P. (2002) Missing data, Sage Publications• Co V. (1997) Méthodes statistiques et informatiques pour

le traitement des données manquantes.Doctorat, CNAM. Paris.

• Fischer N. (2004) Fusion Statistique de Fichiers de Données. Doctorat, CNAM, Paris.

• Rässler S. (2002), Statistical matching, Springer• Rosenbaum P.R., Rubin D. (1983) the central role of

propensity scores in observational studies for causal effects, Biometrika 70, 41-55

• Saporta G. (2002) Data fusion and data grafting . Computational Statistics and Data Analysis, 38(4),465-473

Cours de sondages Master IS 2011-2012maths.cnam.fr/IMG/pdf/SondageMaster__IS_2012.pdf · 1 Cours de...

Documents

Transcript of Cours de sondages Master IS 2011-2012maths.cnam.fr/IMG/pdf/SondageMaster__IS_2012.pdf · 1 Cours de...