Construcţia Şi Utilizarea Coeficientului de Greutate
-
Upload
cllndalexandra -
Category
Documents
-
view
256 -
download
0
description
Transcript of Construcţia Şi Utilizarea Coeficientului de Greutate
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
Construcia i Utilizarea Coeficientului de Greutate
Student:Clonda Alexandra
Materie:Tehnici speciale n anchete i sondaje
Master Statistic i Previziune Economic,An I
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
2
Cuprins
I. Introducere ............................................................................................................................................ 3
1. Nevoia greutilor n eantion ........................................................................................................... 3
2. Greutatea ca fiind cea mai bun alternativ! ..................................................................................... 3
II. Dezvoltarea greutilor ntr-un studiu ................................................................................................... 4
1. Greutatea de baz .............................................................................................................................. 4
2. Compensarea greutilor de selecie inegale ..................................................................................... 4
3. Ajustarea greutilor eantionului pentru eligibilitate necunoscut .................................................. 5
4. Ajustarea greutilor eantionului pentru non-rspunsuri ................................................................. 5
4.1 Reducerea non-rspunsurilor care influeneaz cercetarea ....................................................... 5
4.2 Compensarea deplasrii non-rspunsurilor ............................................................................... 5
4.3 Ajustarea greutilor non-rspunsurilor n eantion .................................................................. 6
5. Ajustarea greutilor eantionului pentru duplicri ........................................................................... 6
6. Ajustarea greutilor eantionului pentru non-acoperite ................................................................... 7
6.1 Compensarea pentru non-acoperirile sondajului ....................................................................... 7
III. Utilizarea greutilor n anchete folosind metoda RDD(Random digit dialing) ............................... 7
IV. Utilizarea greutilor n eantion ca nlocuitoare a variabilelor de proiectare .................................. 8
V. Exemple/Studii privind construcia i utilizarea coeficientului de greutate .......................................... 8
1. Dezvoltarea greutii de baz ............................................................................................................ 8
2. Ponderea pentru probabilitati de selectie inegale .............................................................................. 8
3. Ajustarea greutatilor esantionului pentru non-rspunsuri ............................................................... 10
4. Ajustarea greutatilor esantionului pentru non-acoperite ................................................................. 11
Concluzii ..................................................................................................................................................... 13
BIBLIOGRAFIE ......................................................................................................................................... 14
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
3
I. Introducere
n lucrare se vor prezenta diferite etape/stagii pentru construirea i utilizarea greutilor n
analiza datelor de sondaj. Se va discuta n special de ajustarea greutilor pentru compensarea
non-acoperitelor,non-rspunsurilor i duplicatelor dar i utilizarea greutilor vzut n viziunea
lui Rubin, i totodat utilitatea acestora ntr-un studiu unde se folosete metoda RDD.
1. Nevoia greutilor n eantion
Greutile n eantion sunt folosite pentru a corecta imperfeciunile din eantion care ar putea
duce la influene i alte tendine/abateri ntre eantion i populaia de referin. Astfel de
imperfeciuni cuprinde selectarea unitilor cu probabiliti inegale, non-acoperirea populaiei i
a non-rspunsurilor. Cu alte cuvinte, scopurile ponderrii sunt urmtoarele:
Pentru compensarea greutilor inegale;
Pentru compensarea (unitilor) non-raspunsurilor;
Pentru ajustarea distribuiei ponderii eantionului pentru variabilele cheie de interes (spre
exemplu: vrsta, sex, etc) pentru a putea fi conform unei distribuii normale a populaiei.
Odat ce imperfeciunile din eantion sunt compensate prin anumite proceduri specifice
(ajustri), greutile pot fi utilizate n estimarea caracteristicilor de interes ale populaiei i,
deasemenea, estimarea erorilor de eantionare n estimrile sondajului generat.
2. Greutatea ca fiind cea mai bun alternativ!
Exist situaii n care utilizarea greutilor reprezint strategia optim n conformitate cu studiul
ales. S-au selectat trei exemple unde greutatea a fost metoda cea mai bun:
Exemplu 1: Predicia Bayensian a mediei populaiei finite dintr-un eantion stratificat
disproporional- Binder ( 1982),Little (1989);
Exemplu 2: Estimarea greutii maxime a probabilitilor Bernouilli dintr-un eantion
postratificat-Alexander (1987);
Exemplu 3: Estimarea greutii maxime din tranziia lanului Markov ntr-un eantion;
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
4
II. Dezvoltarea greutilor ntr-un studiu
1. Greutatea de baz
Dezvoltarea greutii eantionului ncepe odat cu construcia greutii de baz pentru fiecare
unitate a eantionului, pentru corectarea probabilitilor inegale de selecie . n general, greutatea
de baz a fiecrei uniti eantionate este inversul probabilitii sale de selecie din eantion. n
notaia matematic, dac o unitate este cuprins n eantion cu o probabilitate Pi , atunci
ponderea de baz , notate cu wi, este calculat dup urmtoarea formul:
Pentru proiectarea multi-fazial (postratificare), greutile de baz trebuie s reflecte
probabilitile de selecie a fieacarei faze (postratificare). n cazul a dou etape a proiectrii n
care i uniti selectate au o probabilitate pi n prima etap, i j uniti sunt selectate cu o
probabilitate pi(j) n a dou etap, atunci probabilitatea de selecie a fiecrei uniti n eantion
este dat de:
iar ponderea de baz total este obinut ca mai nainte, prin luarea reciprocei ponderii total de
selecie .n cazul n care ponderea de baz pentru j este wij.b , ponderea atribuit pentru
compensarea non-rspunsurilor este wij.nr i ponderea atribuit pentru compensarea non-
acoperitelor este wij.nc, atunci ponderea total se calculeaz:
2. Compensarea greutilor de selecie inegale
n general, sondajul stratificat i sondajul multi-fazial sunt sondaje n cadrul crora subiecii din
baza de sondaj nu au aceai probabilitate de a fi selecionai.
n Exemple/Studii privind construcia i utilizarea coeficientului de greutate avem prezentat un
caz (/exemplu) pentru ponderea probabilitilor inegale.
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
5
3. Ajustarea greutilor eantionului pentru eligibilitate necunoscut
Pentru ajustarea greutii eantionului pentru eligibilitate necunoscut respondenii pot fi
mprii:
Respondeni eligibili : grup ce conine toate unitile eligibile ale eantionului care au
participat la studiului, i anume cele care au oferit date utile studiului;
Respondei neeligibili: grup ce conine uniti neeligibile studiului (de ex. Persoane
mutate n strintate n cazul unui sondaj ce se insist pe studiul naional);
Non-Respondeni eligibili : grup ce conine toate unitile eligibile ale eantionului care
nu au oferit date utile studiului, ns informaiile furnizate au dovedit a fi eligibile.
Respondeni cu eligibilitate necunoscut: grup ce conine uniti ale eantionului a cror
eligibilitate nu a putut fi stabilit.
Respondenii cu eligibilitate necunoscut este categoria/ grupul din studiu care se utilizeaz n
toate modalitile de anchet.
4. Ajustarea greutilor eantionului pentru non-rspunsuri
4.1 Reducerea non-rspunsurilor care influeneaz cercetarea
Dimensiunea non-rspunsurilor (vzut ca medie a eantionului) este activitatea a doi factori
importani: proporia populaiei care nu rspunde i dimensiunea diferenei n media populaiei
(ntre respondent i non respondent). Pentru influena datorat non-rspunsurilor este necesar o
rat mic a non-rspunsurilor sau diferene mici ntre cei care rspund i cei cei care nu rspund.
Pentru un studiu ( unde datele sunt colectate din acelai tablou de eantionare n mod repetat de-a
lungul timpului), proiectantul studiului are acces la mai multe date pentru a studia i ajusta
efectele potenialelor non-rspunsuri dect ntr-o anchet transversal.
4.2 Compensarea deplasrii non-rspunsurilor
ntr-un studiu sunt folosite un numr de metode/tehnici de reducere a potenialelor non-
rspunsuri. Exist trei metode de baz pentru compensarea non-rspunsurilor: prima este
reprezentat de ajustarea greutii non-rspunsurilor; a doua este reprezentat de crearea unui
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
6
eantion de dimensiuni mai mari dect este necesar , crend un eantion de rezerv pentru a
nlocui n cazul prezenei mari a non-rspunsurilor; a treia metod este reprezentat de procesul
de nlocuire a non-rspunsurilor studiului cu un alt studiu n care nu exist non-rspunsuri
multiple n eantion.
ntr-un studiu, o unitate de non-rspuns utilizeaz ajustarea greutii pentru a justifica non-
rspunsurile.
4.3 Ajustarea greutilor non-rspunsurilor n eantion
Ajustarea greutilor transfer greutatea de baz a tuturor unitilor de non-rspunsuri eligibile n
rspunsuri eligibile, i aceast metod este implementat parcurgnd urmtorii pai:
Pas 1: Aplicarea greutilor iniiale (pentru probabilitile inegale i ajustate a unitilor selectate
pentru eligibilitate necunoscut);
Pas 2: Se parioneaz eantionul n sub-eantioane i se calculeaz greutatea de rspuns a
fiecrui sub-eantion;
Pas 3: Utilizarea inversului greutii de rspuns a sub-eantionului pentru non-rspunsuri
ajustate;
Pas 4: Calcularea greutii ajustate a non-rspunsurilor pentru i uniti:
unde w1i este greutatea iniial i w2i este greutatea ajustat a non-rspunsurilor. Rata de non-
rspunsuri poate fi definit ca raie a ponderii numrului de rspunsuri completate cu cazuri
eligibile incluse n eantion la numrul ponderat de cazuri eligibile din eantion.
5. Ajustarea greutilor eantionului pentru duplicri
Dac se recunosc anumite uniti a fi duplicate, atunci se poate crete probabilitatea de selecie a
acestor uniti care pot fi compensate prin factorii de greutate fiind reciproci cu numrul
unitilor duplicate n cazul n care astfel de uniti ajung n eantion. De cele mai multe ori,
duplicatele sunt descoperite dup selectarea eantionului, unde greutile de selecie a acestor
uniti duplicate trebuie s fie ajustate pentru a fi luat n considerare duplicarea. Aceast
ajustare este implementat n urmtorul mod: avem i uniti n eantion cu o probabilitate de
selecie , notat cu pi1, i k-1 nregistrri suplimentare n eantion care sunt identificate ca fiind
uniti duplicate ale eantionului, fiecare cu o probabilitate de selecie pi2,pik. Atunci ajustarea
probabilitii de selecie a unitilor eantionului este dat de:
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
7
)
unde unitatea eantionului este n concordan cu greutatea, fiind egal cu 1/pi.
6. Ajustarea greutilor eantionului pentru non-acoperite
Non-acoperitele sunt uniti ale eantionului care nu au probabilitate de selecie n eantionul
selectat, reprezentnd eecul n atingerea scopurilor cercetrii. Non-acoperitele sunt vzute ca
fiind deficiene de eantionare ntr-un studiu.
6.1 Compensarea pentru non-acoperirile sondajului
Exist mai multe proceduri de compensare a non-acoperitelor:
Pas 1: mbuntirea procedurilor de culegere a datelor pentru studiu( cum ar fi utilizarea mai
multor eantioane sau proceduri de listare mbuntite);
Pas 2: Compensarea non-acoperitelor prin ajustarea greutilor.
III. Utilizarea greutilor n anchete folosind metoda RDD(Random digit
dialing)
Calcularea greutilor eantionului obinut prin metoda RDD const n 5 pai de baz:
Pas 1: Calcularea greutii de baz ca fiind inversul probabilitii de selecie a numrului de
telefon folosit la ntmplare;
Pas 2: Aplicarea ajustrii care ine cont de nivelul de non-rspunsuri n timpul convorbirilor;
Pas 3: Aplicarea unei ajustri pentru linii telefonice multiple ca fiind reciproca numerelor
obinuite rezideniale folosite n studiu;
Pas 4: Aplicarea unei ajustri pentru corectarea non-rspunsurilor la nivel de studiu.
n concluzie, greutile eantioului create prin metoda RDD sunt obinute ca fiind produsul ntre
greutatea de baz i diverse ajustri aplicate la greutile de baz.
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
8
IV. Utilizarea greutilor n eantion ca nlocuitoare a variabilelor de
proiectare
n studiile de cercetare ,Rubin (1985) propune s utilizeze vectorul ca fiind nlocuitoare a unui
set de variabile de proiectare n situaia n care informaiile disponibile din variabilele de
proiectare nu sunt suficiente pentru a asigura condiiile de ignorabilitate sau cnd se modeleaz
distribuia variabilelor de rspuns, date de variabilele de proiectare. Notm cu Z matricea
valorilor variabilelor de proiectare. Rubin definete coloana vectorului a = (a1...aN) = a(Z) ca
fiind rezumatul corespunztor al lui Z dac probabilitatea P(I|Z)=P(I|a) , unde I reprezint
variabila indicator al eantionului care arat c probabilitatea de incluziune a vectorului
(motiv predicionat n terminologia autorului) este rezumatul posibil adecvat iaspru a lui Z.
n cazul n care este sumarul adecvat lui Z , P(Y|YS,) astfel nct dat al proiectrii
eantionului este ignorabil specific distribuiei Y , reprezentnd tot ce este necesar pentru
validarea inferenelor.
Abordarea cercettorului Rubin ofer o metod de principiu pentru ncorporarea greutilor, ns
necesit cunotine de incluziune a tuturor uniilor populaiei, ci nu doar simple uniti.Aa cum
ilustreaz Rubin (1985) i Sugden&Smith (1984), vectorul poate fi prea aspru , i prin
urmare s nu fie un rezumat adecvat.
V. Exemple/Studii privind construcia i utilizarea coeficientului de
greutate
1. Dezvoltarea greutii de baz
Se selecteaz o unitate din eantion cu o probabilitate 1/50 reprezentnd 50 uniti din populaie
(din care a fost extras eantionul). Astfel, ponderea eantionului acioneaz ca factor de inflaie
pentru a reprezenta numrul de uniti din populaia studiat ,luate n considerare de ctre
unitatea din eantion la care este atribuit greutatea. Suma greutilor eantionului ofer o
estimare a numrului total de indivizi n populaia int.
2. Ponderea pentru probabilitati de selectie inegale
Se selecteaz aleator 5 gospodarii din 250. Fiecare adult este selectat aleator ca unitate de a
gospodrie.Venitul lunar (yij) i nivelul de educaie (zij=1, dac nivelul este superior sau
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
9
secundar; 0 dac sunt celelalte) a unitii de eantion j (adult) n i gospodrii nregistrate. Notm
Mi numrul de aduli din gospodrii i. Atunci probabilitatea de selecie este urmatoarea:
Astfel, greutatea unitii de eantionare este dat de:
S presupunem c n prima etap, eantionul (cele 5 gospodrii) au urmtoarele date obinute:
Gospodrie Mi wi yij zij wi*yij wi*zij wi*zij*yij
1 3 150 70 1 10500 150 10500
2 1 50 30 0 1500 0 0
3 3 150 90 1 13500 150 13500
4 5 250 50 1 12500 250 12500
5 4 200 60 0 12000 0 0
TOTAL 16 800 300 3 50000 550 36500
Poti fi estimate caracteristici dup tabelul de mai sus:
1. Estimarea venitului lunar:
Dac ponderile nu sunt folosite , estimarea poate fi 60 (300/5).
2. Estimarea proporiei persoanelor cu nivel de educaie secundar sau superior este:
Daca ponderile nu sunt folosite, atunci estimarea poate fi 3/5 sau 0.60 (60%).
3. Estimarea numarului total de populatie cu nivel de educaie superior sau secundar este:
4. Estimarea venitului mediu lunar a unui adult cu nivel superior sau secundar este
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
10
Pentru estimarea total, unitile eantionrii trebuie ponderate cu inversul probabilitilor de
selecie. Pentru estimarea mediilor i proporilor, ponderea trebuie s fie proporional cu
inversul probabilitii de selecie. Astfel ponderea wis este proporia lui Mi (wi=50*Mi). Dac
Mi este folosit ca pondere, atunci estimarea proporiilor pentru nivelul de educaie secundar i
superior este:
Estimarea total a numrului de aduli cu nivel de educaie superior sau secundar este:
3. Ajustarea greutilor eantionului pentru non-rspunsuri
Avem un eantion multi-fazic compus din 1000 de gospodrii selectate din 2 regiuni (Nordul i Sudul
tarii).Gospodriile din Nord sunt eantionate cu o rat de 1/100 i cele din Sud cu o rat de 1/200.Rata de
rspuns n zonele urbane sunt mai mici dect n zonele rurale. S notam nh numrul de gospodrii din
stratul h, rh numrul gospodriilor eligibile care au rspuns la studiu(anchet), si th notm numrul
respondeniilor din gospodrii care dispuns/ au acces de/la asisten medical. Atunci greutatea non-
rspunsurilor pentru gospodria din stratul h este dat de urmatoarea expresie:
unde .
S presupunem c avem urmtoarele date despre straturi:
Strat nh rh th w1h w2h wh wh*rh wh*th
Nord-Urban 100 80 70 100 1.25 125 10000 8750
Nord-Rural 300 120 100 100 2.5 250 30000 25000
Sud-Urban 200 170 150 200 1.18 236 40120 35400
Sud-Rural 400 360 180 200 1.11 222 79920 39960
TOTAL 1000 730 500 160040 109110
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
11
Astfel estimarea proporiei gospodriilor care au acces la asisten medical este:
Numrul estimat de gospodrii care au acces este:
Estimarea proporiei neponderate a gospodriilor cu acces la asisten medical,folosind doar datele
respondenilor este:
i estimarea proporiei folosind greutile iniiale fra ajustarea non-rspunsurilor este:
Scopul exemplului este de a ilustra cum greutle iniiale sunt ajustate pentru compensarea non-
rspunsurilor. Rezultatele arat o diferen considerabil ntre proporia estimat folosind greutile
iniiale comparativ cu greutile ajustate pentru non-rspunsuri, nsa diferena ntre procentul proporiei
nepondenderate (fr greutate) i proporia ajustat a non-rspunsurilor pare a fi nesimnificativ.
4. Ajustarea greutilor eantionului pentru non-acoperite
S presupunem c avem un numr de gospodrii care se tiu: 45,025 n Nord i 115,800 n Sud.
Presupunem c greutatea eantionului total este 40,000 i respectiv 120,040.
Pas 1: Calcularea factorilor de postratificare:
-Pentru regiunea de Nord:
-Pentru regiunea de Sud:
Pas 2: Calculm greutatea ajustat:
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
12
Rezultatele se gsesc n urmatorul tabel:
Strat rh th wh wf wf*rh wf*th
Nord-Urban 80 70 125 140.75 11260 9852.5
Nord-Rural 120 100 250 281.4 33768 28140
Sud-Urban 170 150 236 227.77 38720.9 34165.5
Sud-Rural 360 180 222 214.2 77112 38556
TOTAL 730 500 160860.9 110714
Atunci proporia gospodriilor care au acces la asisten medical este:
Cu greutile ajustate prin post-stratificare ,greutile eantionului numrate pentru regiunile Nord i Sud
sunt 45,028(11,260+33,768) i respectiv 115,833 (38,721+77,112).
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
13
Concluzii
Greutile de eantionare sunt considerate ca o parte integrant n analiza unui sondaj n rile n
curs de dezvoltare. Multe programe susin faptul c utilizarea greutilor chiar i n situaii rare
implic auto-ponderare (n cazul n care ponderile sunt 1).
Utilizarea greutilor reduc deplasrile din cauza imperfeciunilor din eantion (non-rspunsuri i
non-acoperite).Non-rspunsurile i non-acoperitele sunt tipuri diferite de erori care datoreaz
eec unei anchete proiectat pentru a obine informaii de la o populaie int. Pentru studiile
gospodriilor din rile n curs de dezvoltare, non-acoperitele sunt o problem serioas
comparativ cu non-raspnsurile.
n lucrare sunt prezentate modaliti de compensare a acestor probleme inevitabile ale unui
sondaj/ studiu, precum i utilizarea greutilor de ajustare n estimarea parametrilor de interes.
-
ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC
14
BIBLIOGRAFIE
[1] Ibrahim S. Yansaneh, Construction and use of sample weights, UNITED NATIONS
SECRETARIAT Statistics Division,2003
[2] David Pfeffermann, The Role of Sampling Weights When Modeling Survey Data,
International Statistical Review,Vol.61,pp-317-337,1993
[3] Use of Sampling Weights with IHIS
*** https://www.ihis.us/ihis/userNotes_weights.shtml
[4] Appendix C, Sample Weighting
***www.va.gov/VETDATA/.../SurveysAndStudies/SAMPLE_WEIGHT.pdf
[5] Boudreau C., Construction and Use of Sampling Weights for the International Tobacco
Control (ITC) Netherlands Survey,University of Waterloo,2010
[6] Aviv Nevo, Using Weights to Adjust for Sample Selection When Auxiliary Information Is
Available, University of California, Berkeley and the National Bureau of Economic Research
[7] United Nations. Statistical Division,Designing Household Survey Samples: Practical
Guidelines,Chapter 6,2008