05 Statm Regresia Mutipla
description
Transcript of 05 Statm Regresia Mutipla
-
Regresia liniar multipl
M. Popa
-
cuprins
1. Noiuni de baz regresia liniar simpl
2. Modelul de predicie multivariat
3. Obiectivele analizei de regresie multipl
4. Condiii i limitri
5. Alegerea modelului de analiz
6. Volumul eantionului
7. Regresia multipl cu SPSS Operaii preliminare
Procedura de calcul
Interpretarea rezultatelor
8. Validarea modelului de regresie
9. Raportarea rezultatelor
-
Corelaia i Regresia
Corelaia arat legtura (asocierea) dintre variabile nu descrie relaia cauzal dintre variabile nu permite predicia unei variabile pe baza celeilalte variabile nu exist variabil dependent i dependent
Regresia metod de predicie a valorilor unei variabile pe baza valorilor altei
variabile
variabila independent variabila cauz valorile ei prezic valorile variabilei dependente este denumit predictor
variabila dependent variabila efect valorile ei sunt prezise pe baza valorilor variabilei independente este denumit i criteriu
Situaia tipic n psihologie - examenele de selecie3
-
Tipuri de regresie liniar
Regresia simpl
o singur variabil predictor
se bazeaz pe corelaia simpl dintre criteriu i predictor
Regresia multipl
mai multe variabile predictor
se bazeaz pe corelaia multipl dintre criteriu i predictori
situaia tipic n psihologie: selecia bazat pe baterii de teste
4
P C
P2 C
P3
P1
-
Predicia perfect
r=1
zx=1.5
zy=1.5
zy crete sau scade cu aceeai unitate cu ct crete sau scade zx
5
xyzz '
z(x)
3,53,02,52,01,51,0,50,0
z(y)
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0
-
Predicia n cazul corelaiei imperfecte
corelaiile sunt numai prin excepie perfecte
n mod normal, r variaz n jurul lui 0
exemplu: corelaia ntre cunotinele de matematic irezultatele la statistic
6
xyzrz *'
-
Subiect
Nr. prezene la cursul
de statistic
(X)
Rspunsuri corecte la evaluri
pariale (P1+P2+P3)
(Y)
A 1 7
B 3 18
C 4 19
D 7 35
F 8 19
G 9 28
H 10 40
I 11 37
J 12 45
K 13 54
Exemplu(date reale, selecionate din N=253)
-
Xa=7
Eroare de predicie
=12.85
Valoare real Ya=40
Valoare prezis Ya=27.15
-
Ecuaia dreptei de regresie
Y valoare prezis (criteriu)
ayx originea dreptei; (punctul n care linia de regresie intersecteaz axa Oy).
byx panta liniei de regresie poate fi exprimat ca fraciuni ale lui X determinate
de r
X valoare predictor a variabilei Y
XbaY yxyx *'
10
-
Modelul de regresie simpl
Acurateea prediciei este dat de coeficientul de regresie R (expresia lui r)
Exemplul nostru: R=0.528
Semnificaia statistic se testeaz cu testul F
Exemplul nostru: F=96.822.10; p
-
Pentru exemplul prezentat:
R=0.528; a=8.973; b=2.598
Y=8.973+2.598*X
X=1 Y= 11.575
X=2 Y= 14.171
O prezen la curs contribuie cu 2.596
rspunsuri corecte
-
Expresia grafic a regresiei
aceeai origine dar pante diferite
13
origini diferite, dar aceeai pant
-
SubiectNr. prezene
(X)
Rspunsuri
corecte
(Y)
Rspunsuri
prezise
(Y)
Eroare de
predicie
(Y)
A 1 7 11.57 -4.57
B 3 18 16.76 1.24
C 4 19 19.36 -0.36
D 7 35 27.15 7.85
F 8 19 29.75 -10.75
G 9 28 32.35 -4.35
H 10 40 34.95 5.05
I 11 37 37.54 -0.54
J 12 45 40.14 4.86
K 13 54 42.74 11.26
Eroarea de predicie
-
Xa=7
Eroare de predicie
=12.85
Valoare real Ya=40
Valoare prezis Ya=27.15
Media prediciei Ym=36
Varian
explicat
Ya-Ym=8.85
Varian neexplicat
(diferen rezidual)
Ya-Ym=4
-
regresia nu este simetric !
dac inversm variabilele n ecuaia de regresie se va obine o linie de regresie diferit
dac se inverseaz ordinea variabilelor n calcularea corelaiei, se obine acelai coeficient r
16
-
Modelul de predicie bazat pe un singur predictor (prezena la curs), explic doar o parte (27.2%) din variaia rspunsurilor corecte
Variaie neexplicat = 72.8%
Trebuie s existe, deci, i ali predictori
?
?
?
?
-
Modelul de predicie multivariat
Unde
Y este valoarea estimat pentru variabila criteriu (dependent)
ai este punctul de origine al liniei (constanta)
b1, b2, b3... bk sunt coeficienii b pentru cele k variabile predictor
X1, X2, X3.... Xk sunt valorile celor k variabile predictor
kki XbXbXbXbaY *....*** 332211'
-
Scatterplot trivariat
Ycriteriu
X1predictor
X2predictor
-
Planul de regresie multivariat
Ycriteriu
X1predictor
X2predictor
-
Indicatori ai intensitii prediciei
R = coeficientul de corelaie multipl
R2 = procentul de variaie din VD (criteriu) determinat de variaiasimultan a VI (predictori)
R2adj=R2 corectat pentru numrul predictorilor
R2adj > 75% - foarte bun (peste 90% rar probabil un artefact)
50% - 75% - bun
25% - 50% - slab dar acceptabil
sub 25% - foarte slab (probabil inacceptabil)
Semnificaia statistic a lui R este calculat cu ajutorul unui test de varian (F)
Cu ct contribuie fiecare predictor la estimarea criteriului? dificil de spus, fiindc fiecare predictor acioneaz n prezena celorlali
o soluie coeficienii beta (standardizai)
corelaia semi-parial dintre criteriu i predictori (cursul urmator)
NOU
-
Utilitatea regresiei multiple
Descrierea relaiilor dintre variabile
Predicia n scop de selecie
Dezvoltarea teoriei testrii psihologice
-
Condiii i limitri
Variabila dependent (criteriu):
Trebuie s fie msurat pe scal de interval raport, cu respectarea condiiilor de aplicare a testului de corelaie (normalitatea distribuiei, n special).
Poate fi msurat i pe scal ordinal
n nici un caz pe scal nominal (n acest caz, se utilizeaz alte tehnici de regresie analiza de discriminare sau regresia logistic)
-
Condiii i limitri
Variabilele independente (predictori)
vor fi msurate pe scale de interval
pot fi introduse n ecuaie i variabile msurate la nivel ordinal
pot fi utilizate direct i variabile nominale categoriale dihotomice, codificate numeric (ex: masc.=0; fem.=1)
mrimea coeficientului de regresie n acest caz, indic diferena dintre cele dou categorii
ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7 uniti dect al brbailor (celelalte variabile fiind constante)
NOU
-
Distribuia variabilelor cantitative trebuie s fie normal
Dac se abat grav de la aceast condiie, se vor utiliza proceduri adecvate de transformare.
Relaiile dintre VI i VD trebuie s fie liniare
condiie verificabil cu ajutorul unui grafic scatterplot
Omogenitatea pantei de regresie
Homoscedasticitate Heterodasticitate Heterodasticitate
-
multicoliniaritatea
Variabilele predictor trebuie s fie ortogonale e=a+b
Corelaia dintre predictori se numete multicoliniaritate
este mereu prezent ( conteaz mrimea ei)
e=a+b+c
c+d = multicolinearitate
Efecte negative Amplific eroarea standard a coefic. de regresie
Amplific variabilitatea coeficienilor de regresie
Reduce puterea (probabilitatea de resp. H0)
Reduce precizia prediciei
a
be
Y
X1
X2
a
b
c d
Y
X1
X2
e
-
multicoliniaritatea
Evaluare Corelaii bivariate
Matricea de scatterplot-uri
Indicele de toleran
ia valori ntre 0 i 1
valorile apropiate de 0 sunt un semn al coliniaritii
Dac tolerana este mai mic de 0.1 ridic o problem de coliniaritate
VIF (Variation Inflation Factor) >5 sau 10 !
Soluii: combinarea predictorilor sau eliminarea mrirea volumului eantionului
a
b
c d
Y
X1
X2
e
-
Variabilele vor fi msurate fr erori
Cazurile care prezint valori extreme vor fi analizate i tratate corespunztor
Valorile reziduale (erorile de predicie) se vor supune urmtoarelor condiii:
media valorilor reziduale n studii de replicare s fie zero;
erorile din cazul unei variabile independente nu au nici o legtur cu erorile altei sau altor variabile independente;
erorile nu coreleaz cu variabilele independente;
variana valorilor reziduale pe toat distribuia variabilelor independente este omogen (homoscedasticitate)
erorile au o distribuie normal;
Testul Durbin-Watson (recom: 2; nerecom: 3)
Condiii ale erorilor
-
poate fi considerabil
uneori chiar i una sau dou valori excesive pot influena analiza de regresie
aceste valori vor fi identificate i tratate corespunztor naintea calculrii ecuaiei de regresie multipl
Efectul valorilor extreme (outliers)
-
Alegerea modelului de analiz
Fixarea modului n care variabilele predictor sunt introduse n modelul de regresie este una dintre deciziile importante
se refer n esen la: stabilirea importanei predictorilor
ordinea de introducere
modul de tratare a acestora de ctre programul de regresie
se vor utiliza:
informaii despre relaia bivariat dintre predictori i criteriu
rezultate ale unor cercetri anterioare sau modele teoretice validate ori aflate n stadiul de ipotez
-
metode de introducere a variabilelor predictor n ecuaie
Regresia multipla standard.
Regresia multipl secvenial (regresie ierarhic).
Regresia multipl pas cu pas.
-
Regresia multipl standard
toate variabilele predictor sunt incluse n ecuaie,
efectul fiecreia este evaluat dup i independent de efectul tuturor celorlalte variabile introduse anterior
fiecare variabil independent este evaluat numai prin prisma contribuiei proprii la explicarea variabilei dependente
-
Regresia multipl secvenial (ierarhic)
Predictorii (VI) sunt introdui n ecuaie ntr-o anumit ordine, n funcie de opiunile analistului.
Atunci cnd acesta are motive s cread c un predictor are o influen mai mare, o poate introduce n ecuaie naintea altora
Fiecare predictor explic o anumit cantitate de variabilitate a VD, independent de predictorii introdui anterior n ecuaie
astfel putem determina contribuia fiecrui predictor
validitatea incremental
-
Regresia multipl pas cu pas
utilizat n studii exploratorii, (nr. mare de predictori)
trei variante:
Selecia anterograd
Selecia pas cu pas
Selecia retrograd
-
Selecia anterograd
Toate variabilele predictor sunt corelate cu variabila criteriu dup care variabila care are corelaia cea mai mare este introdus prima n ecuaie
Urmtoarea variabil introdus n ecuaie este cea care are corelaia cea mai mare, dup ce a fost eliminat efectul variabilei anterioare
Procesul continu pn ce nivelul contribuiei variabilelor predictor este prea mic pentru a mai fi luat n considerare
O variabil odat introdus n ecuaie rmne acolo.
-
Selecia pas cu pas
Este o variant a metodei anterioare
la fiecare pas, fiecare variabil deja introdus este retestat pentru a se evalua efectul ei ca i cum ar fi fost introdus ultima
Dac o variabil nou introdus are o contribuie mai consistent asupra variabilei dependente, va determina eliminarea unei variabile anterioare care se dovedete mai puin predictiv
-
Selecia retrograd
Pasul iniial este calcularea a unei ecuaii de regresie n care toate variabilele predictor sunt incluse
Ulterior, pentru fiecare variabil predictor este efectuat un test de semnificaie F, pentru a se evalua contribuia fiecrui predictor la corelaia de ansamblu.
Valorile testului F sunt comparate cu o valoare limit prestabilit, variabilele care nu trec acest prag fiind eliminate din ecuaie.
Pe msur ce o variabil este eliminat, o nou ecuaie este calculat i un nou test F este efectuat pentru variabilele rmase, urmat de eventuala eliminare a unei alte variabile.
Procesul continu pn cnd doar variabilele semnificative rmn n ecuaie
-
Concluzii la alegerea metodei de introducere a variabilelor
metoda secvenial i cea pas cu pas sunt superioare metodei standard.
n cazul metodei secveniale, decizia de selecionare a variabilelor introduse n ecuaie aparine cercettorului
n cazul metodei pas cu pas, programul este cel care face n mod automat selecia, n funcie de parametri fixai de analist
controversat
-
Analiza de putere pentru regresia multipl
stabilirea volumul eantionului n funcie de:
mrimea efectului
numrul predictorilor
puterea testului
Recomandri:
15/1 (pentru 150 de subieci se poate miza pe cel mult 10 variabile independente (predictori)
N50+8*m
-
Mrimea efectului
Mic = 0.02
Mediu = 0.15
Mare = 0.35
G*Power
2
22
1 R
Rf
-
Obiective de cercetare specifice analizei de regresie multipl
analiza de regresie multipl este utilizabil n situaii de predicie dorim s selectm candidai pentru o anumit profesie pe baza
performanelor la un set de teste psihologice odat stabilit ecuaia de regresie pentru eantionul studiat, utilizm
bateria de teste pentru a face predicii de adaptare n cazul altor subieci
ntrebri tipice: Care dintre indicatorii testelor utilizate are capacitatea de predicie cea
mai ridicat? Exist indicatori care nu au relevan pentru predicia performanei
profesionale? Are ecuaia de regresie astfel obinut o capacitate sigur de
predicie? Care dintre indicatorii testelor utilizate pot fi incluse n ecuaia de
predicie a performanei profesionale? Are ecuaia de regresie, astfel obinut, o capacitate sigur de
predicie?
-
Efectuarea analizei de regresie cu SPSS
-
Validarea prediciei...
-
Raportarea rezultatelor
datele iniiale i eventualele eliminri sau transformri efectuate;
indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaie, graficele ilustrative pentru diferitele distribuii;
coeficienii de regresie i semnificaiile lor (R2, R2adj i gradele de libertate);
dac a fost utilizat metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas i nivelul lor de semnificaie;
tabelul cu coeficienii B (sau beta), coeficienii r bivariai icorelaia parial pentru fiecare variabil independent inclus n model;
se vor trage concluzii de ansamblu...