Curs Econometrie - ASE
description
Transcript of Curs Econometrie - ASE
1
ACADEMIA DE STUDII ECONOMICE FACULTATEA DE ECONOMIE AGROALIMENTAR Ă ŞI A
MEDIULUI
Prof. univ. dr. MIRCEA GHEORGHI łĂ
Conf. univ.dr. SIMONA ROXANA P ĂTĂRLĂGEANU
ECONOMETRIE
BUCUREŞTI -2011-
2
CUPRINS
Introducere 3 Capitolul I: Modele econometrice 4
1.1. GeneralităŃi 4 1.2. Model aleator 4 1.3. Natura variabilelor care apar în model 4 1.4. InducŃia statistică 5 1.5. Identificarea modelului 5 1.6. Previziunea variabilei endogene 5 1.7. Vocabular uzual 6
Capitolul II: Regresia simplă 10 2.1. Modelul liniar al regresiei simple 10 2.2. Determinarea estimatorilor parametrilor prin metoda celor mai mici pătrate 11 2.3. ProprietăŃile estimatorilor 12 2.3.1. CovarianŃa estimatorilor 15 2.3.2. Determinarea unui estimator nedeplasat pentru varianŃa erorilor 16 2.3.3. Interpretarea geometrică a metodei celor mai mici pătrate 18 2.3.4. Coeficientul de corelaŃie liniară 21 2.3.5. DistribuŃia de probabilitate a estimatorilor 22 2.4. Teste şi intervale de încredere 24 2.5. Previziunea cu modelul liniar 25 2.6. ExperienŃă de calcul 29 Capitolul III: Regresia multipl ă 34 3.1. Modelul liniar al regresiei multiple 34 3.2. Determinarea estimatorilor parametrilor 35 3.3. ProprietăŃile estimatorilor 36 3.4. Determinarea unui estimator nedeplasat pentru varianŃa reziduurilor 38 3.5. Teste şi regiuni de încredere 39 3.6. Previziunea variabilei endogene 41 3.7. Coeficientul de corelaŃie multiplă. Analiza varianŃei 42 3.8. ExperienŃă de calcul 45 Capitolul IV: Studiul modelului liniar când ipotezele clasice asupra erorilor nu mai sunt realizate
49
4.1. Ipoteza de independenŃă a erorilor 49 4.1.1. Testarea ipotezei de independenŃă a erorilor 52 4.1.2. ExperienŃă de calcul 55 4.2. Ipoteza de normalitate a erorilor 59 4.3. Ipoteza de heteroscedasticitate 60 4.3.1. ExperienŃă de calcul 61 4.4. Ipoteza de independenŃă a erorilor în raport cu variabilele exogene 63 4.5. Ipoteza referitoare la faptul că variabilele sunt observate fără eroare 63 4.5.1. ExperienŃă de calcul 65 Bibliografie 68
3
INTRODUCERE
Dezvoltarea aparatului statistic furnizează economiştilor tot mai multe date cifrice despre procesele şi fenomenele care au loc în timp şi spaŃiu. Econometria este un mijloc de a exploata aceste date. NoŃiunea de econometrie provine din termenii oikonomie (economie) şi metron (măsurare) şi desemnează totalitatea metodelor şi tehnicilor de măsurare a fenomenelor şi proceselor care au loc în domeniul economic. Primele lucrări econometrice au avut ca obiect funcŃiile consumului, care leagă nivelul consumului de venitul disponibil (aceste funcŃii stau la baza teoriei keynesiene). În decursul timpului, numeroşi autori au încercat definirea econometriei. Lucrarea „ECONOMETRIA PENTRU...ECONOMIŞTI”, a profesorului Eugen Ştefan Pecican, apărută la Editura Econmică în 2003, conŃine multe referiri în acest sens, din care am selectat câteva.
Autori ReferinŃa R. Frisch Econometria realizează îmbinarea punctelor de vedere care se referă la teoria economică, statistică şi
matematică cu privire la natura relaŃiilor cantitative din economie P.A. Samuelson, T.C. Koopmans, J.R.N. Stone
Econometria reprezintă o analiză de natură cantitativă a fenomenelor economice, bazată pe dezvoltarea recentă a teoriei culegerii şi interpretării datelor, în conexiune cu metodele de inferenŃă (inducŃie) statistică adecvate
Fr. Perroux Econometria este o economie de intenŃie ştiinŃifică G.C. Chow Econometria este un domeniu în care se îmbină arta şi ştiinŃa de a utiliza metodele statistice în
vederea măsurării relaŃiilor economice W. Griffits, H. Carter, G. Judge
Econometria este ansamblul metodelor de realizare a analizei datelor economice
Autorul lucrării citate mai sus este de părerea că obiectul econometriei constă în cunoaşterea mecanismelor de
desfăşurare a proceselor economice descrise de serii de date statistice, prin utilizarea metodelor cantitative de natură statistică sau matematică.
DefiniŃiile date econometriei pun în evidenŃă două elemente: domeniul de studiu (economia, relaŃiile dintre variabilele economice) şi metodele utilizate (provenite din statistică şi matematică). Econometria se orientează spre construirea de modele econometrice care să reprezinte simplificat procesele sau fenomenele economice analizate şi să permită simulări ale acestora, în scopul înŃelegerii lor, pe de o parte, dar şi să servească la realizarea de previziuni, prognoze care să fundamenteze politicile economice, pe de altă parte.
4
CAPITOLUL I
MODELE ECONOMETRICE
1.1. GeneralităŃi
Modelarea economică reprezintă un proces de cunoaştere mijlocită a realităŃii cu ajutorul unui instrument cu caracteristici speciale: modelul. Sistemul real supus studiului este înlocuit prin modelul său, care este o reprezentare simplificată a obiectului cercetat.
Modelul econometric este, de regulă, o mulŃime de relaŃii numerice care permite reprezentarea simplificată a procesului economic supus studiului (uneori chiar a întregii economii). Modelele actuale comportă adesea mai mult de zece relaŃii (ecuaŃii). Validitatea unui model este testată prin confruntarea rezultatelor obŃinute cu observaŃiile statistice. Pentru a studia un fenomen economic se încearcă reprezentarea lui prin comportamentul unei variabile. Această variabilă economică depinde, la rîndul său de alte variabile de care este legată prin relaŃii matematice.
De exemplu, dacă se studiază cererea (C) şi oferta (O) dintr-un anumit bun pe o piaŃă, se ştie că cererea şi oferta depind de preŃul (p) bunului respectiv. Putem scrie că variabilele C şi O sunt funcŃii de variabila p şi că la echilibrul pieŃei, trebuie ca cererea să fie egală cu oferta. Se construieşte astfel un model elementar de forma:
[1]
===
OC
pgO
pfC
)(
)(
Oferta şi cererea dintr-un anumit bun depind şi de alte variabile decât preŃul. Astfel, cererea dintr-un bun alimentar depinde şi de venitul disponibil, de preŃul unor produse analoage etc. La fel, dacă este vorba despre un bun agricol (grâu,...) oferta depinde de preŃul anului precedent. RelaŃia stabilită între variabile în modelul econometric este dată, de regulă, la un anumit moment de timp t, caz în care variabilele apar indiciate:
[2]
===
−
tt
rttttt
nttttt
OC
xxxpgO
xxxpfC
),...,,,(
),...,,,(
211
21
În modelul [2] s-au introdus mai multe variabile care explică cererea şi oferta dintr-un bun şi s-a considerat realizarea acestor variabile la momentul t sau t-1. Se observă că modelul comportă mai multe relaŃii. Se zice că avem un model cu ecuaŃii multiple. Evident, se va începe studiul cu un model mai simplu, cu o unică ecuaŃie.
1.2. Model aleator
Să presupunem că se studiază consumul (Ci) dintr-un anumit bun de către o familie (i). Între alte variabile,
consumul depinde de venitul disponibil al familiei (Vi). Modelul econometric elementar constă în a exprima Ci în funcŃie de Vi. Desigur, alŃi factori – dintre care unii sunt necunoscuŃi – determină de asemenea consumul familiei. Condensăm efectele acestor alŃi factori într-unul singur, aleator, notat εi. Se obŃine astfel un model aleator:
[3] iii VfC ε+= )(
Factorul aleator εi este o variabilă aleatoare care urmează o anumită lege de probabilitate, ce va trebui să fie specificată prin ipotezele făcute asupra modelului. Cel mai frecvent, ipotezele se referă doar la momentele de ordinul I şi II ale variabilei aleatoare εi. Urmează să ne asigurăm că funcŃia f (sau clasa de funcŃii) aleasă nu contrazice rezultatele experienŃei. De exemplu, dacă s-a ales f ca o funcŃie liniară (adică f(Vi) = aVi+b), modelul econometric este:
[4] iii baVC ε++= şi variind pe i pentru diferitele familii studiate, ne vom asigura că relaŃia [4] este bine satisfăcută. Se spune că „testăm” modelul. Dacă rezultatul obŃinut este convenabil, se va trece la „estimarea” parametrilor a şi b. Apoi, definind o „regulă de previziune” se va putea determina consumul Ci dacă se cunoaşte venitul Vi.
1.3. Natura variabilelor care apar în model
Într-un model econometric se disting două tipuri de variabile: -exogene. Sunt variabilele explicative ale variabilei studiate şi se consideră ca fiind date autonom. În modelul [4] Vi este variabila exogenă (sau explicativă, independentă). Venitul familiei Vi explică în acest model consumul familiei Ci. Valoarea variabilei exogene –pentru un i dat şi pentru εi precizat- permite determinarea consumului Ci. -endogene. Sunt variabilele de explicat (sau dependente). Ci este variabila endogenă în modelul precedent. Se poate remarca faptul că Ci este acum o variabilă aleatoare datorită lui εi.
5
DistincŃia între natura variabilelor este foarte importantă şi va trebui precizată întotdeauna înainte de a studia modelul. Când modelul econometric a căpătat formularea matematică definitivă se spune că modelul a fost „specificat”. Modelul [4] de mai sus este specificat. Se cunoaşte forma funcŃiei f din expresia Ci = f(Vi) + εi , adică f(Vi) = aVi+b. Adăugarea variabilei exogene εi dă modelului formularea definitivă [4].
MulŃimea parametrilor care definesc complet modelul econometric constituie „structura” acestuia. De exemplu, dacă a = 0,7 şi b = 23 iar ε urmează o lege de probabilitate normală de medie (speranŃă matematică) egală cu zero şi dispersie (varianŃă) egală cu 5, atunci mulŃimea
a = 0,7; b= 23; σ = 5 constituie structura modelului [4]. Scopul va fi acela ca, plecând de la cuplurile (Ci,Vi) asociate diferitelor familii i, să se determine structura adevărată a modelului. Cu alte cuvinte, plecând de la un spaŃiu eşantion definit de mulŃimea cuplurilor (Ci,Vi) să se determine structura adevărată a modelului în spaŃiul cu trei dimensiuni al structurilor
a , b, σ . Aici intervine „inducŃia”statistică.
1.4. InducŃia statistică Obiectul inducŃiei statistice este de a determina o procedură care, pornind doar de la observaŃiile statistice de
care dispunem, să permită trecerea de la spaŃiul eşantion la spaŃiul structurilor. Odată ce modelul a fost ales, se admite că există un triplet (a, b, σ ) care permite reprezentarea exactă a procesului prin care valorile variabilelor observate au fost determinate. În cursul inducŃiei statistice modelul nu se mai modifică. Procedura aleasă – aşa cum se va vedea în continuare – va consta în obŃinerea de estimatori pentru parametrii a şi b care să permită determinarea celor mai bune valori reale ale acestor parametri. Aceste valori se vor aprecia, în general, cu ajutorul unor „intervale de încredere” construite la un prag de semnificaŃie (α) dat. De exemplu, în modelul [4] se va găsi că a∈[0,64;0,78] şi b∈[20;27] cu o probabilitate de 95% (s-a considerat α=5%). Se poate estima şi abaterea medie pătratică (σ) a variabilei aleatoare εi. Se va vedea rolul important jucat de această variabilă aleatoare în modelul econometric.
1.5. Identificarea modelului
Considerăm din nou modelul Ci=aVi+b+ εi. Să presupunem că procedura utilizată, pornind de la informaŃia deŃinută, adică de la cuplurile (Ci,Vi), i=1,2,... nu conduce la o soluŃie unică, ci la două structuri distincte: s0=a0,b0,σ0 , s1 =a1,b1,σ1. Deorece legea de probabilitate pentru ε precizează şi legea de probabilitate pentru C, fiecare structură (Ńinând cont de valorile exogenelor şi de legea lui ε) conduce la o lege de probabilitate pentru C. Presupunem că structurile s0 şi s1 conduc la aceeaşi lege de probabilitate pentru consumul C. Sunt posibile două cazuri:
- s0 şi s1 sunt distincte şi nu putem alege între ele. Se spune că structurile considerate nu sunt „identificabile” şi, ca urmare, modelul nu este identificabil. Din această cauză nu vom putea determina valorile parametrilor care figurează în model;
- s0 şi s1 nu sunt distincte, intersecŃia lor nu este vidă. Acestea vor permite identificarea unei părŃi a parametrilor modelului (cei care aparŃin intersecŃiei). Se spune că cele două structuri sunt echivalente, dar nu permit o identificare completă a modelului.
Problema identificării este importantă mai ales în cazul modelelor cu ecuaŃii multiple.
1.6. Previziunea variabilei endogene
Interesul unui model a cărui structură a fost determinată constă în a-l utiliza pentru previzionarea variabilelor endogene – într-o etapă viitoare sau într-o circumstanŃă dată, dacă este vorba despre observaŃii luate la acelaşi moment-, atunci când cele exogene au fost fixate. De exemplu, dacă dorim să studiem evoluŃia importurilor (Y) în funcŃie de produsul intern brut (X1) şi de nivelul stocurilor (X2), modelul econometric este:
yt=a1x1t+a2x2t+b+εt, t=1,2,...,T unde t este timpul. Datele istorice (pe perioada 1990-2005) despre Y, X1 şi X2 (observaŃiile fiind anuale)
permit determinarea parametrilor modelului. Să presupunem că am găsit estimaŃiile punctuale:
==
=
6ˆ6,0ˆ
14,0ˆ
2
1
b
a
a
Modelul „estimat” este: 66,014,0ˆ 21 ++= ttt xxy . Dacă dorim să facem o previziune a importurilor pentru anul
2007, trebuie să ştim PIB-ul şi nivelul stocurilor în anul 2007. Presupunînd că aceste variabile exogene sunt x1=1030 şi x2=12,7 vom avea ca previziune pentru y: y2007=(0,14).1030+(0,6).(12,7)+6
6
sau, în general, bxaxayp ˆˆˆ 2211 ++= θθθ , unde θ este perioada de previziune.
ObservaŃie. Asupra valorii previzionate trebuie să remarcăm: - valorile exogenelor x1θ, x2θ au fost alese arbitrar, eventual Ńinînd cont de evoluŃia lor trecută; - specificarea modelului nu poate fi perfectă, forma funcŃiei alese pentru a explica evoluŃia lui y neputînd fi
suficient de precisă; - este posibil ca variabilele explicative (exogene) ale variabilei endogene (explicate), să nu mai intervină în
acelaşi mod ca în perioada 1990-2005, cînd s-a studiat legatura dintre ele. Este posibil să aibă loc un şoc, o ruptură care să perturbe echilibrul dintre variabilele care explică fenomenul, la momentul previziunii.
Este evident că toate aceste cauze pot constitui surse de eroare a previziunii. Vom vedea care sunt metodele de a minimiza eroarea de previziune.
Rezumatul capitolului I Pentru construcŃia şi utilizarea unui model econometric, se parcurg următoarele etape: - specificarea modelului (găsirea formulării matematice definitive a legăturii dintre variabilele care descriu
fenomenul sau procesul economic studiat); - estimarea parametrilor şi testarea modelului cu ajutorul statisticilor (seriilor de date observate) deja
cunoscute; - previziunea variabilei endogene.
1.7. Vocabular uzual Dacă sunteŃi familiarizaŃi cu statistica matematică, puteŃi trece la capitolul II. În caz contrar, vă reamintim aici
cîteva noŃiuni de bază. Lectura acestui paragraf credem că vă va incita să revedeŃi cursul de Statistică matematică.
Nor de puncte – Fiind dată o serie de date statistice în care valorile (xi,yj) apar efectiv de nij ori putem reprezenta într-un plan toate aceste valori prin puncte de coordonate (xi,yj) afectate de coeficienŃii nij , obŃinându-se astfel un nor de puncte.
Ajustare – Reprezentarea grafică a seriilor de date economice conduce frecvent la figuri puŃin lizibile şi greu de interpretat din cauza variaŃiilor pe termen scurt, numeroase şi sensibile, dar fără o semnificaŃie importantă. Metodele matematice numite „de ajustare” permit obŃinerea unei curbe simple, cât mai apropiată posibil de mulŃimea de puncte furnizate de observaŃiile empirice disponibile.
Ajustare liniar ă – Atunci când reprezentarea grafică a unei serii statistice duble dă un nor de puncte de formă alungită, se încearcă obŃinerea unei aproximări bune a acestei serii cu ajutorul unei drepte, realizându-se astfel o ajustare liniară. Există mai multe metode pentru găsirea acestei drepte:
- metoda grafică (se determină punctul mediu M ale cărui coordonate sunt ( )yx, şi se trasează dreapta care
pare a fi cea mai reprezentativă a seriei, determinând ecuaŃia Y=aX+b. Această metodă este ambiguă pentru că nu Ńine cont de ponderea fiecărui punct în norul de puncte);
- metoda lui Mayer (se regrupează punctele norului în două submulŃimi cărora li se determină punctele medii M1 şi M2. Dreapta de ajustare este atunci dreapta care trece prin M1 şi M2);
- metoda celor mai mici pătrate (constă în a face minimă suma pătratelor distanŃelor de la punctele norului la o dreaptă de ecuaŃie Y=aX+b numită dreaptă de regresie a lui Y în X. Se arată că panta (coeficientul director) acestei drepte este a=cov(X,Y)/Var(X). Coeficientul b se obŃine scriind că dreapta de regresie trece prin punctul mediu:
XaYb −= . Procedând la fel se găseşte dreapta de regresie de ecuaŃie X=a′Y+b′ , cu a′=cov(X,Y)/Var(Y) şi
YaXb ′−=′ . Cele două drepte de regresie sunt, în general, distincte. Compararea lor permite măsurarea nivelului de corelaŃie al caracteristicilor X şi Y. CorelaŃia se măsoară cu coeficientul de corelaŃie ρ=cov(X,Y)/σ(X)σ(Y). Se constată că ρ2=aa′ şi că ρ variază între –1 şi 1. ρ2 măsoară unghiul dintre cele două drepte de regresie, care coincid dacă
ρ2=1, adică 1=ρ . Caracteristicile X şi Y sunt corelate maximal când ρ este apropiat de 1).
În afara faptului de a da o reprezentare mai mult sau mai puŃin satisfăcătoare legăturii dintre X şi Y, importanŃa ajustării liniare este de a permite previziuni statistice, asociind lui X o valoare probabilă a lui Y prin relaŃia Y=aX+b.
Probabilitate – Fiind dată o mulŃime finită Ω, numim probabilitate pe Ω orice aplicaŃie p a lui P(Ω) – mulŃimea părŃilor lui Ω - în intervalul [0,1] care verifică trei condiŃii:
- p(A)≥0, pentru ∀ A∈ P(Ω) - p(Ω)=1 - p(A∪B)= p(A)+ p(B), dacă A,B∈ P(Ω), A∩B=Φ Ω se numeşte univers (sau univers de probabilităŃi). Ω înzestrat cu probabilitatea p se numeşte spaŃiu
probabilizat. Orice parte a lui Ω este un eveniment. Un singleton (mulŃime ce conŃine un singur element) al lui Ω se
7
numeşte eveniment elementar sau eventualitate. Ω este evenimentul cert. Φ este evenimentul imposibil. A este evenimentul complementar lui A în Ω (se numeşte eveniment contrar lui A). Dacă A∩B=Φ, evenimentele A şi B sunt incompatibile. Variabil ă aleatoare – Dacă Ω este un univers finit, numim „variabilă aleatoare” orice aplicaŃie X: Ω →R ( a lui Ω în mulŃimea numerelor reale). MulŃimea valorilor lui X, adică X(Ω) se numeşte universul imagine. AtenŃie!- o variabilă aleatoare nu este o variabilă, ci o aplicaŃie! Se observă că nu este necesar să cunoaştem o probabilitate pe Ω pentru a defini o variabilă aleatoare pe Ω.
Legea de probabilitate a unei variabile aleatoare – Dacă universul finit Ω este înzestrat cu o probabilitate p, iar X este o variabilă aleatoare definită pe Ω, numim lege de probabilitate a variabilei aleatoare X, aplicaŃia px: X(Ω)→[0,1] care asociază oricărui x∈X(Ω) probabilitatea evenimentului „mulŃimea antecedentelor lui x prin X”. Această mulŃime X-1(x) este notată (X=x). Legea de probabilitate a lui X, notată px este definită prin px: X(Ω)→[0,1], x →p(X=x). A studia o variabilă aleatoare înseamnă a-i descoperi legea sa de probabilitate.
FuncŃie de repartiŃie – Dacă universul finit Ω este înzestrat cu o probabilitate p, iar X este o variabilă aleatoare definită pe Ω, se asociază acestei variabile aleatoare funcŃia F:R→[0,1] definită prin F(x)=p(X<x) numită
funcŃie de repartiŃie a variabilei aleatoare X. Evenimentul (X<x) este imaginea intervalului ( )x,∞− prin funcŃia X.
FuncŃia de repartiŃie este o funcŃie în scară. SperanŃa matematică – Dacă X este o variabilă aleatoare definită pe universul finit Ω, înzestrat cu
probabilitatea p, universul imagine este o mulŃime finită şi ia valorile xi, i=1,2,...,n. Legea de probabilitate a lui X asociază fiecărui xi probabilitatea pi=p(X=xi). Se numeşte speranŃă matematică a variabilei aleatoare X, numărul real
∑=
=n
iii xpXE
1
)( . E(X) este media în probabilitate a valorilor luate de variabila aleatoare X. E(.) este un operator
liniar . Varian Ńa – Dacă X este o variabilă aleatoare definită pe universul finit Ω, înzestrat cu probabilitatea p,
universul imagine este o mulŃime finită şi ia valorile xi, i=1,2,...,n. Legea de probabilitate a lui X asociază fiecărui xi probabilitatea pi=p(X=xi). Se numeşte varianŃă a variabilei aleatoare X, numărul real pozitiv
∑=
−=n
iii XExpXVar
1
2))(()( . VarianŃa este media în probabilitate a pătratului distanŃelor de la xi la media lor.
Rădăcina pătrată (radicalul) lui Var(X) este ecartul-tip al variabilei aleatoare X, notat σx.
Momente condiŃionate – Se consideră vectorul aleator ( ) 2:, RYX →Ω , cu repartiŃia
ijji pyYxXP === ),( , ,0>ijp ∑∑ =i j
ijp 1 şi variabila aleatoare condiŃionată (X/Y=yj) cu repartiŃía
∑====i
ijjj
ijji pp
p
pyYxXP .
.
,)/( . Momentul de ordinul k al variabilei aleatoare X condiŃionat de Y=yj este
momentul iniŃial de ordinul k al variabilei aleatoare condiŃionate (X/Y=yj):
∑ ∑ ∑======i i i
kiij
jj
ijkiji
kij
k xppp
pxyYxXPxyYXM
.
1
.)/()/(
Similar se defineşte momentul de ordinul k al variabilei aleatoare Y condiŃionat de X=xi. Pentru k=1 se obŃin mediile condiŃionate:
∑∑ ====j
ijji
ii
jiij
j pyp
xXYMpxp
yYXM.
1)/(,
.
1)/(
Se pot defini variabilele aleatoare „medii condiŃionate” astfel: - variabila aleatoare „media lui X condiŃionată de Y”, cu repartiŃia:
∑ =≥
=
jjj
j
jpp
p
yYXMYXM 1.,0.,
.
)/(:)/(
-variabila aleatoare „media lui Y condiŃionată de X” , cu repartiŃia:
∑ =≥
=
iii
i
i ppp
xXYMXYM 1.,0.,
.
)/(:)/(
Regresie – Se numeşte regresia variabilei aleatoare X în raport cu Y, variabila aleatoare M(X/Y) cu mulŃimea
valorilor posibile: M(X/Y=y), .Rx∈
Similar, regresia variabilei aleatoare Y în raport cu X este: M(Y/X=x), .Ry∈
Dacă M(X/Y)=aX+b sau M(Y/X)=cY+d se spune că regresia este liniară
8
RepartiŃía normală – Variabila aleatoare X urmează o repartiŃie normală de parametri m şi σ (se mai scrie şi ),( σmNX ∈ ) dacă densitatea ei de probabilitate (derivata funcŃiei de repartiŃie) este:
),2
)(exp(
2
1)(
2
2
σπσmx
xf−−= ,Rx∈ ,Rm∈ σ>0
Pentru m=0 şi σ =1 se obŃine repartiŃia normală „normată” N(0,1), cu densitatea de probabilitate:
),2
exp(2
1)(
2xxf −=
π ,Rx∈
Se arată că parametri m şi σ2 sunt media (speranŃa matematică), respectiv dispersia (varianŃa) variabilei aleatoare ),( σmNX ∈ .
RepartiŃia χ2 (hi-pătrat) cu n grade de libertate – Variabila aleatoare X urmează legea de repartiŃie hi-pătrat cu n grade de libertate (se mai scrie şi )(nHX ∈ ) dacă densitatea ei de repartiŃie este:
),2
exp(
2)2
(
1)(
12
2
xx
nxf
n
n−
Γ=
− x>0, *Nn∈
Dacă variabilele aleatoare ),1,0(NX i ∈ i=1,2,...,n sunt independente, atunci variabila aleatoare
∑=
=n
iiXY
1
2urmează legea de repartiŃie H(n).
RepartiŃia Student cu n grade de libertate S(n) – Variabila aleatoare X urmează legea de repartiŃie Student cu n grade de libertate dacă densitatea ei de repartiŃie este:
,1
2
1,
2
1)(
2
12
+−
+
Β=
n
n
x
nn
xf ,Rx∈ *Nn∈
Dacă variabilele aleatoare ),1,0(NX ∈ )(nHY ∈ sunt independente, atunci variabila aleatoare
)(nS
n
Y
XZ ∈= .
RepartiŃia Fisher-Snedecor F(n1,n2) – Variabila aleatoare X urmează legea de repartiŃie Fisher-Snedecor cu n1 şi n2 grade de libertate dacă densitatea ei de repartiŃie este:
,1
2,
2
)(2
2
1
21
12
2
2
121
1
1
nn
nn
xn
n
nn
xn
n
xf
+−
−
+
Β
= x>0, *
21, Nnn ∈
Dacă variabilele aleatoare )( 11 nHX ∈ şi )( 22 nHX ∈ sunt independente, atunci variabila aleatoare
),( 21
2
2
1
1
nnF
n
Xn
X
X ∈=.
9
CAPITOLUL II
REGRESIA SIMPLĂ
Studiem, pentru început, cel mai simplu model econometric: o variabilă endogenă reprezintă evoluŃia
fenomenului considerat şi această evoluŃie este explicată printr-o singură variabilă exogenă.
În cadrul capitolului este prezentată metoda de estimare a parametrilor care intervin într-un model
econometric, se vor examina proprietăŃile estimatorilor obŃinuŃi şi se vor generaliza rezultatele analizei pentru modele
mai complexe. Într-o prima parte se va trata obŃinerea estimatorilor parametrilor modelului şi proprietăŃilor lor, iar într-
o a doua parte se dă o interpretarea geometrică a metodei utilizate, determinarea intervalelor de încredere referitoare la
parametri şi previziunea care poate fi făcută cu un astfel de model.
2.1. Modelul liniar al regresiei simple
Considerăm modelul:
(1) ttt baxy ε++= , t=1, 2, ...,T
în care: Y reprezintă o variabilă endogenă;
X o variabilă exogenă;
ε o variabilă aleatoare ale cărei caracteristici vor fi precizate prin ipoteze.
Se dispune de T observaŃii asupra lui Y şi X, adică T cupluri (xt, yt) care sunt realizări ale lui X şi Y. a şi b sunt
parametri reali necunoscuŃi pe care dorim să-i estimăm cu ajutorul observaŃiilor (xt, yt) cunoscute.
Ipoteze fundamentale
Pentru a putea obŃine rezultatele enunŃate la început, vom simplifica lucrurile impunînd o serie de ipoteze
restrictive asupra modelului. Ulterior, în alte capitole, se vor relaxa aceste restricŃii, discutînd implicaŃiile abandonării
unora din aceste ipoteze asupra calităŃii estimatorilor.
I1:
xt şi yt sunt mărimi numerice observate fără eroare;
X –variabila explicativă se consideră dată autonom în model;
Y –variabila endogenă este o variabilă aleatoare, prin intermediul lui ε.
I2:
a)- ε urmează o lege de distribuŃie independentă de timp, adică media şi dispersia lui ε nu depind de t:
( ) TtE t ,...,2,1,0 =∀=ε ,
( ) 2εσε =tVar , cantitate finită, t∀ .
ObservaŃie:
S-au folosit aici, pentru medie şi dispersie, notaŃiile ( )•E , respectiv ( )•Var , provenind de la „speranŃa
matematică” şi „varianŃa” unei variabile aleatoare. Se presupune că studenŃii au cunoştinŃe elementare despre teoria
probabilităŃilor şi statistică matematică. Altfel, ele trebuie revăzute!
b)- Realizările lui ε sunt independente de realizările lui X în cursul timpului. Aceasta este ipoteza de
homoscedasticitate. În caz contrar, există heteroscedasticitate.
10
c)- IndependenŃa erorilor (se va vedea pe parcurs că variabila aleatoare ε reprezintă „erori” sau „reziduuri”).
Două erori relative la două observaŃii diferite t şi t’ sunt independente între ele, însemnînd că au covarianŃa nulă:
( ) 0,cov =′tt εε , ceea ce implică ( ) 0. =′ttE εε .
Prin definiŃie, cov( =′ ), tt εε [ ]))())((( tttt EEE ′′ −− εεεε şi Ńinînd cont de a) rezultă implicaŃia.
d)- Normalitatea erorilor. Presupunem că ε urmează o lege de repartiŃie normală , cu media 0 şi dispersia 2εσ ,
ceea ce poate fi scris astfel: ( )2,0 εσε N∈ .
I3:
Primele momente empirice ale variabilei X, pentru T foarte mare, sunt finite:
∑=
∞→ →T
tTt xx
T 10
1 (media empirică).
( )∑=
∞→ →−T
tTt sxx
T 1
221 (varianŃa empirică).
Această ipoteză va fi folosită pentru a preciza proprietăŃile asimptotice ale estimatorilor parametrilor a şi b.
Ipotezele I1, I2, I3 pot părea foarte restrictive. Vom vedea ulterior ce consecinŃe are abandonarea unora dintre
ele asupra proprietăŃilor estimatorilor lui a şi b.
2.2. Determinarea estimatorilor parametrilor prin metoda celor mai mici pătrate
Determinarea estimatorilor parametrilor a şi b (notaŃi cu a şi b ) prin metoda celor mai mici pătrate
(MCMMP) se face punând condiŃia ca suma pătratelor erorilor să fie minimă, adică:
[ ] ( )∑∑==
=−−=T
ttt
T
tt babaxy
1
2
1
2 ,ϕε .
Pentru ca ( )ba,ϕ să fie minimală, trebuie ca:
1. condiŃii necesare: 0=∂∂
a
ϕ, 0=
∂∂
b
ϕ.
2. condiŃii suficiente: 02
2
>∂∂a
ϕ, 0
2
22
2
2
2
>
∂∂
∂∂∂
∂∂∂
∂∂
bab
baaϕϕ
ϕϕ
.
Calculăm derivatele parŃiale ale funcŃiei ( )ba,ϕ .
( )( ) 021
=−−−=∂∂
∑=
t
T
ttt xbaxy
a
ϕ
( )( ) 0121
=−−−=∂∂
∑=
T
ttt baxy
b
ϕ
021
22
2
∑=
>=∂∂ T
ttx
a
ϕ
11
Tb
22
2
=∂∂ ϕ
∑=
=∂∂
∂=∂∂
∂ T
ttx
abba 1
22
2ϕϕ
.
Atunci, condiŃiile de ordinul I (necesare) conduc la sistemul de ecuaŃii:
( )
=−−
=−−
∑∑
∑∑∑
==
===
0
0
1
11
11
2
1
Tbxay
xbxayx
T
tt
T
tt
T
tt
T
tt
T
ttt
,
iar condiŃiile suficiente (de ordinul II) sunt verificate.
EcuaŃiile condiŃii de ordinul I (numite ecuaŃii normale, vezi justificarea geometrică din partea a II-a), le
împărŃim la T, rezultând:
=−−
=−− ∑∑==
0
011
1
2
1
bxay
xbxT
ayxT
T
tt
T
ttt
.
Din a doua ecuaŃie avem xayb −=ˆ şi înlocuind în prima ecuaŃie:
( )( )( )∑
∑∑∑
∑
∑
−
−−=
−
−=
−
−= 222221
1
ˆxx
xxyy
xTx
xyTyx
xxT
xyyxTa
t
tt
t
tt
t
tt.
Am obŃinut estimatorii a şi b ai parametrilor a şi b daŃi de relaŃiile:
( )( )( )
( )
−=
−
−−=
∑∑
xayb
xx
xxyya
t
tt
ˆˆ
,ˆ 2
2
ObservaŃie:
a este o variabilă aleatoare pentru că e funcŃie de yt, iar b este aleator pentru că e funcŃie de a .
2.3. ProprietăŃile estimatorilor
Vom arăta că estimatorii a şi b obŃinuŃi prin metoda celor mai mici pătrate sunt nedeplasaŃi şi convergenŃi. În
demonstraŃie vom Ńine cont de ipotezele I1, I2, I3. Pentru a uşura demonstrarea proprietăŃilor enunŃate, transformăm mai
întâi expresiile (2) pentru a le exprima în funcŃie de parametrii a şi b. Vom considera modelul (1)
ttt baxy ε++= , t=1, 2, ...,T, însumăm după toŃi t şi împărŃim la T. Rezultă:
∑ ∑∑ ++= ttt Tbx
Tay
Tε111
, adică
( ) ε++= bxay 2 .
Scădem membru cu membru pe (2) din (1):
12
( ) ( )εε −+−=− ttt xxayy
şi înlocuim ( )yyt − în expresia lui a :
( ) ( )[ ]( )( )
( ) ( )( )( )
( ) ( )( )
( )( )∑
∑∑
∑ ∑∑
∑ ∑∑
∑
−
−+=
−
−−−+=
=−
−−+−=
−
−−+−=
22
2
2
2ˆ
xx
xxa
xx
xxxxa
xx
xxxxa
xx
xxxxaa
t
tt
t
ttt
t
ttt
t
ttt
εεε
εεεε
(deoarece 0)()( =−=− ∑∑ xxxx tt εε ).
Din expresia lui b , avem că xayb ˆˆ −= , adică bxay ˆˆ += , iar din (2) ε++= bxay , astfel că prin
scădere rezultă: ( ) ε−−+−= bbxaa ˆˆ0 sau ( )xaabb −−+= ˆˆ ε . Am obŃinut că:
( )( )∑
∑−
−+=
2ˆ
xx
xxaa
t
ttε
( )xaabb −−+= ˆˆ ε .
a şi b sunt estimatori nedeplasaŃi pentru a şi b.
Un estimator este nedeplasat dacă media estimatorului este chiar parametrul estimat. Vom aplica
operatorul de medie E în relaŃiile găsite mai sus. Pentru comoditate, notăm cu wt cantitatea:
( )∑ −
−=
2xx
xxw
t
tt , astfel că ∑+= tt waa εˆ
Rezultă:
( ) ( ) ( ) aEwaEaE tt =+= ∑ εˆ , pentru că E(a)=a şi E(εt)=0.
( ) ( ) ( ) ( )aaExEbEbE −−+= ˆˆ ε
Avem că: E(b)=b, ( ) ( )∑∑ ==
= 011
tt ETT
EE εεε şi ( ) ( ) ( ) 0ˆˆ =−=−=− aaaEaEaaE , deci
( ) bbE =ˆ .
a şi b sunt estimatori convergenŃi pentru a şi b.
Ştiind că ( ) aaE =ˆ şi ( ) bbE =ˆ , este suficient să arătăm că ( ) 0ˆ → ∞→TaVar şi
( ) 0ˆ → ∞→TbVar pentru ca a şi b să fie convergenŃi în probabilitate către a şi b. Calculăm varianŃa
estimatorilor a şi b .
Ştim că ∑+= ttwaa εˆ , adică ∑=− ttwaa εˆ .
13
( ) ( ) ( )( ) ( )∑ ∑
∑ ∑∑
<
<
+=
=
+==−=
'''
22
'''
2222
2
2ˆˆ
tttttttt
tttttttttt
EwwEw
wwwEwEaaEaVar
εεε
εεεε
Conform ipotezelor fundamentale, ( ) 22εσε =tE şi ( ) 0' =ttE εε , pentru 'tt ≠ , rezultând:
( ) ∑∑ == 2222ˆ tt wwaVar εε σσ ,
dar ( ) ( )∑ ∑
∑∑ −=
−
−=
2
2
22 1
xxxx
xxw
tt
tt
.
În final, dispersia estimatorului a este:
( ) ( )∑ −=
2
2
ˆxx
aVart
εσ.
Conform ipotezei I3, ( ) 221sxx
T Tt →− ∞→∑ şi avem că ( ) 0ˆ2
2
→= ∞→TTsaVar εσ
.
Am obŃinut că aaP
T → ∞→ˆ ( a este convergent în probabilitate către a).
Determinăm acum dispersia estimatorului b :
( ) ( ) ( )[ ] ( ) ( )[ ]( ) ( )[ ] ( )222
22222
ˆˆ2
ˆˆ2ˆˆˆ
aaExaaExE
xaaaaxExaaEbbEbVar
−+−−=
=−+−−=−−=−=
εε
εεε
Evaluăm, pe rînd, fiecare termen:
( )( ) ( ) ( )
TT
TVar
TE
TE
T
TE
TEE
ttt
ttt
tttttt
2
2
2
2'
'22
2
''
2
2
22
121
211
εε σσεεεε
εεεεε
===+=
=
+=
=
∑∑∑
∑ ∑∑
<
<
(deoarece ( ) 0' =ttE εε ).
( )[ ] ( )
( ) ( ) ( ) ∑∑∑∑
∑ ∑∑∑
==+=
=
+=
=−
<
<
ttttt
ttttt
tttttttttt
wT
VarwT
EwT
EwT
wwET
wT
EaaE
2
''
2
''
2
111
11ˆ
εσεεεε
εεεεεε
dar ( ) ( ) ( ) 01
21
21
=−−
=−
−= ∑
∑∑∑
∑==
xxxxxx
xxw t
t
T
tt
tT
tt ,
adică ( )[ ] 0ˆ =− aaE ε .
Folosind aceste rezultate parŃiale, se obŃine:
14
( ) ( ) ( ) ( )∑ −+=+=−+= 2
2222
222
2
ˆˆˆxx
x
TaVarx
TaaEx
TbVar
t
εεεε σσσσ
Dispersia estimatorului b este:
−+=∑ 2
2
2
)(
1)ˆ(
xx
x
TbVar
tεσ
Cum însă 01 → ∞→TT
şi ( ) 011
22 →=
−∞→
∑T
tTsxx
rezultă că ( ) 0ˆ → ∞→TbVar , adică
bbP
T → ∞→
ˆ ( b converge în probabilitate către b) .
2.3.1. CovarianŃa estimatorilor a şi b
Calculăm acum covarianŃa estimatorilor pornind de la definiŃie:
( ) ( ) ( )( )[ ] ( )( )[ ]( ) ( )( )[ ] ( ) ( )[ ]
( )[ ] ( ) ( ) ( )∑ −−=−=−−−=
=−−−=−−−=
=−−=−−=
2
22
2
ˆˆˆ
ˆˆˆˆ
ˆˆˆ(ˆ)ˆˆˆ,ˆcov
xx
xaVarxaaExaaE
aaxaaEaaxaaE
bbaaEbEbaEaEba
t
εσε
εε .
Matricea de varianŃă şi covarianŃă a lui a şi b , notată ( )ba ˆ,ˆΩ este deci:
( )( ) ( )
( ) ( )( ) ( )
( ) ( )
( ) ( )
( ) ( )
−+
−−
−−
−=
=
−+
−−
−−
−=
=Ω
∑∑
∑∑
∑∑
∑∑
2
2
2
22
2
2
2
22
2
2
2
2
2
ˆ,ˆ
1
1
1ˆˆ,ˆcov
ˆ,ˆcovˆ
xx
x
Txx
x
xx
x
xx
xx
x
Txx
x
xx
x
xx
bVarab
baaVar
tt
tt
tt
tt
ba
ε
εε
εε
σ
σσ
σσ
Se remarcă faptul că ( )ba ˆ,ˆΩ conŃine pe 2
εσ , adică varianŃa lui tε care este necunoscută. Se pune deci
problema de a obŃine o estimaŃie pentru ( )ba ˆ,ˆΩ , adică o estimaŃie pentru
2)( εσε =tVar . Notăm această
estimaŃie cu 2ˆ εσ .
2.3.2. Determinarea unui estimator nedeplasat pentru varianŃa erorilor
15
Utilizând estimatorii a şi b putem calcula estimaŃia variabilei endogene yt, notată ty (se mai numesc şi valori
ajustate ale variabilei endogene): bxay ttˆˆˆ += .
Atunci diferenŃa dintre yt şi ty este un estimator pentru eroarea tε . Notăm ttt yy ˆˆ −=ε . Avem că
( ) ( )bbxaabxabaxbxayyy tttttttttt −−−−=−−++=−−=−= ˆˆˆˆˆˆˆˆ εεε . Remarcă:
deoarece a şi b converg în probabilitate către a şi b, distribuŃia lui tε converge în probabilitate către distribuŃia lui
tε (distribuŃie normală, conform I2).
Ştim că ( )xaabb −−=− ˆˆ ε şi înlocuind obŃinem:
( ) ( ) ( ) ( )( )xxaaxaaxaa ttttt −−−−=−+−−−= ˆˆˆˆ εεεεε .
iar prin ridicare la pătrat:
( ) ( )( )( ) ( ) ( )2222 ˆˆ2ˆ xxaaxxaa ttttt −−+−−−−−= εεεεε .
Însumăm după t=1,2,...,T şi împărŃim la T:
( ) ( ) ( )( ) ( ) ( )∑∑∑∑ −−+−−−−−=2222 1
ˆ1
ˆ21
ˆ1
xxT
aaxxT
aaTT ttttt εεεεε .
Dar: ( )
( )∑∑
−
−=−
2ˆ
xx
xxaa
t
ttε, şi
( )( ) ( ) ( )[ ] ( ) ( ) ( ) ( )∑∑∑∑∑ −−=−−−=−−−=−−2
ˆ xxaaxxxxxxxxxx ttttttttt εεεεεε
pentru că ( )∑ =− 0xxtε .
Înlocuind, rezultă:
( ) ( ) ( )∑∑∑ −−−−=2222 1
ˆ1
ˆ1
xxT
aaTT ttt εεε .
Notăm cu ( )∑ −=22 1 εεσ tT
dispersia erorilor faŃă de media lor şi cum ea este o variabilă aleatoare, îi
calculăm media ( )2σE :
( ) ( ) ( )( ) ( )
( ) ( )
−=−=−−=
=
+−=
−=−=
=
−=
+−=
−=
∑∑
∑ ∑∑∑
∑∑∑
<
<
TTE
TE
T
TE
TEEE
T
TE
TE
TEE
ttttt
ttttttt
tttt
11
21
2111
12
11
22
2
''2
22
2
''
22
22
222
222222
εε
εε
εε
σσσεεεσ
εεεσεσεε
εεεεεεεεσ
Aplicând acum operatorul de medie în relaŃia:
16
( ) ( ) ( )∑∑∑ −−−−=2222 1
ˆ1
ˆ1
xxT
aaTT ttt εεε ,
şi Ńinînd cont de expresia varianŃei estimatorului a , rezultă:
( ) ( ) ( )
−=−
−=−−=
∑∑ TTT
xxT
aVarET
E tt
21
11
1ˆˆ
1 22
2222ε
εε σσσσε .
RelaŃia găsită se poate scrie şi astfel:
−= ∑ 22 ˆ
2
1tT
E εσ ε , aşa că, notând ∑−= 22 ˆ
2
1ˆ tT
εσ ε , am
obŃinut: ( ) 22ˆ εε σσ =E , adică 2ˆ εσ este un estimator nedeplasat pentru
2εσ (varianŃa erorilor).
Este de remarcat că modelul ttt baxy ε++= presupune estimarea a doi parametri (a şi b), iar
numitorul lui 2ˆ εσ este T-2. (T-2) constituie „numărul gradelor de libertate”. Vom reveni ulterior asupra acestei
probleme.
În concluzie, pentru modelul liniar al regresiei simple, avem estimatorii:
( )( )( )∑
∑−
−−=
2ˆ
xx
xxyya
t
tt
xayb ˆˆ −=
∑−= 22 ˆ
2
1ˆ tT
εσ ε
Estimatorul 2ˆ εσ permite să dăm o estimaŃie a varianŃelor şi covarianŃei parametrilor din model, deci o
estimaŃie a matricei ( )ba ˆ,ˆΩ , notată ( )ba ˆ,ˆ
Ω :
( )( ) ( )
( ) ( )
=Ω ∧∧
∧∧
bVarba
baaVarba ˆˆ,ˆcov
ˆ,ˆcovˆˆˆ,ˆ , unde:
( ) ( )∑ −=
∧
2
2ˆˆ
xxaVar
t
εσ,
( ) ( )
−+=∑
∧
2
2
2 1ˆˆ
xx
x
TbVar
t
εσ ,
( ) ( )aVarxba ˆˆ,ˆcov∧∧
−= .
2.3.3. Interpretarea geometrică a metodei celor mai mici pătrate
17
Am determinat estimatorii a şi b ai parametrilor modelului utilizând condiŃia necesară de existenŃă a
minimului sumei pătratelor erorilor ∑ 2tε . Putem să dăm o condiŃie necesară şi suficientă pentru ca ∑ 2
tε să fie
minimală, cu ajutorul unei reprezentări grafice. Această condiŃie va consta în egalitatea cu zero a două produse scalare
care redau ecuaŃiile normale.
Modelul ttt baxy ε++= se scrie sub formă matriceală astfel: ε++= bUaXY ,
unde:
=
Ty
y
y
Y
.
.
.2
1
,
=
Tx
x
x
X
.
.
.2
1
,
=
1.
.
.1
1
U ,
=
Tε
εε
ε
.
.
.2
1
.
În spaŃiul ortonormat Tℜ considerăm vectorii Y, X, U şi ε.
Vectorul 0H=aX+bU aparŃine planului (L) determinat de vectorii X şi U. Fie 0A=Y, 0B=X, 0C=U, HA=ε.
Cantitatea 222 HAt∑ == εε este minimală dacă HA este ortogonal pe (L), adică pe X şi U. Această condiŃie se
traduce prin egalitatea cu zero a produsului scalar al vectorilor respectivi:
=⋅=⋅
00
00
CHA
BHA, sau
>=−−<>=−−<
0,
0,
UbUaXY
XbUaXY, adică
=−−
=−−
∑∑∑∑∑
0ˆˆ
0ˆˆ 2
bTxay
xbxayx
tt
tttt.
Am regăsit, deci, sistemul de ecuaŃii normale.
Notăm Y proiecŃia pe planul (L) a vectorului Y şi cu ε vectorul HA ortogonal la planul (L).
A efectua o regresie a variabilei Y asupra variabilei X în modelul ttt baxy ε++= revine, deci, la a
proiecta vectorul Y pe planul (L) din Tℜ determinat de X şi U.
ObservaŃie:
Y
(L)
A
B
C U H
ε Y X
O
18
Considerăm modelul tt by ε+= . O reprezentare analogă celei dinainte este:
În scriere matricială, modelul este ε+= bUY , iar conform cu reprezentarea grafică, avem relaŃia
OA=OH+HA.
22 HAt∑ =ε este minimală dacă HHA 0⊥ (HA este perpendicular pe 0H), adică 0=⋅UHA sau
0, >=−< UbUY sau ∑ =⋅− 0bTyt , ∑ == yyT
b t
1ˆ şi YUyUbH =⋅=⋅= ˆ0 . Măsura algebrică a
proiecŃiei vectorului Y pe suportul vectorului U este y . Vom utiliza această observaŃie pentru a exprima ecuaŃia
varianŃei.
EcuaŃia varianŃei
Reluăm reprezentarea geometrică precedentă şi notăm cu K proiecŃia lui A pe suportul vectorului U:
Evident, KH este perpendicular în K pe 0C. În triunghiul AKH, dreptunghic, avem:
( ) 2221 HAKHAK += .
Y
(L)
A
B
C U H
ε
Y X
K Y O
0
Y
A
U H
19
Ştim că bxay ttˆˆˆ += şi ∑∑ += bx
Tay
T ttˆ1
ˆˆ1
, adică: bxay ˆˆˆ += . Dar şi
bxay ˆˆ += , rezultând că yy ˆ= .
Deoarece: AK=0A-0K ( KA0∆ dreptunghic în K)
HK=0H-0K ( HK0∆ dreptunghic în K),
rezultă, folosind (1):
( ) ( ) ( )∑ ∑ ∑+−=− 222ˆ ˆ 2 ttt yyyy ε
reziduală
ateaVariabilit
regresiei datorată
ateaVariabilit
totalã
ateaVariabilit+=
Aceasta este ecuaŃia varianŃei. Vom reveni asupra ei când vom aborda regresia multiplă.
2.3.4. Coeficientul de corelaŃie liniară
Coeficientul de corelaŃie liniară între variabilele X şi Y, notat ρ, se calculează cu relaŃia:
( )( )( ) ( )∑ ∑
∑−⋅−
−−=
22xxyy
xxyy
tt
ttρ .
În general, ( )
YXXY
YX
σσρ
⋅= ,cov
, unde Xσ şi Yσ sunt abaterile standard (radicalul dispersiei) ale variabilelor
X şi Y.
Ştim că estimatorul parametrului a are expresia ( )( )
( )∑∑
−
−−=
2ˆ
xx
xxyya
t
tt, astfel că putem scrie:
( )( )( )
( )( ) ( )
( )( )∑
∑
∑ ∑
∑∑
∑−
−=
−−
−⋅
−
−−=
2
2
22
2
2
ˆ
yy
xxa
xxyy
xx
xx
xxyy
t
t
tt
t
t
ttρ . Am obŃinut o expresie a coeficientului
de corelaŃie în funcŃie de estimator, iar prin ridicare la pătrat: ( )
( )∑∑
−
−=
2
222
ˆ
yy
xxa
t
tρ .
Un calcul imediat arată că:
( ) ( ) ( )[ ] ( )[ ] ( )∑∑∑ ∑ ∑ −=−=+−+=−=−222222
ˆˆˆˆˆˆˆˆˆ xxaxxabxabxayyyy ttttt .
În acelaşi timp, ecuaŃia varianŃei conduce la: ( ) ( )∑ ∑ ∑−−=− 222ˆˆ ttt yyyy ε , de unde:
( )( )
( )( ) ( )∑
∑∑
∑ ∑∑∑
−−=
−
−−=
−
−=
2
2
2
22
2
2
2ˆ
1ˆˆ
yyyy
yy
yy
yy
t
t
t
tt
t
t εερ .
20
Pe de altă parte, utilizând figura geometrică şi notând cu α unghiul HKA ˆ , avem AK
KH=αcos ,
( )( )∑
∑−
−==
2
2
2
2
2ˆ
cosyy
yy
AK
KH
t
tα , adică ( )∑∑
−−==
2
222
ˆ1cos
yyt
tεαρ .
În mod necesar, 10 2 ≤≤ ρ şi 11 ≤≤− ρ .
Când 0=ρ , nu există o relaŃie de tip liniar baxy tt += între yt şi xt, adică a=0.
Când 12 =ρ , yt este legat de xt printr-o relaŃie de forma baxy tt += . 1=ρ implică a>0, iar
1−=ρ implică a<0.
Când relaŃia dintre yt şi xt nu este strictă, adică baxy tt +≅ , atunci ρ este apropiat de 1, semnul lui
ρ fiind cel al lui a.
2.3.5. DistribuŃia de probabilitate a estimatorilor
Deoarece erorile εt t=1,2,...,T au o distribuŃie normală, de medie zero şi dispersie 2εσ , densitatea de
probabilitate a lui εt este:
( ) Ttf tt ,...,2,1,
2
1exp
2
12
2
=
−=
εε σε
πσε .
Cum εt şi εt’ sunt independente pentru 'tt ≠ , densitatea de probabilitate a vectorului aleator (ε1, ε2, ..., εT) va fi
egală cu produsul densităŃilor de probabilitate relative la fiecare εt.
( ) ( )
−
= ∑
2
2
21 2
1exp
2
1,...,,1
εε σε
πσεεε t
T
tf
Dar, baxy ttt −−=ε şi
( ) ( ) ( ))ˆ()ˆ(ˆ
ˆˆˆˆˆˆˆˆ
bbxaa
bbxaabxaybbxaxabaxybaxy
tt
ttttttttt
−+−+=
=−+−+−−=+−+−−−=−−
ε
(deoarece ttttt yybxay εˆˆˆ =−=−− ).
Evaluăm suma pătratelor erorilor:
( ) ( ) ( )[ ]( ) ( ) ( ) ( ) ( )( )( ) ( )( ) ( ) ( )[ ]2222
2222
222
ˆˆˆˆˆˆ
ˆˆ2ˆˆˆ2ˆˆ2ˆˆˆ
ˆˆˆ
∑∑∑
∑
∑∑ ∑
−+−+=
−+−+=
=
−−+−+−+−+−+=
=−+−+=−−=
bbxaabbxaa
xbbaabbxaabbxaa
bbxaabaxy
tttt
tttttt
ttttt
εε
εεε
εε
21
( ( ) 0ˆˆ2 =− tt xaaε , ( ) 0ˆˆ2 =− bbtε pentru că aşa cum arată reprezentarea grafică, vectorul ε este ortogonal la
planul (L), prin urmare este perpendicular pe orice vector din acel plan, deci şi pe X şi U. Produsele scalare cu aceşti
vectori vor fi nule, adică: 0,ˆ >=< Xε şi 0,ˆ >=< Uε ).
Într-o scriere matricială:
( ) ( )[ ]
−−
−−
=−+− ∑∑ bb
aa
TxT
xTx
bb
aabbxaa t
t ˆˆ
ˆˆˆˆ
2'2
( lasăm studenŃilor plăcerea de a verifica !).
Înlocuind în (1) fiecare εt prin expresiile calculate mai sus, deducem densitatea de probabilitate a vectorului aleator
(y1,y2,...,yT):
( ) ( )
−−
−−
−
−
=
=
−−
−
=
∑∑
∑
bb
aa
TxT
xTx
bb
aa
baxyyyy
tt
T
tt
T
t
ˆˆ1
ˆˆ
2
1exp
ˆ
2
1exp
2
1
2
1exp
2
1,...,,
2
2
'
2
2
2
2
21
εεε
εε
σσε
πσ
σπσϕ
łinând cont de matricea de varianŃă şi covarianŃă a estimatorilor, ( )ba ˆ,ˆΩ , se arată uşor că:
( )1
ˆ,ˆ
2
2
1 −Ω=
∑ba
t
TxT
xTx
εσ şi ( ) ( ) ( )bahgyyy t
T
tˆ,ˆˆ
2
1,...,, 21 ⋅
= ε
πσϕ
ε
unde ( )tg ε este densitatea de
probabilitate a lui tε , iar ( )bah ˆ,ˆ cea a lui ( )ba ˆ,ˆ .
Cu aceste rezultate şi făcînd apel la unele teoreme importante ale statisticii matematice, putem deduce
următoarele distribuŃii de probabilitate:
1. Deoarece ∑−= 22 ˆ
2
1ˆ tT
εσ ε , adică ( ) 22 ˆ2ˆ εσε −=∑ Tt , variabila aleatoare definită de
raportul ( )
=− ∑ 2
22
2
ˆ1ˆ
2 tT εσσ
σεε
ε urmează o repartiŃie χ2 (hi-pătrat) cu (T-2) grade de
libertate. (Vectorul ε admite T-2 componente independente nenule distribuite după T-2 legi
normale independente, cu media zero şi abatere standard εσ )
2. Folosind relaŃile de calcul stabilite anterior, rezultă că 2ˆ
2ˆ
2
2 ˆˆ
a
a
σσ
σσ
ε
ε =
(am utilizat aici notaŃiile )ˆ(2ˆ aVara =σ şi )ˆ(ˆˆ 2
ˆ araVa =σ pentru varianŃa estimatorului a , respectiv
pentru estimaŃia acesteia). Atunci variabila aleatoare definită de raportul ( )2ˆ
2ˆˆ
2a
aTσσ
− urmează tot o repartiŃie
χ2 cu (T-2) grade de libertate.
22
3. Cuplul ( )ba ˆ,ˆ urmează o repartiŃie normală bidimensională, astfel că variabilele aleatoare
definite mai jos au repartiŃiile următoare: ( )1,0ˆ
ˆ
Naa
a
∈−σ ;
( )2ˆˆ
ˆ−∈−
Ta
Saa
σ (repartiŃia Student cu (T-2) grade de libertate);
( )1,0ˆ
ˆ
Nbb
b
∈−σ ;
( )2ˆˆ
ˆ−∈−
T
b
Sbb
σ .
4. Expresia ( )
−−
Ω
−−
= −
bb
aa
bb
aaF
ba ˆˆ
ˆˆ
2
1 1ˆ,ˆ
'
este variabilă aleatoare repartizată Fisher-
Snedecor, cu 2 şi (T-2) grade de libertate.
2.4. Teste şi intervale de încredere
Pentru că există tabele cu valorile legilor de probabilitate anterioare, putem determina intervale de încredere
pentru parametrii a şi b la un nivel de semnificaŃie α fixat.
ασ α −=
≤−1
ˆ
ˆ
ˆ
taa
obrPa
αt este luat din tabela distribuŃiei Student cu (T-2) grade de libertate. Un calcul simplu conduce la intervalul
de încredere pentru parametrul a, de forma:
aa taata ˆˆ ˆˆˆˆ σσ αα +≤≤−
ceea ce permite afirmaŃia că adevărata valoare a parametrului real a , se găseşte în intervalul de valori
[ ]aa tata ˆˆ ˆˆ;ˆˆ σσ αα +− cu probabilitatea 1-α.
Când se doreşte testarea unei valori a0 a parametrului a, este suficient, pentru a accepta această valoare cu
riscul α, să ne asigurăm că:
ασt
aa
a
≤−
ˆ
0
ˆ
ˆ.
Altfel spus, este suficient ca a0 să aparŃină intervalului de încredere stabilit: [ ]aa tataa ˆˆ0 ˆˆ,ˆˆ σσ αα +−∈ .
23
De asemenea, ( ) αα −=−≤ 12,2, TFFobrP .
( )2,2, −= TFF α este ecuaŃia unei elipse cu centrul în ( )baw ˆ,ˆ care defineşte astfel o „regiune” de încredere
pentru cuplul ( )ba, la nivelul de semnificaŃie α:
ProiecŃiile acestei elipse pe axe determină, de asemenea, două intervale de încredere pentru a şi b, centrate în
a şi b . Dar, este important de remarcat că, nivelul de semnificaŃie referitor la aceste intervale nu mai este nivelul α
asociat elipsei.
Dacă se doreşte testarea simultană a două valori a0, b0 alese apriori, este suficient să înlocuim a şi b în expresia
F prin a0 şi b0.
Dacă ( ) ( )2,2,, 00 −≤ TFbaF α se acceptă valorile, altfel ele vor fi respinse. Altfel spus, pentru a
accepta cuplul (a0, b0) la nivelul de semnificaŃie α este suficient ca punctul M0(a0,b0) să aparŃină elipsei de încredere
asociată cuplului (a, b).
ObservaŃii :
1. Expresia ( )Tyyy ,...,, 21ϕ se descompune în doi factori (g şi h). g se exprimă doar în funcŃie de tε , adică în
funcŃie de yt, a , b ; h nu conŃine decât pe a , b , a şi b. Aceasta arată că, odată cunoscută o realizare a
cuplului ( )ba ˆ,ˆ , legea de probabilitate condiŃionată a lui yt (dată de factorul g) nu depinde decât de valorile
adevărate (dar necunoscute) ale parametrilor a şi b. Se zice că ( )ba ˆ,ˆ sunt estimatori „exhaustivi” pentru a şi b,
adică ei rezumă toată informaŃia pe care eşantionul o poate aduce despre a şi b.
2. Când ipoteza de normalitate asupra erorilor tε este realizată, funcŃia de verosimilitate relativă la eşantionul
( )Tyyy ,...,, 21 este chiar funcŃia ( )Tyyy ,...,, 21ϕ . Pentru obŃinerea de estimatori ai lui a şi b prin metoda
verosimilităŃii maxime, este suficient să maximizăm expresia ( )Tyyy ,...,, 21ϕ , adică să minimizăm
A a A’
b B’ b B
w
24
( )∑ −− 2baxy tt . Estimatorii ( )ba ˆ,ˆ obŃinuŃi cu metoda celor mai mici pătrate coincid, deci, cu cei obŃinuŃi
prin metoda verosimilităŃii maxime.
3. Atunci când ipoteza de normalitate a erorilor nu se realizează, se va arăta că estimatorii a şi b obŃinuŃi prin
metoda celor mai mici pătrate au varianŃa minimă printre toŃi estimatorii liniari centraŃi în a şi b (se va da o
demonstraŃie pe cazul general).
2.5. Previziunea cu modelul liniar
Fie θx realizarea variabilei exogene la momentul θ. Valoarea previzionată pentru endogena Y va fi:
bxayP ˆˆ += θθ ,
iar realizarea efectivă a lui Y este:
θθθ ε++= baxy .
Eroarea de previziune se poate exprima prin variabila aleatoare θθ yye PP −= .
( ) ( ) θθθθ ε−−+−=− bbxaayyP ˆˆ .
Se remarcă imediat că ( ) 0=PeE , iar varianŃa erorii de previziune este:
( ) ( ) ( ) ( ) ( )( )( )[ ] ( )[ ] ( )[ ]bbEaaExbbaaEx
EbbEaaExyyEeVar PP
−−−−−−+
++−+−=−=ˆ2ˆ2ˆˆ2
ˆˆ 22222
θθθθ
θθθθ
εε
ε
Ultimii doi termeni sunt nuli (s-a demonstrat anterior!) (ε şi a , ca şi ε şi b sunt necorelaŃi).
Deci:
( ) ( ) ( ) ( ) ( )baxVarbVaraVarxeVar Pˆ,ˆcov2ˆˆ2
θθθ ε +++= .
Notăm varianŃa erorii de previziune cu ( )PeVar=2θµ şi folosind relaŃiile de calcul anterioare, rezultă:
( ) ( ) ( )( )
( )
−
−++=
=−
−+
−++
−=
∑
∑∑∑
2
2
2
2
22
2
22
2
222
11
21
xx
xx
T
xx
xx
xx
xT
Txxx
t
ttt
θε
εθε
εεθθ
σ
σσσσµ
2εσ este necunoscut, dar estimat prin 2ˆεσ şi varianŃa estimată a erorii de previziune este:
( )
( )
−
−++=∑
2
2
22 11ˆˆ
xx
xx
Tt
θεθ σµ
25
Această varianŃă poate fi redusă, pe de o parte prin creşterea numărului de observaŃii (T), iar pe de altă parte,
prin alegerea lui θx astfel încât ( )2xx −θ să nu fie prea mare (adică făcând o previziune pe termen scurt).
Deoarece erorile sunt normal distribuite, ( )2,0 εσε Nt ∈ atunci şi ( ) Naa ∈−ˆ şi ( ) Nbb ∈−ˆ (urmează legi
normale). Rezultă următoarele distribuŃii de probabilitate pentru variabilele:
( )1,0NyyP
∈−
θ
θθ
µ .
θ
θθ
µyyP −
urmează o lege Student cu T-2 grade de libertate pentru că ( ) ( )2
2
2
2 ˆ2
ˆ2
ε
ε
θ
θ
σσ
µµ −=− TT .
În planul (x,y) trasăm dreapta de ajustare bxay ˆˆ += . Fie ( )PyxP θθ , punctul situat pe dreapta de ajustare.
Putem construi, având P ca centru şi paralel cu axa 0y un interval de încredere M1M2 la nivelul de semnificaŃie α.
αµ α
θ
θθ −=
<−
1ˆ
2
tyy
PP
.
2
αt fiind luat din tabela distribuŃiei Student. Pentru T dat, θµ ca funcŃie de ( )2xx −θ este minim pentru
xx =θ . Punctele M1 şi M2 sunt deci situate, când θ variază, pe două arce de curbă (vezi figura), care determină astfel
regiunea căreia îi aparŃine θy pentru θx dat, cu o probabilitate egală cu (1-α).
ObservaŃii
1. „O variabilă aleatoare t este distribuită după o lege Student cu T-2 grade de libertate dacă expresia 2
2
−T
t
este raportul dintre o variabilă aleatoare distribuită 2χ cu 1 grad de libertate şi o alta distribuită 2χ cu (T-2) grade de
libertate”. Fie a
aat
ˆˆ
ˆ
σ−= . Atunci:
M1
M2
P
x θx
y
Pyθ
y
bxay ˆˆˆ +=
26
( )
( )
( )
( ) libertate de grade 2)-(Tcu
libertate de grad uncu
T
aa
T
aa
T
t2
a
a
a
a χχ
σσ
σσ
2
2ˆ
2ˆ
2ˆ
2
2ˆ
22
ˆ2
ˆ
ˆ2
ˆ
2=
−
−
=−−=
− .
2. „O variabilă aleatoare F este distribuită după o lege Fisher-Snedecor cu n1 şi n2 grade de libertate dacă
expresia 2
1
n
Fn este raportul dintre o variabilă aleatoare distribuită 2χ cu n1 grade de libertate şi o alta distribuită 2χ
cu n2 grade de libertate”.
Fie ( )
−−
Ω
−−
= −
bb
aa
bb
aaF
ba ˆˆˆ'ˆ
ˆ
2
1 1ˆ,ˆ
.
Atunci:
( )
( ) libertate de grade 2)-(Tcu
libertate de grade douacu
T
bb
aa
TxT
xTx
bb
aa
T
bb
aa
TxT
xTx
bb
aa
T
F
2
t
t
χχ
σσ
σ
σ
ε
ε
ε
ε
2
2
2
2
2,
2
2,
ˆ2
ˆˆ
ˆˆ
ˆ2
ˆˆ
ˆˆ
2
2
=−
−−
−−
=
=−
−−
−−
=−
∑
∑
pentru că ( )ba ˆ,ˆ urmează o lege normală bidimensională.
3. Jacobianul transformării permite exprimarea densităŃii de probailitate a vectorului aleator ( )Tyyy ,...,, 21
pornind de la cea a lui ( )Tεεε ,...,, 21 . Când ( )Tf εεε ,...,, 21 este cunoscută, pentru a obŃine ( )Tyyy ,...,, 21ϕ ,
procedăm astfel:
Înlocuim tε prin expresia ei în funcŃie de ty ;
ÎnmulŃim expresia obŃinută cu valoarea absolută a determinantului:
( )( ) 1
1...00
............
0...10
0...01
...
............
...
...
21
2
2
2
1
2
1
2
1
1
1
==
∂∂
∂∂
∂∂
∂∂
∂∂
∂∂
∂∂
∂∂
∂∂
==
T
TTT
T
T
yyy
yyy
yyy
yD
DJ
εεε
εεε
εεε
ε
( ) ( ) ( ) ( )( ) Jyyyfyyy TTT .,...,,,...,, 221121 εεεϕ =
4. Am văzut că ( ) ∑=− ttwaa εˆ , tε şi ( )aa −ˆ fiind distribuite normal. ( )aa −ˆ este o combinaŃie liniară
de tε . Deci:
( ) ( )1,0ˆ
ˆ
Naa
a
∈−σ
27
( )2ˆ
2ˆ
a
aa
σ−
este distribuită χ2 cu 1 grad de libertate pentru că este pătratul unei variabile aleatoare N(0,1).
( ) ( )1,0ˆ
ˆ
Nbb
b
∈−σ
( )( )1
22ˆ
2ˆχ
σ∈−
b
bb
Deoarece ( ) ( ) ( )∑∑ ∑ −−−−=2222 ˆˆ xxaa ttt εεε , prin împărŃirea la 2
εσ , obŃinem:
( ) ( ) ( )∑∑∑ −−−−
=2
2
2
2
2
2
2 ˆˆxx
aat
tt
εεε σσεε
σε
( ) 2)1(
2)1(
2)(2
2
2
2
2
2ˆˆ
−=−=−=− ∑∑
TTtt T χχχ
σε
σε
σεε
εεε
( ) ( ) ( )( ) ( )
21
22
2
2
ˆ
ˆˆ χσ ε
∈−=−−∑
aVar
aaxx
aat
Rezultă că:
2)2(
2)1(
2)1(2
2ˆ−− =−=∑
TTt χχχ
σε
ε
.
2.6. ExperienŃă de calcul
Pentru a studia cum variază cheltuielile de întreŃinere şi reparaŃii ale unui utilaj agricol în funcŃie de „vârsta”
utilajului, s-au cules următoarele date:
Vârsta utilajului (xt)
–în luni-
15 8 36 41 16 8 21 21
Cheltuieli anuale de întreŃinere şi reparaŃii (yt)
–în RON-
48 43 77 89 50 40 56 62
Vârsta utilajului (xt)
–în luni-
53 10 32 17 58 6 20
Cheltuieli anuale de întreŃinere şi reparaŃii (yt)
–în RON-
100 47 71 58 102 35 60
Rezolvare:
Căutăm să estimăm parametrii unei regresii liniare înte variabilele X şi Y, de forma ttt baxy ε++= ,
presupunînd că sunt îndeplinite ipotezele fundamentale I1,I2,I3.
28
1. Pentru a calcula estimatorii, se folosesc relaŃiile de calcul stabilite anterior (în cadrul seminarului se vor
prezenta facilităŃile de calcul oferite de diferite pachete de programe dedicate). Elementele necesare calculului sunt date
în tabelul ce urmează:
29
t xt yt xtyt
1 15 48 720 -9,1333 83,4177 -14,5333 211,218 225 2304 50,8544 -11,6789 136,396 -2,8544 8,14792 8 43 344 -16,1333 260,284 -19,5333 381,551 64 1849 41,9034 -20,6298 425,59 1,0965 1,20233 36 77 2772 11,8666 140,818 14,4666 209,284 1296 5929 77,7073 15,174 230,251 -0,7073 0,50034 41 89 3649 16,8666 284,484 26,4666 700,484 1681 7921 84,1008 21,5675 465,16 4,8991 24,00125 16 50 800 -8,1333 66,1511 -12,5333 157,084 256 2500 52,1331 -10,4002 108,164 -2,1331 4,55036 8 40 320 -16,1333 260,284 -22,5333 507,751 64 1600 41,9034 -20,6298 425,59 -1,9034 3,62327 21 56 1176 -3,1333 9,8177 -6,5333 42,6844 441 3136 58,5267 -4,0066 16,053 -2,5267 6,38428 21 62 1302 -3,1333 9,8177 -0,5333 0,2844 441 3844 58,5267 -4,0066 16,053 3,4732 12,06379 53 100 5300 28,8666 833,284 37,4666 1403,75 2809 10000 99,4454 36,912 1362,5 0,5545 0,3075
10 10 47 470 -14,1333 199,751 -15,5333 241,284 100 2209 44,4609 -18,0724 326,613 2,539 6,446911 32 71 2272 7,8666 61,8844 8,4666 71,6844 1024 5041 72,5925 10,0591 101,187 -1,5925 2,53612 17 58 986 -7,1333 50,8844 -4,5333 20,5511 289 3364 53,4118 -9,1214 83,201 4,5881 21,050913 56 102 5916 33,8666 1146,95 39,4666 1557,62 3364 10404 105,8389 43,3056 1875,38 -3,8389 14,737514 6 35 210 -18,1333 328,818 -27,5333 758,084 36 1225 39,346 -23,1873 537,649 -4,346 18,888315 20 60 1200 -4,1333 17,0844 -2,5333 6,4177 400 3600 57,248 -5,2853 27,9347 2,7519 7,5734
362 938 27437 - 3753,73 - 6269,73 12490 64926 - - 6137,72 - 132,0144
xxt − 2)( xxt − yyt − 2)( yyt −
∑
2tx 2
ty 67,3128,1ˆ += tt xy yy −ˆ 2)ˆ( yy − ttt yy ˆˆ −=ε 2ˆ tε
30
Pe baza elementelor din tabelul de calcul, se determină:
- ∑=
===T
ttx
Tx
1
133,2436215
11∑
=
===T
tty
Ty
1
533,6293815
11
-( )( )
( ) 28,1)133,24(1512490
)533,62)(133,24(1527437.ˆ
2222 =−
−=−−
=−
−−=
∑∑
∑∑
xTx
yxTyx
xx
xxyya
t
tt
t
tt -
67,31)133,24(28,1533,62ˆˆ =−=−= xayb
- coeficientul de corelaŃie liniară:
( )( )( ) ( )
9894,0733,3753733.6269
)533,62)(133,24(152743722
=−=−⋅−
−−=∑ ∑
∑xxyy
xxyy
tt
ttρ
Valoarea apropiată de 1 a coeficientului de corelaŃie arată că între cele două variabile studiate există o
corelaŃie liniară.
ObservaŃie: Am văzut că:
( )( ) ∑
∑∑∑
∑∑
−−
=−−
=−
−=
2
2
2
2
2
222
)(
)ˆˆ(
)(
)ˆˆ(ˆ
yy
yy
yy
xaxa
yy
xxa
t
t
t
t
t
tρ
Pătratul coeficientului de corelaŃie liniară este raportul dintre variabilitatea explicată prin model şi
variabilitatea totală.
- ecuaŃia de analiză a varianŃei:
variabilitatea totală = variabilitatea explicată + variabilitatea reziduală
( ) ( )∑ ∑ ∑+−=− 222ˆ ˆ ttt yyyy ε
6269,733 = 6137,719 + 132,014
În spaŃiul observaŃiilor, Y este cu atât mai bine explicat prin modelul liniar, cu cât este mai aproape se
planul (L) generat de vectorii X şi U (vectorul unitar), deci cu cât variabilitatea reziduală este mai mică faŃă
de variabilitatea empirică totală. Aceasta face ca raportul dintre variabilitatea explicată prin model şi
variabilitatea totală, adică ρ2, să fie apropiat de 1.
- estimaŃiile varianŃelor reziduurilor şi ale estimatorilor:
15,10215
0144,132ˆ
21
ˆ 22 =−
=−
= ∑ tTεσ ε
( ) ( ) ;0027,0733,3753
15,10ˆˆ
2
2
==−
=∑
∧
xxaVar
t
εσ 052,00027,0ˆ ˆ ==aσ
( ) ( ) 25,2733,3753
)133,24(
15
115,10
1ˆˆ
2
2
2
2 =
+=
−+=∑
∧
xx
x
TbVar
t
εσ
31
5,125,2ˆ ˆ ==b
σ
- calculul intervalelor de încredere pentru estimatori:
Variabilele aleatoare ( )
a
aa
ˆˆ
ˆ
σ−
şi ( )
b
bb
ˆˆ
ˆ
σ−
urmează fiecare o repartiŃie Student cu (T-2) grade de
libertate. Alegând un nivel de semnificaŃie α=0,05, putem extrage din tabelele repartiŃiei (astfel de tabele se
găsesc în majoritatea cărŃilor de econometrie, sau de statistică matematică) valoarea ttab corespunzătoare
numărului de grade de libertate şi nivelului de semnificaŃie ales. În cazul nostru, pentru T-2=13 grade de
libertate şi α=5%, găsim ttab=2,16. Intervalele de încredere vor fi:
[ ]=+−∈ aa tataa ˆˆ ˆˆ;ˆˆ σσ αα [1,28-(2,16)(0,052) ; 1,28+(2,16)(0,052)]=
= [1,17 ; 1,39]
[ ]=+−∈bb
tbtbb ˆˆ ˆˆ;ˆˆ σσ αα [31,67 –(2,16)(1,5) ; 31,67+(2,16)(1,5)]=
=[28,43 ; 34,91]
Prin urmare, putem afirma că valorile parametrilor reali a şi b se găsesc în aceste intervale cu o
probabilitate de 95%.
Stabilim acum un interval de încredere pentru estimatorul varianŃei erorilor. Am văzut că variabila
aleatoare ( )
=− ∑ 2
22
2
ˆ1ˆ
2 tT εσσ
σεε
ε urmează o lege de repartiŃie hi-pătrat cu (T-2) grade de libertate.
În tabelele legii hi-pătrat vom găsi, pentru un nivel de semnificaŃie α dat, două valori: v1 având
probabilitatea (1-α/2) de a fi depăşită, respectiv v2 având probabilitatea (α/2) de a fi depăşită, astfel că
ασσ
ε
ε −=
≤−≤ 1
ˆ)2(Pr 22
2
1 vTvob
Se obŃine astfel intervalul de încredere:
−−∈
1
2
2
22 ˆ)2(
;ˆ)2(
v
T
v
T εεε
σσσ
pentru α=0,05 şi 13 grade de libertate extragem din tabelă v1=5,01 şi v2=24,7 rezultând intervalul:
=
−−∈01,5
15,10)215(;
7,24
15,10)215(2εσ [5,34 ; 26,34]
- testăm dacă parametrii a şi b ai modelului sunt semnificativ diferiŃi de zero la pragul de semnificaŃie
α=0,05.
32
Variabilele aleatoare a
a
ˆˆ
ˆ
σ şi b
b
ˆˆ
ˆ
σ urmează legi de probabilitate Student cu (T-2) grade de libertate.
Aceste rapoarte se numesc şi „raportul t” Student empiric (tcalculat). Se acceptă ipoteza H0: (a=0) dacă tcalculat
(luat în modul) este mai mic decât ttabelat , altfel se acceptă ipoteza contrară H1:(a≠ 0). Acest lucru se poate
scrie: taba
ta <−
ˆˆ0ˆ
σ . Este exact acelaşi lucru cu a spune că 0 să aparŃină intervalului de încredere
determinat pentru a. Cum ∉0 [1,17 ; 1,39], acceptăm ipoteza H1:(a ≠ 0). La fel stau lucrurile şi pentru b.
Prin urmare, a şi b sunt semnificativ diferiŃi de zero la pragul de semnificaŃie de 5%. Se spune că variabila
explicativă (exogenă) X (vârsta utilajului) este “contributivă”.
- ne propunem acum să determinăm o previziune a cheltuielilor de întreŃinere şi reparaŃii pentru un utilaj
de 4 ani (48 de luni). Notăm cu pyθ cheltuielile de întreŃinere şi reparaŃii pentru un utilaj cu “vârsta”
θx . Avem că 11,9367,3148.28,1ˆˆ =+=+= bxayPθθ
Ce eroare corespunde unei astfel de previziuni? Ştim că:
θθ yye Pp −= , este o variabilă aleatoare distribuită normal, cu media zero şi varianŃa estimată a
erorii de previziune:
( )( ) 366,12
733,3753)133,2448(
151
115,101
1ˆˆ2
2
2
22 =
−++=
−
−++=∑ xx
xx
Tt
θεθ σµ
5164,3366,12ˆˆ 2 === θθ µµ
Deoarece variabila aleatoare θ
θθ
µyyP −
este distribuită Student cu (T-2) grade de libertate, putem
determina un interval de încredere pentru valoarea previzionată:
[ ] [ ]66,100;56,8551840,3)(16,2(11,93);5164,3)(16,2(11,93ˆ;ˆ22
=+−=
+−∈ θαθθαθθ µµ tytyy pp
Cu o probabilitate de 95%, valoarea adevărată a cheltuielilor de întreŃinere şi reparaŃii pentru un utilaj de 48
de luni se va afla în intervalul determinat.
33
CAPITOLUL III
REGRESIA MULTIPL Ă
De multe ori, studiul unui fenomen economic necesită introducerea mai multor variabile
explicative. O variabilă endogenă se exprimă, deci, în funcŃie de mai multe variabile exogene. Metodele de
regresie utilizate sunt în acest caz generalizări ale celor din capitolul anterior.
3.1. Modelul liniar al regresiei multiple
Considerăm acum modelul:
(1) tptpttt xaxaxay ε++++= ...2211 , t=1, 2, ...,T
în care: Y reprezintă o variabilă endogenă;
X1, X2 ,..., Xp sunt variabile exogene;
a1, a2 ,..., ap sunt parametri necunoscuŃi care trebuie estimaŃi.
Modelul nu conŃine o constantă deoarece variabila Xp poate fi considerată astfel ca xpt=1,
Tt ,...,2,1=∀ (se numeşte variabilă auxiliară).
Folosind notaŃiile:
=
Ty
y
y
Y
.
.
.2
1
,
=
pTTT
p
p
xxx
xxx
xxx
X
...
............
...
...
21
22212
12111
,
=
pa
a
a
a...
2
1
,
=
Tε
εε
ε
.
.
.2
1
ecuaŃia (1) se scrie sub formă matriceală:
(2) ε+= XaY .
Ipoteze fundamentale
Ipotezele I1, I2 din capitolul II rămân valabile: ceea ce era adevărat pentru xt este acum valabil
pentru xit, i=1,2,...,p.
Ipoteza I3 referitoare la variabilele exogene se modifică astfel:
a. absenŃa coliniarităŃii variabilelor exogene:
34
Nu există nici o mulŃime de p numere reale iλ , i=1,2,...,p astfel încât
01
=∑=
p
iiti xλ , t=1, 2, ...,T.
Matricea X de format (Txp) are în acest caz rangul p (T>p) şi matricea (X’X), unde X’
este transpusa lui X, este nesingulară, deci există inversa ei (X’X)-1.
b. Atunci când ∞→T , matricea ( )XXT
'1
tinde către o matrice finită, nesingulară.
3.2. Determinarea estimatorilor parametrilor
Pentru a scrie ecuaŃiile normale utilizăm interpretarea geometrică dată în capitolul II. Ne
propunem să minimizăm expresia ∑=
=T
ttU
1
2ε .
Fie vectorii Y, X1, X2,...,Xp în spaŃiul ortonormat Tℜ .
Vectorul ( )
=
p
p
a
a
a
XXXXa...
,...,, 2
1
21 aparŃine subspaŃiului (L) generat de vectorii X1,
X2,...,Xp. Cantitatea 22∑ == εε tU va fi minimă atunci când vectorul XaY −=ε este ortogonal
Y
(L)
A
Xp
X1 H
ε Y
X2
O
35
la subspaŃiul (L). Această condiŃie se traduce prin egalitatea cu zero a produselor scalare dintre vectorul
XaY − şi orice vector din subspaŃíul (L),deci şi X1,X2,...,Xp:
>=−−−−<
>=−−−−<
>=−−−−<
0,...
...............
0,...
0,...
2211
22211
12211
ppp
pp
pp
XXaXaXaY
XXaXaXaY
XXaXaXaY
Efectuînd produsele scalare, rezultă sistemul de ecuaŃii:
Sau, cu notaŃiile
matriciale introduse:
X’Y=(X’X)a , de unde rezultă:
(3) ( ) YXXXa ''ˆ 1−=
3.3. ProprietăŃile estimatorului a
Arătăm că a este un estimator nedeplasat al lui a şi deducem expresia matricei de varianŃă şi
covarianŃă aΩ .
a. transformăm expresia (3) înlocuind Y prin expresia lui în funcŃie de X:
(4)
( ) ( ) ( )( ) ( ) ( ) ( ) εε
ε''''''
''''ˆ111
11
XXXaXXXaXXXX
XaXXXYXXXa−−−
−−
+=+=
=+==
Aplicând operatorul de medie expresiei (4), rezultă:
( ) ( ) ( )εEXXXaaE ''ˆ 1−+= .
Dar, ( ) 0=εE conform I2, deci ( ) aaE =ˆ , adică a este estimator nedeplasat pentru a.
b. Prin definiŃie:
( )( )( )'ˆˆˆ aaaaEa −−=Ω .
=
∑∑∑
∑∑∑∑∑∑
∑
∑∑
ppttpttpt
pttttt
pttttt
tpt
tt
tt
a
a
a
xxxxx
xxxxx
xxxxx
yx
yx
yx
....
...
............
...
...
...2
1
221
22212
12121
2
1
36
Din (4) rezultă: ( ) ε''ˆ 1 XXXaa −=− şi ( ) 1'')ˆ( −=′− XXXaa ε pentru că ( ) 1' −XX este o matrice
simetrică. Atunci:
( )( ) ( ) ( ) 11 '''''ˆˆ −−=−− XXXXXXaaaa εε şi
( ) ( ) ( ) 11ˆ '''' −−=Ω XXXEXXXa εε .
Însă ( ) εεε Ω='E este matricea de varianŃă şi covarianŃă a lui ε . Ştim că ( ) IE 2' εσεε = (I este
matricea unitate de ordinul T). Atunci rezultă:
( ) ( ) ( ) ( )( ) ( ) 12112121ˆ ''''''' −−−−− ===Ω XXXXXXXXXXXXXXa εεε σσσ
Se poate arăta că dacă ipoteza a) din I3 rămâne valabilă când ∞→T , atunci a este estimator
convergent către a.
PropoziŃie. Estimatorul ( ) YXXXa ''ˆ 1−= este cel mai bun estimator liniar nedeplasat al lui
a.
Pentru a arăta această proprietate vom construi un estimator liniar pentru a care să aibă varianŃa
minimă şi el va fi identic cu cel obŃinut prin MCMMP. Fie a* un estimator liniar al lui a, adică a*=MY,
unde M este o matrice cu coeficienŃi constanŃi de format (pxT). Estimatorul a* este nedeplasat dacă:
( ) ( ) ( ) aXaMEYMEaE =+== ε*
adică ( ) ( ) ( ) ( ) ( )aMXMEaEMXaE =+= ε* pentru că ( ) 0=εE .
Pentru ca a* să fie nedeplasat, trebuie ca (MX)=I (matricea unitate de ordinul p).
Construim acum matricea de varianŃă şi covarianŃă a lui a*:
( )( )[ ]'*** aaaaEa −−=Ω
Dar, ( ) ( ) εεε MaMaMXXaMMYa +=+=+==* , deci εMaa =−* ,
( ) '''* Maa ε=− şi ( ) ( ) ''''' 2* MMMMEMMEa εσεεεε ===Ω . Pentru ca a* să fie de varianŃă
minimă, trebuie ca „urma” matricei (MM’) să fie minimă, sub restricŃia (MX)=I . Urma unei matrici este,
prin definiŃie, suma elementelor de pe diagonala principală. Notăm Ur(X) urma matricei X. Ur este un
operator liniar (demonstraŃi!). Rezolvând problema de extremum condiŃionat:
( )
= IMXrs
MMMinUr
..
'
se obŃine soluŃia ( ) '' 1 XXXM −= , adică ( ) YXXXMYa ''* 1−== . Am găsit că aa ˆ* = .
Un astfel de estimator se numeşte „estimator BLUE” (best liniar unbiaised estimator).
37
3.4. Determinarea unui estimator nedeplasat al varianŃei 2εσ
VarianŃa reziduurilor 2εσ fiind necunoscută, avem nevoie de un estimator al ei. Dacă p este
numărul de coeficienŃi de estimat în model, se va arăta că:
∑−= 22 ˆ
1ˆ tpT
εσ ε
Avem că: ε+= XaY ;
aXY ˆˆ = ;
aXXaYY ˆˆˆ −+=−= εε ;
( )aaX −−= ˆˆ εε .
Dar: ( ) ε''ˆ 1 XXXaa −=− şi ( ) εεε ''ˆ 1 XXXX −−=
( )[ ]εε ''ˆ 1 XXXXI −−= .
Notăm: ( ) '' 1 XXXXI −−=Γ .
Γ este o matrice de format (TxT) cu proprietăŃile Γ’=Γ (simetrică) şi Γ2=Γ (idempotentă de grad
2). Am obŃinut εε Γ=ˆ . Evaluăm acum ∑ 2ˆtε , care sub formă matriceală este:
∑ ∑∑≠
+=Γ=ΓΓ=⋅=i ji
jiijiiit εεγεγεεεεεεε 22 '''ˆ'ˆˆ , unde γij este elementul matricii Γ situat la
intersecŃia liniei i cu coloana j.
Atunci, rezultă că:
( ) ( ) ( )∑ ∑∑≠
+=i ji
jiijiiit EEE εεγεγε 22ˆ .
Însă, ( ) 0=jiE εε conform I2 şi ( ) ( ) ( )Γ=== ∑∑∑ UrEEi
iii
iiit2222ˆ εε σσγεγε .
Arătăm că ( ) pTUr −=Γ .
( ) ( )( ) ( ) ( )( )'''' 11 XXXXUrIUrXXXXIUrUr −− −=−=Γ
( ) TIUr =
( )( ) ( )( ) pXXXXUrXXXXUr == −− 11 ''''
(permutarea între ( ) 1' −XXX şi 'X este posibilă datorită formatului acestor matrici şi proprietăŃilor
operatorului Ur.)
În final rezultă:
38
( ) ( ) 22ˆ εσε pTE t −=∑ , ( )
−=
−= ∑∑ 222 ˆ
1ˆ
1tt pT
EEpT
εεσ ε , astfel că
∑−= 22 ˆ
1ˆ tpT
εσ ε este estimator nedeplasat al lui 2εσ .
T este numărul de observaŃii, p este numărul de parametri de estimat şi relaŃia găsită o
generalizează pe cea din capitolul II.
3.5. Teste şi regiuni de încredere
Ipoteza de normalitate a erorilor εt fiind îndeplinită, se pot generaliza rezultatele obŃinute la
regresia simplă. Deoarece ( ) ε''ˆ 1 XXXaa −+= , rezultă că a este distribuită după o lege normală în p
dimensiuni, cu media ( ) 0ˆ =aE şi dispersia ( ) 12ˆ ' −=Ω XXa εσ . Pentru un estimator ia dat, avem că:
(*)
ia
ii aa
ˆ
ˆ
σ−
urmează o lege normală redusă N(0,1);
(**) ( )
2
2
2
2 ˆˆ
εε
ε
σε
σσ ∑=− tpT
este distribuită χ2 (hi-pătrat) cu (T-p) grade de libertate.
(***)
ia
ii aa
ˆˆ
ˆ
σ−
urmează o lege Student cu (T-p) grade de libertate.
Legea Student este utilizată în mod curent pentru a aprecia validitatea estimatorului unui
coeficient ai. De exemplu, dacă se testează ipoteza (H0:ai=0) contra ipotezei (H1:ai ≠ 0), pentru a accepta
H1 trebuie ca 2ˆˆ
ˆασ
ta
ia
i ≥ , unde 2
αt este valoarea tabelată a variabilei t repartizată Student, cu T-p grade
de libertate, iar α este pragul de semnificaŃie.
ObservaŃie:
Pentru T>30 şi α=0,05, 22
≅αt . Deci, dacă 2ˆ
ˆ
ˆ
≥ia
ia
σ se acceptă H1, adică ipoteza că variabila
Xi are un coeficient ai semnificativ diferit de zero.
Mai general, când se pune problema de a şti dacă un coeficient ai este diferit de o valoare
particulară 0ia , se calculează raportul
ia
ii aat
ˆ
0
ˆ
ˆ
σ−
= şi se compară cu 2
αt .
39
Dacă tcalculat>ttabelat concludem că 0ii aa ≠ .
Considerăm acum toŃi estimatorii paa ˆ,...,ˆ1 :
(*) variabila aleatoare ( ) ( )aaaa a −Ω− − ˆ'ˆ 1ˆ este distribuită χ2 cu p grade de libertate;
(**) variabila aleatoare ( ) ( )aaaap
F a −Ω′−= − ˆˆˆ1 1
ˆ urmează o lege Fisher-Snedecor cu p şi (T-
p) grade de libertate.
La fel ca la regresia liniară simplă, rezultatele anterioare permit construirea de intervale de
încredere relative la coeficienŃii ai, ca şi a unui elipsoid de încredere relativ la ansamblul coeficienŃilor în
spaŃiul pℜ . Pentru ai, intervalul de încredere, la pragul de seminificaŃie α este:
2ˆ2 ˆ
ˆαα σ
taa
tia
ii ≤−
≤−
2ˆ
2ˆ ˆˆˆ αα σσ taat
ii aiia ≤−≤−
iar pentru ansamblul coeficienŃilor, ecuaŃia elipsoidului de încredere este: F=F(α,p,T-p).
Aceleaşi principii conduc la determinarea de regiuni de încredere relative la un număr oarecare de
coeficienŃi din model. Dacă q este numărul coeficienŃilor reŃinuŃi, în spaŃiul qℜ , avem ecuaŃia
F1=F(α,q,T-p), unde:
( ) ( )qqaqq aaaaq
Fq
−Ω−= − ˆˆ'ˆ1 1
ˆ1 .
cu qa extras din vectorul a şi qaΩ extrasă din aΩ :
Dacă dorim să testăm, la pragul de semnificaŃie α, ipoteza (H0:aq=)0(
qa ) contra ipotezei
(H1:aq)0(
qa≠ ), atunci dacă:
( ) ( ) ( )pTqFaaaaq qqaqq q
−≤−Ω− − ,,ˆˆ'ˆ1 )0(1
ˆ)0( α
se acceptă ipoteza H0 ( ( )pTqF −,,α se extrage din tabelele distribuŃiei Fisher-Snedecor).
2ˆ
2ˆ ˆˆˆˆ αα σσ taata
ii aiiai +≤≤−
2ˆˆ
ˆασ
taa
ia
ii ≥−
40
ObservaŃie:
Se observă că valoarea tabelată F depinde de ( )pTq −,,α şi nu de ( )qTq −,,α . Rezultă că
expresia ( )
( )2
2
pT
q
pT
qF
−
=− χ
χ face să apară la numitor ( )
2
2ˆ
ε
ε
σσ
pT − distribuită χ2 cu (T-p) grade de libertate.
3.6. Previziunea variabilei endogene
Dacă presupunem cunoscute la un moment θ valorile (x1θ, x2θ,..., xpθ) atunci previziunea variabilei
endogene va fi:
θθθθ ppp xaxaxay ˆ...ˆˆ 2211 +++= .
Eroarea de previziune va fi variabila aleatoare:
( ) ( ) θθθθθ ε−−++−=− pppp xaaxaaYY ˆ...ˆ 111 .
Se constată că media erorii de previziune este zero:
( ) 0=− θθ YYE p ,
iar varianŃa erorii de previziune este:
( ) ( )[ ] ( ) ( )( )
+−−+−=−=− ∑∑
<= jijijjii
p
iiii
pp xxaaaaxaaEYYEYYVar 2
1
222ˆˆ2ˆ θθθθθθθθ ε
deoarece ia şi θε sunt necorelate (ia nu depind decât de tε ), t=1,2,...,T şi T<θ.
Deducem că:
( )[ ] ( ) ( ) 2
1
22ˆ,ˆcov2ˆ εθθθθθ σ∑∑
<=
++=−ji
jijii
p
ii
p aaxxaVarxYYE ,
iar sub formă matricială:
( )[ ] 2ˆ
'2
εθθθθ σ+Ω=− XXYYE ap
, adică:
( ) ( )[ ]1' 1'2 +=− −θθεθθ σ XXXXYYVar p
,
unde: ( )θθθθ pxxxX ,...,, 21' = .
ObservaŃie:
Se arată că dacă T este finit şi εt sunt normal distribuite, atunci a este distribuită normal în p
dimensiuni. Dacă ipotezele nu sunt îndeplinite, atunci cînd ∞→T , vectorul ( )aaT −ˆ urmează o
distribuŃie normală cu media egală cu zero.
41
3.7. Coeficientul de corelaŃie multiplă R. Analiza varianŃei
Şi în acest caz, ecuaŃia varianŃei se scrie:
reziduală
ateaVariabilit
ajustate valorilor
ateaVariabilit
totalã
ateaVariabilit+=
( ) ( )∑ ∑ ∑+−=− 222ˆˆ ttt yy yy ε
Coeficientul de corelaŃie multiplă R are definiŃia:
( )( ) ( )∑
∑∑∑
−−=
−
−= 2
2
2
2
2ˆ
1ˆ
yyyy
yyR
t
t
t
t ε.
Din reprezentarea geometrică făcută, rezultă că εˆ += YY ,
dar ştim că εˆ += aXY şi aXY ˆ= , rezultând că: ( ) εˆ +−=− aXXYY , ceea ce arată
că vectorul rezidual ε este acelaşi şi pentru valorile (Y,X) şi pentru valorile centrate faŃă de medie
( )XXYY −− , . Cu alte cuvinte, dacă efectuăm regresia pe ecuaŃia generală, cu variabilele necentrate sau
o efectuăm cu variabilele centrate pe media lor, estimatorul a şi vectorul rezidual ε sunt aceeaşi.
ObservaŃie:
Când se centrează valorile X şi Y, vectorul a nu conŃine ultimul estimator pa . Constanta pa
dispare când se centrează variabilele. Considerarea modelului fără constante, cu variabilele necentrate pe
media lor, poate conduce la valori ale lui 2R care ies din intervalul (0,1).
Expresia matricială a coeficientului de corelaŃie multiplă este:
( ) ( )( ) ( )YYYY
YYYYR
−−−−=
'
ˆ'ˆ2 , dar ( ) ( )aXXYY ˆˆ −=− .
( ) ( )[ ] ( ) ( )YYXXXXXXa −−−−=−
''ˆ1
şi coeficientul devine:
( ) ( )( ) ( )YYYY
YYXXaR
−−−−=
'
''ˆ2 .
Coeficientul 2R arată rolul jucat de toate variabilele exogene asupra evoluŃiei variabilei
endogene. El este cu atât mai bun cu cât e mai apropiat de 1.
Dar, judecarea calităŃii unui model doar prin valoarea lui 2R poate duce la erori grosiere. El
maschează uneori influenŃa variabilelor exogene luate separat asupra variabilei endogene şi nu poate să se
42
substituie studiului estimatorilor coeficienŃilor modelului. Pătratul coeficientului de corelaŃie multiplă nu
Ńine cont nici de numărul de observaŃii (T) şi nici de numărul variabilelor explicative (p). Ori, se poate
foarte bine ca, având aceleaşi observaŃii asupra variabilei endogene să considerăm două modele distincte, în
al doilea făcând să apară un număr de variabile explicative noi. În această a doua regresie coeficientul de
corelaŃie multiplă nu poate decât să crească (pentru că variabilitatea explicată prin regresie creşte).
O definire mai precisă a lui 2R , care Ńine cont de T şi p este:
( )221
11 R
pT
TR −
−−−= .
2R se numeşte coeficient de corelaŃie multiplă corectat.
1. dacă p=1, atunci 22RR = ;
2. dacă p>1, atunci 22RR < ;
3. 2
R poate scădea prin introducerea în model a unei noi variabile exogene;
4. 2
R poate lua şi valori negative, dacă 1
12
−−<
T
pR .
Analiza varianŃei
Atunci când studiem rolul jucat de exogene asupra evoluŃiei endogenei, ne putem întreba care este
partea de variabilitate explicată de una sau mai multe variabile exogene.
Reluăm modelul iniŃial:
(1) tptpttt xaxaxay ε++++= ...2211 , t=1, 2, ...,T
şi considerăm q variabile printre cele p, pe care le indexăm de la 1 la q:
(2) tqtqttt xaxaxay ξ++++= ...2211 .
Variabilitatea ne-explicată de cele q exogene în modelul (1) este variabilitatea reziduală asociată
modelului (2).
Fie:
( ) 222211
ˆˆ...ˆˆ ξ=−−−−∑t
qtqttt xaxaxay
Variabilitatea ne-explicată de cele p exogene din modelul (1) este:
( ) 222211 ˆˆ...ˆˆ ε=−−−−∑
tptpttt xaxaxay
43
Variabilitatea explicată de cele (p-q) exogene din modelul (1) atunci când a1,...,aq sunt estimaŃi cu
modelul (2) este atunci:
222 ˆˆˆ εξη −=
Ştim că 222
00 HAHA += , adică εε ˆ'ˆˆ'ˆ' += YYYY .
Rezultatele se grupează, adesea, într-un tabel de analiză a varianŃei:
Sursa variabilităŃii Suma pătratelor corespunzătoare acestei surse
Numărul gradelor de libertate
Media pătratelor asociate
1. X: mulŃimea celor p exogene pp YY ˆ'ˆ p
p
YY ppˆ'ˆ
2. ε : mulŃimea reziduurilor pp YYYY ˆ'ˆ'ˆ'ˆ −=εε T-p
pT −εε ˆ'ˆ
3. Y: variabilă endogenă YY' T
T
YY'
4. (p-q) variabile exogene dintre cele p εεξξηη ˆ'ˆˆ'ˆˆ'ˆ −= p-q
qp −ηη ˆ'ˆ
În figura anterioară avem:
pp HY 0ˆ = este proiecŃia lui Y pe subspaŃiul (L) ai cărui vectori generatori sunt X1,X2,...,Xp.
qq HY 0ˆ = este proiecŃia lui Y pe subspaŃiul generat de X1,X2,...,Xq.
ξ
X1
Hq
Hp
(L)
A
ε Xp
Xq
η O
44
Hq aparŃine lui (L) şi triunghiul AHpHq este dreptunghic în Hp.
HqAHq 0⊥ şi HqHH qp 0⊥ , iar η este chiar qpHH .
3.8. ExperienŃă de calcul
Dispunem de observaŃiile din tabelul de mai jos şi ne propunem să explicăm variabile endogenă Y
pornind de la variabilele exogene X1 şi X2, printr-un model liniar de forma:
ε+++= 32211 aXaXaY , unde:
=
=
=
=
TTTT x
x
x
X
x
x
x
X
y
y
y
Y
ε
εε
ε...
,...
,...
,...
2
1
2
22
21
2
1
21
11
12
1
adică: ε+= XaY , unde:
=
=
3
2
1
21
2111
,
1
.........
1
a
a
a
a
xx
xx
X
TT
t yt x1t x2t
1 100 100 100
2 106 104 99
3 107 106 110
4 120 111 126
5 111 111 113
6 116 115 103
7 123 120 102
8 133 124 103
9 137 126 98
Să observăm că numărul de observaŃii (T=9) este mic, din raŃiuni de simplificare a calculelor.
Vom estima modelul, presupunînd că sunt îndeplinite ipotezele principale ale modelului liniar
general de regresie:
- ipoteze stochastice: ,).(,0)( 2 IEE εσεεε =′= (homoscedasticitate), adică:
0).( =stE εε , dacă st ≠ şi ,)( 22εσε =tE ∀t.
- ipoteze structurale: dacă numărul de variabile exogene veritabile este k, atunci p=k+1 este
numărul parametrilor de estimat. Trebuie ca rangul matricii X să fie egal cu p (p<T), iar matricea
( )XX ′ , unde X ′ este transpusa lui X este nesingulară, deci inversabilă.
45
În exemplul nostru avem k=2 şi p=3.
Atunci, ( ) YXXXa ′′= −1ˆ este un estimator liniar nedeplasat şi cu varianŃa minimală (estimator BLUE).
Pentru a simplifica procedura de calcul vom centra variabilele modelului. Cu notaŃiile:
εεη −=−=−=−= ,,, 222111 XXUXXUYYZ ,
unde: ∑∑ ∑∑ ====t
tt t
ttt
t Tx
TXx
TXy
TY εε 1
,1
,1
,1
2211 ,
modelul se scrie:
η++= 2211 UaUaZ , sau η+= UbZ , unde
−
−=
=
−−
−−=
−
−−
=εε
εεη
TTTT
a
ab
XxXx
XxXx
U
yy
yy
yy
Z ...,,......,...
1
2
1
2211
2211112
1
Deoarece ∑∑ ======t
tt
t xT
XyT
Y ,11310179
11,1171053
9
1111
1069549
1122 === ∑
ttx
TX , valorile centrate ale variabilelor sunt:
t YYZ −= 111 XXU −= 222 XXU −=
1 -17 -13 -6
2 -11 -9 -7
3 -10 -7 +4
4 +3 -2 +20
5 -6 -2 +7
6 -1 +2 -3
7 +6 +7 -4
8 +16 +11 -3
9 +20 +13 -8
Pentru a calcula estimatorul ( ) ZUUUa
ab ′′=
= −1
2
1
ˆ
ˆˆ, avem nevoie de matricile:
46
−−
=
=
=′
∑∑∑∑
648112
112650......
...
...2221
2121
21
2111
221
111
ttt
ttt
TTT
T
uuu
uuu
uu
uu
uu
uuUU
−=
=
=′
∑∑
72
872...
...
...
2
11
221
111
tt
tt
TT
T
zu
zu
z
z
uu
uuZU
( )
=
−−
=′−
−
408656
650
408656
112408656
112
408656
648
648112
1126501
1UU
( )
=
−
=′′=
= −
1244,0
3629,1
72
872
408656
650
408656
112408656
112
408656
648
ˆ
ˆˆ 1
2
1 ZUUUa
ab
Pentru a determina estimatorul celui de al treilea parametru, a3, utilizăm relaŃia:
32211 ˆˆˆ aXaXaY ++= , de unde:
1941,50106.1244,0113.3629,1117ˆˆˆ 22113 −=−−=−−= XaXaYa
Modelul estimat este: 1941,501244,03629,1ˆˆ21 −+== XXaXY , iar reziduurile sunt:
1941,5021244,013629,1ˆˆˆ +−−=−=−= XXYaXYYYε .
Căutăm acum un estimator nedeplasat pentru varianŃa reziduurilor. Am văzut că acest estimator este dat de
relaŃia: ∑−= 22 ˆ
1ˆ tpT
εσ ε . Dar,
( ) ( ) bUZZZYYYYYY ˆˆˆˆˆˆ −=−=−−−=−=ε , iar
( ) ( ) ZUbZZbUZbUZt ′′−′=−′
−=′=∑ ˆˆˆˆˆˆ 2 εεε . Avem că:
−=′
72
872ZU
∑ ==′ 12482tzZZ şi ( ) 5704,1179
72
8721244,03629,1ˆ =
−=′′ ZUb
∑ =−= 4296,685704,117912482tε
4049,1139
4296,68ˆ
1ˆ 22 =
−=
−= ∑ tpT
εσ ε
47
Matricea de varianŃă şi covarianŃă a vectorului b este: ( ) 12ˆ
−′=Ω UUb εσ , iar o estimaŃie a ei se
obŃine înlocuind pe 2εσ cu
2ˆ εσ . Avem că:
( )
=
=′=Ω −
0181,00031,0
0031,00180,0
408656
650
408656
112408656
112408656
648
)4049,11(ˆˆ 12ˆ UUb εσ
Coeficientul de corelaŃie multiplă R2, are valoarea:
totalaaiabilitate
rezidualaaiabilitate
totalaaiabilitate
licataaiabilitateR
var
var1
var
expvar2 −==
Variabilitatea totală = ( ) 124822 ==−∑ ∑ tt zyy
Variabilitatea reziduală = ∑ = 4296,68ˆ 2tε
Variabilitatea explicată = Variabilitatea totală – Variabilitatea reziduală =
=1248 – 68,4296 = 1179,5704
9451,01248
5704,11792 ==R .
Tabelul de analiză a varianŃei (variabile centrate):
Sursa variabilităŃii Suma pătratelor corespunzătoare acestei surse
Numărul gradelor de libertate
Media pătratelor asociate
1.Variabila endogenă centrată ∑ = 12482tz T-1=8
∑−2
1
1tz
T
2.Variabilele exogene centrate ∑ = 5704,1179ˆ 2tz k=2
∑ 2ˆ1
tzk
3. Reziduurile ∑ = 4296,68ˆ 2tε T-k-1=6
∑−−2ˆ
1
1tkT
ε
48
CAPITOLUL IV
STUDIUL MODELULUI LINIAR CÎND IPOTEZELE CLASICE AS UPRA ERORILOR
NU MAI SUNT REALIZATE
4.1. Ipoteza de independenŃă a erorilor
S-a studiat anterior modelul liniar de regresie sub ipoteza că erorile sunt independente. În cazul în
care erorile εt sunt corelate, matricea de varianŃă şi covarianŃă a erorilor Ωε nu se mai reduce la I2εσ , iar
estimatorii parametrilor modelului general Y=Xa+ε, cu E(εt)=0, t=1,2,...,T şi ( ) IE 2' εε σεε ≠=Ω nu
mai posedă aceleaşi proprietăŃi ca în cazul erorilor independente.
Fie a vectorul estimatorilor parametrilor a. Estimatorul a trebuie să fie liniar în raport cu
variabilele endogene Y, adică MYa =ˆ , unde M este o matrice de coeficienŃi. Estimatorul a este
nedeplasat deoarece:
( ) ( ) [ ] ( ) MXaMEMXaMMXaEMYEaE =+=+== εεˆ
(pentru că ( ) 0=εE ).
Pentru ca ( ) aaE =ˆ trebuie să impunem condiŃia MX=I , rezultând că:
εε MaMMXaMYa +=+==ˆ
Matricea de varianŃă şi covarianŃă a estimatorilor (Ńinînd cont că εMaa =−ˆ ) este:
[ ] [ ] [ ] MMMMEMMEMMEaaaaEa ′Ω=′′=′′=′=′−−=Ω εεεεεεε )()()ˆ()ˆ(ˆ
Punînd condiŃia ca aΩ să fie minimală, sub restricŃia MX=I şi rezolvînd această problemă de extremum
condiŃionat, rezultă că matricea M este de forma: [ ] 111 −−− Ω′Ω′= εε XXXM
Prin înlocuire şi calcul se obŃine:
[ ] YXXXMYa 111ˆ −−− Ω′Ω′== εε
[ ] 11ˆ
−−Ω′=Ω XXa ε
Estimatorul a astfel obŃinut este un estimator liniar, nedeplasat şi de dispersie minimă. El a fost obŃinut
prin MCMMP generalizată. Se observă imediat că dacă erorile sunt independente, adică
I2εε σ=Ω , atunci [ ] YXXXa ′′= −1ˆ , adică regăsim estimatorul obŃinut prin MCMMP
obişnuită.
49
În cazul în care erorile sunt corelate, determinarea estimatorului a necesită cunoaşterea matricei
de varianŃă şi covarianŃă a erorilor εΩ . În aplicaŃii, deoarece εΩ este necunoscută, se lucrează cu
estimaŃia ei εΩ , ceea ce nu antrenează erori prea grave.
Corelarea erorilor tε poate îmbrăca diverse forme. Cel mai frecvent se studiază cazul când
ttt ηρεε += −1 (se spune că erorile urmează un proces autoregresiv de ordinul întâi).
Modelul liniar general Y=Xa+ε, scris şi sub forma:
(1) tptpttt xaxaxay ε++++= ...2211 , t=1, 2, ...,T
(în care ttt ηρεε += −1 , iar asupra erorilor tη facem ipotezele cunoscute: ( ) 0=tE η ,
( ) 021 =ttE ηη , pentru 21 tt ≠ şi ( ) tVar t ∀= ,2ηση ), poate fi pus sub următoarea formă:
- ecuaŃia (1) scrisă pentru t-1 este:
( ) ( ) ( ) ( )111221111 ... −−−−− ++++= ttppttt xaxaxay ε pe care o înmulŃim cu ρ (presupunem
1<ρ ):
(2) ( ) ( ) ( ) ( )111221111 ... −−−−− ++++= ttppttt xaxaxay ρερρρρ
Prin scăderea (1)-(2) obŃinem:
(3) ( )( ) ( )( ) ( )( ) ttpptptttttt xxaxxaxxayy ηρρρρ +−++−+−=− −−−− 1122211111 ...
Dacă s-ar cunoaşte parametrul ρ, atunci ecuaŃia (3) ar putea fi scrisă sub forma:
(4) tptpttt uauauaz η++++= ...2211
unde: 1−−= ttt yyz ρ
( )1−−= tiitit xxu ρ , i=1,2,...,p.
1−−= ttt ρεεη
Deoarece, prin ipoteze, erorile tη sunt independente, se poate aplica MCMMP obişnuită ecuaŃiei
(4) care va conduce la estimatorul ( )paaaa ˆ,...,ˆ,ˆˆ 21= nedeplasat şi de minimă dispersie.
Dar, cum parametrul ρ nu este cunoscut, pentru estimarea parametrilor unei ecuaŃii de regresie
atunci când erorile sunt corelate (sub forma unui proces autoregresiv de ordinul I, ttt ηρεε += −1 ,
50
staŃionar, adică media ( )tE η şi dispersia ( )tVar η sunt independente de timp, iar 1<ρ ) se pot aplica
următoarele metode:
Metoda I:
1. Se aplică MCMMP obişnuită ecuaŃiilor (1) fără a Ńine cont că erorile tε sunt corelate.
Se obŃine estimatorul 1a al lui a şi se determină valorile ajustate 11 ˆˆ aXY = şi
estimaŃiile erorilor ttt yy 1ˆˆ −=ε .
2. Dăm o estimare a parametrului ρ aplicând MCMMP obişnuită ecuaŃiei
ttt ηερε += −1ˆˆ , obŃinând ρ .
3. Înlocuim ρ cu ρ în ecuaŃia (3) şi aplicăm MCMMP obişnuită acestei ecuaŃii. Se
obŃine estimatorul a pentru parametrul a.
Evident, pentru eşantioane mici, estimatorul a nu prezintă garanŃii că are proprietăŃile dorite.
Metoda II:
EcuaŃia (3) de mai înainte se poate scrie şi sub forma:
(5) ( ) ( ) ( )( )[ ] ttppttptptt xaxayxaxay ηρ +++−=++− −−− 1111111 ......
Se aplică MCMMP obişnuită ecuaŃiilor (3) şi (5) astfel:
1. Dăm o valoare iniŃială lui ρ, de exemplu ρ0=0 în ecuaŃia (3) şi obŃinem o primă
estimaŃie a parametrilor 0a .
2. Înlocuim ( )002
010 ˆ,...,ˆ,ˆˆ paaaa = în ecuaŃia (5) şi efectuând regresia, obŃinem o nouă
valoare pentru ρ, notată ρ1.
3. Înlocuim ρ cu ρ1 în ecuaŃia (3) şi efectuăm o nouă regresie, obŃinând estimatorul
( )112
111 ˆ,...,ˆ,ˆˆ paaaa = ş.a.m.d.
4. Se opresc iteraŃiile dacă valorile găsite în două iteraŃii succesive nu diferă decât printr-
un număr oricât de mic dorit (se spune că estimatorii ia , i=1,2,... converg).
Metoda III (baleiaj):
Presupunem că 0>ρ , ia succesiv valorile:
1;...;02,0;01,0;0=ρ .
Aplicăm MCMMP obişnuită ecuaŃiei (3) pentru fiecare valoare a lui ρ şi calculăm reziduurile tη .
Se reŃine valoarea lui ρ care dă cea mai mică sumă a pătratelor erorilor ∑t
t2η , căreia îi corespund
estimatorii paaa ˆ,...,ˆ,ˆ 21 ai parametrilor.
51
***
Există şi alte proceduri de estimare a parametrilor în cazul când erorile sunt corelate.
4.1.1. Testarea ipotezei de independenŃă a erorilor
Atunci când ipotezele fundamentale ale modelului liniar al regresiei nu sunt îndeplinite
proprietăŃile estimatorilor parametrilor suferă. Astfel, sub ipoteza I2 referitoare la distribuŃia erorilor şi la
independenŃa lor, estimatorii obŃinuŃi sunt nedeplasaŃi şi au varianŃa minimală. Dacă erorile sunt corelate,
estimatorii rămân, în general, nedeplasaŃi, dar matricea de varianŃă şi covarianŃă a acestora nu mai este
I2εσ . Pentru a ne asigura de independenŃa erorilor trebuie să efectuăm teste. Este vorba despre testul lui
Durbin şi Watson.
Modelul liniar general al regresiei:
tptpttt xaxaxay ε++++= ...2211
se poate scrie sub forma:
ttt axy ε+=
unde: ( )paaaa ,...,, 21= şi
=
pt
t
t
t
x
x
x
x...2
1
.
Se aplică MCMMP obişnuită şi se obŃine un estimator ( )paaaa ˆ,...,ˆ,ˆˆ 21= , calculându-se
valorile ajustate tt xay ˆˆ = şi erorile estimate ttt yy ˆˆ −=ε .
Reziduurile estimate depind de şirul erorilor tε şi de şirul valorilor exogene tx , deoarece:
( ) ttttt xaayy εε +−=−= ˆˆˆ .
Se consideră variabila aleatoare, notată d , numită şi statistica Durbin-Watson definită prin
ecuaŃia:
( )
∑
∑
=
=−−
= T
tt
T
ttt
d
1
2
2
21
ˆ
ˆˆˆ
ε
εε.
52
Durbin şi Watson au determinat densitatea de probabilitate a variabilei aleatoare d , notată ( )df ˆ
şi au arătat că oricare ar fi şirul de exogene considerate, curbele reprezentative ale lui ( )df ˆ oscilează între
două curbe limită ( )idf ˆ şi ( )sdf ˆ . Aceste funcŃii depind de numărul de observaŃii (T), de numărul de
variabile exogene veritabile ce figurează în model (m) şi de şirul erorilor tε . Cele două curbe limită
(reprezentate grafic în figură) sunt atinse pentru anumite şiruri de exogene xt şi sunt simetrice în raport cu
axa de abscisă 2.
Scopul este de a şti dacă erorile modelului sunt autocorelate. Cel mai frecvent se caută testarea
legăturii erorilor printr-o relaŃie de forma ttt ηρεε += −1 . Se spune că erorile urmează un proces
autoregresiv de ordinul întâi.
Vrem să testăm ipoteza I0: 0=ρ (absenŃa autocorelaŃiei erorilor), contra ipotezei I1: 0>ρ
(erorile tε sunt autocorelate).
La un nivel de semnificaŃie α dat, Durbin şi Watson au determinat două valori, d1 şi d2, în funcŃie
de numărul de observaŃii (T) şi de numărul de exogene veritabile (m) corespunzătoare fiecăreia din curbele
limită.
Se calculează statistica d cu relaŃia dată şi se observă că:
1. dacă 1ˆ dd < , atunci se acceptă I1;
d1 d2 2 d’1 d’2
( )df ˆ
53
2. dacă 21ˆ ddd << , atunci există îndoieli că legătura dintre erori este de forma
ttt ηρεε += −1 ;
3. dacă 2ˆ dd > , atunci se acceptă I0.
În tabelul următor sunt date câteva valori uzuale pentru d1 şi d2 în funcŃie de T şi m, pentru nivelul
de semnificaŃie α=0,05:
Tabela D-W
m=1 m=2 m=3 m=4 m=5 T
d1 d2 d1 d2 d1 d2 d1 d2 d1 d2
15 1,08 1,36 0,96 1,54 0,82 1,75 0,69 1,97 0,56 2,21
20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99
30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83
50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77
100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78
ObservaŃii :
1. În loc să testăm 0=ρ contra 0>ρ , se poate testa I0: 0=ρ , contra I1: 0≠ρ . Se obŃin
două valori '1d şi '
2d simetrice în raport cu 2 şi se constată că:
a. dacă 1ˆ dd < sau '
2ˆ dd > , atunci se acceptă I1;
b. dacă 22ˆ ddd ≤≤ sau '
2'1
ˆ ddd ≤≤ , atunci există îndoieli că erorile sunt corelate;
c. dacă '12
ˆ ddd << , atunci se acceptă I0.
2. Dacă modelul studiat nu conŃine constanta, trebuie să determinăm d ca şi când modelul ar
conŃine o constantă.
3. Statistica Durbin-Watson aplicată pe un model care conŃine variabile endogene retardate este
deplasată către 2, ceea ce înseamnă că erorile sunt mai puŃin corelate într-un proces autoregresiv, decât într-
un proces ordinar.
4.1.2. ExperienŃă de calcul
54
I. Se cunosc următoarele date referitoare la evoluŃia în timp a unei variabile economice (în preŃuri
constante):
t 1 2 3 4 5 6 7 8
yt 662,3 669,4 912,7 935,2 1027,2 1145,0 1193,7 1224,1
t 9 10 11 12 13 14 15
yt 1281,7 1426,3 1376,2 1327,8 1420,6 1933,9 2023,4
Pe această serie cronologică, utilizînd modelul tt btay ε++⋅= ,s-a aplicat MCMMP,
obŃinându-se estimatorii:
8657,81ˆ =a ; 404,582ˆ =b
De asemenea, s-a calculat varianŃa estimatorilor şi ecartul-tip al acestora: 94887,7ˆ ˆ =aσ ;
2721,72ˆ ˆ =b
σ şi valorile ajustate ale variabilei endogene 404,582.8657,81ˆ += tyt şi ale
reziduurilor ttt yy ˆˆ −=ε :
t 1 2 3 4 5 6 7 8
ty 664,2 746,1 828,0 909,8 991,7 1073,6 1155,5 1237,3
t 9 10 11 12 13 14 15
ty 1319,2 1401,0 1482,9 1564,6 1646,6 1728,5 1810,4
t 1 2 3 4 5 6 7 8
tε -1,93 -76,79 +84,79 +25,35 +35,49 +71,44 +38,30 -13,25
t 9 10 11 12 13 14 15
tε -37,54 +25,25 -106,64 -237,01 -226,00 +205,42 +213,03
Ne propunem să cercetăm o eventuală autocorelare a erorilor.
Rezolvare:
Pentru a putea utiliza testul Durbin-Watson trebuie ca numărul de observaŃii T să fie suficient de
mare (în practică T>15), iar modelul să conŃină un termen constant.
Statistica Durbin-Watson definită de ecuaŃia
( )
∑
∑
=
=−−
=T
tt
T
ttt
d
1
2
1
21
ˆ
ˆˆˆ
ε
εε conduce, conform datelor din
tabel, la: 156,179,229991
35,265867ˆ ==d .
55
Durbin şi Watson au arătat că pentru un proces staŃionar (primele două momente ale variabilei
aleatoare tε independente de timp), valoarea calculată a statisticii d este cuprinsă între 0 şi 4, cu absenŃa
corelaŃiei în vecinătatea lui 2. Între aceste valori limită, tabela D-W furnizează, la pragul de seminificaŃie α,
diferite intervale de valori d corespunzătoare prezenŃei autocorelaŃiei pozitive sau negative, absenŃei
autocorelaŃiei şi situaŃiilor de indecizie, astfel:
1. dacă 1ˆ0 dd << , atunci erorile sunt pozitiv autocorelate;
2. dacă 21ˆ ddd << , atunci există îndoieli că erorile ar fi corelate;
3. dacă 22 4ˆ ddd −<< , atunci erorile tε sunt independente;
4. dacă 12 4ˆ4 ddd −<<− , atunci există îndoieli că erorile ar fi corelate;
5. dacă dd ˆ4 1 <− , atunci erorile sunt negativ corelate.
În exemplul nostru, numărul de exogene veritabile în model este (m=1) şi dispunem de T=15
observaŃii.
Tabela D-W furnizează valorile d1=1,08 şi d2=1,36 la pragul de semnificaŃie α=0,05.
Deoarece 36,1156,1ˆ08,1 21 =<=<= ddd , suntem într-o situaŃie de indecizie, nu
putem să spunem că erorile tε sunt corelate.
II. În tabelul următor sunt date, pentru perioada 1985-2002:
volumul investiŃiilor în agricultură, yt;
produsul intern brut agricol, x1t;
indicele volumului importurilor pentru agricultură, x2t.
Anul
t
InvestiŃii în agricultură
yt
Produsul intern brut agricol
x1t
Indicele volumului importurilor pentru agricultură
x2t
1985 85,2 563,8 90,6
1986 90,2 594,7 91,7
1987 96,6 635,7 92,9
1988 112,0 688,1 94,5
1989 124,5 753,0 97,2
1990 120,8 796,3 100,0
1991 131,5 868,5 104,2
1992 146,2 935,5 109,8
1993 140,8 982,4 116,3
1994 160,0 1063,4 121,3
1995 188,3 1171,1 125,3
56
Anul
t
InvestiŃii în agricultură
yt
Produsul intern brut agricol
x1t
Indicele volumului importurilor pentru agricultură
x2t
1996 220,0 1306,6 133,1
1997 214,6 1412,9 147,7
1998 190,9 1528,8 161,2
1999 243,0 1702,2 170,5
2000 303,3 1899,5 181,5
2001 351,5 2127,6 195,4
2002 386,2 2368,5 217,4
Se cere:
1. Determinarea legăturii dintre investiŃii, PIB şi volumul importurilor;
2. Testarea autocorelaŃiei erorilor;
3. Dacă există autocorelaŃie, cum se pot înlătura efectele acesteia?
Rezolvare:
- Studierea legăturii dintre variabilele economice amintite se poate efectua cu
modelul de regresie multiplă:
tttt cxbxay ε+++= 21
Aplicarea MCMMP conduce la următoarea estimare a modelului:
ttt xxy 21 93,237,044,125ˆ −+=
Coeficientul de corelaŃie multiplă are valoarea calculată: R2=0,98
2. După calcularea reziduurilor estimate, tε , statistica Durbin-Watson este: 72,0ˆ =d .
Conform tabelei D-W, pentru α=5%, T=18 observaŃii şi m=2 variabile exogene veritabile, rezultă:
d1=1,05> 72,0ˆ =d , ceea ce conduce la concluzia că erorile sunt corelate pozitiv.
3. Pentru a înlătura efectele autocorelaŃiei erorilor, se procedează astfel:
- scriem dependenŃa dintre variabile
(1) tttt cxbxay ε+++= 21 , pentru momentul t-1:
(2) 1)1(2)1(11 −−−− +++= tttt cxbxay ε
- înmulŃim (2) cu ρ şi efectuăm scăderea (1)-(2):
( ) )()()(1 1)1(22)1(111 −−−− −+−+−+−=− tttttttt xxcxxbayy ρεερρρρ
- căutăm o estimaŃie a coeficientului ρ. Observăm că ρ este coeficientul
variabilei yt-1 în relaŃia anterioară. Efectuăm o regresie cu MCMMP pe ultima
ecuaŃie, fără să Ńinem cont de relaŃiile dintre coeficienŃi, adică pe ecuaŃia:
57
ttttttt xaxaxaxayay ηρ ++++++= −−− )1(2423)1(121110
unde a0=a(1- ρ) , a1=b, a2=-bρ, a3=c, a4=-cρ şi 1−−= ttt ρεεη
Efectuînd calculele, obŃinem:
)1(22)1(111 11,208,360,068,070,056,47ˆ −−− −+−++= tttttt xxxxyy EstimaŃia
găsită pentru coeficientul ρ este 70,0ˆ =ρ
- cu ajutorul estimaŃiei găsite, transformăm variabilele modelului iniŃial pentru o nouă regresie:
Anul 1ˆ −−= ttt yyz ρ )1(111 ˆ −−= ttt xxu ρ )1(222 ˆ −−= ttt xxu ρ
1985 - - -
1986 30,56 200,04 28,28
1987 33,46 219,41 28,71
1988 44,38 243,11 29,47
1989 46,10 271,33 31,05
1990 33,68 269,70 31,96
1991 46,94 311,09 34,20
1992 54,15 327,55 36,86
1993 38,46 327,55 39,44
1994 61,44 375,72 39,89
1995 76,30 426,72 40,39
1996 88,19 486,83 45,39
1997 60,60 498,28 54,53
1998 40,68 539,77 57,81
1999 109,37 632,04 57,66
2000 133,20 707,96 62,15
2001 139,19 797,95 68,35
2002 140,15 879,18 80,62
ObservaŃie:
Pentru a evita eliminarea primei valori din şirul de observaŃii, prin trecerea la diferenŃe, se pot
folosi transformările: 2
11 ˆ1 ρ−= yz , 2
1111 ˆ1 ρ−= xu , 2
1221 ˆ1 ρ−= xu
- se aplică MCMMP ecuaŃiei:
tttt uauaaz η+++= 22110 , şi rezultă:
58
ttt uuz 21 99,024,019,7ˆ −+=
Coeficientul de corelaŃie multiplă este acum R2=0,88 iar statistica Durbin-Watson 54,1ˆ =d .
Testul de independenŃă conduce acum la concluzia că erorile sunt independente, deoarece:
4-d2=2,47>d =1,54>d2=1,53
4.2. Ipoteza de normalitate a erorilor
Unele proprietăŃi ale estimatorilor nu depind de normalitatea erorilor. De exemplu, distribuŃiile
asimptotice ale estimatorilor necesită doar existenŃa primelor două momente (media şi dispersia) ale
erorilor tε şi nu în mod obligatoriu ca tε să urmeze o lege normală. Acest lucru nu este însă valabil pe
eşantioane mici. Testarea ipotezelor şi intervalele de încredere nu mai au aceleaşi proprietăŃi dacă legea de
distribuŃie a erorilor nu este legea normală. Pentru a caracteriza deviaŃiile de la legea normală se utilizează
doi coeficienŃi:
a) coeficientul de asimetrie, calculat prin raportul:
23
1εσ
µγ =
unde: 3µ este momentul centrat de ordinul 3. Dacă 01 >γ , atunci seria de date este deplasată spre
dreapta faŃă de legea normală, iar dacă 01 <γ , există o deviere spre stânga.
b) coeficientul de aplatizare, calculat prin raportul:
324
2 −=εσ
µγ
O valoare pozitivă pentru 2γ indică faptul că distribuŃia este mai puŃin aplatizată decât distribuŃia
normală, în timp ce o valoare 02 <γ caracterizează o distribuŃie mai aplatizată decât cea normală.
Aceste deviaŃii afectează testele şi intervalele de încredere ale estimatorilor. Studiul teoretic al
acestor deviaŃii este complex. Pentru a obŃine teste şi intervale de încredere mai robuste, în practică se
procedează astfel:
1. Se efectuează o regresie cu metodele uzuale şi se determină o estimaŃie a reziduurilor
tε .
2. Se examinează cele T reziduuri estimate şi se reperează cele a căror valoare absolută
este foarte mare.
59
3. Se elimină din seria de date observaŃiile corespunzatoare acestor erori foarte mari sau
se corectează aceste observaŃii astfel ca să se ajungă la valori cât mai normale ale
erorilor.
4. Se efectuează o nouă regresie pe eşantionul corectat. ProprietăŃile estimatorilor
obŃinuŃi vor depinde de regula adoptată în etapa anterioară. De exemplu, se poate
adopta regula de a respinge sau corecta observaŃiile corespunzătoare reziduurilor a
căror valoare absolută tε este mai mare decât de trei ori media erorilor absolute.
4.3. Ipoteza de heteroscedasticitate
Să presupunem, deci, că deşi tε sunt independente, dispesia erorilor 2
tεσ variază în funcŃie de t.
În acest caz, estimatorii obŃinuŃi sunt încă nedeplasaŃi. Dar, momentele centrate de ordinul doi nemaifiind
constante se comite o eroare de calcul a ecartului-tip al estimatorilor. Se poate evalua deplasarea în
estimaŃia aΩ . Această deplasare depinde de natura şi importanŃa heteroscedasticităŃii, adică de şirul de
valori ( )txt,2
εσ . Deplasarea este nulă dacă sunt realizate relaŃiile următoare:
(1) ( ) 01 22 =−∑ xxT t
ttεσ ;
(2) ( ) ( )
−
=− ∑∑∑2222 11
tt
tt
t
xxT
xxT tt εε σσ .
Aceste relaŃiile sunt realizate atunci când nu există nicio legătură sistematică între 2
tεσ şi tx .
Homoscedasticitatea erorilor se admite în seriile cronologice atunci când ordinul de mărime al
variabilelor este apropiat pentru diverse observaŃii. Dar, în studiul datelor micro-economice, variabilele pot
avea ordine de mărime foarte diferite. Acest fapt conduce la erori de estimare importante pentru coeficienŃii
unui model econometric.
Dacă putem evalua varianŃa erorilor 2
tεσ atunci, în loc să determinăm parametrii din condiŃia ca
suma pătratelor erorilor să fie minimă, aceştia pot fi determinaŃi din condiŃia ca ∑t
t
t
2
2
εσε
să fie minimă.
Pentru modelul elementar ttt baxy ε++= , estimatorii a şi b vor fi cei care minimizează
expresia ( )∑ −−
ttt baxy
t
2
2
1
εσ.
60
În cazul în care 2
tεσ (dispersiile reziduurilor) variază proporŃional cu valorile variabilei exogene,
se poate pune condiŃia ca ( ) 2
2
2
∑∑
−−=−−
t tt
t
t t
tt
x
ba
x
y
x
baxy să fie minimă.
4.3.1. ExperienŃă de calcul
Ne propunem să studiem legatura dintre volumul investiŃiilor şi suprafaŃa cultivată. Pe un eşantion
de 30 de întreprinderi agricole s-au obŃinut următoarele date:
SuprafaŃa (ha) Cheltuielile de investiŃii (RON)
100 75,6 75,6 77,4 78,3 80,1 81
200 80,1 81,9 83,7 83,7 84,6 84,6
300 85,5 88,2 89,1 92,7 92,7 94,5
400 92,7 95,4 98,1 101,7 103,5 105,3
500 104,4 106,2 108,9 112,5 117,9 117,9
Aplicând MCMMP pe întregul eşantion cu modelul elementar ttt baxy ε++= , obŃinem:
965,6708145,0ˆ += tt xy şi 9,02 =R .
Dorim să testăm ipoteza de homoscedasticitate a erorilor. În acest scop efectuăm două regresii
separate, una pe primele 12 observaŃii, alta pe ultimele 12 (valorile lui X fiind ordonate crescător).
Fie SPE1 şi SPE2 suma pătratelor erorilor relative la cele două regresii.
Regresia lui Y în raport cu X pentru primele 12 observaŃii, conduce la:
( ) 6,72054,0ˆ 1 += tt xy şi 66,02 =R ; 14,491 =SPE ,
iar regresia pe ultimele 12 observaŃii dă:
( ) 45,541125,0ˆ 2 += tt xy şi 60,02 =R ; 695,2502 =SPE .
În cazul în care erorile ar fi distribuite normal şi homoscedastice, variabilele aleatoare 2
1
σSPE
,
respectiv 2
2
σSPE
ar trebui să urmeze fiecare o distribuŃie hi-pătrat cu (T-d-k-p) grade de libertate, unde T
este numărul de observaŃii, d este numărul de observaŃii omise (în cazul nostru d=6), k este numărul de
observaŃii luat în fiecare regresie separată, iar p este numărul parametrilor de estimat. În exemplul nostru T-
d-k-p=10. În aceste condiŃii, variabila aleatoare
1
2
10
110
1
SPE
SPE are o distribuŃie Fisher cu 10 şi respectiv 10
61
grade de libertate (F10,10). Cu datele calculate, obŃinem 01,5114,49
695,250
1
2 ==SPE
SPE. Din tabelele
distribuŃiei Fischer-Snedecor, la pragul de semnificaŃie α=0,05 gasim Ftab=2,97. Deoarece
Fcalc=51,01>Ftab=2,97 se admite ipoteza de heteroscedasticitate a erorilor.
Dacă presupunem acum că varianŃa erorilor 2
tεσ este proporŃională cu pătratul valorilor
variabilei exogene, adică 22tx
tλσ ε = , λ fiind o constantă nenulă, atunci efectele heteroscedasticităŃii pot fi
corectate prin transformarea modelului. ÎmpărŃind fiecare termen al ecuaŃiei de regresie prin xt, rezultă:
t
t
tt
t
xx
ba
x
y ε++=
sau ttt buaz η++= , unde: t
tt x
yz = ,
tt x
u1= şi
t
tt x
εη = .
Se observă că ( ) λσεη ε ==
= 2
2
1t
tt
tt xx
VarVar .
Prin urmare, modelul transformat are erorile tη homoscedastice, deoarece dispersia lor este
independentă de timp. Efectuând regresia pe modelul transformat, rezultă:
−=
−
−=∑∑
ubza
uTu
uzTuzb
t
tt
ˆˆ
ˆ22
Revenind în variabilele iniŃiale obŃinem:
−=
−
⋅−⋅=
∑ ∑
∑ ∑
∑ ∑ ∑
t t tt
t
t tt
t t tt
t
tt
t
xTb
x
y
Ta
xTx
xx
y
Txx
y
b
11ˆ1ˆ
111
111
ˆ22
Efectuând calculele, rezultă:
44,70ˆ =b ; 072,0ˆ =a ; 99,02 =R , adică:
tt
t
xx
y 44,70072,0
ˆ+= sau 44,70072,0ˆ += tt xy .
62
Să remarcăm faptul că panta dreptei de regresie (după corectarea heteroscedasticităŃii) este mai
mică decât cea obŃinută înaintea corectării.
4.4. Ipoteza de independenŃă a erorilor în raport cu varibilele exogene
Se ştie că sub această ipoteză fundamentală estimatorii obŃinuŃi au proprietăŃi optimale
(nedeplasaŃi, cu varianŃă minimală). Când ipoteza nu mai este satisfăcută aceste proprietăŃi nu mai sunt
valabile. Cu cât coeficientul de corelaŃie liniară ( ρ ) dintre tε şi tx este mai mare, cu atât deplasarea
estimatorilor va fi mai mare. În astfel de cazuri este de preferat să se aleagă un alt model econometric
pentru studierea legăturii dintre variabile.
La fel trebuie procedat şi atunci când se constată că varianŃa erorilor nu este finită.
4.5. Ipoteza referitoare la faptul că variabilele modelului sunt observate fără eroare
Atunci când variabilele care apar în model nu sunt variabile observate fără eroare, va exista o
corelaŃie între reziduuri şi exogenele din model.
În acest caz, pentru a obŃine estimatori convergenŃi, s-a dezvoltat o metodă de estimare specială,
numită „metoda variabilelor instrumentale” , pe care o prezentăm mai jos.
Fie modelul liniar general:
tptpttt xaxaxay ε++++= ...2211 , t=1, 2, ...,T,
care, cu notaŃiile obişnuite, se scrie în forma matricială Y=Xa+ε. Notăm cu Y~
şi X~
valorile reale
(necunoscute acum pentru că observaŃiile Y şi X conŃin erori!) ale variabilelor din model.
Putem scrie că µ+= YY~
, γ+= XX~
, unde µ şi γ sunt variabile aleatoare. Vom presupune că
µ şi γ satisface ipotezele fundamentale (medie zero, varianŃă finită, independente).
Înlocuind X şi Y prin expresiile lor, obŃinem modelul η+= aXY~~
, unde
µεγη −+= a . Aceasta arată că în modelul iniŃial, Y=Xa+ε , reziduurile ε sunt corelate cu X prin
intermediul lui γ.
Presupunem acum că se cunosc alte p variabile exogene Zi, i=1,2,...,p necorelate cu µ, γ şi η, deci
necorelate cu ε.
Acest lucru înseamnă că ( ) 0=⋅εiZE , i=1,2,...,p. Considerăm modelul iniŃial Y=Xa+ε scris
sub forma:
(1) ε++++= pp XaXaXaY ...2211 ,
63
unde
=
Tx
x
X
1
11
1
.
.
.
,
=
Tx
x
X
2
21
2
.
.
.
,...,
=
pT
p
p
x
x
X
.
.
.1
ÎnmulŃim, succesiv, ecuaŃia (1) cu Z1, Z2, ...Zp şi aplicăm operatorul de medie E fiecărei ecuaŃii. Se
obŃine sistemul:
(2)
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
++=⋅
++=⋅
++=⋅
ppppp
pp
pp
XZEaXZEaYZE
XZEaXZEaYZE
XZEaXZEaYZE
...
....
...
...
11
21212
11111
Metoda de estimare VI (variabilelor instrumentale) constă în a lua ca estimatori ( )paa ˆ,...,ˆ1 exact
soluŃiile sistemului de ecuaŃii (2), în care speranŃele matematice sunt înlocuite cu momentele empirice
corespunzătoare:
( ) ∑ ⋅=⋅t
titi yzT
YZE1
, i=1,2,...,p
( ) ∑ ⋅=⋅t
jtitji xzT
XZE1
, i,j=1,2,...,p
Dacă notăm:
=
pTT
p
zz
zz
Z
...
.........
...
1
111
şi
=
pTT
p
xx
xx
X
...
.........
...
1
111
sistemul (2) transformat se scrie sub formă
matricială: ( )aXZYZ ˆ'' = , iar pentru că ( )YZ ' este inversabilă, obŃinem estimatorul:
( ) YZXZa ⋅⋅= − ''ˆ 1.
Să observăm similitudinea cu estimatorii obŃinuŃi prin MCMMP:
1. MCMMP obişnuită: ( ) YXXXa ⋅⋅= − ''ˆ 1
2. MCMMP generalizată: ( ) ( ) YXXXa ⋅Ω⋅Ω= −−− 111 ''ˆ εε
3. metoda VI: ( ) YZXZa ⋅⋅= − ''ˆ 1.
Se trece de la 1. la 2. înlocuind 'X prin 1' −ΩεX .
Se trece de la 1. la 3. înlocuind 'X prin 'Z .
Cunoaşterea primei formule permite exprimarea celorlalte două.
64
Estimatorul a obŃinut prin metoda VI este un estimator deplasat pentru a, dar converge în
probabilitate către a pentru T suficient de mare.
Pentru a putea utiliza metoda VI trebuie găsite atâtea variabile instrumentale câte exogene conŃine
modelul. Aceste variabile instrumentale trebuie să fie necorelate cu reziduurile, dar puternic corelate cu
exogenele modelului. Aceste restricŃii limitează alegerea variabilelor instrumentale şi, prin urmare, metoda
VI nu este o metodă generală de estimare.
4.5.1. ExperienŃă de calcul
Considerăm o anchetă pe bugetele de familie pentru a studia consumul dintr-un anumit produs.
Ancheta cuprinde un eşantion de T familii. Facem următoarele notaŃii:
y1t: cheltuielile totale ale familiei t;
y2t: cheltuielile relative la produsul studiat;
Vt: veniturile familiei t;
şi scriem ecuaŃiile:
(1) ttt Vy 11 ε+=
(2) ttt baVy 22 ε++=
Ne propunem să exprimăm cheltuielile relative la produsul studiat în funcŃie de cheltuielile totale.
Din ecuaŃia (1) avem că ttt yV 11 ε−= şi înlocuind în (2), rezultă:
tttt abayy 1212 εε −++=
sau, punând ttt a 12 εεη −= :
(3) ttt bayy η++= 12 .
Să observăm că tη este corelat cu y1t prin intermediul lui ε1t.
Vom estima a şi b din ecuaŃia (3) introducând o variabilă instrumentală.
Fie VDt venitul declarat de familia t. Este evidentă corelaŃia puternică dintre variabilele VDt şi Vt.
Dimpotrivă, venitul declarat VDt nu este corelat cu ttt Vy −= 11ε , care este ecartul între
cheltuielile totale şi veniturile familiei t. Rezultă că VDt nu va fi corelat cu tη . Utilizăm venitul declarat ca
variabilă instrumentală.
Pentru simplificarea calculelor, centrăm variabilele din model:
ttt bayy η++= 12 , t=1,2,...,T
65
∑∑∑ ++=t
tt
tt
t Tby
Tay
Tη111
12
η++= byay 12
(4) ( ) ( )ηη −+−=− ttt yyayy 1122
Dacă aplicăm MCMMP ecuaŃiei (4), obŃinem estimatorul:
(5).
( )( )( )211
2211
ˆ∑
∑
−
−−=
tt
tt
t
yy
yyyya
Folosim însă metoda variabilelor instrumentale. Pentru aceasta, considerăm variabila
instrumentală centrată ( )VDVDt − . ÎnmulŃind ecuaŃia (4) cu variabila instrumentală centrată şi aplicând
operatorul de medie E, rezultă:
( )( )[ ] ( )( )[ ] ( )( )[ ]VDVDEVDVDyyaEVDVDyyE tttttt −−+−−=−− ηη1122 .
Dar, cum tη şi VDt nu sunt corelate, înseamnă că ( )( )[ ] 0=−− VDVDE tt ηη , iar acum
înlocuind E cu media empirică, obŃinem:
( )( )[ ] ( )( )[ ]VDVDyyaEVDVDyyE tttt −−=−− 1122
( )( ) ( )( )1122
11yyVDVD
TayyVDVD
T tt
tt
tt −−=−− ∑∑ ,
de unde:
( )( )( )( )11
22
ˆyyVDVD
yyVDVDa
tt
t
ttt
−−
−−=∑
∑.
Am obŃinut practic estimatorul (5) în care variabila ( )11 yy t − s-a înlocuit cu variabila
instrumentală ( )VDVDt − atât la numărător, cât şi la numitor.
66
BIBLIOGRAFIE
1. Andrei, T. Statistică şi econometrie, Editura Economică, Bucureşti, 2004
2. Cenuşă, Ghe. (coord.) Matematici pentru economişti, Editura CISON, Bucureşti, 2000
3. Chow, G. Econometrics, McGraw Hill, New York, 1989
4. Dobrescu, E. TranziŃia în România-Abordări econometrice, Editura Economică,
Bucureşti, 2002
5. GheroghiŃă, M. Modelarea şi simularea proceselor economice, Editura ASE,
Bucureşti, 2001
6. Giraud, R. - Econometrie, Economica, 49 rue Hericart, Paris, 1990
7. Gourieroux, C. Statistique et Modeles Econometriques,
Monfort, A. Economica, Paris, 1989
8. Gujarati, R.N. Essentials of Econometrics, McGraw Hill, New York, 1998
9. Isaic-Maniu, Al. Statistica pentru managementul
Mitru Ń, C. afacerilor, Editura Economică, 1995
Voineagu, V.
10. Malinvaud, E. Methodes statistiques de l’econometrie, Dunod, Paris, 1978
11. Onicescu, O. Incertitudine şi modelare economică
Botez, M. (Econometrie informaŃională), Editura Ştiin Ńifică şi Enciclopedică,
Bucureşti, 1985
12. Pecican, E.S. Econometria pentru ... economişti; Econometrie-teorie şi aplicaŃii,
Editura Economică, Bucureşti, 2003
13. Pecican, E.S. Econometrie, Editura All, Bucureşti, 1994
14. Taşnadi, Al. Econometrie, Editura A.S.E., 2001
15. Taşnadi, Al. Econometrie – proiect, Editura A.S.E.,
CreŃu, A. 2003
Peptan, E.
16. Tănăsoiu, O. Modele econometrice, Editura A.S.E.,
Pecican, E.S. 2001
Iacob, A.
17. Tănăsoiu, O. Econometrie-studii de caz, Editura A.S.E., 1998
18. Tănăsoiu, O. Econometrie aplicată, Editura Arteticart,
Iacob, A. Bucureşti, 1999
19. www.asecib.ase.ro/soft.htm