Curs Econometrie - ASE

1

ACADEMIA DE STUDII ECONOMICE FACULTATEA DE ECONOMIE AGROALIMENTAR Ă ŞI A

MEDIULUI

Prof. univ. dr. MIRCEA GHEORGHI łĂ

Conf. univ.dr. SIMONA ROXANA P ĂTĂRLĂGEANU

ECONOMETRIE

BUCUREŞTI -2011-

2

CUPRINS

Introducere 3 Capitolul I: Modele econometrice 4

1.1. GeneralităŃi 4 1.2. Model aleator 4 1.3. Natura variabilelor care apar în model 4 1.4. InducŃia statistică 5 1.5. Identificarea modelului 5 1.6. Previziunea variabilei endogene 5 1.7. Vocabular uzual 6

Capitolul II: Regresia simplă 10 2.1. Modelul liniar al regresiei simple 10 2.2. Determinarea estimatorilor parametrilor prin metoda celor mai mici pătrate 11 2.3. ProprietăŃile estimatorilor 12 2.3.1. CovarianŃa estimatorilor 15 2.3.2. Determinarea unui estimator nedeplasat pentru varianŃa erorilor 16 2.3.3. Interpretarea geometrică a metodei celor mai mici pătrate 18 2.3.4. Coeficientul de corelaŃie liniară 21 2.3.5. DistribuŃia de probabilitate a estimatorilor 22 2.4. Teste şi intervale de încredere 24 2.5. Previziunea cu modelul liniar 25 2.6. ExperienŃă de calcul 29 Capitolul III: Regresia multipl ă 34 3.1. Modelul liniar al regresiei multiple 34 3.2. Determinarea estimatorilor parametrilor 35 3.3. ProprietăŃile estimatorilor 36 3.4. Determinarea unui estimator nedeplasat pentru varianŃa reziduurilor 38 3.5. Teste şi regiuni de încredere 39 3.6. Previziunea variabilei endogene 41 3.7. Coeficientul de corelaŃie multiplă. Analiza varianŃei 42 3.8. ExperienŃă de calcul 45 Capitolul IV: Studiul modelului liniar când ipotezele clasice asupra erorilor nu mai sunt realizate

49

4.1. Ipoteza de independenŃă a erorilor 49 4.1.1. Testarea ipotezei de independenŃă a erorilor 52 4.1.2. ExperienŃă de calcul 55 4.2. Ipoteza de normalitate a erorilor 59 4.3. Ipoteza de heteroscedasticitate 60 4.3.1. ExperienŃă de calcul 61 4.4. Ipoteza de independenŃă a erorilor în raport cu variabilele exogene 63 4.5. Ipoteza referitoare la faptul că variabilele sunt observate fără eroare 63 4.5.1. ExperienŃă de calcul 65 Bibliografie 68

3

INTRODUCERE

Dezvoltarea aparatului statistic furnizează economiştilor tot mai multe date cifrice despre procesele şi fenomenele care au loc în timp şi spaŃiu. Econometria este un mijloc de a exploata aceste date. NoŃiunea de econometrie provine din termenii oikonomie (economie) şi metron (măsurare) şi desemnează totalitatea metodelor şi tehnicilor de măsurare a fenomenelor şi proceselor care au loc în domeniul economic. Primele lucrări econometrice au avut ca obiect funcŃiile consumului, care leagă nivelul consumului de venitul disponibil (aceste funcŃii stau la baza teoriei keynesiene). În decursul timpului, numeroşi autori au încercat definirea econometriei. Lucrarea „ECONOMETRIA PENTRU...ECONOMIŞTI”, a profesorului Eugen Ştefan Pecican, apărută la Editura Econmică în 2003, conŃine multe referiri în acest sens, din care am selectat câteva.

Autori ReferinŃa R. Frisch Econometria realizează îmbinarea punctelor de vedere care se referă la teoria economică, statistică şi

matematică cu privire la natura relaŃiilor cantitative din economie P.A. Samuelson, T.C. Koopmans, J.R.N. Stone

Econometria reprezintă o analiză de natură cantitativă a fenomenelor economice, bazată pe dezvoltarea recentă a teoriei culegerii şi interpretării datelor, în conexiune cu metodele de inferenŃă (inducŃie) statistică adecvate

Fr. Perroux Econometria este o economie de intenŃie ştiinŃifică G.C. Chow Econometria este un domeniu în care se îmbină arta şi ştiinŃa de a utiliza metodele statistice în

vederea măsurării relaŃiilor economice W. Griffits, H. Carter, G. Judge

Econometria este ansamblul metodelor de realizare a analizei datelor economice

Autorul lucrării citate mai sus este de părerea că obiectul econometriei constă în cunoaşterea mecanismelor de

desfăşurare a proceselor economice descrise de serii de date statistice, prin utilizarea metodelor cantitative de natură statistică sau matematică.

DefiniŃiile date econometriei pun în evidenŃă două elemente: domeniul de studiu (economia, relaŃiile dintre variabilele economice) şi metodele utilizate (provenite din statistică şi matematică). Econometria se orientează spre construirea de modele econometrice care să reprezinte simplificat procesele sau fenomenele economice analizate şi să permită simulări ale acestora, în scopul înŃelegerii lor, pe de o parte, dar şi să servească la realizarea de previziuni, prognoze care să fundamenteze politicile economice, pe de altă parte.

4

CAPITOLUL I

MODELE ECONOMETRICE

1.1. GeneralităŃi

Modelarea economică reprezintă un proces de cunoaştere mijlocită a realităŃii cu ajutorul unui instrument cu caracteristici speciale: modelul. Sistemul real supus studiului este înlocuit prin modelul său, care este o reprezentare simplificată a obiectului cercetat.

Modelul econometric este, de regulă, o mulŃime de relaŃii numerice care permite reprezentarea simplificată a procesului economic supus studiului (uneori chiar a întregii economii). Modelele actuale comportă adesea mai mult de zece relaŃii (ecuaŃii). Validitatea unui model este testată prin confruntarea rezultatelor obŃinute cu observaŃiile statistice. Pentru a studia un fenomen economic se încearcă reprezentarea lui prin comportamentul unei variabile. Această variabilă economică depinde, la rîndul său de alte variabile de care este legată prin relaŃii matematice.

De exemplu, dacă se studiază cererea (C) şi oferta (O) dintr-un anumit bun pe o piaŃă, se ştie că cererea şi oferta depind de preŃul (p) bunului respectiv. Putem scrie că variabilele C şi O sunt funcŃii de variabila p şi că la echilibrul pieŃei, trebuie ca cererea să fie egală cu oferta. Se construieşte astfel un model elementar de forma:

[1]

===

OC

pgO

pfC

)(

)(

Oferta şi cererea dintr-un anumit bun depind şi de alte variabile decât preŃul. Astfel, cererea dintr-un bun alimentar depinde şi de venitul disponibil, de preŃul unor produse analoage etc. La fel, dacă este vorba despre un bun agricol (grâu,...) oferta depinde de preŃul anului precedent. RelaŃia stabilită între variabile în modelul econometric este dată, de regulă, la un anumit moment de timp t, caz în care variabilele apar indiciate:

[2]

===

−

tt

rttttt

nttttt

OC

xxxpgO

xxxpfC

),...,,,(

),...,,,(

211

21

În modelul [2] s-au introdus mai multe variabile care explică cererea şi oferta dintr-un bun şi s-a considerat realizarea acestor variabile la momentul t sau t-1. Se observă că modelul comportă mai multe relaŃii. Se zice că avem un model cu ecuaŃii multiple. Evident, se va începe studiul cu un model mai simplu, cu o unică ecuaŃie.

1.2. Model aleator

Să presupunem că se studiază consumul (Ci) dintr-un anumit bun de către o familie (i). Între alte variabile,

consumul depinde de venitul disponibil al familiei (Vi). Modelul econometric elementar constă în a exprima Ci în funcŃie de Vi. Desigur, alŃi factori – dintre care unii sunt necunoscuŃi – determină de asemenea consumul familiei. Condensăm efectele acestor alŃi factori într-unul singur, aleator, notat εi. Se obŃine astfel un model aleator:

[3] iii VfC ε+= )(

Factorul aleator εi este o variabilă aleatoare care urmează o anumită lege de probabilitate, ce va trebui să fie specificată prin ipotezele făcute asupra modelului. Cel mai frecvent, ipotezele se referă doar la momentele de ordinul I şi II ale variabilei aleatoare εi. Urmează să ne asigurăm că funcŃia f (sau clasa de funcŃii) aleasă nu contrazice rezultatele experienŃei. De exemplu, dacă s-a ales f ca o funcŃie liniară (adică f(Vi) = aVi+b), modelul econometric este:

[4] iii baVC ε++= şi variind pe i pentru diferitele familii studiate, ne vom asigura că relaŃia [4] este bine satisfăcută. Se spune că „testăm” modelul. Dacă rezultatul obŃinut este convenabil, se va trece la „estimarea” parametrilor a şi b. Apoi, definind o „regulă de previziune” se va putea determina consumul Ci dacă se cunoaşte venitul Vi.

1.3. Natura variabilelor care apar în model

Într-un model econometric se disting două tipuri de variabile: -exogene. Sunt variabilele explicative ale variabilei studiate şi se consideră ca fiind date autonom. În modelul [4] Vi este variabila exogenă (sau explicativă, independentă). Venitul familiei Vi explică în acest model consumul familiei Ci. Valoarea variabilei exogene –pentru un i dat şi pentru εi precizat- permite determinarea consumului Ci. -endogene. Sunt variabilele de explicat (sau dependente). Ci este variabila endogenă în modelul precedent. Se poate remarca faptul că Ci este acum o variabilă aleatoare datorită lui εi.

5

DistincŃia între natura variabilelor este foarte importantă şi va trebui precizată întotdeauna înainte de a studia modelul. Când modelul econometric a căpătat formularea matematică definitivă se spune că modelul a fost „specificat”. Modelul [4] de mai sus este specificat. Se cunoaşte forma funcŃiei f din expresia Ci = f(Vi) + εi , adică f(Vi) = aVi+b. Adăugarea variabilei exogene εi dă modelului formularea definitivă [4].

MulŃimea parametrilor care definesc complet modelul econometric constituie „structura” acestuia. De exemplu, dacă a = 0,7 şi b = 23 iar ε urmează o lege de probabilitate normală de medie (speranŃă matematică) egală cu zero şi dispersie (varianŃă) egală cu 5, atunci mulŃimea

a = 0,7; b= 23; σ = 5 constituie structura modelului [4]. Scopul va fi acela ca, plecând de la cuplurile (Ci,Vi) asociate diferitelor familii i, să se determine structura adevărată a modelului. Cu alte cuvinte, plecând de la un spaŃiu eşantion definit de mulŃimea cuplurilor (Ci,Vi) să se determine structura adevărată a modelului în spaŃiul cu trei dimensiuni al structurilor

a , b, σ . Aici intervine „inducŃia”statistică.

1.4. InducŃia statistică Obiectul inducŃiei statistice este de a determina o procedură care, pornind doar de la observaŃiile statistice de

care dispunem, să permită trecerea de la spaŃiul eşantion la spaŃiul structurilor. Odată ce modelul a fost ales, se admite că există un triplet (a, b, σ ) care permite reprezentarea exactă a procesului prin care valorile variabilelor observate au fost determinate. În cursul inducŃiei statistice modelul nu se mai modifică. Procedura aleasă – aşa cum se va vedea în continuare – va consta în obŃinerea de estimatori pentru parametrii a şi b care să permită determinarea celor mai bune valori reale ale acestor parametri. Aceste valori se vor aprecia, în general, cu ajutorul unor „intervale de încredere” construite la un prag de semnificaŃie (α) dat. De exemplu, în modelul [4] se va găsi că a∈[0,64;0,78] şi b∈[20;27] cu o probabilitate de 95% (s-a considerat α=5%). Se poate estima şi abaterea medie pătratică (σ) a variabilei aleatoare εi. Se va vedea rolul important jucat de această variabilă aleatoare în modelul econometric.

1.5. Identificarea modelului

Considerăm din nou modelul Ci=aVi+b+ εi. Să presupunem că procedura utilizată, pornind de la informaŃia deŃinută, adică de la cuplurile (Ci,Vi), i=1,2,... nu conduce la o soluŃie unică, ci la două structuri distincte: s0=a0,b0,σ0 , s1 =a1,b1,σ1. Deorece legea de probabilitate pentru ε precizează şi legea de probabilitate pentru C, fiecare structură (Ńinând cont de valorile exogenelor şi de legea lui ε) conduce la o lege de probabilitate pentru C. Presupunem că structurile s0 şi s1 conduc la aceeaşi lege de probabilitate pentru consumul C. Sunt posibile două cazuri:

- s0 şi s1 sunt distincte şi nu putem alege între ele. Se spune că structurile considerate nu sunt „identificabile” şi, ca urmare, modelul nu este identificabil. Din această cauză nu vom putea determina valorile parametrilor care figurează în model;

- s0 şi s1 nu sunt distincte, intersecŃia lor nu este vidă. Acestea vor permite identificarea unei părŃi a parametrilor modelului (cei care aparŃin intersecŃiei). Se spune că cele două structuri sunt echivalente, dar nu permit o identificare completă a modelului.

Problema identificării este importantă mai ales în cazul modelelor cu ecuaŃii multiple.

1.6. Previziunea variabilei endogene

Interesul unui model a cărui structură a fost determinată constă în a-l utiliza pentru previzionarea variabilelor endogene – într-o etapă viitoare sau într-o circumstanŃă dată, dacă este vorba despre observaŃii luate la acelaşi moment-, atunci când cele exogene au fost fixate. De exemplu, dacă dorim să studiem evoluŃia importurilor (Y) în funcŃie de produsul intern brut (X1) şi de nivelul stocurilor (X2), modelul econometric este:

yt=a1x1t+a2x2t+b+εt, t=1,2,...,T unde t este timpul. Datele istorice (pe perioada 1990-2005) despre Y, X1 şi X2 (observaŃiile fiind anuale)

permit determinarea parametrilor modelului. Să presupunem că am găsit estimaŃiile punctuale:

==

=

6ˆ6,0ˆ

14,0ˆ

2

1

b

a

a

Modelul „estimat” este: 66,014,0ˆ 21 ++= ttt xxy . Dacă dorim să facem o previziune a importurilor pentru anul

2007, trebuie să ştim PIB-ul şi nivelul stocurilor în anul 2007. Presupunînd că aceste variabile exogene sunt x1=1030 şi x2=12,7 vom avea ca previziune pentru y: y2007=(0,14).1030+(0,6).(12,7)+6

6

sau, în general, bxaxayp ˆˆˆ 2211 ++= θθθ , unde θ este perioada de previziune.

ObservaŃie. Asupra valorii previzionate trebuie să remarcăm: - valorile exogenelor x1θ, x2θ au fost alese arbitrar, eventual Ńinînd cont de evoluŃia lor trecută; - specificarea modelului nu poate fi perfectă, forma funcŃiei alese pentru a explica evoluŃia lui y neputînd fi

suficient de precisă; - este posibil ca variabilele explicative (exogene) ale variabilei endogene (explicate), să nu mai intervină în

acelaşi mod ca în perioada 1990-2005, cînd s-a studiat legatura dintre ele. Este posibil să aibă loc un şoc, o ruptură care să perturbe echilibrul dintre variabilele care explică fenomenul, la momentul previziunii.

Este evident că toate aceste cauze pot constitui surse de eroare a previziunii. Vom vedea care sunt metodele de a minimiza eroarea de previziune.

Rezumatul capitolului I Pentru construcŃia şi utilizarea unui model econometric, se parcurg următoarele etape: - specificarea modelului (găsirea formulării matematice definitive a legăturii dintre variabilele care descriu

fenomenul sau procesul economic studiat); - estimarea parametrilor şi testarea modelului cu ajutorul statisticilor (seriilor de date observate) deja

cunoscute; - previziunea variabilei endogene.

1.7. Vocabular uzual Dacă sunteŃi familiarizaŃi cu statistica matematică, puteŃi trece la capitolul II. În caz contrar, vă reamintim aici

cîteva noŃiuni de bază. Lectura acestui paragraf credem că vă va incita să revedeŃi cursul de Statistică matematică.

Nor de puncte – Fiind dată o serie de date statistice în care valorile (xi,yj) apar efectiv de nij ori putem reprezenta într-un plan toate aceste valori prin puncte de coordonate (xi,yj) afectate de coeficienŃii nij , obŃinându-se astfel un nor de puncte.

Ajustare – Reprezentarea grafică a seriilor de date economice conduce frecvent la figuri puŃin lizibile şi greu de interpretat din cauza variaŃiilor pe termen scurt, numeroase şi sensibile, dar fără o semnificaŃie importantă. Metodele matematice numite „de ajustare” permit obŃinerea unei curbe simple, cât mai apropiată posibil de mulŃimea de puncte furnizate de observaŃiile empirice disponibile.

Ajustare liniar ă – Atunci când reprezentarea grafică a unei serii statistice duble dă un nor de puncte de formă alungită, se încearcă obŃinerea unei aproximări bune a acestei serii cu ajutorul unei drepte, realizându-se astfel o ajustare liniară. Există mai multe metode pentru găsirea acestei drepte:

- metoda grafică (se determină punctul mediu M ale cărui coordonate sunt ( )yx, şi se trasează dreapta care

pare a fi cea mai reprezentativă a seriei, determinând ecuaŃia Y=aX+b. Această metodă este ambiguă pentru că nu Ńine cont de ponderea fiecărui punct în norul de puncte);

- metoda lui Mayer (se regrupează punctele norului în două submulŃimi cărora li se determină punctele medii M1 şi M2. Dreapta de ajustare este atunci dreapta care trece prin M1 şi M2);

- metoda celor mai mici pătrate (constă în a face minimă suma pătratelor distanŃelor de la punctele norului la o dreaptă de ecuaŃie Y=aX+b numită dreaptă de regresie a lui Y în X. Se arată că panta (coeficientul director) acestei drepte este a=cov(X,Y)/Var(X). Coeficientul b se obŃine scriind că dreapta de regresie trece prin punctul mediu:

XaYb −= . Procedând la fel se găseşte dreapta de regresie de ecuaŃie X=a′Y+b′ , cu a′=cov(X,Y)/Var(Y) şi

YaXb ′−=′ . Cele două drepte de regresie sunt, în general, distincte. Compararea lor permite măsurarea nivelului de corelaŃie al caracteristicilor X şi Y. CorelaŃia se măsoară cu coeficientul de corelaŃie ρ=cov(X,Y)/σ(X)σ(Y). Se constată că ρ2=aa′ şi că ρ variază între –1 şi 1. ρ2 măsoară unghiul dintre cele două drepte de regresie, care coincid dacă

ρ2=1, adică 1=ρ . Caracteristicile X şi Y sunt corelate maximal când ρ este apropiat de 1).

În afara faptului de a da o reprezentare mai mult sau mai puŃin satisfăcătoare legăturii dintre X şi Y, importanŃa ajustării liniare este de a permite previziuni statistice, asociind lui X o valoare probabilă a lui Y prin relaŃia Y=aX+b.

Probabilitate – Fiind dată o mulŃime finită Ω, numim probabilitate pe Ω orice aplicaŃie p a lui P(Ω) – mulŃimea părŃilor lui Ω - în intervalul [0,1] care verifică trei condiŃii:

- p(A)≥0, pentru ∀ A∈ P(Ω) - p(Ω)=1 - p(A∪B)= p(A)+ p(B), dacă A,B∈ P(Ω), A∩B=Φ Ω se numeşte univers (sau univers de probabilităŃi). Ω înzestrat cu probabilitatea p se numeşte spaŃiu

probabilizat. Orice parte a lui Ω este un eveniment. Un singleton (mulŃime ce conŃine un singur element) al lui Ω se

7

numeşte eveniment elementar sau eventualitate. Ω este evenimentul cert. Φ este evenimentul imposibil. A este evenimentul complementar lui A în Ω (se numeşte eveniment contrar lui A). Dacă A∩B=Φ, evenimentele A şi B sunt incompatibile. Variabil ă aleatoare – Dacă Ω este un univers finit, numim „variabilă aleatoare” orice aplicaŃie X: Ω →R ( a lui Ω în mulŃimea numerelor reale). MulŃimea valorilor lui X, adică X(Ω) se numeşte universul imagine. AtenŃie!- o variabilă aleatoare nu este o variabilă, ci o aplicaŃie! Se observă că nu este necesar să cunoaştem o probabilitate pe Ω pentru a defini o variabilă aleatoare pe Ω.

Legea de probabilitate a unei variabile aleatoare – Dacă universul finit Ω este înzestrat cu o probabilitate p, iar X este o variabilă aleatoare definită pe Ω, numim lege de probabilitate a variabilei aleatoare X, aplicaŃia px: X(Ω)→[0,1] care asociază oricărui x∈X(Ω) probabilitatea evenimentului „mulŃimea antecedentelor lui x prin X”. Această mulŃime X-1(x) este notată (X=x). Legea de probabilitate a lui X, notată px este definită prin px: X(Ω)→[0,1], x →p(X=x). A studia o variabilă aleatoare înseamnă a-i descoperi legea sa de probabilitate.

FuncŃie de repartiŃie – Dacă universul finit Ω este înzestrat cu o probabilitate p, iar X este o variabilă aleatoare definită pe Ω, se asociază acestei variabile aleatoare funcŃia F:R→[0,1] definită prin F(x)=p(X<x) numită

funcŃie de repartiŃie a variabilei aleatoare X. Evenimentul (X<x) este imaginea intervalului ( )x,∞− prin funcŃia X.

FuncŃia de repartiŃie este o funcŃie în scară. SperanŃa matematică – Dacă X este o variabilă aleatoare definită pe universul finit Ω, înzestrat cu

probabilitatea p, universul imagine este o mulŃime finită şi ia valorile xi, i=1,2,...,n. Legea de probabilitate a lui X asociază fiecărui xi probabilitatea pi=p(X=xi). Se numeşte speranŃă matematică a variabilei aleatoare X, numărul real

∑=

=n

iii xpXE

1

)( . E(X) este media în probabilitate a valorilor luate de variabila aleatoare X. E(.) este un operator

liniar . Varian Ńa – Dacă X este o variabilă aleatoare definită pe universul finit Ω, înzestrat cu probabilitatea p,

universul imagine este o mulŃime finită şi ia valorile xi, i=1,2,...,n. Legea de probabilitate a lui X asociază fiecărui xi probabilitatea pi=p(X=xi). Se numeşte varianŃă a variabilei aleatoare X, numărul real pozitiv

∑=

−=n

iii XExpXVar

1

2))(()( . VarianŃa este media în probabilitate a pătratului distanŃelor de la xi la media lor.

Rădăcina pătrată (radicalul) lui Var(X) este ecartul-tip al variabilei aleatoare X, notat σx.

Momente condiŃionate – Se consideră vectorul aleator ( ) 2:, RYX →Ω , cu repartiŃia

ijji pyYxXP === ),( , ,0>ijp ∑∑ =i j

ijp 1 şi variabila aleatoare condiŃionată (X/Y=yj) cu repartiŃía

∑====i

ijjj

ijji pp

p

pyYxXP .

.

,)/( . Momentul de ordinul k al variabilei aleatoare X condiŃionat de Y=yj este

momentul iniŃial de ordinul k al variabilei aleatoare condiŃionate (X/Y=yj):

∑ ∑ ∑======i i i

kiij

jj

ijkiji

kij

k xppp

pxyYxXPxyYXM

.

1

.)/()/(

Similar se defineşte momentul de ordinul k al variabilei aleatoare Y condiŃionat de X=xi. Pentru k=1 se obŃin mediile condiŃionate:

∑∑ ====j

ijji

ii

jiij

j pyp

xXYMpxp

yYXM.

1)/(,

.

1)/(

Se pot defini variabilele aleatoare „medii condiŃionate” astfel: - variabila aleatoare „media lui X condiŃionată de Y”, cu repartiŃia:

∑ =≥

=

jjj

j

jpp

p

yYXMYXM 1.,0.,

.

)/(:)/(

-variabila aleatoare „media lui Y condiŃionată de X” , cu repartiŃia:

∑ =≥

=

iii

i

i ppp

xXYMXYM 1.,0.,

.

)/(:)/(

Regresie – Se numeşte regresia variabilei aleatoare X în raport cu Y, variabila aleatoare M(X/Y) cu mulŃimea

valorilor posibile: M(X/Y=y), .Rx∈

Similar, regresia variabilei aleatoare Y în raport cu X este: M(Y/X=x), .Ry∈

Dacă M(X/Y)=aX+b sau M(Y/X)=cY+d se spune că regresia este liniară

8

RepartiŃía normală – Variabila aleatoare X urmează o repartiŃie normală de parametri m şi σ (se mai scrie şi ),( σmNX ∈ ) dacă densitatea ei de probabilitate (derivata funcŃiei de repartiŃie) este:

),2

)(exp(

2

1)(

2

2

σπσmx

xf−−= ,Rx∈ ,Rm∈ σ>0

Pentru m=0 şi σ =1 se obŃine repartiŃia normală „normată” N(0,1), cu densitatea de probabilitate:

),2

exp(2

1)(

2xxf −=

π ,Rx∈

Se arată că parametri m şi σ2 sunt media (speranŃa matematică), respectiv dispersia (varianŃa) variabilei aleatoare ),( σmNX ∈ .

RepartiŃia χ2 (hi-pătrat) cu n grade de libertate – Variabila aleatoare X urmează legea de repartiŃie hi-pătrat cu n grade de libertate (se mai scrie şi )(nHX ∈ ) dacă densitatea ei de repartiŃie este:

),2

exp(

2)2

(

1)(

12

2

xx

nxf

n

n−

Γ=

− x>0, *Nn∈

Dacă variabilele aleatoare ),1,0(NX i ∈ i=1,2,...,n sunt independente, atunci variabila aleatoare

∑=

=n

iiXY

1

2urmează legea de repartiŃie H(n).

RepartiŃia Student cu n grade de libertate S(n) – Variabila aleatoare X urmează legea de repartiŃie Student cu n grade de libertate dacă densitatea ei de repartiŃie este:

,1

2

1,

2

1)(

2

12

+−

+

Β=

n

n

x

nn

xf ,Rx∈ *Nn∈

Dacă variabilele aleatoare ),1,0(NX ∈ )(nHY ∈ sunt independente, atunci variabila aleatoare

)(nS

n

Y

XZ ∈= .

RepartiŃia Fisher-Snedecor F(n1,n2) – Variabila aleatoare X urmează legea de repartiŃie Fisher-Snedecor cu n1 şi n2 grade de libertate dacă densitatea ei de repartiŃie este:

,1

2,

2

)(2

2

1

21

12

2

2

121

1

1

nn

nn

xn

n

nn

xn

n

xf

+−

−

+

Β

= x>0, *

21, Nnn ∈

Dacă variabilele aleatoare )( 11 nHX ∈ şi )( 22 nHX ∈ sunt independente, atunci variabila aleatoare

),( 21

2

2

1

1

nnF

n

Xn

X

X ∈=.

9

CAPITOLUL II

REGRESIA SIMPLĂ

Studiem, pentru început, cel mai simplu model econometric: o variabilă endogenă reprezintă evoluŃia

fenomenului considerat şi această evoluŃie este explicată printr-o singură variabilă exogenă.

În cadrul capitolului este prezentată metoda de estimare a parametrilor care intervin într-un model

econometric, se vor examina proprietăŃile estimatorilor obŃinuŃi şi se vor generaliza rezultatele analizei pentru modele

mai complexe. Într-o prima parte se va trata obŃinerea estimatorilor parametrilor modelului şi proprietăŃilor lor, iar într-

o a doua parte se dă o interpretarea geometrică a metodei utilizate, determinarea intervalelor de încredere referitoare la

parametri şi previziunea care poate fi făcută cu un astfel de model.

2.1. Modelul liniar al regresiei simple

Considerăm modelul:

(1) ttt baxy ε++= , t=1, 2, ...,T

în care: Y reprezintă o variabilă endogenă;

X o variabilă exogenă;

ε o variabilă aleatoare ale cărei caracteristici vor fi precizate prin ipoteze.

Se dispune de T observaŃii asupra lui Y şi X, adică T cupluri (xt, yt) care sunt realizări ale lui X şi Y. a şi b sunt

parametri reali necunoscuŃi pe care dorim să-i estimăm cu ajutorul observaŃiilor (xt, yt) cunoscute.

Ipoteze fundamentale

Pentru a putea obŃine rezultatele enunŃate la început, vom simplifica lucrurile impunînd o serie de ipoteze

restrictive asupra modelului. Ulterior, în alte capitole, se vor relaxa aceste restricŃii, discutînd implicaŃiile abandonării

unora din aceste ipoteze asupra calităŃii estimatorilor.

I1:

xt şi yt sunt mărimi numerice observate fără eroare;

X –variabila explicativă se consideră dată autonom în model;

Y –variabila endogenă este o variabilă aleatoare, prin intermediul lui ε.

I2:

a)- ε urmează o lege de distribuŃie independentă de timp, adică media şi dispersia lui ε nu depind de t:

( ) TtE t ,...,2,1,0 =∀=ε ,

( ) 2εσε =tVar , cantitate finită, t∀ .

ObservaŃie:

S-au folosit aici, pentru medie şi dispersie, notaŃiile ( )•E , respectiv ( )•Var , provenind de la „speranŃa

matematică” şi „varianŃa” unei variabile aleatoare. Se presupune că studenŃii au cunoştinŃe elementare despre teoria

probabilităŃilor şi statistică matematică. Altfel, ele trebuie revăzute!

b)- Realizările lui ε sunt independente de realizările lui X în cursul timpului. Aceasta este ipoteza de

homoscedasticitate. În caz contrar, există heteroscedasticitate.

10

c)- IndependenŃa erorilor (se va vedea pe parcurs că variabila aleatoare ε reprezintă „erori” sau „reziduuri”).

Două erori relative la două observaŃii diferite t şi t’ sunt independente între ele, însemnînd că au covarianŃa nulă:

( ) 0,cov =′tt εε , ceea ce implică ( ) 0. =′ttE εε .

Prin definiŃie, cov( =′ ), tt εε [ ]))())((( tttt EEE ′′ −− εεεε şi Ńinînd cont de a) rezultă implicaŃia.

d)- Normalitatea erorilor. Presupunem că ε urmează o lege de repartiŃie normală , cu media 0 şi dispersia 2εσ ,

ceea ce poate fi scris astfel: ( )2,0 εσε N∈ .

I3:

Primele momente empirice ale variabilei X, pentru T foarte mare, sunt finite:

∑=

∞→ →T

tTt xx

T 10

1 (media empirică).

( )∑=

∞→ →−T

tTt sxx

T 1

221 (varianŃa empirică).

Această ipoteză va fi folosită pentru a preciza proprietăŃile asimptotice ale estimatorilor parametrilor a şi b.

Ipotezele I1, I2, I3 pot părea foarte restrictive. Vom vedea ulterior ce consecinŃe are abandonarea unora dintre

ele asupra proprietăŃilor estimatorilor lui a şi b.

2.2. Determinarea estimatorilor parametrilor prin metoda celor mai mici pătrate

Determinarea estimatorilor parametrilor a şi b (notaŃi cu a şi b ) prin metoda celor mai mici pătrate

(MCMMP) se face punând condiŃia ca suma pătratelor erorilor să fie minimă, adică:

[ ] ( )∑∑==

=−−=T

ttt

T

tt babaxy

1

2

1

2 ,ϕε .

Pentru ca ( )ba,ϕ să fie minimală, trebuie ca:

1. condiŃii necesare: 0=∂∂

a

ϕ, 0=

∂∂

b

ϕ.

2. condiŃii suficiente: 02

2

>∂∂a

ϕ, 0

2

22

2

2

2

>

∂∂

∂∂∂

∂∂∂

∂∂

bab

baaϕϕ

ϕϕ

.

Calculăm derivatele parŃiale ale funcŃiei ( )ba,ϕ .

( )( ) 021

=−−−=∂∂

∑=

t

T

ttt xbaxy

a

ϕ

( )( ) 0121

=−−−=∂∂

∑=

T

ttt baxy

b

ϕ

021

22

2

∑=

>=∂∂ T

ttx

a

ϕ

11

Tb

22

2

=∂∂ ϕ

∑=

=∂∂

∂=∂∂

∂ T

ttx

abba 1

22

2ϕϕ

.

Atunci, condiŃiile de ordinul I (necesare) conduc la sistemul de ecuaŃii:

( )

=−−

=−−

∑∑

∑∑∑

==

===

0

0

1

11

11

2

1

Tbxay

xbxayx

T

tt

T

tt

T

tt

T

tt

T

ttt

,

iar condiŃiile suficiente (de ordinul II) sunt verificate.

EcuaŃiile condiŃii de ordinul I (numite ecuaŃii normale, vezi justificarea geometrică din partea a II-a), le

împărŃim la T, rezultând:

=−−

=−− ∑∑==

0

011

1

2

1

bxay

xbxT

ayxT

T

tt

T

ttt

.

Din a doua ecuaŃie avem xayb −=ˆ şi înlocuind în prima ecuaŃie:

( )( )( )∑

∑∑∑

∑

∑

−

−−=

−

−=

−

−= 222221

1

ˆxx

xxyy

xTx

xyTyx

xxT

xyyxTa

t

tt

t

tt

t

tt.

Am obŃinut estimatorii a şi b ai parametrilor a şi b daŃi de relaŃiile:

( )( )( )

( )

−=

−

−−=

∑∑

xayb

xx

xxyya

t

tt

ˆˆ

,ˆ 2

2

ObservaŃie:

a este o variabilă aleatoare pentru că e funcŃie de yt, iar b este aleator pentru că e funcŃie de a .

2.3. ProprietăŃile estimatorilor

Vom arăta că estimatorii a şi b obŃinuŃi prin metoda celor mai mici pătrate sunt nedeplasaŃi şi convergenŃi. În

demonstraŃie vom Ńine cont de ipotezele I1, I2, I3. Pentru a uşura demonstrarea proprietăŃilor enunŃate, transformăm mai

întâi expresiile (2) pentru a le exprima în funcŃie de parametrii a şi b. Vom considera modelul (1)

ttt baxy ε++= , t=1, 2, ...,T, însumăm după toŃi t şi împărŃim la T. Rezultă:

∑ ∑∑ ++= ttt Tbx

Tay

Tε111

, adică

( ) ε++= bxay 2 .

Scădem membru cu membru pe (2) din (1):

12

( ) ( )εε −+−=− ttt xxayy

şi înlocuim ( )yyt − în expresia lui a :

( ) ( )[ ]( )( )

( ) ( )( )( )

( ) ( )( )

( )( )∑

∑∑

∑ ∑∑

∑ ∑∑

∑

−

−+=

−

−−−+=

=−

−−+−=

−

−−+−=

22

2

2

2ˆ

xx

xxa

xx

xxxxa

xx

xxxxa

xx

xxxxaa

t

tt

t

ttt

t

ttt

t

ttt

εεε

εεεε

(deoarece 0)()( =−=− ∑∑ xxxx tt εε ).

Din expresia lui b , avem că xayb ˆˆ −= , adică bxay ˆˆ += , iar din (2) ε++= bxay , astfel că prin

scădere rezultă: ( ) ε−−+−= bbxaa ˆˆ0 sau ( )xaabb −−+= ˆˆ ε . Am obŃinut că:

( )( )∑

∑−

−+=

2ˆ

xx

xxaa

t

ttε

( )xaabb −−+= ˆˆ ε .

a şi b sunt estimatori nedeplasaŃi pentru a şi b.

Un estimator este nedeplasat dacă media estimatorului este chiar parametrul estimat. Vom aplica

operatorul de medie E în relaŃiile găsite mai sus. Pentru comoditate, notăm cu wt cantitatea:

( )∑ −

−=

2xx

xxw

t

tt , astfel că ∑+= tt waa εˆ

Rezultă:

( ) ( ) ( ) aEwaEaE tt =+= ∑ εˆ , pentru că E(a)=a şi E(εt)=0.

( ) ( ) ( ) ( )aaExEbEbE −−+= ˆˆ ε

Avem că: E(b)=b, ( ) ( )∑∑ ==

= 011

tt ETT

EE εεε şi ( ) ( ) ( ) 0ˆˆ =−=−=− aaaEaEaaE , deci

( ) bbE =ˆ .

a şi b sunt estimatori convergenŃi pentru a şi b.

Ştiind că ( ) aaE =ˆ şi ( ) bbE =ˆ , este suficient să arătăm că ( ) 0ˆ → ∞→TaVar şi

( ) 0ˆ → ∞→TbVar pentru ca a şi b să fie convergenŃi în probabilitate către a şi b. Calculăm varianŃa

estimatorilor a şi b .

Ştim că ∑+= ttwaa εˆ , adică ∑=− ttwaa εˆ .

13

( ) ( ) ( )( ) ( )∑ ∑

∑ ∑∑

<

<

+=

=

+==−=

'''

22

'''

2222

2

2ˆˆ

tttttttt

tttttttttt

EwwEw

wwwEwEaaEaVar

εεε

εεεε

Conform ipotezelor fundamentale, ( ) 22εσε =tE şi ( ) 0' =ttE εε , pentru 'tt ≠ , rezultând:

( ) ∑∑ == 2222ˆ tt wwaVar εε σσ ,

dar ( ) ( )∑ ∑

∑∑ −=

−

−=

2

2

22 1

xxxx

xxw

tt

tt

.

În final, dispersia estimatorului a este:

( ) ( )∑ −=

2

2

ˆxx

aVart

εσ.

Conform ipotezei I3, ( ) 221sxx

T Tt →− ∞→∑ şi avem că ( ) 0ˆ2

2

→= ∞→TTsaVar εσ

.

Am obŃinut că aaP

T → ∞→ˆ ( a este convergent în probabilitate către a).

Determinăm acum dispersia estimatorului b :

( ) ( ) ( )[ ] ( ) ( )[ ]( ) ( )[ ] ( )222

22222

ˆˆ2

ˆˆ2ˆˆˆ

aaExaaExE

xaaaaxExaaEbbEbVar

−+−−=

=−+−−=−−=−=

εε

εεε

Evaluăm, pe rînd, fiecare termen:

( )( ) ( ) ( )

TT

TVar

TE

TE

T

TE

TEE

ttt

ttt

tttttt

2

2

2

2'

'22

2

''

2

2

22

121

211

εε σσεεεε

εεεεε

===+=

=

+=

=

∑∑∑

∑ ∑∑

<

<

(deoarece ( ) 0' =ttE εε ).

( )[ ] ( )

( ) ( ) ( ) ∑∑∑∑

∑ ∑∑∑

==+=

=

+=

=−

<

<

ttttt

ttttt

tttttttttt

wT

VarwT

EwT

EwT

wwET

wT

EaaE

2

''

2

''

2

111

11ˆ

εσεεεε

εεεεεε

dar ( ) ( ) ( ) 01

21

21

=−−

=−

−= ∑

∑∑∑

∑==

xxxxxx

xxw t

t

T

tt

tT

tt ,

adică ( )[ ] 0ˆ =− aaE ε .

Folosind aceste rezultate parŃiale, se obŃine:

14

( ) ( ) ( ) ( )∑ −+=+=−+= 2

2222

222

2

ˆˆˆxx

x

TaVarx

TaaEx

TbVar

t

εεεε σσσσ

Dispersia estimatorului b este:

−+=∑ 2

2

2

)(

1)ˆ(

xx

x

TbVar

tεσ

Cum însă 01 → ∞→TT

şi ( ) 011

22 →=

−∞→

∑T

tTsxx

rezultă că ( ) 0ˆ → ∞→TbVar , adică

bbP

T → ∞→

ˆ ( b converge în probabilitate către b) .

2.3.1. CovarianŃa estimatorilor a şi b

Calculăm acum covarianŃa estimatorilor pornind de la definiŃie:

( ) ( ) ( )( )[ ] ( )( )[ ]( ) ( )( )[ ] ( ) ( )[ ]

( )[ ] ( ) ( ) ( )∑ −−=−=−−−=

=−−−=−−−=

=−−=−−=

2

22

2

ˆˆˆ

ˆˆˆˆ

ˆˆˆ(ˆ)ˆˆˆ,ˆcov

xx

xaVarxaaExaaE

aaxaaEaaxaaE

bbaaEbEbaEaEba

t

εσε

εε .

Matricea de varianŃă şi covarianŃă a lui a şi b , notată ( )ba ˆ,ˆΩ este deci:

( )( ) ( )

( ) ( )( ) ( )

( ) ( )

( ) ( )

( ) ( )

−+

−−

−−

−=

=

−+

−−

−−

−=

=Ω

∑∑

∑∑

∑∑

∑∑

2

2

2

22

2

2

2

22

2

2

2

2

2

ˆ,ˆ

1

1

1ˆˆ,ˆcov

ˆ,ˆcovˆ

xx

x

Txx

x

xx

x

xx

xx

x

Txx

x

xx

x

xx

bVarab

baaVar

tt

tt

tt

tt

ba

ε

εε

εε

σ

σσ

σσ

Se remarcă faptul că ( )ba ˆ,ˆΩ conŃine pe 2

εσ , adică varianŃa lui tε care este necunoscută. Se pune deci

problema de a obŃine o estimaŃie pentru ( )ba ˆ,ˆΩ , adică o estimaŃie pentru

2)( εσε =tVar . Notăm această

estimaŃie cu 2ˆ εσ .

2.3.2. Determinarea unui estimator nedeplasat pentru varianŃa erorilor

15

Utilizând estimatorii a şi b putem calcula estimaŃia variabilei endogene yt, notată ty (se mai numesc şi valori

ajustate ale variabilei endogene): bxay ttˆˆˆ += .

Atunci diferenŃa dintre yt şi ty este un estimator pentru eroarea tε . Notăm ttt yy ˆˆ −=ε . Avem că

( ) ( )bbxaabxabaxbxayyy tttttttttt −−−−=−−++=−−=−= ˆˆˆˆˆˆˆˆ εεε . Remarcă:

deoarece a şi b converg în probabilitate către a şi b, distribuŃia lui tε converge în probabilitate către distribuŃia lui

tε (distribuŃie normală, conform I2).

Ştim că ( )xaabb −−=− ˆˆ ε şi înlocuind obŃinem:

( ) ( ) ( ) ( )( )xxaaxaaxaa ttttt −−−−=−+−−−= ˆˆˆˆ εεεεε .

iar prin ridicare la pătrat:

( ) ( )( )( ) ( ) ( )2222 ˆˆ2ˆ xxaaxxaa ttttt −−+−−−−−= εεεεε .

Însumăm după t=1,2,...,T şi împărŃim la T:

( ) ( ) ( )( ) ( ) ( )∑∑∑∑ −−+−−−−−=2222 1

ˆ1

ˆ21

ˆ1

xxT

aaxxT

aaTT ttttt εεεεε .

Dar: ( )

( )∑∑

−

−=−

2ˆ

xx

xxaa

t

ttε, şi

( )( ) ( ) ( )[ ] ( ) ( ) ( ) ( )∑∑∑∑∑ −−=−−−=−−−=−−2

ˆ xxaaxxxxxxxxxx ttttttttt εεεεεε

pentru că ( )∑ =− 0xxtε .

Înlocuind, rezultă:

( ) ( ) ( )∑∑∑ −−−−=2222 1

ˆ1

ˆ1

xxT

aaTT ttt εεε .

Notăm cu ( )∑ −=22 1 εεσ tT

dispersia erorilor faŃă de media lor şi cum ea este o variabilă aleatoare, îi

calculăm media ( )2σE :

( ) ( ) ( )( ) ( )

( ) ( )

−=−=−−=

=

+−=

−=−=

=

−=

+−=

−=

∑∑

∑ ∑∑∑

∑∑∑

<

<

TTE

TE

T

TE

TEEE

T

TE

TE

TEE

ttttt

ttttttt

tttt

11

21

2111

12

11

22

2

''2

22

2

''

22

22

222

222222

εε

εε

εε

σσσεεεσ

εεεσεσεε

εεεεεεεεσ

Aplicând acum operatorul de medie în relaŃia:

16

( ) ( ) ( )∑∑∑ −−−−=2222 1

ˆ1

ˆ1

xxT

aaTT ttt εεε ,

şi Ńinînd cont de expresia varianŃei estimatorului a , rezultă:

( ) ( ) ( )

−=−

−=−−=

∑∑ TTT

xxT

aVarET

E tt

21

11

1ˆˆ

1 22

2222ε

εε σσσσε .

RelaŃia găsită se poate scrie şi astfel:

−= ∑ 22 ˆ

2

1tT

E εσ ε , aşa că, notând ∑−= 22 ˆ

2

1ˆ tT

εσ ε , am

obŃinut: ( ) 22ˆ εε σσ =E , adică 2ˆ εσ este un estimator nedeplasat pentru

2εσ (varianŃa erorilor).

Este de remarcat că modelul ttt baxy ε++= presupune estimarea a doi parametri (a şi b), iar

numitorul lui 2ˆ εσ este T-2. (T-2) constituie „numărul gradelor de libertate”. Vom reveni ulterior asupra acestei

probleme.

În concluzie, pentru modelul liniar al regresiei simple, avem estimatorii:

( )( )( )∑

∑−

−−=

2ˆ

xx

xxyya

t

tt

xayb ˆˆ −=

∑−= 22 ˆ

2

1ˆ tT

εσ ε

Estimatorul 2ˆ εσ permite să dăm o estimaŃie a varianŃelor şi covarianŃei parametrilor din model, deci o

estimaŃie a matricei ( )ba ˆ,ˆΩ , notată ( )ba ˆ,ˆ

Ω :

( )( ) ( )

( ) ( )

=Ω ∧∧

∧∧

bVarba

baaVarba ˆˆ,ˆcov

ˆ,ˆcovˆˆˆ,ˆ , unde:

( ) ( )∑ −=

∧

2

2ˆˆ

xxaVar

t

εσ,

( ) ( )

−+=∑

∧

2

2

2 1ˆˆ

xx

x

TbVar

t

εσ ,

( ) ( )aVarxba ˆˆ,ˆcov∧∧

−= .

2.3.3. Interpretarea geometrică a metodei celor mai mici pătrate

17

Am determinat estimatorii a şi b ai parametrilor modelului utilizând condiŃia necesară de existenŃă a

minimului sumei pătratelor erorilor ∑ 2tε . Putem să dăm o condiŃie necesară şi suficientă pentru ca ∑ 2

tε să fie

minimală, cu ajutorul unei reprezentări grafice. Această condiŃie va consta în egalitatea cu zero a două produse scalare

care redau ecuaŃiile normale.

Modelul ttt baxy ε++= se scrie sub formă matriceală astfel: ε++= bUaXY ,

unde:

=

Ty

y

y

Y

.

.

.2

1

,

=

Tx

x

x

X

.

.

.2

1

,

=

1.

.

.1

1

U ,

=

Tε

εε

ε

.

.

.2

1

.

În spaŃiul ortonormat Tℜ considerăm vectorii Y, X, U şi ε.

Vectorul 0H=aX+bU aparŃine planului (L) determinat de vectorii X şi U. Fie 0A=Y, 0B=X, 0C=U, HA=ε.

Cantitatea 222 HAt∑ == εε este minimală dacă HA este ortogonal pe (L), adică pe X şi U. Această condiŃie se

traduce prin egalitatea cu zero a produsului scalar al vectorilor respectivi:

=⋅=⋅

00

00

CHA

BHA, sau

>=−−<>=−−<

0,

0,

UbUaXY

XbUaXY, adică

=−−

=−−

∑∑∑∑∑

0ˆˆ

0ˆˆ 2

bTxay

xbxayx

tt

tttt.

Am regăsit, deci, sistemul de ecuaŃii normale.

Notăm Y proiecŃia pe planul (L) a vectorului Y şi cu ε vectorul HA ortogonal la planul (L).

A efectua o regresie a variabilei Y asupra variabilei X în modelul ttt baxy ε++= revine, deci, la a

proiecta vectorul Y pe planul (L) din Tℜ determinat de X şi U.

ObservaŃie:

Y

(L)

A

B

C U H

ε Y X

O

18

Considerăm modelul tt by ε+= . O reprezentare analogă celei dinainte este:

În scriere matricială, modelul este ε+= bUY , iar conform cu reprezentarea grafică, avem relaŃia

OA=OH+HA.

22 HAt∑ =ε este minimală dacă HHA 0⊥ (HA este perpendicular pe 0H), adică 0=⋅UHA sau

0, >=−< UbUY sau ∑ =⋅− 0bTyt , ∑ == yyT

b t

1ˆ şi YUyUbH =⋅=⋅= ˆ0 . Măsura algebrică a

proiecŃiei vectorului Y pe suportul vectorului U este y . Vom utiliza această observaŃie pentru a exprima ecuaŃia

varianŃei.

EcuaŃia varianŃei

Reluăm reprezentarea geometrică precedentă şi notăm cu K proiecŃia lui A pe suportul vectorului U:

Evident, KH este perpendicular în K pe 0C. În triunghiul AKH, dreptunghic, avem:

( ) 2221 HAKHAK += .

Y

(L)

A

B

C U H

ε

Y X

K Y O

0

Y

A

U H

19

Ştim că bxay ttˆˆˆ += şi ∑∑ += bx

Tay

T ttˆ1

ˆˆ1

, adică: bxay ˆˆˆ += . Dar şi

bxay ˆˆ += , rezultând că yy ˆ= .

Deoarece: AK=0A-0K ( KA0∆ dreptunghic în K)

HK=0H-0K ( HK0∆ dreptunghic în K),

rezultă, folosind (1):

( ) ( ) ( )∑ ∑ ∑+−=− 222ˆ ˆ 2 ttt yyyy ε

reziduală

ateaVariabilit

regresiei datorată

ateaVariabilit

totalã

ateaVariabilit+=

Aceasta este ecuaŃia varianŃei. Vom reveni asupra ei când vom aborda regresia multiplă.

2.3.4. Coeficientul de corelaŃie liniară

Coeficientul de corelaŃie liniară între variabilele X şi Y, notat ρ, se calculează cu relaŃia:

( )( )( ) ( )∑ ∑

∑−⋅−

−−=

22xxyy

xxyy

tt

ttρ .

În general, ( )

YXXY

YX

σσρ

⋅= ,cov

, unde Xσ şi Yσ sunt abaterile standard (radicalul dispersiei) ale variabilelor

X şi Y.

Ştim că estimatorul parametrului a are expresia ( )( )

( )∑∑

−

−−=

2ˆ

xx

xxyya

t

tt, astfel că putem scrie:

( )( )( )

( )( ) ( )

( )( )∑

∑

∑ ∑

∑∑

∑−

−=

−−

−⋅

−

−−=

2

2

22

2

2

ˆ

yy

xxa

xxyy

xx

xx

xxyy

t

t

tt

t

t

ttρ . Am obŃinut o expresie a coeficientului

de corelaŃie în funcŃie de estimator, iar prin ridicare la pătrat: ( )

( )∑∑

−

−=

2

222

ˆ

yy

xxa

t

tρ .

Un calcul imediat arată că:

( ) ( ) ( )[ ] ( )[ ] ( )∑∑∑ ∑ ∑ −=−=+−+=−=−222222

ˆˆˆˆˆˆˆˆˆ xxaxxabxabxayyyy ttttt .

În acelaşi timp, ecuaŃia varianŃei conduce la: ( ) ( )∑ ∑ ∑−−=− 222ˆˆ ttt yyyy ε , de unde:

( )( )

( )( ) ( )∑

∑∑

∑ ∑∑∑

−−=

−

−−=

−

−=

2

2

2

22

2

2

2ˆ

1ˆˆ

yyyy

yy

yy

yy

t

t

t

tt

t

t εερ .

20

Pe de altă parte, utilizând figura geometrică şi notând cu α unghiul HKA ˆ , avem AK

KH=αcos ,

( )( )∑

∑−

−==

2

2

2

2

2ˆ

cosyy

yy

AK

KH

t

tα , adică ( )∑∑

−−==

2

222

ˆ1cos

yyt

tεαρ .

În mod necesar, 10 2 ≤≤ ρ şi 11 ≤≤− ρ .

Când 0=ρ , nu există o relaŃie de tip liniar baxy tt += între yt şi xt, adică a=0.

Când 12 =ρ , yt este legat de xt printr-o relaŃie de forma baxy tt += . 1=ρ implică a>0, iar

1−=ρ implică a<0.

Când relaŃia dintre yt şi xt nu este strictă, adică baxy tt +≅ , atunci ρ este apropiat de 1, semnul lui

ρ fiind cel al lui a.

2.3.5. DistribuŃia de probabilitate a estimatorilor

Deoarece erorile εt t=1,2,...,T au o distribuŃie normală, de medie zero şi dispersie 2εσ , densitatea de

probabilitate a lui εt este:

( ) Ttf tt ,...,2,1,

2

1exp

2

12

2

=

−=

εε σε

πσε .

Cum εt şi εt’ sunt independente pentru 'tt ≠ , densitatea de probabilitate a vectorului aleator (ε1, ε2, ..., εT) va fi

egală cu produsul densităŃilor de probabilitate relative la fiecare εt.

( ) ( )

−

= ∑

2

2

21 2

1exp

2

1,...,,1

εε σε

πσεεε t

T

tf

Dar, baxy ttt −−=ε şi

( ) ( ) ( ))ˆ()ˆ(ˆ

ˆˆˆˆˆˆˆˆ

bbxaa

bbxaabxaybbxaxabaxybaxy

tt

ttttttttt

−+−+=

=−+−+−−=+−+−−−=−−

ε

(deoarece ttttt yybxay εˆˆˆ =−=−− ).

Evaluăm suma pătratelor erorilor:

( ) ( ) ( )[ ]( ) ( ) ( ) ( ) ( )( )( ) ( )( ) ( ) ( )[ ]2222

2222

222

ˆˆˆˆˆˆ

ˆˆ2ˆˆˆ2ˆˆ2ˆˆˆ

ˆˆˆ

∑∑∑

∑

∑∑ ∑

−+−+=

−+−+=

=

−−+−+−+−+−+=

=−+−+=−−=

bbxaabbxaa

xbbaabbxaabbxaa

bbxaabaxy

tttt

tttttt

ttttt

εε

εεε

εε

21

( ( ) 0ˆˆ2 =− tt xaaε , ( ) 0ˆˆ2 =− bbtε pentru că aşa cum arată reprezentarea grafică, vectorul ε este ortogonal la

planul (L), prin urmare este perpendicular pe orice vector din acel plan, deci şi pe X şi U. Produsele scalare cu aceşti

vectori vor fi nule, adică: 0,ˆ >=< Xε şi 0,ˆ >=< Uε ).

Într-o scriere matricială:

( ) ( )[ ]

−−

−−

=−+− ∑∑ bb

aa

TxT

xTx

bb

aabbxaa t

t ˆˆ

ˆˆˆˆ

2'2

( lasăm studenŃilor plăcerea de a verifica !).

Înlocuind în (1) fiecare εt prin expresiile calculate mai sus, deducem densitatea de probabilitate a vectorului aleator

(y1,y2,...,yT):

( ) ( )

−−

−−

−

−

=

=

−−

−

=

∑∑

∑

bb

aa

TxT

xTx

bb

aa

baxyyyy

tt

T

tt

T

t

ˆˆ1

ˆˆ

2

1exp

ˆ

2

1exp

2

1

2

1exp

2

1,...,,

2

2

'

2

2

2

2

21

εεε

εε

σσε

πσ

σπσϕ

łinând cont de matricea de varianŃă şi covarianŃă a estimatorilor, ( )ba ˆ,ˆΩ , se arată uşor că:

( )1

ˆ,ˆ

2

2

1 −Ω=

∑ba

t

TxT

xTx

εσ şi ( ) ( ) ( )bahgyyy t

T

tˆ,ˆˆ

2

1,...,, 21 ⋅

= ε

πσϕ

ε

unde ( )tg ε este densitatea de

probabilitate a lui tε , iar ( )bah ˆ,ˆ cea a lui ( )ba ˆ,ˆ .

Cu aceste rezultate şi făcînd apel la unele teoreme importante ale statisticii matematice, putem deduce

următoarele distribuŃii de probabilitate:

1. Deoarece ∑−= 22 ˆ

2

1ˆ tT

εσ ε , adică ( ) 22 ˆ2ˆ εσε −=∑ Tt , variabila aleatoare definită de

raportul ( )

=− ∑ 2

22

2

ˆ1ˆ

2 tT εσσ

σεε

ε urmează o repartiŃie χ2 (hi-pătrat) cu (T-2) grade de

libertate. (Vectorul ε admite T-2 componente independente nenule distribuite după T-2 legi

normale independente, cu media zero şi abatere standard εσ )

2. Folosind relaŃile de calcul stabilite anterior, rezultă că 2ˆ

2ˆ

2

2 ˆˆ

a

a

σσ

σσ

ε

ε =

(am utilizat aici notaŃiile )ˆ(2ˆ aVara =σ şi )ˆ(ˆˆ 2

ˆ araVa =σ pentru varianŃa estimatorului a , respectiv

pentru estimaŃia acesteia). Atunci variabila aleatoare definită de raportul ( )2ˆ

2ˆˆ

2a

aTσσ

− urmează tot o repartiŃie

χ2 cu (T-2) grade de libertate.

22

3. Cuplul ( )ba ˆ,ˆ urmează o repartiŃie normală bidimensională, astfel că variabilele aleatoare

definite mai jos au repartiŃiile următoare: ( )1,0ˆ

ˆ

Naa

a

∈−σ ;

( )2ˆˆ

ˆ−∈−

Ta

Saa

σ (repartiŃia Student cu (T-2) grade de libertate);

( )1,0ˆ

ˆ

Nbb

b

∈−σ ;

( )2ˆˆ

ˆ−∈−

T

b

Sbb

σ .

4. Expresia ( )

−−

Ω

−−

= −

bb

aa

bb

aaF

ba ˆˆ

ˆˆ

2

1 1ˆ,ˆ

'

este variabilă aleatoare repartizată Fisher-

Snedecor, cu 2 şi (T-2) grade de libertate.

2.4. Teste şi intervale de încredere

Pentru că există tabele cu valorile legilor de probabilitate anterioare, putem determina intervale de încredere

pentru parametrii a şi b la un nivel de semnificaŃie α fixat.

ασ α −=

≤−1

ˆ

ˆ

ˆ

taa

obrPa

αt este luat din tabela distribuŃiei Student cu (T-2) grade de libertate. Un calcul simplu conduce la intervalul

de încredere pentru parametrul a, de forma:

aa taata ˆˆ ˆˆˆˆ σσ αα +≤≤−

ceea ce permite afirmaŃia că adevărata valoare a parametrului real a , se găseşte în intervalul de valori

[ ]aa tata ˆˆ ˆˆ;ˆˆ σσ αα +− cu probabilitatea 1-α.

Când se doreşte testarea unei valori a0 a parametrului a, este suficient, pentru a accepta această valoare cu

riscul α, să ne asigurăm că:

ασt

aa

a

≤−

ˆ

0

ˆ

ˆ.

Altfel spus, este suficient ca a0 să aparŃină intervalului de încredere stabilit: [ ]aa tataa ˆˆ0 ˆˆ,ˆˆ σσ αα +−∈ .

23

De asemenea, ( ) αα −=−≤ 12,2, TFFobrP .

( )2,2, −= TFF α este ecuaŃia unei elipse cu centrul în ( )baw ˆ,ˆ care defineşte astfel o „regiune” de încredere

pentru cuplul ( )ba, la nivelul de semnificaŃie α:

ProiecŃiile acestei elipse pe axe determină, de asemenea, două intervale de încredere pentru a şi b, centrate în

a şi b . Dar, este important de remarcat că, nivelul de semnificaŃie referitor la aceste intervale nu mai este nivelul α

asociat elipsei.

Dacă se doreşte testarea simultană a două valori a0, b0 alese apriori, este suficient să înlocuim a şi b în expresia

F prin a0 şi b0.

Dacă ( ) ( )2,2,, 00 −≤ TFbaF α se acceptă valorile, altfel ele vor fi respinse. Altfel spus, pentru a

accepta cuplul (a0, b0) la nivelul de semnificaŃie α este suficient ca punctul M0(a0,b0) să aparŃină elipsei de încredere

asociată cuplului (a, b).

ObservaŃii :

1. Expresia ( )Tyyy ,...,, 21ϕ se descompune în doi factori (g şi h). g se exprimă doar în funcŃie de tε , adică în

funcŃie de yt, a , b ; h nu conŃine decât pe a , b , a şi b. Aceasta arată că, odată cunoscută o realizare a

cuplului ( )ba ˆ,ˆ , legea de probabilitate condiŃionată a lui yt (dată de factorul g) nu depinde decât de valorile

adevărate (dar necunoscute) ale parametrilor a şi b. Se zice că ( )ba ˆ,ˆ sunt estimatori „exhaustivi” pentru a şi b,

adică ei rezumă toată informaŃia pe care eşantionul o poate aduce despre a şi b.

2. Când ipoteza de normalitate asupra erorilor tε este realizată, funcŃia de verosimilitate relativă la eşantionul

( )Tyyy ,...,, 21 este chiar funcŃia ( )Tyyy ,...,, 21ϕ . Pentru obŃinerea de estimatori ai lui a şi b prin metoda

verosimilităŃii maxime, este suficient să maximizăm expresia ( )Tyyy ,...,, 21ϕ , adică să minimizăm

A a A’

b B’ b B

w

24

( )∑ −− 2baxy tt . Estimatorii ( )ba ˆ,ˆ obŃinuŃi cu metoda celor mai mici pătrate coincid, deci, cu cei obŃinuŃi

prin metoda verosimilităŃii maxime.

3. Atunci când ipoteza de normalitate a erorilor nu se realizează, se va arăta că estimatorii a şi b obŃinuŃi prin

metoda celor mai mici pătrate au varianŃa minimă printre toŃi estimatorii liniari centraŃi în a şi b (se va da o

demonstraŃie pe cazul general).

2.5. Previziunea cu modelul liniar

Fie θx realizarea variabilei exogene la momentul θ. Valoarea previzionată pentru endogena Y va fi:

bxayP ˆˆ += θθ ,

iar realizarea efectivă a lui Y este:

θθθ ε++= baxy .

Eroarea de previziune se poate exprima prin variabila aleatoare θθ yye PP −= .

( ) ( ) θθθθ ε−−+−=− bbxaayyP ˆˆ .

Se remarcă imediat că ( ) 0=PeE , iar varianŃa erorii de previziune este:

( ) ( ) ( ) ( ) ( )( )( )[ ] ( )[ ] ( )[ ]bbEaaExbbaaEx

EbbEaaExyyEeVar PP

−−−−−−+

++−+−=−=ˆ2ˆ2ˆˆ2

ˆˆ 22222

θθθθ

θθθθ

εε

ε

Ultimii doi termeni sunt nuli (s-a demonstrat anterior!) (ε şi a , ca şi ε şi b sunt necorelaŃi).

Deci:

( ) ( ) ( ) ( ) ( )baxVarbVaraVarxeVar Pˆ,ˆcov2ˆˆ2

θθθ ε +++= .

Notăm varianŃa erorii de previziune cu ( )PeVar=2θµ şi folosind relaŃiile de calcul anterioare, rezultă:

( ) ( ) ( )( )

( )

−

−++=

=−

−+

−++

−=

∑

∑∑∑

2

2

2

2

22

2

22

2

222

11

21

xx

xx

T

xx

xx

xx

xT

Txxx

t

ttt

θε

εθε

εεθθ

σ

σσσσµ

2εσ este necunoscut, dar estimat prin 2ˆεσ şi varianŃa estimată a erorii de previziune este:

( )

( )

−

−++=∑

2

2

22 11ˆˆ

xx

xx

Tt

θεθ σµ

25

Această varianŃă poate fi redusă, pe de o parte prin creşterea numărului de observaŃii (T), iar pe de altă parte,

prin alegerea lui θx astfel încât ( )2xx −θ să nu fie prea mare (adică făcând o previziune pe termen scurt).

Deoarece erorile sunt normal distribuite, ( )2,0 εσε Nt ∈ atunci şi ( ) Naa ∈−ˆ şi ( ) Nbb ∈−ˆ (urmează legi

normale). Rezultă următoarele distribuŃii de probabilitate pentru variabilele:

( )1,0NyyP

∈−

θ

θθ

µ .

θ

θθ

µyyP −

urmează o lege Student cu T-2 grade de libertate pentru că ( ) ( )2

2

2

2 ˆ2

ˆ2

ε

ε

θ

θ

σσ

µµ −=− TT .

În planul (x,y) trasăm dreapta de ajustare bxay ˆˆ += . Fie ( )PyxP θθ , punctul situat pe dreapta de ajustare.

Putem construi, având P ca centru şi paralel cu axa 0y un interval de încredere M1M2 la nivelul de semnificaŃie α.

αµ α

θ

θθ −=

<−

1ˆ

2

tyy

PP

.

2

αt fiind luat din tabela distribuŃiei Student. Pentru T dat, θµ ca funcŃie de ( )2xx −θ este minim pentru

xx =θ . Punctele M1 şi M2 sunt deci situate, când θ variază, pe două arce de curbă (vezi figura), care determină astfel

regiunea căreia îi aparŃine θy pentru θx dat, cu o probabilitate egală cu (1-α).

ObservaŃii

1. „O variabilă aleatoare t este distribuită după o lege Student cu T-2 grade de libertate dacă expresia 2

2

−T

t

este raportul dintre o variabilă aleatoare distribuită 2χ cu 1 grad de libertate şi o alta distribuită 2χ cu (T-2) grade de

libertate”. Fie a

aat

ˆˆ

ˆ

σ−= . Atunci:

M1

M2

P

x θx

y

Pyθ

y

bxay ˆˆˆ +=

26

( )

( )

( )

( ) libertate de grade 2)-(Tcu

libertate de grad uncu

T

aa

T

aa

T

t2

a

a

a

a χχ

σσ

σσ

2

2ˆ

2ˆ

2ˆ

2

2ˆ

22

ˆ2

ˆ

ˆ2

ˆ

2=

−

−

=−−=

− .

2. „O variabilă aleatoare F este distribuită după o lege Fisher-Snedecor cu n1 şi n2 grade de libertate dacă

expresia 2

1

n

Fn este raportul dintre o variabilă aleatoare distribuită 2χ cu n1 grade de libertate şi o alta distribuită 2χ

cu n2 grade de libertate”.

Fie ( )

−−

Ω

−−

= −

bb

aa

bb

aaF

ba ˆˆˆ'ˆ

ˆ

2

1 1ˆ,ˆ

.

Atunci:

( )

( ) libertate de grade 2)-(Tcu

libertate de grade douacu

T

bb

aa

TxT

xTx

bb

aa

T

bb

aa

TxT

xTx

bb

aa

T

F

2

t

t

χχ

σσ

σ

σ

ε

ε

ε

ε

2

2

2

2

2,

2

2,

ˆ2

ˆˆ

ˆˆ

ˆ2

ˆˆ

ˆˆ

2

2

=−

−−

−−

=

=−

−−

−−

=−

∑

∑

pentru că ( )ba ˆ,ˆ urmează o lege normală bidimensională.

3. Jacobianul transformării permite exprimarea densităŃii de probailitate a vectorului aleator ( )Tyyy ,...,, 21

pornind de la cea a lui ( )Tεεε ,...,, 21 . Când ( )Tf εεε ,...,, 21 este cunoscută, pentru a obŃine ( )Tyyy ,...,, 21ϕ ,

procedăm astfel:

Înlocuim tε prin expresia ei în funcŃie de ty ;

ÎnmulŃim expresia obŃinută cu valoarea absolută a determinantului:

( )( ) 1

1...00

............

0...10

0...01

...

............

...

...

21

2

2

2

1

2

1

2

1

1

1

==

∂∂

∂∂

∂∂

∂∂

∂∂

∂∂

∂∂

∂∂

∂∂

==

T

TTT

T

T

yyy

yyy

yyy

yD

DJ

εεε

εεε

εεε

ε

( ) ( ) ( ) ( )( ) Jyyyfyyy TTT .,...,,,...,, 221121 εεεϕ =

4. Am văzut că ( ) ∑=− ttwaa εˆ , tε şi ( )aa −ˆ fiind distribuite normal. ( )aa −ˆ este o combinaŃie liniară

de tε . Deci:

( ) ( )1,0ˆ

ˆ

Naa

a

∈−σ

27

( )2ˆ

2ˆ

a

aa

σ−

este distribuită χ2 cu 1 grad de libertate pentru că este pătratul unei variabile aleatoare N(0,1).

( ) ( )1,0ˆ

ˆ

Nbb

b

∈−σ

( )( )1

22ˆ

2ˆχ

σ∈−

b

bb

Deoarece ( ) ( ) ( )∑∑ ∑ −−−−=2222 ˆˆ xxaa ttt εεε , prin împărŃirea la 2

εσ , obŃinem:

( ) ( ) ( )∑∑∑ −−−−

=2

2

2

2

2

2

2 ˆˆxx

aat

tt

εεε σσεε

σε

( ) 2)1(

2)1(

2)(2

2

2

2

2

2ˆˆ

−=−=−=− ∑∑

TTtt T χχχ

σε

σε

σεε

εεε

( ) ( ) ( )( ) ( )

21

22

2

2

ˆ

ˆˆ χσ ε

∈−=−−∑

aVar

aaxx

aat

Rezultă că:

2)2(

2)1(

2)1(2

2ˆ−− =−=∑

TTt χχχ

σε

ε

.

2.6. ExperienŃă de calcul

Pentru a studia cum variază cheltuielile de întreŃinere şi reparaŃii ale unui utilaj agricol în funcŃie de „vârsta”

utilajului, s-au cules următoarele date:

Vârsta utilajului (xt)

–în luni-

15 8 36 41 16 8 21 21

Cheltuieli anuale de întreŃinere şi reparaŃii (yt)

–în RON-

48 43 77 89 50 40 56 62

Vârsta utilajului (xt)

–în luni-

53 10 32 17 58 6 20

Cheltuieli anuale de întreŃinere şi reparaŃii (yt)

–în RON-

100 47 71 58 102 35 60

Rezolvare:

Căutăm să estimăm parametrii unei regresii liniare înte variabilele X şi Y, de forma ttt baxy ε++= ,

presupunînd că sunt îndeplinite ipotezele fundamentale I1,I2,I3.

28

1. Pentru a calcula estimatorii, se folosesc relaŃiile de calcul stabilite anterior (în cadrul seminarului se vor

prezenta facilităŃile de calcul oferite de diferite pachete de programe dedicate). Elementele necesare calculului sunt date

în tabelul ce urmează:

29

t xt yt xtyt

1 15 48 720 -9,1333 83,4177 -14,5333 211,218 225 2304 50,8544 -11,6789 136,396 -2,8544 8,14792 8 43 344 -16,1333 260,284 -19,5333 381,551 64 1849 41,9034 -20,6298 425,59 1,0965 1,20233 36 77 2772 11,8666 140,818 14,4666 209,284 1296 5929 77,7073 15,174 230,251 -0,7073 0,50034 41 89 3649 16,8666 284,484 26,4666 700,484 1681 7921 84,1008 21,5675 465,16 4,8991 24,00125 16 50 800 -8,1333 66,1511 -12,5333 157,084 256 2500 52,1331 -10,4002 108,164 -2,1331 4,55036 8 40 320 -16,1333 260,284 -22,5333 507,751 64 1600 41,9034 -20,6298 425,59 -1,9034 3,62327 21 56 1176 -3,1333 9,8177 -6,5333 42,6844 441 3136 58,5267 -4,0066 16,053 -2,5267 6,38428 21 62 1302 -3,1333 9,8177 -0,5333 0,2844 441 3844 58,5267 -4,0066 16,053 3,4732 12,06379 53 100 5300 28,8666 833,284 37,4666 1403,75 2809 10000 99,4454 36,912 1362,5 0,5545 0,3075

10 10 47 470 -14,1333 199,751 -15,5333 241,284 100 2209 44,4609 -18,0724 326,613 2,539 6,446911 32 71 2272 7,8666 61,8844 8,4666 71,6844 1024 5041 72,5925 10,0591 101,187 -1,5925 2,53612 17 58 986 -7,1333 50,8844 -4,5333 20,5511 289 3364 53,4118 -9,1214 83,201 4,5881 21,050913 56 102 5916 33,8666 1146,95 39,4666 1557,62 3364 10404 105,8389 43,3056 1875,38 -3,8389 14,737514 6 35 210 -18,1333 328,818 -27,5333 758,084 36 1225 39,346 -23,1873 537,649 -4,346 18,888315 20 60 1200 -4,1333 17,0844 -2,5333 6,4177 400 3600 57,248 -5,2853 27,9347 2,7519 7,5734

362 938 27437 - 3753,73 - 6269,73 12490 64926 - - 6137,72 - 132,0144

xxt − 2)( xxt − yyt − 2)( yyt −

∑

2tx 2

ty 67,3128,1ˆ += tt xy yy −ˆ 2)ˆ( yy − ttt yy ˆˆ −=ε 2ˆ tε

30

Pe baza elementelor din tabelul de calcul, se determină:

- ∑=

===T

ttx

Tx

1

133,2436215

11∑

=

===T

tty

Ty

1

533,6293815

11

-( )( )

( ) 28,1)133,24(1512490

)533,62)(133,24(1527437.ˆ

2222 =−

−=−−

=−

−−=

∑∑

∑∑

xTx

yxTyx

xx

xxyya

t

tt

t

tt -

67,31)133,24(28,1533,62ˆˆ =−=−= xayb

- coeficientul de corelaŃie liniară:

( )( )( ) ( )

9894,0733,3753733.6269

)533,62)(133,24(152743722

=−=−⋅−

−−=∑ ∑

∑xxyy

xxyy

tt

ttρ

Valoarea apropiată de 1 a coeficientului de corelaŃie arată că între cele două variabile studiate există o

corelaŃie liniară.

ObservaŃie: Am văzut că:

( )( ) ∑

∑∑∑

∑∑

−−

=−−

=−

−=

2

2

2

2

2

222

)(

)ˆˆ(

)(

)ˆˆ(ˆ

yy

yy

yy

xaxa

yy

xxa

t

t

t

t

t

tρ

Pătratul coeficientului de corelaŃie liniară este raportul dintre variabilitatea explicată prin model şi

variabilitatea totală.

- ecuaŃia de analiză a varianŃei:

variabilitatea totală = variabilitatea explicată + variabilitatea reziduală

( ) ( )∑ ∑ ∑+−=− 222ˆ ˆ ttt yyyy ε

6269,733 = 6137,719 + 132,014

În spaŃiul observaŃiilor, Y este cu atât mai bine explicat prin modelul liniar, cu cât este mai aproape se

planul (L) generat de vectorii X şi U (vectorul unitar), deci cu cât variabilitatea reziduală este mai mică faŃă

de variabilitatea empirică totală. Aceasta face ca raportul dintre variabilitatea explicată prin model şi

variabilitatea totală, adică ρ2, să fie apropiat de 1.

- estimaŃiile varianŃelor reziduurilor şi ale estimatorilor:

15,10215

0144,132ˆ

21

ˆ 22 =−

=−

= ∑ tTεσ ε

( ) ( ) ;0027,0733,3753

15,10ˆˆ

2

2

==−

=∑

∧

xxaVar

t

εσ 052,00027,0ˆ ˆ ==aσ

( ) ( ) 25,2733,3753

)133,24(

15

115,10

1ˆˆ

2

2

2

2 =

+=

−+=∑

∧

xx

x

TbVar

t

εσ

31

5,125,2ˆ ˆ ==b

σ

- calculul intervalelor de încredere pentru estimatori:

Variabilele aleatoare ( )

a

aa

ˆˆ

ˆ

σ−

şi ( )

b

bb

ˆˆ

ˆ

σ−

urmează fiecare o repartiŃie Student cu (T-2) grade de

libertate. Alegând un nivel de semnificaŃie α=0,05, putem extrage din tabelele repartiŃiei (astfel de tabele se

găsesc în majoritatea cărŃilor de econometrie, sau de statistică matematică) valoarea ttab corespunzătoare

numărului de grade de libertate şi nivelului de semnificaŃie ales. În cazul nostru, pentru T-2=13 grade de

libertate şi α=5%, găsim ttab=2,16. Intervalele de încredere vor fi:

[ ]=+−∈ aa tataa ˆˆ ˆˆ;ˆˆ σσ αα [1,28-(2,16)(0,052) ; 1,28+(2,16)(0,052)]=

= [1,17 ; 1,39]

[ ]=+−∈bb

tbtbb ˆˆ ˆˆ;ˆˆ σσ αα [31,67 –(2,16)(1,5) ; 31,67+(2,16)(1,5)]=

=[28,43 ; 34,91]

Prin urmare, putem afirma că valorile parametrilor reali a şi b se găsesc în aceste intervale cu o

probabilitate de 95%.

Stabilim acum un interval de încredere pentru estimatorul varianŃei erorilor. Am văzut că variabila

aleatoare ( )

=− ∑ 2

22

2

ˆ1ˆ

2 tT εσσ

σεε

ε urmează o lege de repartiŃie hi-pătrat cu (T-2) grade de libertate.

În tabelele legii hi-pătrat vom găsi, pentru un nivel de semnificaŃie α dat, două valori: v1 având

probabilitatea (1-α/2) de a fi depăşită, respectiv v2 având probabilitatea (α/2) de a fi depăşită, astfel că

ασσ

ε

ε −=

≤−≤ 1

ˆ)2(Pr 22

2

1 vTvob

Se obŃine astfel intervalul de încredere:

−−∈

1

2

2

22 ˆ)2(

;ˆ)2(

v

T

v

T εεε

σσσ

pentru α=0,05 şi 13 grade de libertate extragem din tabelă v1=5,01 şi v2=24,7 rezultând intervalul:

=

−−∈01,5

15,10)215(;

7,24

15,10)215(2εσ [5,34 ; 26,34]

- testăm dacă parametrii a şi b ai modelului sunt semnificativ diferiŃi de zero la pragul de semnificaŃie

α=0,05.

32

Variabilele aleatoare a

a

ˆˆ

ˆ

σ şi b

b

ˆˆ

ˆ

σ urmează legi de probabilitate Student cu (T-2) grade de libertate.

Aceste rapoarte se numesc şi „raportul t” Student empiric (tcalculat). Se acceptă ipoteza H0: (a=0) dacă tcalculat

(luat în modul) este mai mic decât ttabelat , altfel se acceptă ipoteza contrară H1:(a≠ 0). Acest lucru se poate

scrie: taba

ta <−

ˆˆ0ˆ

σ . Este exact acelaşi lucru cu a spune că 0 să aparŃină intervalului de încredere

determinat pentru a. Cum ∉0 [1,17 ; 1,39], acceptăm ipoteza H1:(a ≠ 0). La fel stau lucrurile şi pentru b.

Prin urmare, a şi b sunt semnificativ diferiŃi de zero la pragul de semnificaŃie de 5%. Se spune că variabila

explicativă (exogenă) X (vârsta utilajului) este “contributivă”.

- ne propunem acum să determinăm o previziune a cheltuielilor de întreŃinere şi reparaŃii pentru un utilaj

de 4 ani (48 de luni). Notăm cu pyθ cheltuielile de întreŃinere şi reparaŃii pentru un utilaj cu “vârsta”

θx . Avem că 11,9367,3148.28,1ˆˆ =+=+= bxayPθθ

Ce eroare corespunde unei astfel de previziuni? Ştim că:

θθ yye Pp −= , este o variabilă aleatoare distribuită normal, cu media zero şi varianŃa estimată a

erorii de previziune:

( )( ) 366,12

733,3753)133,2448(

151

115,101

1ˆˆ2

2

2

22 =

−++=

−

−++=∑ xx

xx

Tt

θεθ σµ

5164,3366,12ˆˆ 2 === θθ µµ

Deoarece variabila aleatoare θ

θθ

µyyP −

este distribuită Student cu (T-2) grade de libertate, putem

determina un interval de încredere pentru valoarea previzionată:

[ ] [ ]66,100;56,8551840,3)(16,2(11,93);5164,3)(16,2(11,93ˆ;ˆ22

=+−=

+−∈ θαθθαθθ µµ tytyy pp

Cu o probabilitate de 95%, valoarea adevărată a cheltuielilor de întreŃinere şi reparaŃii pentru un utilaj de 48

de luni se va afla în intervalul determinat.

33

CAPITOLUL III

REGRESIA MULTIPL Ă

De multe ori, studiul unui fenomen economic necesită introducerea mai multor variabile

explicative. O variabilă endogenă se exprimă, deci, în funcŃie de mai multe variabile exogene. Metodele de

regresie utilizate sunt în acest caz generalizări ale celor din capitolul anterior.

3.1. Modelul liniar al regresiei multiple

Considerăm acum modelul:

(1) tptpttt xaxaxay ε++++= ...2211 , t=1, 2, ...,T

în care: Y reprezintă o variabilă endogenă;

X1, X2 ,..., Xp sunt variabile exogene;

a1, a2 ,..., ap sunt parametri necunoscuŃi care trebuie estimaŃi.

Modelul nu conŃine o constantă deoarece variabila Xp poate fi considerată astfel ca xpt=1,

Tt ,...,2,1=∀ (se numeşte variabilă auxiliară).

Folosind notaŃiile:

=

Ty

y

y

Y

.

.

.2

1

,

=

pTTT

p

p

xxx

xxx

xxx

X

...

............

...

...

21

22212

12111

,

=

pa

a

a

a...

2

1

,

=

Tε

εε

ε

.

.

.2

1

ecuaŃia (1) se scrie sub formă matriceală:

(2) ε+= XaY .

Ipoteze fundamentale

Ipotezele I1, I2 din capitolul II rămân valabile: ceea ce era adevărat pentru xt este acum valabil

pentru xit, i=1,2,...,p.

Ipoteza I3 referitoare la variabilele exogene se modifică astfel:

a. absenŃa coliniarităŃii variabilelor exogene:

34

Nu există nici o mulŃime de p numere reale iλ , i=1,2,...,p astfel încât

01

=∑=

p

iiti xλ , t=1, 2, ...,T.

Matricea X de format (Txp) are în acest caz rangul p (T>p) şi matricea (X’X), unde X’

este transpusa lui X, este nesingulară, deci există inversa ei (X’X)-1.

b. Atunci când ∞→T , matricea ( )XXT

'1

tinde către o matrice finită, nesingulară.

3.2. Determinarea estimatorilor parametrilor

Pentru a scrie ecuaŃiile normale utilizăm interpretarea geometrică dată în capitolul II. Ne

propunem să minimizăm expresia ∑=

=T

ttU

1

2ε .

Fie vectorii Y, X1, X2,...,Xp în spaŃiul ortonormat Tℜ .

Vectorul ( )

=

p

p

a

a

a

XXXXa...

,...,, 2

1

21 aparŃine subspaŃiului (L) generat de vectorii X1,

X2,...,Xp. Cantitatea 22∑ == εε tU va fi minimă atunci când vectorul XaY −=ε este ortogonal

Y

(L)

A

Xp

X1 H

ε Y

X2

O

35

la subspaŃiul (L). Această condiŃie se traduce prin egalitatea cu zero a produselor scalare dintre vectorul

XaY − şi orice vector din subspaŃíul (L),deci şi X1,X2,...,Xp:

>=−−−−<

>=−−−−<

>=−−−−<

0,...

...............

0,...

0,...

2211

22211

12211

ppp

pp

pp

XXaXaXaY

XXaXaXaY

XXaXaXaY

Efectuînd produsele scalare, rezultă sistemul de ecuaŃii:

Sau, cu notaŃiile

matriciale introduse:

X’Y=(X’X)a , de unde rezultă:

(3) ( ) YXXXa ''ˆ 1−=

3.3. ProprietăŃile estimatorului a

Arătăm că a este un estimator nedeplasat al lui a şi deducem expresia matricei de varianŃă şi

covarianŃă aΩ .

a. transformăm expresia (3) înlocuind Y prin expresia lui în funcŃie de X:

(4)

( ) ( ) ( )( ) ( ) ( ) ( ) εε

ε''''''

''''ˆ111

11

XXXaXXXaXXXX

XaXXXYXXXa−−−

−−

+=+=

=+==

Aplicând operatorul de medie expresiei (4), rezultă:

( ) ( ) ( )εEXXXaaE ''ˆ 1−+= .

Dar, ( ) 0=εE conform I2, deci ( ) aaE =ˆ , adică a este estimator nedeplasat pentru a.

b. Prin definiŃie:

( )( )( )'ˆˆˆ aaaaEa −−=Ω .

=

∑∑∑

∑∑∑∑∑∑

∑

∑∑

ppttpttpt

pttttt

pttttt

tpt

tt

tt

a

a

a

xxxxx

xxxxx

xxxxx

yx

yx

yx

....

...

............

...

...

...2

1

221

22212

12121

2

1

36

Din (4) rezultă: ( ) ε''ˆ 1 XXXaa −=− şi ( ) 1'')ˆ( −=′− XXXaa ε pentru că ( ) 1' −XX este o matrice

simetrică. Atunci:

( )( ) ( ) ( ) 11 '''''ˆˆ −−=−− XXXXXXaaaa εε şi

( ) ( ) ( ) 11ˆ '''' −−=Ω XXXEXXXa εε .

Însă ( ) εεε Ω='E este matricea de varianŃă şi covarianŃă a lui ε . Ştim că ( ) IE 2' εσεε = (I este

matricea unitate de ordinul T). Atunci rezultă:

( ) ( ) ( ) ( )( ) ( ) 12112121ˆ ''''''' −−−−− ===Ω XXXXXXXXXXXXXXa εεε σσσ

Se poate arăta că dacă ipoteza a) din I3 rămâne valabilă când ∞→T , atunci a este estimator

convergent către a.

PropoziŃie. Estimatorul ( ) YXXXa ''ˆ 1−= este cel mai bun estimator liniar nedeplasat al lui

a.

Pentru a arăta această proprietate vom construi un estimator liniar pentru a care să aibă varianŃa

minimă şi el va fi identic cu cel obŃinut prin MCMMP. Fie a* un estimator liniar al lui a, adică a*=MY,

unde M este o matrice cu coeficienŃi constanŃi de format (pxT). Estimatorul a* este nedeplasat dacă:

( ) ( ) ( ) aXaMEYMEaE =+== ε*

adică ( ) ( ) ( ) ( ) ( )aMXMEaEMXaE =+= ε* pentru că ( ) 0=εE .

Pentru ca a* să fie nedeplasat, trebuie ca (MX)=I (matricea unitate de ordinul p).

Construim acum matricea de varianŃă şi covarianŃă a lui a*:

( )( )[ ]'*** aaaaEa −−=Ω

Dar, ( ) ( ) εεε MaMaMXXaMMYa +=+=+==* , deci εMaa =−* ,

( ) '''* Maa ε=− şi ( ) ( ) ''''' 2* MMMMEMMEa εσεεεε ===Ω . Pentru ca a* să fie de varianŃă

minimă, trebuie ca „urma” matricei (MM’) să fie minimă, sub restricŃia (MX)=I . Urma unei matrici este,

prin definiŃie, suma elementelor de pe diagonala principală. Notăm Ur(X) urma matricei X. Ur este un

operator liniar (demonstraŃi!). Rezolvând problema de extremum condiŃionat:

( )

= IMXrs

MMMinUr

..

'

se obŃine soluŃia ( ) '' 1 XXXM −= , adică ( ) YXXXMYa ''* 1−== . Am găsit că aa ˆ* = .

Un astfel de estimator se numeşte „estimator BLUE” (best liniar unbiaised estimator).

37

3.4. Determinarea unui estimator nedeplasat al varianŃei 2εσ

VarianŃa reziduurilor 2εσ fiind necunoscută, avem nevoie de un estimator al ei. Dacă p este

numărul de coeficienŃi de estimat în model, se va arăta că:

∑−= 22 ˆ

1ˆ tpT

εσ ε

Avem că: ε+= XaY ;

aXY ˆˆ = ;

aXXaYY ˆˆˆ −+=−= εε ;

( )aaX −−= ˆˆ εε .

Dar: ( ) ε''ˆ 1 XXXaa −=− şi ( ) εεε ''ˆ 1 XXXX −−=

( )[ ]εε ''ˆ 1 XXXXI −−= .

Notăm: ( ) '' 1 XXXXI −−=Γ .

Γ este o matrice de format (TxT) cu proprietăŃile Γ’=Γ (simetrică) şi Γ2=Γ (idempotentă de grad

2). Am obŃinut εε Γ=ˆ . Evaluăm acum ∑ 2ˆtε , care sub formă matriceală este:

∑ ∑∑≠

+=Γ=ΓΓ=⋅=i ji

jiijiiit εεγεγεεεεεεε 22 '''ˆ'ˆˆ , unde γij este elementul matricii Γ situat la

intersecŃia liniei i cu coloana j.

Atunci, rezultă că:

( ) ( ) ( )∑ ∑∑≠

+=i ji

jiijiiit EEE εεγεγε 22ˆ .

Însă, ( ) 0=jiE εε conform I2 şi ( ) ( ) ( )Γ=== ∑∑∑ UrEEi

iii

iiit2222ˆ εε σσγεγε .

Arătăm că ( ) pTUr −=Γ .

( ) ( )( ) ( ) ( )( )'''' 11 XXXXUrIUrXXXXIUrUr −− −=−=Γ

( ) TIUr =

( )( ) ( )( ) pXXXXUrXXXXUr == −− 11 ''''

(permutarea între ( ) 1' −XXX şi 'X este posibilă datorită formatului acestor matrici şi proprietăŃilor

operatorului Ur.)

În final rezultă:

38

( ) ( ) 22ˆ εσε pTE t −=∑ , ( )

−=

−= ∑∑ 222 ˆ

1ˆ

1tt pT

EEpT

εεσ ε , astfel că

∑−= 22 ˆ

1ˆ tpT

εσ ε este estimator nedeplasat al lui 2εσ .

T este numărul de observaŃii, p este numărul de parametri de estimat şi relaŃia găsită o

generalizează pe cea din capitolul II.

3.5. Teste şi regiuni de încredere

Ipoteza de normalitate a erorilor εt fiind îndeplinită, se pot generaliza rezultatele obŃinute la

regresia simplă. Deoarece ( ) ε''ˆ 1 XXXaa −+= , rezultă că a este distribuită după o lege normală în p

dimensiuni, cu media ( ) 0ˆ =aE şi dispersia ( ) 12ˆ ' −=Ω XXa εσ . Pentru un estimator ia dat, avem că:

(*)

ia

ii aa

ˆ

ˆ

σ−

urmează o lege normală redusă N(0,1);

(**) ( )

2

2

2

2 ˆˆ

εε

ε

σε

σσ ∑=− tpT

este distribuită χ2 (hi-pătrat) cu (T-p) grade de libertate.

(***)

ia

ii aa

ˆˆ

ˆ

σ−

urmează o lege Student cu (T-p) grade de libertate.

Legea Student este utilizată în mod curent pentru a aprecia validitatea estimatorului unui

coeficient ai. De exemplu, dacă se testează ipoteza (H0:ai=0) contra ipotezei (H1:ai ≠ 0), pentru a accepta

H1 trebuie ca 2ˆˆ

ˆασ

ta

ia

i ≥ , unde 2

αt este valoarea tabelată a variabilei t repartizată Student, cu T-p grade

de libertate, iar α este pragul de semnificaŃie.

ObservaŃie:

Pentru T>30 şi α=0,05, 22

≅αt . Deci, dacă 2ˆ

ˆ

ˆ

≥ia

ia

σ se acceptă H1, adică ipoteza că variabila

Xi are un coeficient ai semnificativ diferit de zero.

Mai general, când se pune problema de a şti dacă un coeficient ai este diferit de o valoare

particulară 0ia , se calculează raportul

ia

ii aat

ˆ

0

ˆ

ˆ

σ−

= şi se compară cu 2

αt .

39

Dacă tcalculat>ttabelat concludem că 0ii aa ≠ .

Considerăm acum toŃi estimatorii paa ˆ,...,ˆ1 :

(*) variabila aleatoare ( ) ( )aaaa a −Ω− − ˆ'ˆ 1ˆ este distribuită χ2 cu p grade de libertate;

(**) variabila aleatoare ( ) ( )aaaap

F a −Ω′−= − ˆˆˆ1 1

ˆ urmează o lege Fisher-Snedecor cu p şi (T-

p) grade de libertate.

La fel ca la regresia liniară simplă, rezultatele anterioare permit construirea de intervale de

încredere relative la coeficienŃii ai, ca şi a unui elipsoid de încredere relativ la ansamblul coeficienŃilor în

spaŃiul pℜ . Pentru ai, intervalul de încredere, la pragul de seminificaŃie α este:

2ˆ2 ˆ

ˆαα σ

taa

tia

ii ≤−

≤−

2ˆ

2ˆ ˆˆˆ αα σσ taat

ii aiia ≤−≤−

iar pentru ansamblul coeficienŃilor, ecuaŃia elipsoidului de încredere este: F=F(α,p,T-p).

Aceleaşi principii conduc la determinarea de regiuni de încredere relative la un număr oarecare de

coeficienŃi din model. Dacă q este numărul coeficienŃilor reŃinuŃi, în spaŃiul qℜ , avem ecuaŃia

F1=F(α,q,T-p), unde:

( ) ( )qqaqq aaaaq

Fq

−Ω−= − ˆˆ'ˆ1 1

ˆ1 .

cu qa extras din vectorul a şi qaΩ extrasă din aΩ :

Dacă dorim să testăm, la pragul de semnificaŃie α, ipoteza (H0:aq=)0(

qa ) contra ipotezei

(H1:aq)0(

qa≠ ), atunci dacă:

( ) ( ) ( )pTqFaaaaq qqaqq q

−≤−Ω− − ,,ˆˆ'ˆ1 )0(1

ˆ)0( α

se acceptă ipoteza H0 ( ( )pTqF −,,α se extrage din tabelele distribuŃiei Fisher-Snedecor).

2ˆ

2ˆ ˆˆˆˆ αα σσ taata

ii aiiai +≤≤−

2ˆˆ

ˆασ

taa

ia

ii ≥−

40

ObservaŃie:

Se observă că valoarea tabelată F depinde de ( )pTq −,,α şi nu de ( )qTq −,,α . Rezultă că

expresia ( )

( )2

2

pT

q

pT

qF

−

=− χ

χ face să apară la numitor ( )

2

2ˆ

ε

ε

σσ

pT − distribuită χ2 cu (T-p) grade de libertate.

3.6. Previziunea variabilei endogene

Dacă presupunem cunoscute la un moment θ valorile (x1θ, x2θ,..., xpθ) atunci previziunea variabilei

endogene va fi:

θθθθ ppp xaxaxay ˆ...ˆˆ 2211 +++= .

Eroarea de previziune va fi variabila aleatoare:

( ) ( ) θθθθθ ε−−++−=− pppp xaaxaaYY ˆ...ˆ 111 .

Se constată că media erorii de previziune este zero:

( ) 0=− θθ YYE p ,

iar varianŃa erorii de previziune este:

( ) ( )[ ] ( ) ( )( )

+−−+−=−=− ∑∑

<= jijijjii

p

iiii

pp xxaaaaxaaEYYEYYVar 2

1

222ˆˆ2ˆ θθθθθθθθ ε

deoarece ia şi θε sunt necorelate (ia nu depind decât de tε ), t=1,2,...,T şi T<θ.

Deducem că:

( )[ ] ( ) ( ) 2

1

22ˆ,ˆcov2ˆ εθθθθθ σ∑∑

<=

++=−ji

jijii

p

ii

p aaxxaVarxYYE ,

iar sub formă matricială:

( )[ ] 2ˆ

'2

εθθθθ σ+Ω=− XXYYE ap

, adică:

( ) ( )[ ]1' 1'2 +=− −θθεθθ σ XXXXYYVar p

,

unde: ( )θθθθ pxxxX ,...,, 21' = .

ObservaŃie:

Se arată că dacă T este finit şi εt sunt normal distribuite, atunci a este distribuită normal în p

dimensiuni. Dacă ipotezele nu sunt îndeplinite, atunci cînd ∞→T , vectorul ( )aaT −ˆ urmează o

distribuŃie normală cu media egală cu zero.

41

3.7. Coeficientul de corelaŃie multiplă R. Analiza varianŃei

Şi în acest caz, ecuaŃia varianŃei se scrie:

reziduală

ateaVariabilit

ajustate valorilor

ateaVariabilit

totalã

ateaVariabilit+=

( ) ( )∑ ∑ ∑+−=− 222ˆˆ ttt yy yy ε

Coeficientul de corelaŃie multiplă R are definiŃia:

( )( ) ( )∑

∑∑∑

−−=

−

−= 2

2

2

2

2ˆ

1ˆ

yyyy

yyR

t

t

t

t ε.

Din reprezentarea geometrică făcută, rezultă că εˆ += YY ,

dar ştim că εˆ += aXY şi aXY ˆ= , rezultând că: ( ) εˆ +−=− aXXYY , ceea ce arată

că vectorul rezidual ε este acelaşi şi pentru valorile (Y,X) şi pentru valorile centrate faŃă de medie

( )XXYY −− , . Cu alte cuvinte, dacă efectuăm regresia pe ecuaŃia generală, cu variabilele necentrate sau

o efectuăm cu variabilele centrate pe media lor, estimatorul a şi vectorul rezidual ε sunt aceeaşi.

ObservaŃie:

Când se centrează valorile X şi Y, vectorul a nu conŃine ultimul estimator pa . Constanta pa

dispare când se centrează variabilele. Considerarea modelului fără constante, cu variabilele necentrate pe

media lor, poate conduce la valori ale lui 2R care ies din intervalul (0,1).

Expresia matricială a coeficientului de corelaŃie multiplă este:

( ) ( )( ) ( )YYYY

YYYYR

−−−−=

'

ˆ'ˆ2 , dar ( ) ( )aXXYY ˆˆ −=− .

( ) ( )[ ] ( ) ( )YYXXXXXXa −−−−=−

''ˆ1

şi coeficientul devine:

( ) ( )( ) ( )YYYY

YYXXaR

−−−−=

'

''ˆ2 .

Coeficientul 2R arată rolul jucat de toate variabilele exogene asupra evoluŃiei variabilei

endogene. El este cu atât mai bun cu cât e mai apropiat de 1.

Dar, judecarea calităŃii unui model doar prin valoarea lui 2R poate duce la erori grosiere. El

maschează uneori influenŃa variabilelor exogene luate separat asupra variabilei endogene şi nu poate să se

42

substituie studiului estimatorilor coeficienŃilor modelului. Pătratul coeficientului de corelaŃie multiplă nu

Ńine cont nici de numărul de observaŃii (T) şi nici de numărul variabilelor explicative (p). Ori, se poate

foarte bine ca, având aceleaşi observaŃii asupra variabilei endogene să considerăm două modele distincte, în

al doilea făcând să apară un număr de variabile explicative noi. În această a doua regresie coeficientul de

corelaŃie multiplă nu poate decât să crească (pentru că variabilitatea explicată prin regresie creşte).

O definire mai precisă a lui 2R , care Ńine cont de T şi p este:

( )221

11 R

pT

TR −

−−−= .

2R se numeşte coeficient de corelaŃie multiplă corectat.

1. dacă p=1, atunci 22RR = ;

2. dacă p>1, atunci 22RR < ;

3. 2

R poate scădea prin introducerea în model a unei noi variabile exogene;

4. 2

R poate lua şi valori negative, dacă 1

12

−−<

T

pR .

Analiza varianŃei

Atunci când studiem rolul jucat de exogene asupra evoluŃiei endogenei, ne putem întreba care este

partea de variabilitate explicată de una sau mai multe variabile exogene.

Reluăm modelul iniŃial:


şi considerăm q variabile printre cele p, pe care le indexăm de la 1 la q:

(2) tqtqttt xaxaxay ξ++++= ...2211 .

Variabilitatea ne-explicată de cele q exogene în modelul (1) este variabilitatea reziduală asociată

modelului (2).

Fie:

( ) 222211

ˆˆ...ˆˆ ξ=−−−−∑t

qtqttt xaxaxay

Variabilitatea ne-explicată de cele p exogene din modelul (1) este:

( ) 222211 ˆˆ...ˆˆ ε=−−−−∑

tptpttt xaxaxay

43

Variabilitatea explicată de cele (p-q) exogene din modelul (1) atunci când a1,...,aq sunt estimaŃi cu

modelul (2) este atunci:

222 ˆˆˆ εξη −=

Ştim că 222

00 HAHA += , adică εε ˆ'ˆˆ'ˆ' += YYYY .

Rezultatele se grupează, adesea, într-un tabel de analiză a varianŃei:

Sursa variabilităŃii Suma pătratelor corespunzătoare acestei surse

Numărul gradelor de libertate

Media pătratelor asociate

1. X: mulŃimea celor p exogene pp YY ˆ'ˆ p

p

YY ppˆ'ˆ

2. ε : mulŃimea reziduurilor pp YYYY ˆ'ˆ'ˆ'ˆ −=εε T-p

pT −εε ˆ'ˆ

3. Y: variabilă endogenă YY' T

T

YY'

4. (p-q) variabile exogene dintre cele p εεξξηη ˆ'ˆˆ'ˆˆ'ˆ −= p-q

qp −ηη ˆ'ˆ

În figura anterioară avem:

pp HY 0ˆ = este proiecŃia lui Y pe subspaŃiul (L) ai cărui vectori generatori sunt X1,X2,...,Xp.

qq HY 0ˆ = este proiecŃia lui Y pe subspaŃiul generat de X1,X2,...,Xq.

ξ

X1

Hq

Hp

(L)

A

ε Xp

Xq

η O

44

Hq aparŃine lui (L) şi triunghiul AHpHq este dreptunghic în Hp.

HqAHq 0⊥ şi HqHH qp 0⊥ , iar η este chiar qpHH .

3.8. ExperienŃă de calcul

Dispunem de observaŃiile din tabelul de mai jos şi ne propunem să explicăm variabile endogenă Y

pornind de la variabilele exogene X1 şi X2, printr-un model liniar de forma:

ε+++= 32211 aXaXaY , unde:

=

=

=

=

TTTT x

x

x

X

x

x

x

X

y

y

y

Y

ε

εε

ε...

,...

,...

,...

2

1

2

22

21

2

1

21

11

12

1

adică: ε+= XaY , unde:

=

=

3

2

1

21

2111

,

1

.........

1

a

a

a

a

xx

xx

X

TT

t yt x1t x2t

1 100 100 100

2 106 104 99

3 107 106 110

4 120 111 126

5 111 111 113

6 116 115 103

7 123 120 102

8 133 124 103

9 137 126 98

Să observăm că numărul de observaŃii (T=9) este mic, din raŃiuni de simplificare a calculelor.

Vom estima modelul, presupunînd că sunt îndeplinite ipotezele principale ale modelului liniar

general de regresie:

- ipoteze stochastice: ,).(,0)( 2 IEE εσεεε =′= (homoscedasticitate), adică:

0).( =stE εε , dacă st ≠ şi ,)( 22εσε =tE ∀t.

- ipoteze structurale: dacă numărul de variabile exogene veritabile este k, atunci p=k+1 este

numărul parametrilor de estimat. Trebuie ca rangul matricii X să fie egal cu p (p<T), iar matricea

( )XX ′ , unde X ′ este transpusa lui X este nesingulară, deci inversabilă.

45

În exemplul nostru avem k=2 şi p=3.

Atunci, ( ) YXXXa ′′= −1ˆ este un estimator liniar nedeplasat şi cu varianŃa minimală (estimator BLUE).

Pentru a simplifica procedura de calcul vom centra variabilele modelului. Cu notaŃiile:

εεη −=−=−=−= ,,, 222111 XXUXXUYYZ ,

unde: ∑∑ ∑∑ ====t

tt t

ttt

t Tx

TXx

TXy

TY εε 1

,1

,1

,1

2211 ,

modelul se scrie:

η++= 2211 UaUaZ , sau η+= UbZ , unde

−

−=

=

−−

−−=

−

−−

=εε

εεη

TTTT

a

ab

XxXx

XxXx

U

yy

yy

yy

Z ...,,......,...

1

2

1

2211

2211112

1

Deoarece ∑∑ ======t

tt

t xT

XyT

Y ,11310179

11,1171053

9

1111

1069549

1122 === ∑

ttx

TX , valorile centrate ale variabilelor sunt:

t YYZ −= 111 XXU −= 222 XXU −=

1 -17 -13 -6

2 -11 -9 -7

3 -10 -7 +4

4 +3 -2 +20

5 -6 -2 +7

6 -1 +2 -3

7 +6 +7 -4

8 +16 +11 -3

9 +20 +13 -8

Pentru a calcula estimatorul ( ) ZUUUa

ab ′′=

= −1

2

1

ˆ

ˆˆ, avem nevoie de matricile:

46

−−

=

=

=′

∑∑∑∑

648112

112650......

...

...2221

2121

21

2111

221

111

ttt

ttt

TTT

T

uuu

uuu

uu

uu

uu

uuUU

−=

=

=′

∑∑

72

872...

...

...

2

11

221

111

tt

tt

TT

T

zu

zu

z

z

uu

uuZU

( )

=

−−

=′−

−

408656

650

408656

112408656

112

408656

648

648112

1126501

1UU

( )

=

−

=′′=

= −

1244,0

3629,1

72

872

408656

650

408656

112408656

112

408656

648

ˆ

ˆˆ 1

2

1 ZUUUa

ab

Pentru a determina estimatorul celui de al treilea parametru, a3, utilizăm relaŃia:

32211 ˆˆˆ aXaXaY ++= , de unde:

1941,50106.1244,0113.3629,1117ˆˆˆ 22113 −=−−=−−= XaXaYa

Modelul estimat este: 1941,501244,03629,1ˆˆ21 −+== XXaXY , iar reziduurile sunt:

1941,5021244,013629,1ˆˆˆ +−−=−=−= XXYaXYYYε .

Căutăm acum un estimator nedeplasat pentru varianŃa reziduurilor. Am văzut că acest estimator este dat de

relaŃia: ∑−= 22 ˆ

1ˆ tpT

εσ ε . Dar,

( ) ( ) bUZZZYYYYYY ˆˆˆˆˆˆ −=−=−−−=−=ε , iar

( ) ( ) ZUbZZbUZbUZt ′′−′=−′

−=′=∑ ˆˆˆˆˆˆ 2 εεε . Avem că:

−=′

72

872ZU

∑ ==′ 12482tzZZ şi ( ) 5704,1179

72

8721244,03629,1ˆ =

−=′′ ZUb

∑ =−= 4296,685704,117912482tε

4049,1139

4296,68ˆ

1ˆ 22 =

−=

−= ∑ tpT

εσ ε

47

Matricea de varianŃă şi covarianŃă a vectorului b este: ( ) 12ˆ

−′=Ω UUb εσ , iar o estimaŃie a ei se

obŃine înlocuind pe 2εσ cu

2ˆ εσ . Avem că:

( )

=

=′=Ω −

0181,00031,0

0031,00180,0

408656

650

408656

112408656

112408656

648

)4049,11(ˆˆ 12ˆ UUb εσ

Coeficientul de corelaŃie multiplă R2, are valoarea:

totalaaiabilitate

rezidualaaiabilitate

totalaaiabilitate

licataaiabilitateR

var

var1

var

expvar2 −==

Variabilitatea totală = ( ) 124822 ==−∑ ∑ tt zyy

Variabilitatea reziduală = ∑ = 4296,68ˆ 2tε

Variabilitatea explicată = Variabilitatea totală – Variabilitatea reziduală =

=1248 – 68,4296 = 1179,5704

9451,01248

5704,11792 ==R .

Tabelul de analiză a varianŃei (variabile centrate):

Sursa variabilităŃii Suma pătratelor corespunzătoare acestei surse

Numărul gradelor de libertate

Media pătratelor asociate

1.Variabila endogenă centrată ∑ = 12482tz T-1=8

∑−2

1

1tz

T

2.Variabilele exogene centrate ∑ = 5704,1179ˆ 2tz k=2

∑ 2ˆ1

tzk

3. Reziduurile ∑ = 4296,68ˆ 2tε T-k-1=6

∑−−2ˆ

1

1tkT

ε

48

CAPITOLUL IV

STUDIUL MODELULUI LINIAR CÎND IPOTEZELE CLASICE AS UPRA ERORILOR

NU MAI SUNT REALIZATE

4.1. Ipoteza de independenŃă a erorilor

S-a studiat anterior modelul liniar de regresie sub ipoteza că erorile sunt independente. În cazul în

care erorile εt sunt corelate, matricea de varianŃă şi covarianŃă a erorilor Ωε nu se mai reduce la I2εσ , iar

estimatorii parametrilor modelului general Y=Xa+ε, cu E(εt)=0, t=1,2,...,T şi ( ) IE 2' εε σεε ≠=Ω nu

mai posedă aceleaşi proprietăŃi ca în cazul erorilor independente.

Fie a vectorul estimatorilor parametrilor a. Estimatorul a trebuie să fie liniar în raport cu

variabilele endogene Y, adică MYa =ˆ , unde M este o matrice de coeficienŃi. Estimatorul a este

nedeplasat deoarece:

( ) ( ) [ ] ( ) MXaMEMXaMMXaEMYEaE =+=+== εεˆ

(pentru că ( ) 0=εE ).

Pentru ca ( ) aaE =ˆ trebuie să impunem condiŃia MX=I , rezultând că:

εε MaMMXaMYa +=+==ˆ

Matricea de varianŃă şi covarianŃă a estimatorilor (Ńinînd cont că εMaa =−ˆ ) este:

[ ] [ ] [ ] MMMMEMMEMMEaaaaEa ′Ω=′′=′′=′=′−−=Ω εεεεεεε )()()ˆ()ˆ(ˆ

Punînd condiŃia ca aΩ să fie minimală, sub restricŃia MX=I şi rezolvînd această problemă de extremum

condiŃionat, rezultă că matricea M este de forma: [ ] 111 −−− Ω′Ω′= εε XXXM

Prin înlocuire şi calcul se obŃine:

[ ] YXXXMYa 111ˆ −−− Ω′Ω′== εε

[ ] 11ˆ

−−Ω′=Ω XXa ε

Estimatorul a astfel obŃinut este un estimator liniar, nedeplasat şi de dispersie minimă. El a fost obŃinut

prin MCMMP generalizată. Se observă imediat că dacă erorile sunt independente, adică

I2εε σ=Ω , atunci [ ] YXXXa ′′= −1ˆ , adică regăsim estimatorul obŃinut prin MCMMP

obişnuită.

49

În cazul în care erorile sunt corelate, determinarea estimatorului a necesită cunoaşterea matricei

de varianŃă şi covarianŃă a erorilor εΩ . În aplicaŃii, deoarece εΩ este necunoscută, se lucrează cu

estimaŃia ei εΩ , ceea ce nu antrenează erori prea grave.

Corelarea erorilor tε poate îmbrăca diverse forme. Cel mai frecvent se studiază cazul când

ttt ηρεε += −1 (se spune că erorile urmează un proces autoregresiv de ordinul întâi).

Modelul liniar general Y=Xa+ε, scris şi sub forma:


(în care ttt ηρεε += −1 , iar asupra erorilor tη facem ipotezele cunoscute: ( ) 0=tE η ,

( ) 021 =ttE ηη , pentru 21 tt ≠ şi ( ) tVar t ∀= ,2ηση ), poate fi pus sub următoarea formă:

- ecuaŃia (1) scrisă pentru t-1 este:

( ) ( ) ( ) ( )111221111 ... −−−−− ++++= ttppttt xaxaxay ε pe care o înmulŃim cu ρ (presupunem

1<ρ ):

(2) ( ) ( ) ( ) ( )111221111 ... −−−−− ++++= ttppttt xaxaxay ρερρρρ

Prin scăderea (1)-(2) obŃinem:

(3) ( )( ) ( )( ) ( )( ) ttpptptttttt xxaxxaxxayy ηρρρρ +−++−+−=− −−−− 1122211111 ...

Dacă s-ar cunoaşte parametrul ρ, atunci ecuaŃia (3) ar putea fi scrisă sub forma:

(4) tptpttt uauauaz η++++= ...2211

unde: 1−−= ttt yyz ρ

( )1−−= tiitit xxu ρ , i=1,2,...,p.

1−−= ttt ρεεη

Deoarece, prin ipoteze, erorile tη sunt independente, se poate aplica MCMMP obişnuită ecuaŃiei

(4) care va conduce la estimatorul ( )paaaa ˆ,...,ˆ,ˆˆ 21= nedeplasat şi de minimă dispersie.

Dar, cum parametrul ρ nu este cunoscut, pentru estimarea parametrilor unei ecuaŃii de regresie

atunci când erorile sunt corelate (sub forma unui proces autoregresiv de ordinul I, ttt ηρεε += −1 ,

50

staŃionar, adică media ( )tE η şi dispersia ( )tVar η sunt independente de timp, iar 1<ρ ) se pot aplica

următoarele metode:

Metoda I:

1. Se aplică MCMMP obişnuită ecuaŃiilor (1) fără a Ńine cont că erorile tε sunt corelate.

Se obŃine estimatorul 1a al lui a şi se determină valorile ajustate 11 ˆˆ aXY = şi

estimaŃiile erorilor ttt yy 1ˆˆ −=ε .

2. Dăm o estimare a parametrului ρ aplicând MCMMP obişnuită ecuaŃiei

ttt ηερε += −1ˆˆ , obŃinând ρ .

3. Înlocuim ρ cu ρ în ecuaŃia (3) şi aplicăm MCMMP obişnuită acestei ecuaŃii. Se

obŃine estimatorul a pentru parametrul a.

Evident, pentru eşantioane mici, estimatorul a nu prezintă garanŃii că are proprietăŃile dorite.

Metoda II:

EcuaŃia (3) de mai înainte se poate scrie şi sub forma:

(5) ( ) ( ) ( )( )[ ] ttppttptptt xaxayxaxay ηρ +++−=++− −−− 1111111 ......

Se aplică MCMMP obişnuită ecuaŃiilor (3) şi (5) astfel:

1. Dăm o valoare iniŃială lui ρ, de exemplu ρ0=0 în ecuaŃia (3) şi obŃinem o primă

estimaŃie a parametrilor 0a .

2. Înlocuim ( )002

010 ˆ,...,ˆ,ˆˆ paaaa = în ecuaŃia (5) şi efectuând regresia, obŃinem o nouă

valoare pentru ρ, notată ρ1.

3. Înlocuim ρ cu ρ1 în ecuaŃia (3) şi efectuăm o nouă regresie, obŃinând estimatorul

( )112

111 ˆ,...,ˆ,ˆˆ paaaa = ş.a.m.d.

4. Se opresc iteraŃiile dacă valorile găsite în două iteraŃii succesive nu diferă decât printr-

un număr oricât de mic dorit (se spune că estimatorii ia , i=1,2,... converg).

Metoda III (baleiaj):

Presupunem că 0>ρ , ia succesiv valorile:

1;...;02,0;01,0;0=ρ .

Aplicăm MCMMP obişnuită ecuaŃiei (3) pentru fiecare valoare a lui ρ şi calculăm reziduurile tη .

Se reŃine valoarea lui ρ care dă cea mai mică sumă a pătratelor erorilor ∑t

t2η , căreia îi corespund

estimatorii paaa ˆ,...,ˆ,ˆ 21 ai parametrilor.

51

***

Există şi alte proceduri de estimare a parametrilor în cazul când erorile sunt corelate.

4.1.1. Testarea ipotezei de independenŃă a erorilor

Atunci când ipotezele fundamentale ale modelului liniar al regresiei nu sunt îndeplinite

proprietăŃile estimatorilor parametrilor suferă. Astfel, sub ipoteza I2 referitoare la distribuŃia erorilor şi la

independenŃa lor, estimatorii obŃinuŃi sunt nedeplasaŃi şi au varianŃa minimală. Dacă erorile sunt corelate,

estimatorii rămân, în general, nedeplasaŃi, dar matricea de varianŃă şi covarianŃă a acestora nu mai este

I2εσ . Pentru a ne asigura de independenŃa erorilor trebuie să efectuăm teste. Este vorba despre testul lui

Durbin şi Watson.

Modelul liniar general al regresiei:

tptpttt xaxaxay ε++++= ...2211

se poate scrie sub forma:

ttt axy ε+=

unde: ( )paaaa ,...,, 21= şi

=

pt

t

t

t

x

x

x

x...2

1

.

Se aplică MCMMP obişnuită şi se obŃine un estimator ( )paaaa ˆ,...,ˆ,ˆˆ 21= , calculându-se

valorile ajustate tt xay ˆˆ = şi erorile estimate ttt yy ˆˆ −=ε .

Reziduurile estimate depind de şirul erorilor tε şi de şirul valorilor exogene tx , deoarece:

( ) ttttt xaayy εε +−=−= ˆˆˆ .

Se consideră variabila aleatoare, notată d , numită şi statistica Durbin-Watson definită prin

ecuaŃia:

( )

∑

∑

=

=−−

= T

tt

T

ttt

d

1

2

2

21

ˆ

ˆˆˆ

ε

εε.

52

Durbin şi Watson au determinat densitatea de probabilitate a variabilei aleatoare d , notată ( )df ˆ

şi au arătat că oricare ar fi şirul de exogene considerate, curbele reprezentative ale lui ( )df ˆ oscilează între

două curbe limită ( )idf ˆ şi ( )sdf ˆ . Aceste funcŃii depind de numărul de observaŃii (T), de numărul de

variabile exogene veritabile ce figurează în model (m) şi de şirul erorilor tε . Cele două curbe limită

(reprezentate grafic în figură) sunt atinse pentru anumite şiruri de exogene xt şi sunt simetrice în raport cu

axa de abscisă 2.

Scopul este de a şti dacă erorile modelului sunt autocorelate. Cel mai frecvent se caută testarea

legăturii erorilor printr-o relaŃie de forma ttt ηρεε += −1 . Se spune că erorile urmează un proces

autoregresiv de ordinul întâi.

Vrem să testăm ipoteza I0: 0=ρ (absenŃa autocorelaŃiei erorilor), contra ipotezei I1: 0>ρ

(erorile tε sunt autocorelate).

La un nivel de semnificaŃie α dat, Durbin şi Watson au determinat două valori, d1 şi d2, în funcŃie

de numărul de observaŃii (T) şi de numărul de exogene veritabile (m) corespunzătoare fiecăreia din curbele

limită.

Se calculează statistica d cu relaŃia dată şi se observă că:

1. dacă 1ˆ dd < , atunci se acceptă I1;

d1 d2 2 d’1 d’2

( )df ˆ

53

2. dacă 21ˆ ddd << , atunci există îndoieli că legătura dintre erori este de forma

ttt ηρεε += −1 ;

3. dacă 2ˆ dd > , atunci se acceptă I0.

În tabelul următor sunt date câteva valori uzuale pentru d1 şi d2 în funcŃie de T şi m, pentru nivelul

de semnificaŃie α=0,05:

Tabela D-W

m=1 m=2 m=3 m=4 m=5 T

d1 d2 d1 d2 d1 d2 d1 d2 d1 d2

15 1,08 1,36 0,96 1,54 0,82 1,75 0,69 1,97 0,56 2,21

20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99

30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83

50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77

100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78

ObservaŃii :

1. În loc să testăm 0=ρ contra 0>ρ , se poate testa I0: 0=ρ , contra I1: 0≠ρ . Se obŃin

două valori '1d şi '

2d simetrice în raport cu 2 şi se constată că:

a. dacă 1ˆ dd < sau '

2ˆ dd > , atunci se acceptă I1;

b. dacă 22ˆ ddd ≤≤ sau '

2'1

ˆ ddd ≤≤ , atunci există îndoieli că erorile sunt corelate;

c. dacă '12

ˆ ddd << , atunci se acceptă I0.

2. Dacă modelul studiat nu conŃine constanta, trebuie să determinăm d ca şi când modelul ar

conŃine o constantă.

3. Statistica Durbin-Watson aplicată pe un model care conŃine variabile endogene retardate este

deplasată către 2, ceea ce înseamnă că erorile sunt mai puŃin corelate într-un proces autoregresiv, decât într-

un proces ordinar.

4.1.2. ExperienŃă de calcul

54

I. Se cunosc următoarele date referitoare la evoluŃia în timp a unei variabile economice (în preŃuri

constante):

t 1 2 3 4 5 6 7 8

yt 662,3 669,4 912,7 935,2 1027,2 1145,0 1193,7 1224,1

t 9 10 11 12 13 14 15

yt 1281,7 1426,3 1376,2 1327,8 1420,6 1933,9 2023,4

Pe această serie cronologică, utilizînd modelul tt btay ε++⋅= ,s-a aplicat MCMMP,

obŃinându-se estimatorii:

8657,81ˆ =a ; 404,582ˆ =b

De asemenea, s-a calculat varianŃa estimatorilor şi ecartul-tip al acestora: 94887,7ˆ ˆ =aσ ;

2721,72ˆ ˆ =b

σ şi valorile ajustate ale variabilei endogene 404,582.8657,81ˆ += tyt şi ale

reziduurilor ttt yy ˆˆ −=ε :

t 1 2 3 4 5 6 7 8

ty 664,2 746,1 828,0 909,8 991,7 1073,6 1155,5 1237,3

t 9 10 11 12 13 14 15

ty 1319,2 1401,0 1482,9 1564,6 1646,6 1728,5 1810,4

t 1 2 3 4 5 6 7 8

tε -1,93 -76,79 +84,79 +25,35 +35,49 +71,44 +38,30 -13,25

t 9 10 11 12 13 14 15

tε -37,54 +25,25 -106,64 -237,01 -226,00 +205,42 +213,03

Ne propunem să cercetăm o eventuală autocorelare a erorilor.

Rezolvare:

Pentru a putea utiliza testul Durbin-Watson trebuie ca numărul de observaŃii T să fie suficient de

mare (în practică T>15), iar modelul să conŃină un termen constant.

Statistica Durbin-Watson definită de ecuaŃia

( )

∑

∑

=

=−−

=T

tt

T

ttt

d

1

2

1

21

ˆ

ˆˆˆ

ε

εε conduce, conform datelor din

tabel, la: 156,179,229991

35,265867ˆ ==d .

55

Durbin şi Watson au arătat că pentru un proces staŃionar (primele două momente ale variabilei

aleatoare tε independente de timp), valoarea calculată a statisticii d este cuprinsă între 0 şi 4, cu absenŃa

corelaŃiei în vecinătatea lui 2. Între aceste valori limită, tabela D-W furnizează, la pragul de seminificaŃie α,

diferite intervale de valori d corespunzătoare prezenŃei autocorelaŃiei pozitive sau negative, absenŃei

autocorelaŃiei şi situaŃiilor de indecizie, astfel:

1. dacă 1ˆ0 dd << , atunci erorile sunt pozitiv autocorelate;

2. dacă 21ˆ ddd << , atunci există îndoieli că erorile ar fi corelate;

3. dacă 22 4ˆ ddd −<< , atunci erorile tε sunt independente;

4. dacă 12 4ˆ4 ddd −<<− , atunci există îndoieli că erorile ar fi corelate;

5. dacă dd ˆ4 1 <− , atunci erorile sunt negativ corelate.

În exemplul nostru, numărul de exogene veritabile în model este (m=1) şi dispunem de T=15

observaŃii.

Tabela D-W furnizează valorile d1=1,08 şi d2=1,36 la pragul de semnificaŃie α=0,05.

Deoarece 36,1156,1ˆ08,1 21 =<=<= ddd , suntem într-o situaŃie de indecizie, nu

putem să spunem că erorile tε sunt corelate.

II. În tabelul următor sunt date, pentru perioada 1985-2002:

volumul investiŃiilor în agricultură, yt;

produsul intern brut agricol, x1t;

indicele volumului importurilor pentru agricultură, x2t.

Anul

t

InvestiŃii în agricultură

yt

Produsul intern brut agricol

x1t

Indicele volumului importurilor pentru agricultură

x2t

1985 85,2 563,8 90,6

1986 90,2 594,7 91,7

1987 96,6 635,7 92,9

1988 112,0 688,1 94,5

1989 124,5 753,0 97,2

1990 120,8 796,3 100,0

1991 131,5 868,5 104,2

1992 146,2 935,5 109,8

1993 140,8 982,4 116,3

1994 160,0 1063,4 121,3

1995 188,3 1171,1 125,3

56

Anul

t

InvestiŃii în agricultură

yt

Produsul intern brut agricol

x1t

Indicele volumului importurilor pentru agricultură

x2t

1996 220,0 1306,6 133,1

1997 214,6 1412,9 147,7

1998 190,9 1528,8 161,2

1999 243,0 1702,2 170,5

2000 303,3 1899,5 181,5

2001 351,5 2127,6 195,4

2002 386,2 2368,5 217,4

Se cere:

1. Determinarea legăturii dintre investiŃii, PIB şi volumul importurilor;

2. Testarea autocorelaŃiei erorilor;

3. Dacă există autocorelaŃie, cum se pot înlătura efectele acesteia?

Rezolvare:

- Studierea legăturii dintre variabilele economice amintite se poate efectua cu

modelul de regresie multiplă:

tttt cxbxay ε+++= 21

Aplicarea MCMMP conduce la următoarea estimare a modelului:

ttt xxy 21 93,237,044,125ˆ −+=

Coeficientul de corelaŃie multiplă are valoarea calculată: R2=0,98

2. După calcularea reziduurilor estimate, tε , statistica Durbin-Watson este: 72,0ˆ =d .

Conform tabelei D-W, pentru α=5%, T=18 observaŃii şi m=2 variabile exogene veritabile, rezultă:

d1=1,05> 72,0ˆ =d , ceea ce conduce la concluzia că erorile sunt corelate pozitiv.

3. Pentru a înlătura efectele autocorelaŃiei erorilor, se procedează astfel:

- scriem dependenŃa dintre variabile

(1) tttt cxbxay ε+++= 21 , pentru momentul t-1:

(2) 1)1(2)1(11 −−−− +++= tttt cxbxay ε

- înmulŃim (2) cu ρ şi efectuăm scăderea (1)-(2):

( ) )()()(1 1)1(22)1(111 −−−− −+−+−+−=− tttttttt xxcxxbayy ρεερρρρ

- căutăm o estimaŃie a coeficientului ρ. Observăm că ρ este coeficientul

variabilei yt-1 în relaŃia anterioară. Efectuăm o regresie cu MCMMP pe ultima

ecuaŃie, fără să Ńinem cont de relaŃiile dintre coeficienŃi, adică pe ecuaŃia:

57

ttttttt xaxaxaxayay ηρ ++++++= −−− )1(2423)1(121110

unde a0=a(1- ρ) , a1=b, a2=-bρ, a3=c, a4=-cρ şi 1−−= ttt ρεεη

Efectuînd calculele, obŃinem:

)1(22)1(111 11,208,360,068,070,056,47ˆ −−− −+−++= tttttt xxxxyy EstimaŃia

găsită pentru coeficientul ρ este 70,0ˆ =ρ

- cu ajutorul estimaŃiei găsite, transformăm variabilele modelului iniŃial pentru o nouă regresie:

Anul 1ˆ −−= ttt yyz ρ )1(111 ˆ −−= ttt xxu ρ )1(222 ˆ −−= ttt xxu ρ

1985 - - -

1986 30,56 200,04 28,28

1987 33,46 219,41 28,71

1988 44,38 243,11 29,47

1989 46,10 271,33 31,05

1990 33,68 269,70 31,96

1991 46,94 311,09 34,20

1992 54,15 327,55 36,86

1993 38,46 327,55 39,44

1994 61,44 375,72 39,89

1995 76,30 426,72 40,39

1996 88,19 486,83 45,39

1997 60,60 498,28 54,53

1998 40,68 539,77 57,81

1999 109,37 632,04 57,66

2000 133,20 707,96 62,15

2001 139,19 797,95 68,35

2002 140,15 879,18 80,62

ObservaŃie:

Pentru a evita eliminarea primei valori din şirul de observaŃii, prin trecerea la diferenŃe, se pot

folosi transformările: 2

11 ˆ1 ρ−= yz , 2

1111 ˆ1 ρ−= xu , 2

1221 ˆ1 ρ−= xu

- se aplică MCMMP ecuaŃiei:

tttt uauaaz η+++= 22110 , şi rezultă:

58

ttt uuz 21 99,024,019,7ˆ −+=

Coeficientul de corelaŃie multiplă este acum R2=0,88 iar statistica Durbin-Watson 54,1ˆ =d .

Testul de independenŃă conduce acum la concluzia că erorile sunt independente, deoarece:

4-d2=2,47>d =1,54>d2=1,53

4.2. Ipoteza de normalitate a erorilor

Unele proprietăŃi ale estimatorilor nu depind de normalitatea erorilor. De exemplu, distribuŃiile

asimptotice ale estimatorilor necesită doar existenŃa primelor două momente (media şi dispersia) ale

erorilor tε şi nu în mod obligatoriu ca tε să urmeze o lege normală. Acest lucru nu este însă valabil pe

eşantioane mici. Testarea ipotezelor şi intervalele de încredere nu mai au aceleaşi proprietăŃi dacă legea de

distribuŃie a erorilor nu este legea normală. Pentru a caracteriza deviaŃiile de la legea normală se utilizează

doi coeficienŃi:

a) coeficientul de asimetrie, calculat prin raportul:

23

1εσ

µγ =

unde: 3µ este momentul centrat de ordinul 3. Dacă 01 >γ , atunci seria de date este deplasată spre

dreapta faŃă de legea normală, iar dacă 01 <γ , există o deviere spre stânga.

b) coeficientul de aplatizare, calculat prin raportul:

324

2 −=εσ

µγ

O valoare pozitivă pentru 2γ indică faptul că distribuŃia este mai puŃin aplatizată decât distribuŃia

normală, în timp ce o valoare 02 <γ caracterizează o distribuŃie mai aplatizată decât cea normală.

Aceste deviaŃii afectează testele şi intervalele de încredere ale estimatorilor. Studiul teoretic al

acestor deviaŃii este complex. Pentru a obŃine teste şi intervale de încredere mai robuste, în practică se

procedează astfel:

1. Se efectuează o regresie cu metodele uzuale şi se determină o estimaŃie a reziduurilor

tε .

2. Se examinează cele T reziduuri estimate şi se reperează cele a căror valoare absolută

este foarte mare.

59

3. Se elimină din seria de date observaŃiile corespunzatoare acestor erori foarte mari sau

se corectează aceste observaŃii astfel ca să se ajungă la valori cât mai normale ale

erorilor.

4. Se efectuează o nouă regresie pe eşantionul corectat. ProprietăŃile estimatorilor

obŃinuŃi vor depinde de regula adoptată în etapa anterioară. De exemplu, se poate

adopta regula de a respinge sau corecta observaŃiile corespunzătoare reziduurilor a

căror valoare absolută tε este mai mare decât de trei ori media erorilor absolute.

4.3. Ipoteza de heteroscedasticitate

Să presupunem, deci, că deşi tε sunt independente, dispesia erorilor 2

tεσ variază în funcŃie de t.

În acest caz, estimatorii obŃinuŃi sunt încă nedeplasaŃi. Dar, momentele centrate de ordinul doi nemaifiind

constante se comite o eroare de calcul a ecartului-tip al estimatorilor. Se poate evalua deplasarea în

estimaŃia aΩ . Această deplasare depinde de natura şi importanŃa heteroscedasticităŃii, adică de şirul de

valori ( )txt,2

εσ . Deplasarea este nulă dacă sunt realizate relaŃiile următoare:

(1) ( ) 01 22 =−∑ xxT t

ttεσ ;

(2) ( ) ( )

−

=− ∑∑∑2222 11

tt

tt

t

xxT

xxT tt εε σσ .

Aceste relaŃiile sunt realizate atunci când nu există nicio legătură sistematică între 2

tεσ şi tx .

Homoscedasticitatea erorilor se admite în seriile cronologice atunci când ordinul de mărime al

variabilelor este apropiat pentru diverse observaŃii. Dar, în studiul datelor micro-economice, variabilele pot

avea ordine de mărime foarte diferite. Acest fapt conduce la erori de estimare importante pentru coeficienŃii

unui model econometric.

Dacă putem evalua varianŃa erorilor 2

tεσ atunci, în loc să determinăm parametrii din condiŃia ca

suma pătratelor erorilor să fie minimă, aceştia pot fi determinaŃi din condiŃia ca ∑t

t

t

2

2

εσε

să fie minimă.

Pentru modelul elementar ttt baxy ε++= , estimatorii a şi b vor fi cei care minimizează

expresia ( )∑ −−

ttt baxy

t

2

2

1

εσ.

60

În cazul în care 2

tεσ (dispersiile reziduurilor) variază proporŃional cu valorile variabilei exogene,

se poate pune condiŃia ca ( ) 2

2

2

∑∑

−−=−−

t tt

t

t t

tt

x

ba

x

y

x

baxy să fie minimă.


Ne propunem să studiem legatura dintre volumul investiŃiilor şi suprafaŃa cultivată. Pe un eşantion

de 30 de întreprinderi agricole s-au obŃinut următoarele date:

SuprafaŃa (ha) Cheltuielile de investiŃii (RON)

100 75,6 75,6 77,4 78,3 80,1 81

200 80,1 81,9 83,7 83,7 84,6 84,6

300 85,5 88,2 89,1 92,7 92,7 94,5

400 92,7 95,4 98,1 101,7 103,5 105,3

500 104,4 106,2 108,9 112,5 117,9 117,9

Aplicând MCMMP pe întregul eşantion cu modelul elementar ttt baxy ε++= , obŃinem:

965,6708145,0ˆ += tt xy şi 9,02 =R .

Dorim să testăm ipoteza de homoscedasticitate a erorilor. În acest scop efectuăm două regresii

separate, una pe primele 12 observaŃii, alta pe ultimele 12 (valorile lui X fiind ordonate crescător).

Fie SPE1 şi SPE2 suma pătratelor erorilor relative la cele două regresii.

Regresia lui Y în raport cu X pentru primele 12 observaŃii, conduce la:

( ) 6,72054,0ˆ 1 += tt xy şi 66,02 =R ; 14,491 =SPE ,

iar regresia pe ultimele 12 observaŃii dă:

( ) 45,541125,0ˆ 2 += tt xy şi 60,02 =R ; 695,2502 =SPE .

În cazul în care erorile ar fi distribuite normal şi homoscedastice, variabilele aleatoare 2

1

σSPE

,

respectiv 2

2

σSPE

ar trebui să urmeze fiecare o distribuŃie hi-pătrat cu (T-d-k-p) grade de libertate, unde T

este numărul de observaŃii, d este numărul de observaŃii omise (în cazul nostru d=6), k este numărul de

observaŃii luat în fiecare regresie separată, iar p este numărul parametrilor de estimat. În exemplul nostru T-

d-k-p=10. În aceste condiŃii, variabila aleatoare

1

2

10

110

1

SPE

SPE are o distribuŃie Fisher cu 10 şi respectiv 10

61

grade de libertate (F10,10). Cu datele calculate, obŃinem 01,5114,49

695,250

1

2 ==SPE

SPE. Din tabelele

distribuŃiei Fischer-Snedecor, la pragul de semnificaŃie α=0,05 gasim Ftab=2,97. Deoarece

Fcalc=51,01>Ftab=2,97 se admite ipoteza de heteroscedasticitate a erorilor.

Dacă presupunem acum că varianŃa erorilor 2

tεσ este proporŃională cu pătratul valorilor

variabilei exogene, adică 22tx

tλσ ε = , λ fiind o constantă nenulă, atunci efectele heteroscedasticităŃii pot fi

corectate prin transformarea modelului. ÎmpărŃind fiecare termen al ecuaŃiei de regresie prin xt, rezultă:

t

t

tt

t

xx

ba

x

y ε++=

sau ttt buaz η++= , unde: t

tt x

yz = ,

tt x

u1= şi

t

tt x

εη = .

Se observă că ( ) λσεη ε ==

= 2

2

1t

tt

tt xx

VarVar .

Prin urmare, modelul transformat are erorile tη homoscedastice, deoarece dispersia lor este

independentă de timp. Efectuând regresia pe modelul transformat, rezultă:

−=

−

−=∑∑

ubza

uTu

uzTuzb

t

tt

ˆˆ

ˆ22

Revenind în variabilele iniŃiale obŃinem:

−=

−

⋅−⋅=

∑ ∑

∑ ∑

∑ ∑ ∑

t t tt

t

t tt

t t tt

t

tt

t

xTb

x

y

Ta

xTx

xx

y

Txx

y

b

11ˆ1ˆ

111

111

ˆ22

Efectuând calculele, rezultă:

44,70ˆ =b ; 072,0ˆ =a ; 99,02 =R , adică:

tt

t

xx

y 44,70072,0

ˆ+= sau 44,70072,0ˆ += tt xy .

62

Să remarcăm faptul că panta dreptei de regresie (după corectarea heteroscedasticităŃii) este mai

mică decât cea obŃinută înaintea corectării.

4.4. Ipoteza de independenŃă a erorilor în raport cu varibilele exogene

Se ştie că sub această ipoteză fundamentală estimatorii obŃinuŃi au proprietăŃi optimale

(nedeplasaŃi, cu varianŃă minimală). Când ipoteza nu mai este satisfăcută aceste proprietăŃi nu mai sunt

valabile. Cu cât coeficientul de corelaŃie liniară ( ρ ) dintre tε şi tx este mai mare, cu atât deplasarea

estimatorilor va fi mai mare. În astfel de cazuri este de preferat să se aleagă un alt model econometric

pentru studierea legăturii dintre variabile.

La fel trebuie procedat şi atunci când se constată că varianŃa erorilor nu este finită.

4.5. Ipoteza referitoare la faptul că variabilele modelului sunt observate fără eroare

Atunci când variabilele care apar în model nu sunt variabile observate fără eroare, va exista o

corelaŃie între reziduuri şi exogenele din model.

În acest caz, pentru a obŃine estimatori convergenŃi, s-a dezvoltat o metodă de estimare specială,

numită „metoda variabilelor instrumentale” , pe care o prezentăm mai jos.

Fie modelul liniar general:

tptpttt xaxaxay ε++++= ...2211 , t=1, 2, ...,T,

care, cu notaŃiile obişnuite, se scrie în forma matricială Y=Xa+ε. Notăm cu Y~

şi X~

valorile reale

(necunoscute acum pentru că observaŃiile Y şi X conŃin erori!) ale variabilelor din model.

Putem scrie că µ+= YY~

, γ+= XX~

, unde µ şi γ sunt variabile aleatoare. Vom presupune că

µ şi γ satisface ipotezele fundamentale (medie zero, varianŃă finită, independente).

Înlocuind X şi Y prin expresiile lor, obŃinem modelul η+= aXY~~

, unde

µεγη −+= a . Aceasta arată că în modelul iniŃial, Y=Xa+ε , reziduurile ε sunt corelate cu X prin

intermediul lui γ.

Presupunem acum că se cunosc alte p variabile exogene Zi, i=1,2,...,p necorelate cu µ, γ şi η, deci

necorelate cu ε.

Acest lucru înseamnă că ( ) 0=⋅εiZE , i=1,2,...,p. Considerăm modelul iniŃial Y=Xa+ε scris

sub forma:

(1) ε++++= pp XaXaXaY ...2211 ,

63

unde

=

Tx

x

X

1

11

1

.

.

.

,

=

Tx

x

X

2

21

2

.

.

.

,...,

=

pT

p

p

x

x

X

.

.

.1

ÎnmulŃim, succesiv, ecuaŃia (1) cu Z1, Z2, ...Zp şi aplicăm operatorul de medie E fiecărei ecuaŃii. Se

obŃine sistemul:

(2)

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

++=⋅

++=⋅

++=⋅

ppppp

pp

pp

XZEaXZEaYZE

XZEaXZEaYZE

XZEaXZEaYZE

...

....

...

...

11

21212

11111

Metoda de estimare VI (variabilelor instrumentale) constă în a lua ca estimatori ( )paa ˆ,...,ˆ1 exact

soluŃiile sistemului de ecuaŃii (2), în care speranŃele matematice sunt înlocuite cu momentele empirice

corespunzătoare:

( ) ∑ ⋅=⋅t

titi yzT

YZE1

, i=1,2,...,p

( ) ∑ ⋅=⋅t

jtitji xzT

XZE1

, i,j=1,2,...,p

Dacă notăm:

=

pTT

p

zz

zz

Z

...

.........

...

1

111

şi

=

pTT

p

xx

xx

X

...

.........

...

1

111

sistemul (2) transformat se scrie sub formă

matricială: ( )aXZYZ ˆ'' = , iar pentru că ( )YZ ' este inversabilă, obŃinem estimatorul:

( ) YZXZa ⋅⋅= − ''ˆ 1.

Să observăm similitudinea cu estimatorii obŃinuŃi prin MCMMP:

1. MCMMP obişnuită: ( ) YXXXa ⋅⋅= − ''ˆ 1

2. MCMMP generalizată: ( ) ( ) YXXXa ⋅Ω⋅Ω= −−− 111 ''ˆ εε

3. metoda VI: ( ) YZXZa ⋅⋅= − ''ˆ 1.

Se trece de la 1. la 2. înlocuind 'X prin 1' −ΩεX .

Se trece de la 1. la 3. înlocuind 'X prin 'Z .

Cunoaşterea primei formule permite exprimarea celorlalte două.

64

Estimatorul a obŃinut prin metoda VI este un estimator deplasat pentru a, dar converge în

probabilitate către a pentru T suficient de mare.

Pentru a putea utiliza metoda VI trebuie găsite atâtea variabile instrumentale câte exogene conŃine

modelul. Aceste variabile instrumentale trebuie să fie necorelate cu reziduurile, dar puternic corelate cu

exogenele modelului. Aceste restricŃii limitează alegerea variabilelor instrumentale şi, prin urmare, metoda

VI nu este o metodă generală de estimare.


Considerăm o anchetă pe bugetele de familie pentru a studia consumul dintr-un anumit produs.

Ancheta cuprinde un eşantion de T familii. Facem următoarele notaŃii:

y1t: cheltuielile totale ale familiei t;

y2t: cheltuielile relative la produsul studiat;

Vt: veniturile familiei t;

şi scriem ecuaŃiile:

(1) ttt Vy 11 ε+=

(2) ttt baVy 22 ε++=

Ne propunem să exprimăm cheltuielile relative la produsul studiat în funcŃie de cheltuielile totale.

Din ecuaŃia (1) avem că ttt yV 11 ε−= şi înlocuind în (2), rezultă:

tttt abayy 1212 εε −++=

sau, punând ttt a 12 εεη −= :

(3) ttt bayy η++= 12 .

Să observăm că tη este corelat cu y1t prin intermediul lui ε1t.

Vom estima a şi b din ecuaŃia (3) introducând o variabilă instrumentală.

Fie VDt venitul declarat de familia t. Este evidentă corelaŃia puternică dintre variabilele VDt şi Vt.

Dimpotrivă, venitul declarat VDt nu este corelat cu ttt Vy −= 11ε , care este ecartul între

cheltuielile totale şi veniturile familiei t. Rezultă că VDt nu va fi corelat cu tη . Utilizăm venitul declarat ca

variabilă instrumentală.

Pentru simplificarea calculelor, centrăm variabilele din model:

ttt bayy η++= 12 , t=1,2,...,T

65

∑∑∑ ++=t

tt

tt

t Tby

Tay

Tη111

12

η++= byay 12

(4) ( ) ( )ηη −+−=− ttt yyayy 1122

Dacă aplicăm MCMMP ecuaŃiei (4), obŃinem estimatorul:

(5).

( )( )( )211

2211

ˆ∑

∑

−

−−=

tt

tt

t

yy

yyyya

Folosim însă metoda variabilelor instrumentale. Pentru aceasta, considerăm variabila

instrumentală centrată ( )VDVDt − . ÎnmulŃind ecuaŃia (4) cu variabila instrumentală centrată şi aplicând

operatorul de medie E, rezultă:

( )( )[ ] ( )( )[ ] ( )( )[ ]VDVDEVDVDyyaEVDVDyyE tttttt −−+−−=−− ηη1122 .

Dar, cum tη şi VDt nu sunt corelate, înseamnă că ( )( )[ ] 0=−− VDVDE tt ηη , iar acum

înlocuind E cu media empirică, obŃinem:

( )( )[ ] ( )( )[ ]VDVDyyaEVDVDyyE tttt −−=−− 1122

( )( ) ( )( )1122

11yyVDVD

TayyVDVD

T tt

tt

tt −−=−− ∑∑ ,

de unde:

( )( )( )( )11

22

ˆyyVDVD

yyVDVDa

tt

t

ttt

−−

−−=∑

∑.

Am obŃinut practic estimatorul (5) în care variabila ( )11 yy t − s-a înlocuit cu variabila

instrumentală ( )VDVDt − atât la numărător, cât şi la numitor.

66

BIBLIOGRAFIE

1. Andrei, T. Statistică şi econometrie, Editura Economică, Bucureşti, 2004

2. Cenuşă, Ghe. (coord.) Matematici pentru economişti, Editura CISON, Bucureşti, 2000

3. Chow, G. Econometrics, McGraw Hill, New York, 1989

4. Dobrescu, E. TranziŃia în România-Abordări econometrice, Editura Economică,

Bucureşti, 2002

5. GheroghiŃă, M. Modelarea şi simularea proceselor economice, Editura ASE,

Bucureşti, 2001

6. Giraud, R. - Econometrie, Economica, 49 rue Hericart, Paris, 1990

7. Gourieroux, C. Statistique et Modeles Econometriques,

Monfort, A. Economica, Paris, 1989

8. Gujarati, R.N. Essentials of Econometrics, McGraw Hill, New York, 1998

9. Isaic-Maniu, Al. Statistica pentru managementul

Mitru Ń, C. afacerilor, Editura Economică, 1995

Voineagu, V.

10. Malinvaud, E. Methodes statistiques de l’econometrie, Dunod, Paris, 1978

11. Onicescu, O. Incertitudine şi modelare economică

Botez, M. (Econometrie informaŃională), Editura Ştiin Ńifică şi Enciclopedică,

Bucureşti, 1985

12. Pecican, E.S. Econometria pentru ... economişti; Econometrie-teorie şi aplicaŃii,

Editura Economică, Bucureşti, 2003

13. Pecican, E.S. Econometrie, Editura All, Bucureşti, 1994

14. Taşnadi, Al. Econometrie, Editura A.S.E., 2001

15. Taşnadi, Al. Econometrie – proiect, Editura A.S.E.,

CreŃu, A. 2003

Peptan, E.

16. Tănăsoiu, O. Modele econometrice, Editura A.S.E.,

Pecican, E.S. 2001

Iacob, A.

17. Tănăsoiu, O. Econometrie-studii de caz, Editura A.S.E., 1998

18. Tănăsoiu, O. Econometrie aplicată, Editura Arteticart,

Iacob, A. Bucureşti, 1999

19. www.asecib.ase.ro/soft.htm

Curs Econometrie - ASE

Documents

Transcript of Curs Econometrie - ASE