Regresijos lygties parametrų vertinimas

VU EF V.Karpuškienė 1

Regresijos lygties parametrų vertinimas2014-02-19

D.Gujarati Part 1 “ Single-Eguation regression Models” 3 skyrelis “Two –variable Regression model:The Problem of Estimation” ir

4 skyrelis The Normality Assumption: CNLRM)


Porinė tiesinė regresija: parametrų vertinimas

Grafinė ir statistinė duomenų analizė Parametrų vertinimas mažiausių

kvadratų metodu Porinė tiesinė regresija Dauginė tiesinė regresija Klasikinio regresinio modelio prielaidos Gauso-Markovo teorema Įverčių savybės Regresijos paklaida ir jos įvertis

Maksimalaus tikėtinumo metodas


Pvz.

Studento ūgis

Motinos ūgis Tėvo ūgis

194 163 180185 169 182177 165 177180 168 178190 160 183187 165 178183 163 177171 160 180182 166 181183 164 183


Grafinė studento-motinos ūgio priklausomybės analizė

Studento-motinos ūgio priklausomybė

150

160

170

180

190

200

210

150 155 160 165 170 175 180 185

Motinos ūgis

Stu

de

nto

ūg

is


Regresijos parametrų vertinimo metodai

mXXfY ,...,1

Regresinis modelis – bendras atvejis

Porinė tiesinė regresija

Yi = β0 + β2Xi + εi

Yiβ0 + β1 Xi εi= +

Sisteminė/dėsningoji dalis Atsitiktinė dalis


Regresijos parametrų vertinimo metodai

MKM – rasti tokius parametrų β1, β2 įverčius, kurie minimizuoja modelio paklaidas, t.y atsitiktinę modelio dalį.

MTM – rasti tokius parametrų įverčius β1, β2, kurie maksimizuoja sisteminės dalies ir Yi atitikimo tikimybę


Parametrų įverčių nustatymas mažiausių kvadratų metodu

Yi=0+1Xi+i Yi = b0+ b1Xi +ei

MKM

minˆ 22iii YYe

221 )( ii

iiii

XXn

YXYXnb XbY

n

XbYb ii

11

0

)(

Įrodymas auditorijoje


Y, e ir tiesinė regresijos lygtis

.

..

.

Y4

Y1

Y2

Y3

x1 x2 x3 x4

}

}

{

{

e1

e2

e3

e4

x

Yii XbbY 10

ˆ

iXb 1

0b


Formulių išvedimas paskaitos metu




Galimos b1 matematinės išraiškos

221 )( ii

iiii

XXn

YXYXnb

221 )/1(

)/1(

XXn

YXYXnb

i

ii

21 )(

))((

XX

YYXXb

i

ii

)var(

)(1 X

XYCovb

YYy

XXx

ii

ii

21i

ii

x

yxb

Įrodymas auditorijoje


Pvz. Matavimo vienetų įtaka koeficientams

iMŪi

SŪi eXY 48,029,95 YSŪ ir XMŪ - cm

iMŪi

SŪi eXY 48,09529,0

iMŪi

SŪi eXY 00,4829,95

iMŪi

SŪi eXY 0048,09529,0

YSŪ ir XMŪ - metrais

YSŪ- cm , XMŪ - m

YSŪ- m , XMŪ - cm


Dauginės regresijos įverčių nustatymas mažiausių kvadratų metodu

Yi=0 +1X1i + 2X2i +i Yi = b0+ b1Xi + b2X2i+ ei

MKM

min)(ˆ 222110

22iiiiii XbXbbYYYe


MKM dviems kintamiesiems

Yi = 0 + 1X1 + 2X2 + ei

Pasižymime :

YYy

XXx

XXx

ii

ii

ii

212

111


b2 =yi xi2xi1 yi xi1xi2xi12

xi1 xi2 xi1xi22 2 2

b1 = yi xi1xi2 yi xi2xi1xi22

xi1 xi2 xi1xi22 2 2

MKM dviems kintamiesiems

22110 XbXbYb i

1-4 grupių studentų ūgiai 2014

Regression StatisticsMultiple R 0,37R Square 0,14Adjusted R Square 0,11Standard Error 7,73Observations 76,00

ANOVA

df SS MS FSignificanc

e FRegression 2,00 699,04 349,52 5,85 0,00Residual 73,00 4357,95 59,70Total 75,00 5056,99

Coefficient

sStandard

Error t Stat P-value Lower 95% Upper 95%Lower 95,0%

Upper 95,0%

Intercept 57,60 35,26 1,63 0,11 -12,67 127,87 -12,67 127,87MŪ 0,60 0,19 3,19 0,00 0,22 0,98 0,22 0,98TŪ 0,08 0,13 0,62 0,54 -0,17 0,33 -0,17 0,33



MKM įverčių savybės

Įverčiai yra atsitiktiniai dydžiai Įverčiai yra tiesiniai, nepaslinkti,

efektyvūs ir suderinti


Įverčiai atsitiktiniai dydžiai

Įverčiai, kaip ir visi atsitiktiniai dydžiai, charakterizuojami vidurkiu ir dispersija

jjbE )(

2

2

1)(

2

)ˆ(

)var(

XX

n

YY

bi

ii

2

22

0 )(2

)ˆ(

)var(

XXn

Xn

YY

bi

iii


Gauso-Markovo teorema

Teorema Jeigu yra tenkinamos klasikinio

regresinio modelio prielaidos, tai mažiausių kvadratų metodu apskaičiuoti regresijos įverčiai yra tiesiniai, nepaslinkti ir turi mažiausią dispersiją nepaslinktų tiesinių įverčių klasėje.


Klasikinio regresinio modelio prielaidos

PrielaidaPrielaidos matematinė

išraiška

1. Regresijos funkcija koeficientų ir paklaidų atžvilgiu yra tiesinė (tiesiškumas)

yi =1 +2Xi2+...+nXim+i

2. Paklaidų vidurkis lygus nuliui (nulinis vidurkis) E(i) = 0

3. Paklaidos neautokoreliuoja (likučių ne autokoreliuotumas)

Cov(i j) = 0, i,j / ij

4. Paklaidų dispersija yra pastovi (Homoskedastiškumas)

2(i) = const.

5. Nepriklausomi veiksniai nėra tiesinės kitų nepriklausomų veiksnių kombinacijos (ne multikolinearumas)

Xi θ0+θjXj, i,j / ij

6. Paklaidos pasiskirsčiusios pagal normalųjį pasiskirstymo dėsnį (normalumas).

i ~ N (0, 2)


Klasikinės regresijos prielaidos

PrielaidaPrielaidos matematinė

išraiška

7. Regresijos nepriklausomi kintamieji nėra atsitiktiniai dydžiai

Cov(XjI i) = 0, j

8. Stebėjimų skaičius turi būti didesnis negu vertinamų parametrų skaičius

N>M

9. Nepriklausomų kintamųjų reikšmės turi būti įvairios, negali įgyti tik vieną reikšmę

Xj≠const

10. Regresijos modelis yra teisingai sudarytas kintamųjų parinkimo ir parametrų vertinimo požiūriu


Sąvokos Tiesiniai įverčiai

Gauti įverčiai yra apskaičiuoti pagal tiesinę Y atžvilgiu lygtį

Nepaslinkti įverčiai Įverčių bj, apskaičiuotų skirtingų duomenų imčių

pagrindu, vidurkis yra lygus tikrajai parametro reikšmei E(bj)= j

Efektyvūs Efektyvus įvertis –tai įvertis turintis mažiausią

dispersiją nepaslinktų įverčių klasėje, t.y., įvertis, esantis arčiausiai tikrosios parametro reikšmės

Suderinti Suderintas - tai toks įvertis, kurio reikšmės artėja prie

tikrosios parametro reikšmės, didėjant stebėjimų skaičiui

Svarbios skaitinės savybės

VU EF V.Karpuškienė


MKM įverčių savybių įrodymas

Tiesiškumas

iiii

ij YkY

x

xb

2

222221

)(

)( i

iii

i

ii

i

ii

ii

iiii

x

xYYx

x

YYx

x

yx

XXn

YXYXnb

Suma lygi 0

iij Yconstb

Konstanta

2i

ii x

xk


MKM įverčių savybių įrodymas

Nepaslinktumas

)()(

)())(()()(

221

201022

ii

ii

i

i

i

ii

i

ii

i

ij

Ex

xX

x

xE

x

xEX

x

xEY

x

xEbE

jjbE )(

=0

=1

=0

VU EF Vita Karpuškienė

Mažos imties įverčių pageidaujamos savybės

Nepaslinktumas

βj

Tikim

ybių tankis

1bj2bj

Tikroji parametro reikšmė

3.15

Tikim

ybių tankis

Įverčių efektyvumas

Efektyvūs įverčiai

Efektyvus

Neefektyvūs

βj

jb

jb~

3.15

Tikim

ybių tankis

Suderinamumas

Suderinti įverčiai

N=10

N=1000

N=5000

j


xi

yi

...

....

...

...

..

..

. .. ... . .

. .. .. .

. ...

...

..

.

iii exbby 10

ixbb 10

i

Įverčiai tiesiniai nepaslinkti ir efektyvūs


xi

yi

...

....

...

...

..

..

. .. ... . .

. .. .. .

. ...

...

..

.

iii exbbY 10

ixbb 10

ie

Įverčiai tiesiniai paslinkti


Gauss –Markov teoremos įrodymas

iiY~ XYE 10)(

)()~

(10 XE i

Efektyvumas Tarkim turime tiesinį nepaslinktą įvertį, kurio dispersija yra mažiausia

Tiesinis

min...)()~

(~

)~

( 2222 iiiii YEYEEEVar

Efektyvumas

Min pasiekiamas tuo atveju, kai ii

ii k

x

x

2

jiiiij bYkY~


Porinės regresijos paklaida ir jos įvertis

Porinės regresijos paklaida

Modelio paklaidos įvertis yra atsitiktinis dydis, kuris apibūdinamas vidurkiu ir dispersija;

•Vidurkis E(e)=0

•Dispersijos įvertis

•Standartinė modelio paklaida

iii YYe ˆ

2

2

n

eSE n

i

e

2

)ˆ(

2)var(

222

n

YY

n

ee iii

e


Dauginės regresijos paklaida ir jos įvertis

Dauginės regresijos paklaida

Modelio paklaidos įvertis yra atsitiktinis dydis, kuris apibūdinamas vidurkiu ir dispersija;

•Vidurkis E(e)=0

•Dispersijos įvertis

•Standartinė modelio paklaida

iii YYe ˆ

1

2

kn

eSE n

i

e

1

)ˆ(

1)var(

222

kn

YY

kn

ee iii

e


Modelio paklaidos ei

RESIDUAL OUTPUT

Observation

Predicted Studento

ūgis ResidualsStandard Residuals

1,00 174,32 -5,32 -0,652,00 171,15 -1,15 -0,143,00 174,24 -9,24 -1,144,00 173,49 -7,49 -0,925,00 174,30 9,70 1,196,00 171,09 -1,09 -0,137,00 172,35 -4,35 -0,538,00 176,32 0,68 0,089,00 175,95 -3,95 -0,49

10,00 181,33 -8,33 -1,0311,00 178,79 -5,79 -0,7112,00 173,63 -5,63 -0,6913,00 180,76 2,24 0,2814,00 182,05 -7,05 -0,87


Modelio paklaidos ei

Paklaidų diagrama

-20,00

-15,00

-10,00

-5,00

0,00

5,00

10,00

15,00

20,00

25,00

0 20 40 60 80



Idėja:Rasti tokius parametrų β0, β1 įverčius,

kurie maksimizuoja sisteminės dalies ir Yi atitikimo tikimybę

Yi = β0 + β1Xi+ εi

Neatsitiktiniai dydžiai

Atsitiktiniai dydžiai


Y ~ N(,2)

f(y) =2 2

1 exp

y

f(y)

2 2(y - )2-

2.48

Normalusis skirstinys



i = E(Yi) = β0 + β1Xi

Yi = β0 + β1Xi +εi

Tarkim nagrinėjame porinę priklausomybę, kurios Yi – atsitiktinis dydis pasiskirstęs N(, σ2)

max),,.......,( 22112121 nn xXYYYf

MTM – esmė

max),ˆ,...ˆ,ˆ...,( 22121 nn YYYYYYf



Iš tikimybių teorijos žinom, jeigu Y – nepriklausomas atsitiktinis dydis, tai

),,..(...,( 21011021 nn XXYYYf

),( 22102 XYf

),ˆ( 2ii YYf

...

max),ˆ,...ˆ,ˆ...,( 22121 nn YYYYYYf

),ˆ( 211 YYf

),( 21101 XYf

),ˆ( 222 YYf

),( 210 nn XYf

),ˆ,...ˆ,ˆ...,( 22121 nn YYYYYYf

... ),( 2nn YYf



2

210 )(

2

1exp

)2(

1

ii

nn

XY

),( 210 ii XYf =

),,( 210 ii XYf

Įsistatom į tankio f-jos lygtį

2

210 )(

2

1exp

2

1

ii XY


Maksimalaus tikėtinumo funkcija

LF – maksimalaus tikėtinumo funkcija

LF=

2

210 )(

2

1exp

)2(

1

ii

nn

XY max

?)(

2

1exp

)2(

1lnln

2

210

iinn

XYLF

2

2102

2

12ln

2ln

2ln

ii XYnn

LF


Maksimalaus tikėtinumo funkcija(Imties koeficientai)

0)1(1)ln(

1020

ii

e

XbbYb

LF

02

1

2

)ln( 2

10422 ii

eee

XbbYnLF

0)(1)ln(

1021

iii

e

XXbbYb

LF

Ieškome LF maksimalios reikšmės duomenų imties koeficientams, skaičiuodami dalines išvestines, prilygintas 0



010 ii XbbY

01 2

102 ii

e

XbbYn

0210 iiii XbXbXY

Dalinių išvestinių skaičiavimo rezultatai



210 iiii XbXbXY

2102

1 XbbYn i

e

ii XbbY 10


Maksimalaus tikėtinumo metodo įverčiai

2221 )( i

ii

ii

iiii

x

yx

XXn

YXYXnb

XbYn

XbYb ii

11

0

)(

2

22

102

1

e

ii

e

eXbbYn


MKM ir MTM palyginimas

MKM privalumai: Idėjos akivaizdumas Skaičiavimų paprastumas

MKM trūkumai Kad įverčiai turėtų pageidaujamas

savybes: tiesiškumą, nepaslinktumą, suderinamumą, turi būti tenkinamos klasikinio regresinio modelio prielaidos, kurias reikia tikrinti kiekviename modelyje)


MKM ir MTM palyginimas

MTM privalumai: Apskaičiuoja tiesinių ir netiesinių regresinių modelių

parametrų įvarčius Esant didelėms stebėjimų imtims, apskaičiuoti

įverčiai turi pageidaujamas savybes MTM trūkumai

Būtina žinoti priklausomojo kintamojo tikimybių pasiskirstymą.

Sudėtingi skaičiavimai MKM ir MTM tiesinės regresinės lygties parametrų

įverčiai sutampa, kai Y turi normalųjį tikimybių skirstinį

Regresijos lygties parametrų vertinimas

Documents

Transcript of Regresijos lygties parametrų vertinimas