Regresijos lygties parametrų vertinimas
-
Upload
maia-tucker -
Category
Documents
-
view
218 -
download
0
description
Transcript of Regresijos lygties parametrų vertinimas
VU EF V.Karpuškienė 1
Regresijos lygties parametrų vertinimas2014-02-19
D.Gujarati Part 1 “ Single-Eguation regression Models” 3 skyrelis “Two –variable Regression model:The Problem of Estimation” ir
4 skyrelis The Normality Assumption: CNLRM)
VU EF V.Karpuškienė 2
Porinė tiesinė regresija: parametrų vertinimas
Grafinė ir statistinė duomenų analizė Parametrų vertinimas mažiausių
kvadratų metodu Porinė tiesinė regresija Dauginė tiesinė regresija Klasikinio regresinio modelio prielaidos Gauso-Markovo teorema Įverčių savybės Regresijos paklaida ir jos įvertis
Maksimalaus tikėtinumo metodas
VU EF V.Karpuškienė 3
Pvz.
Studento ūgis
Motinos ūgis Tėvo ūgis
194 163 180185 169 182177 165 177180 168 178190 160 183187 165 178183 163 177171 160 180182 166 181183 164 183
VU EF V.Karpuškienė 4
Grafinė studento-motinos ūgio priklausomybės analizė
Studento-motinos ūgio priklausomybė
150
160
170
180
190
200
210
150 155 160 165 170 175 180 185
Motinos ūgis
Stu
de
nto
ūg
is
VU EF V.Karpuškienė 5
Regresijos parametrų vertinimo metodai
mXXfY ,...,1
Regresinis modelis – bendras atvejis
Porinė tiesinė regresija
Yi = β0 + β2Xi + εi
Yiβ0 + β1 Xi εi= +
Sisteminė/dėsningoji dalis Atsitiktinė dalis
VU EF V.Karpuškienė 6
Regresijos parametrų vertinimo metodai
MKM – rasti tokius parametrų β1, β2 įverčius, kurie minimizuoja modelio paklaidas, t.y atsitiktinę modelio dalį.
MTM – rasti tokius parametrų įverčius β1, β2, kurie maksimizuoja sisteminės dalies ir Yi atitikimo tikimybę
VU EF V.Karpuškienė 7
Parametrų įverčių nustatymas mažiausių kvadratų metodu
Yi=0+1Xi+i Yi = b0+ b1Xi +ei
MKM
minˆ 22iii YYe
221 )( ii
iiii
XXn
YXYXnb XbY
n
XbYb ii
11
0
)(
Įrodymas auditorijoje
VU EF V.Karpuškienė 8
Y, e ir tiesinė regresijos lygtis
.
..
.
Y4
Y1
Y2
Y3
x1 x2 x3 x4
}
}
{
{
e1
e2
e3
e4
x
Yii XbbY 10
ˆ
iXb 1
0b
Parametrų įverčių nustatymas mažiausių kvadratų metodu
Formulių išvedimas paskaitos metu
VU EF V.Karpuškienė 9
VU EF V.Karpuškienė 10
Parametrų įverčių nustatymas mažiausių kvadratų metodu
Galimos b1 matematinės išraiškos
221 )( ii
iiii
XXn
YXYXnb
221 )/1(
)/1(
XXn
YXYXnb
i
ii
21 )(
))((
XX
YYXXb
i
ii
)var(
)(1 X
XYCovb
YYy
XXx
ii
ii
21i
ii
x
yxb
Įrodymas auditorijoje
VU EF V.Karpuškienė 11
Pvz. Matavimo vienetų įtaka koeficientams
iMŪi
SŪi eXY 48,029,95 YSŪ ir XMŪ - cm
iMŪi
SŪi eXY 48,09529,0
iMŪi
SŪi eXY 00,4829,95
iMŪi
SŪi eXY 0048,09529,0
YSŪ ir XMŪ - metrais
YSŪ- cm , XMŪ - m
YSŪ- m , XMŪ - cm
VU EF V.Karpuškienė 12
Dauginės regresijos įverčių nustatymas mažiausių kvadratų metodu
Yi=0 +1X1i + 2X2i +i Yi = b0+ b1Xi + b2X2i+ ei
MKM
min)(ˆ 222110
22iiiiii XbXbbYYYe
VU EF V.Karpuškienė 13
MKM dviems kintamiesiems
Yi = 0 + 1X1 + 2X2 + ei
Pasižymime :
YYy
XXx
XXx
ii
ii
ii
212
111
VU EF V.Karpuškienė 14
b2 =yi xi2xi1 yi xi1xi2xi12
xi1 xi2 xi1xi22 2 2
b1 = yi xi1xi2 yi xi2xi1xi22
xi1 xi2 xi1xi22 2 2
MKM dviems kintamiesiems
22110 XbXbYb i
1-4 grupių studentų ūgiai 2014
Regression StatisticsMultiple R 0,37R Square 0,14Adjusted R Square 0,11Standard Error 7,73Observations 76,00
ANOVA
df SS MS FSignificanc
e FRegression 2,00 699,04 349,52 5,85 0,00Residual 73,00 4357,95 59,70Total 75,00 5056,99
Coefficient
sStandard
Error t Stat P-value Lower 95% Upper 95%Lower 95,0%
Upper 95,0%
Intercept 57,60 35,26 1,63 0,11 -12,67 127,87 -12,67 127,87MŪ 0,60 0,19 3,19 0,00 0,22 0,98 0,22 0,98TŪ 0,08 0,13 0,62 0,54 -0,17 0,33 -0,17 0,33
VU EF V.Karpuškienė 15
VU EF V.Karpuškienė 16
MKM įverčių savybės
Įverčiai yra atsitiktiniai dydžiai Įverčiai yra tiesiniai, nepaslinkti,
efektyvūs ir suderinti
VU EF V.Karpuškienė 17
Įverčiai atsitiktiniai dydžiai
Įverčiai, kaip ir visi atsitiktiniai dydžiai, charakterizuojami vidurkiu ir dispersija
jjbE )(
2
2
1)(
2
)ˆ(
)var(
XX
n
YY
bi
ii
2
22
0 )(2
)ˆ(
)var(
XXn
Xn
YY
bi
iii
VU EF V.Karpuškienė 18
Gauso-Markovo teorema
Teorema Jeigu yra tenkinamos klasikinio
regresinio modelio prielaidos, tai mažiausių kvadratų metodu apskaičiuoti regresijos įverčiai yra tiesiniai, nepaslinkti ir turi mažiausią dispersiją nepaslinktų tiesinių įverčių klasėje.
VU EF V.Karpuškienė 19
Klasikinio regresinio modelio prielaidos
PrielaidaPrielaidos matematinė
išraiška
1. Regresijos funkcija koeficientų ir paklaidų atžvilgiu yra tiesinė (tiesiškumas)
yi =1 +2Xi2+...+nXim+i
2. Paklaidų vidurkis lygus nuliui (nulinis vidurkis) E(i) = 0
3. Paklaidos neautokoreliuoja (likučių ne autokoreliuotumas)
Cov(i j) = 0, i,j / ij
4. Paklaidų dispersija yra pastovi (Homoskedastiškumas)
2(i) = const.
5. Nepriklausomi veiksniai nėra tiesinės kitų nepriklausomų veiksnių kombinacijos (ne multikolinearumas)
Xi θ0+θjXj, i,j / ij
6. Paklaidos pasiskirsčiusios pagal normalųjį pasiskirstymo dėsnį (normalumas).
i ~ N (0, 2)
VU EF V.Karpuškienė 20
Klasikinės regresijos prielaidos
PrielaidaPrielaidos matematinė
išraiška
7. Regresijos nepriklausomi kintamieji nėra atsitiktiniai dydžiai
Cov(XjI i) = 0, j
8. Stebėjimų skaičius turi būti didesnis negu vertinamų parametrų skaičius
N>M
9. Nepriklausomų kintamųjų reikšmės turi būti įvairios, negali įgyti tik vieną reikšmę
Xj≠const
10. Regresijos modelis yra teisingai sudarytas kintamųjų parinkimo ir parametrų vertinimo požiūriu
VU EF V.Karpuškienė 21
Sąvokos Tiesiniai įverčiai
Gauti įverčiai yra apskaičiuoti pagal tiesinę Y atžvilgiu lygtį
Nepaslinkti įverčiai Įverčių bj, apskaičiuotų skirtingų duomenų imčių
pagrindu, vidurkis yra lygus tikrajai parametro reikšmei E(bj)= j
Efektyvūs Efektyvus įvertis –tai įvertis turintis mažiausią
dispersiją nepaslinktų įverčių klasėje, t.y., įvertis, esantis arčiausiai tikrosios parametro reikšmės
Suderinti Suderintas - tai toks įvertis, kurio reikšmės artėja prie
tikrosios parametro reikšmės, didėjant stebėjimų skaičiui
Svarbios skaitinės savybės
VU EF V.Karpuškienė
VU EF V.Karpuškienė 23
MKM įverčių savybių įrodymas
Tiesiškumas
iiii
ij YkY
x
xb
2
222221
)(
)( i
iii
i
ii
i
ii
ii
iiii
x
xYYx
x
YYx
x
yx
XXn
YXYXnb
Suma lygi 0
iij Yconstb
Konstanta
2i
ii x
xk
VU EF V.Karpuškienė 24
MKM įverčių savybių įrodymas
Nepaslinktumas
)()(
)())(()()(
221
201022
ii
ii
i
i
i
ii
i
ii
i
ij
Ex
xX
x
xE
x
xEX
x
xEY
x
xEbE
jjbE )(
=0
=1
=0
VU EF Vita Karpuškienė
Mažos imties įverčių pageidaujamos savybės
Nepaslinktumas
βj
Tikim
ybių tankis
1bj2bj
Tikroji parametro reikšmė
3.15
Tikim
ybių tankis
Įverčių efektyvumas
Efektyvūs įverčiai
Efektyvus
Neefektyvūs
βj
jb
jb~
3.15
Tikim
ybių tankis
Suderinamumas
Suderinti įverčiai
N=10
N=1000
N=5000
j
VU EF V.Karpuškienė 28
xi
yi
...
....
...
...
..
..
. .. ... . .
. .. .. .
. ...
...
..
.
iii exbby 10
ixbb 10
i
Įverčiai tiesiniai nepaslinkti ir efektyvūs
VU EF V.Karpuškienė 29
xi
yi
...
....
...
...
..
..
. .. ... . .
. .. .. .
. ...
...
..
.
iii exbbY 10
ixbb 10
ie
Įverčiai tiesiniai paslinkti
VU EF V.Karpuškienė 30
Gauss –Markov teoremos įrodymas
iiY~ XYE 10)(
)()~
(10 XE i
Efektyvumas Tarkim turime tiesinį nepaslinktą įvertį, kurio dispersija yra mažiausia
Tiesinis
min...)()~
(~
)~
( 2222 iiiii YEYEEEVar
Efektyvumas
Min pasiekiamas tuo atveju, kai ii
ii k
x
x
2
jiiiij bYkY~
VU EF V.Karpuškienė 31
Porinės regresijos paklaida ir jos įvertis
Porinės regresijos paklaida
Modelio paklaidos įvertis yra atsitiktinis dydis, kuris apibūdinamas vidurkiu ir dispersija;
•Vidurkis E(e)=0
•Dispersijos įvertis
•Standartinė modelio paklaida
iii YYe ˆ
2
2
n
eSE n
i
e
2
)ˆ(
2)var(
222
n
YY
n
ee iii
e
VU EF V.Karpuškienė 32
Dauginės regresijos paklaida ir jos įvertis
Dauginės regresijos paklaida
Modelio paklaidos įvertis yra atsitiktinis dydis, kuris apibūdinamas vidurkiu ir dispersija;
•Vidurkis E(e)=0
•Dispersijos įvertis
•Standartinė modelio paklaida
iii YYe ˆ
1
2
kn
eSE n
i
e
1
)ˆ(
1)var(
222
kn
YY
kn
ee iii
e
VU EF V.Karpuškienė 33
Modelio paklaidos ei
RESIDUAL OUTPUT
Observation
Predicted Studento
ūgis ResidualsStandard Residuals
1,00 174,32 -5,32 -0,652,00 171,15 -1,15 -0,143,00 174,24 -9,24 -1,144,00 173,49 -7,49 -0,925,00 174,30 9,70 1,196,00 171,09 -1,09 -0,137,00 172,35 -4,35 -0,538,00 176,32 0,68 0,089,00 175,95 -3,95 -0,49
10,00 181,33 -8,33 -1,0311,00 178,79 -5,79 -0,7112,00 173,63 -5,63 -0,6913,00 180,76 2,24 0,2814,00 182,05 -7,05 -0,87
VU EF V.Karpuškienė 34
Modelio paklaidos ei
Paklaidų diagrama
-20,00
-15,00
-10,00
-5,00
0,00
5,00
10,00
15,00
20,00
25,00
0 20 40 60 80
VU EF V.Karpuškienė 35
Maksimalaus tikėtinumo metodas
Idėja:Rasti tokius parametrų β0, β1 įverčius,
kurie maksimizuoja sisteminės dalies ir Yi atitikimo tikimybę
Yi = β0 + β1Xi+ εi
Neatsitiktiniai dydžiai
Atsitiktiniai dydžiai
VU EF V.Karpuškienė 36
Y ~ N(,2)
f(y) =2 2
1 exp
y
f(y)
2 2(y - )2-
2.48
Normalusis skirstinys
VU EF V.Karpuškienė 37
Maksimalaus tikėtinumo metodas
i = E(Yi) = β0 + β1Xi
Yi = β0 + β1Xi +εi
Tarkim nagrinėjame porinę priklausomybę, kurios Yi – atsitiktinis dydis pasiskirstęs N(, σ2)
max),,.......,( 22112121 nn xXYYYf
MTM – esmė
max),ˆ,...ˆ,ˆ...,( 22121 nn YYYYYYf
VU EF V.Karpuškienė 38
Maksimalaus tikėtinumo metodas
Iš tikimybių teorijos žinom, jeigu Y – nepriklausomas atsitiktinis dydis, tai
),,..(...,( 21011021 nn XXYYYf
),( 22102 XYf
),ˆ( 2ii YYf
...
max),ˆ,...ˆ,ˆ...,( 22121 nn YYYYYYf
),ˆ( 211 YYf
),( 21101 XYf
),ˆ( 222 YYf
),( 210 nn XYf
),ˆ,...ˆ,ˆ...,( 22121 nn YYYYYYf
... ),( 2nn YYf
VU EF V.Karpuškienė 39
Maksimalaus tikėtinumo metodas
2
210 )(
2
1exp
)2(
1
ii
nn
XY
),( 210 ii XYf =
),,( 210 ii XYf
Įsistatom į tankio f-jos lygtį
2
210 )(
2
1exp
2
1
ii XY
VU EF V.Karpuškienė 40
Maksimalaus tikėtinumo funkcija
LF – maksimalaus tikėtinumo funkcija
LF=
2
210 )(
2
1exp
)2(
1
ii
nn
XY max
?)(
2
1exp
)2(
1lnln
2
210
iinn
XYLF
2
2102
2
12ln
2ln
2ln
ii XYnn
LF
VU EF V.Karpuškienė 41
Maksimalaus tikėtinumo funkcija(Imties koeficientai)
0)1(1)ln(
1020
ii
e
XbbYb
LF
02
1
2
)ln( 2
10422 ii
eee
XbbYnLF
0)(1)ln(
1021
iii
e
XXbbYb
LF
Ieškome LF maksimalios reikšmės duomenų imties koeficientams, skaičiuodami dalines išvestines, prilygintas 0
VU EF V.Karpuškienė 42
Maksimalaus tikėtinumo funkcija
010 ii XbbY
01 2
102 ii
e
XbbYn
0210 iiii XbXbXY
Dalinių išvestinių skaičiavimo rezultatai
VU EF V.Karpuškienė 43
Maksimalaus tikėtinumo funkcija
210 iiii XbXbXY
2102
1 XbbYn i
e
ii XbbY 10
VU EF V.Karpuškienė 44
Maksimalaus tikėtinumo metodo įverčiai
2221 )( i
ii
ii
iiii
x
yx
XXn
YXYXnb
XbYn
XbYb ii
11
0
)(
2
22
102
1
e
ii
e
eXbbYn
VU EF V.Karpuškienė 45
MKM ir MTM palyginimas
MKM privalumai: Idėjos akivaizdumas Skaičiavimų paprastumas
MKM trūkumai Kad įverčiai turėtų pageidaujamas
savybes: tiesiškumą, nepaslinktumą, suderinamumą, turi būti tenkinamos klasikinio regresinio modelio prielaidos, kurias reikia tikrinti kiekviename modelyje)
VU EF V.Karpuškienė 46
MKM ir MTM palyginimas
MTM privalumai: Apskaičiuoja tiesinių ir netiesinių regresinių modelių
parametrų įvarčius Esant didelėms stebėjimų imtims, apskaičiuoti
įverčiai turi pageidaujamas savybes MTM trūkumai
Būtina žinoti priklausomojo kintamojo tikimybių pasiskirstymą.
Sudėtingi skaičiavimai MKM ir MTM tiesinės regresinės lygties parametrų
įverčiai sutampa, kai Y turi normalųjį tikimybių skirstinį