O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti
-
Upload
wesley-stout -
Category
Documents
-
view
33 -
download
0
description
Transcript of O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti
![Page 1: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/1.jpg)
1
O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti
Regresija je enostavna kadar nastopata v medsebojni odvisnosti samo dva pojava (veličini), kadar pa nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji
Naloga regresije je, poiskati tako funkcijo y f xki najbolje podaja medsebojno odvisnost pojavov.
![Page 2: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/2.jpg)
2
Odvisnost je enostranska , kadar je veličinaX vzrok, veličina Y pa posledica.
Odvisnost je dvostranska X Y, kadar ni možno določiti, kaj je vzrok in kaj posledica.
Količini X in Y slučajni spremenljivki, zato njunih vrednosti vnaprej natanko ne moremo predvideti Lahko zapišemo le zvezo: /Y x f x
Predpostavljamo, da je normalna slučajnaspremenljivka 0,N
![Page 3: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/3.jpg)
3
Velja / ( )M Y x f x Slučajno spremenljivko imenujemo napaka modela
Model /Y x f x je regresijski model.
Če iščemo odvisnost v obliki linearne funkcije
/M Y x y a b x govorimo o linearni regresiji
Parametra in imenujemo regresijska koeficienta
Pri realnih problemih regresije je seveda vprašanje, kako oceniti parametra a in b
![Page 4: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/4.jpg)
4
1 2, ,... nx x x
1 2, ,... ny y y
Na ta dva vzorca lahko gledamo tudi kot na množico urejenih parov 1 1 2 2, , , ,..., ,n nx y x y x y
Kako poiskati premico, ki se tem točkam najbolje prilega.
Nalogo največkrat rešujemo z metodo najmanjših kvadratov
S to metodo poiščemo oceni za regresijska parametra, ki ju bomo označili z ina b
Naj bodo vrednosti statističnega znaka zaradi učinkov pojava X na enote slučajno izbranega vzorca velikosti n in vrednosti statisičnega znaka istih enot zaradi učinkov pojava Y.
![Page 5: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/5.jpg)
5
Metoda najmanjših kvadratov izbere parametrada je vsota kvadratov napak modela najmanjša
2
1
minn
ii
To zahtevo lahko zapišemo
2
1
ˆ ˆˆ ˆ, - minn
i ii
F a b y a b x
![Page 6: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/6.jpg)
6
Rešitev tega ekstrema nas pripelje do ocen a in b
n n n n2i i i i i
i=1 i=1 i=1 i=12n n
2i i
i=1 i=1
x y x x y
n
ˆ=
x x
a
n n n
i i i ii=1 i=1 i=1
2n n2i i
i=1 i=1
bn x
=y x y
n x x
![Page 7: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/7.jpg)
7
Vpeljimo naslednje oznake
2
2 2
1 1 1
1n n n
xx i i ii i i
S x x x xn
2
2 2
1 1 1
1n n n
yy i i ii i i
S y y y yn
1 1 1 1
1n n n n
xy i i i i i ii i i i
S x x y y x y x yn
![Page 8: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/8.jpg)
8
S temi oznakami lahko zapišemo oceno b
ˆ xy
xx
Sb
S
Zaradi enakosti ˆˆ .a b x y velja
ˆˆ .a y b x
![Page 9: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/9.jpg)
9
Nepristransko oceno napake regresijskega modela imenujemo tudi standardna ocena napake modela in jo bomo označevali z s
2
1
1 ˆˆ ,2
n
i ii
s y a b xn
ali v skrajšani obliki
2
.1 ˆ. .yy xys S b Sn
![Page 10: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/10.jpg)
10
Vrednost
2
ˆ xx
xx
a a n Sts S n x
je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti
Vrednost ˆ
xx
b bt S
s
je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti.
Na statistiki t je zasnovan tudi test hipoteze o regresijskih koeficientih a in b
![Page 11: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/11.jpg)
11
Pri dani stopnji zaupanja je interval zaupanja za regresijska koeficienta a in b
2
, 22
2
, 22
1ˆ . . ,
.1
ˆ . .
nxx
nxx
xa t s
n S
xa t s
n S
a
, 2 , 22 2
1 1ˆ ˆ , . n n
xx xx
b t s b sb tS S
![Page 12: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/12.jpg)
12
1 100% interval zaupanja za vrednost 0/Y x
ki jo ocenjujemo z regresijsko premico ˆˆ ˆy a b x pri dani vrednosti 0x x je
2
00
, 22
2
00
, 22
0
1ˆˆ ,
.1ˆ
/
ˆ
nxx
nxx
x xna b x t s
n S
x xna b x t s
n
Y x
S
![Page 13: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/13.jpg)
13
Varianco V Y količine Y imenujemo skupna alizačetna varianca
Njena točkasta ocena, izračunana je pri izbranem vzorcu 1 2 ny , y ,...y
n
22Y i
i=1
1y y
n-1s
krajše zapisano
2
1yy
Y
Ss
n
![Page 14: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/14.jpg)
14
Varianco napake regresijskega modela ocenimo z izrazom
2n
i ii=1
22
1
1 1ˆ--
ˆ2
ˆ2
n
i ii
s y xn
yn
b ya
kar lahko zapišemo tudi takole
2 1. .
2 yy xys S b Sn
Varianci napake modela pravimo tudi nepojasnjena varianca, njen kvadratni koren pa smo imenovali standardna ocena napake modela
![Page 15: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/15.jpg)
15
Razliko med začetno in nepojasnjeno varianco imenujemo pojasnjena varianca.
2 2 2XY Ys s s
![Page 16: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/16.jpg)
16
Analiza linearne korelacije proučuje, kako dobro izbrana regresijska premica povezuje količini (pojava) X in Y.
Koeficient določenosti (determinacijski koeficient) D, ki meri linearno povezavo med vzrokom X in posledico Y, določeno z regresijsko premico, je
2 2
2
2
2= 1Y
Y Y
s
s
s sD
s
![Page 17: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/17.jpg)
17
1. D = 1: med količino X in količino Y obstaja popolna matematična povezava v obliki linearne funkcije (napaka v modelu je 0)
2. D = 0: med količinama X in Y ni nobene linearne odvisnosti
3. 0 < D <1: med X in Y obstaja verjetna linearna povezava.
![Page 18: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/18.jpg)
18
Proučujemo dvostransko odvisna pojava X Y
Zanima nas, kako močno sta linearno odvisna
Koeficient korelacije , pravimo mu tudi Pearsonov koeficient korelacije, meri linearno odvisnost med dvostransko odvisnima pojavoma
Točkovno oceno r zapišemo tudi na naslednji način
1
2 2
1 1
n
i ii
n n
i ii i
x x y yr
x x y y
ali
.xy
xx yy
Sr
S S
![Page 19: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/19.jpg)
19
Za cenilko R koeficienta korelacije, velja, da je statistika
1 1ln
2 1
R
R
približno normalna slučajna spremenljivka
Njeno matematično upanje je 1 1
ln2 1
in varianca 1
3n
![Page 20: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/20.jpg)
20
Tako je 1 13
ln2 1 1
rnz
r
vrednost standardizirane normalne slučajne spremenljivke Z.
Na tej statistiki lahko zgradimo tudi 1 100%
interval zaupanja za parametr
2 2
2 2
2. 2.
3 3
2. 2.
3 3
1 1 1 1 ,
1 1 1 1
z z
n n
z z
n n
r r e r r e
r r e r r e
![Page 21: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/21.jpg)
21
Statistiko Z uporabimo za test hipoteze
00 :H pri ustrezni nasprotni hipotezi
![Page 22: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/22.jpg)
22
Kadar nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji.
Uporabljamo model v obliki linearne funkcije
0 1 1 2 2 ... k kY b b x b x b x
je napaka modela in je normalna slučajna spremenljivka z 0M 2V
Zaradi tega velja
1 2 0 1 1 2 2( / , ,..., ) ...k k kM Y x x x b b x b x b x
![Page 23: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/23.jpg)
23
Vzemimo, da imamo za vsako od neodvisnih spremenljivk in odvisno spremenljivko podanih n vzorčnih podatkov
11 12 1
21 22 2
1
2
1 2
, ,..., ,
, ,..., ,
, ,..., , n
k
k
n n nk
x x x
x x x
x x x
y
y
y
![Page 24: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/24.jpg)
24
Ocene 0 1
ˆ ˆ ˆ, ,..., kb b b parametrov 0 1, ,..., kb b b
lahko dobimo z metodo najmanjših kvadratov
Bolj enostavno pa jih dobimo, če uporabimo matrični račun.
Vpeljimo oznake:
11 12 1
21 22 2
1 2
1 ...
1 ...
......................
1 ...
k
k
n n nk
x x x
x x xX
x x x
1
2
...
n
y
yY
y
0
1
ˆ
ˆˆ
...
k
b
bB
b
![Page 25: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/25.jpg)
25
Matrika Bocen koeficientov večkratne regresije je
1ˆ . . .T TB X X X Y
Nepristransko oceno napake modela, pravimo ji tudi standardna ocena napake modela, v matrični obliki izrazimo takole:
ˆ . .
1
T T TY Y B X Ys
n k
n je velikost vzorca, k pa število ocenjenih
parametrov
![Page 26: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/26.jpg)
26
Če je napaka regresijskega modela normalna slučajna spremenljivka, potem je
ˆ
.1
i i
ii
b bt
n cs
n k
za i = 0,1,2,…,k
vrednost t slučajne spremenljivke z n-k-1 stopnjami prostosti
Pri tem je iic element v i-ti vrstici in i-tem stolpcuinverzne matrike 1
.TX X
S to statistiko testiramo tudi koeficiente linearne regresije, kjer se ničelna hipoteza nanaša na njihove predpostavljene vrednosti
![Page 27: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/27.jpg)
27
1 100% interval zaupanja za koeficienteregresijske hiperravnine je
, 1 , 12 2
,ˆ ˆ .1
. . .1
ii iii i
n ki
n k
n c n cb t s b
n n kb t s
k
za i = 0,1,2,…,k
![Page 28: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/28.jpg)
28
Če je 01
0 02
0
1
...
k
x
X x
x
izbrana vrednost neodvisnih spremenljivk ,
napovedano vrednost dobimo0Y 00ˆ.TX BY
Meji intervala zaupanja za napovedano vrednost odvisne spremenljivke sta
1
0 0
0, 1
2
1. .
1
T
ks
T
n
n X X X Xy Y t s
n k
1
0 0
0, 1
2
1. .
1
T
kz
T
n
n X X X Xy Y t s
n k
![Page 29: O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti](https://reader035.fdocument.pub/reader035/viewer/2022062217/568137e7550346895d9f9731/html5/thumbnails/29.jpg)
29
Začetna varianca je
2 1
1
T
Ys Y Y Y Yn
Nepojasnjena varianca je
2 1 ˆ ˆ. .1
T
s Y X B Y X Bn k
Koeficient določenosti pa je
2
21
y
sD
s