Korelace a regrese
-
Upload
dustin-hardy -
Category
Documents
-
view
48 -
download
8
description
Transcript of Korelace a regrese
![Page 1: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/1.jpg)
Korelace a regrese
• síla (těsnost) závislosti dvou náhodných veličin: korelace
– symetrický vztah obou veličin
– neslouží k předpovědi
• způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese
– možnost předpovědi
• příklad: výška otce, výška jeho syna (v dospělosti)
– korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn)
– regrese: lze z výšky otce odhadnout výšku syna ?
řada populací - synové otců vysokých 170 cm, 171 cm ...
![Page 2: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/2.jpg)
Pearsonův korelační koeficient
• měří sílu lineární závislosti spojitých veličin
• vždy platí: -1 X,Y 1
• v případě normálního rozdělení platí:
nezávislost X, Y X,Y = 0
• odhad pomocí
• nezávislost zamítáme, pokud | t | t1-(n-2), kde
22,
)()(
))((
yyxx
yyxxr
ii
iiYX
21 2
,
nr
rt
YX
![Page 3: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/3.jpg)
Příklady
30 35 40 45
100
120
140
160
180
200
220
lat
mort
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
lat
mort
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
lat
mort
65 70 75
6000
7000
8000
9000
10000
0,45
delka
hm
otn
ost
65 70 75
6000
7000
8000
9000
10000
r=0,45
delka
hm
otn
ost
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
latitude
mort
alit
y
30 35 40 45
100
120
140
160
180
200
220
r=-0,82
latitude
mort
alit
y
65 70 75
6000
7000
8000
9000
10000
r=0,45
delka
hm
otn
ost
![Page 4: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/4.jpg)
Spearmanův korelační koeficient
• místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k
• hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li
– | rS | r(n) (tabelováno pro n do 30)
• není třeba znát naměřené hodnoty, stačí jejich pořadí• při pochybnosti o normalitě
rn n
R QS i ii
n
1
6
122
1( )( )
12/1
nz
rS
![Page 5: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/5.jpg)
Princip regresní závislosti
• zabýváme se dvojicí veličin:
– Y (vysvětlovaná, závisle proměnná)
– X (vysvětlující, nezávisle proměnná, regresor)
– hledáme vysvětlení chování Y při dané hodnotě X=x
– podmíněné rozdělení Y při daném X=x (změní se, když změníme x?)
• lineární regrese (předpoklady):
– populační průměr Y při dané hodnotě X=x je lineární funkcí x
– variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x
![Page 6: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/6.jpg)
Porodní hmotnost podle porodní délky
Rozdělení hmotnosti dětí dlouhých 45 - 55 cm výška: 45
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
2000 2500 3000 3500 4000 4500 5000 5500
výška: 46
0
10
20
30
40
50
60
70
80
90
100
110
120
2000 2500 3000 3500 4000 4500 5000 5500
výška: 47
0
20
40
60
80
100
120
140
160
180
200
220
240
260
2000 2500 3000 3500 4000 4500 5000 5500
výška: 48
0
50
100
150
200
250
300
350
400
450
500
2000 2500 3000 3500 4000 4500 5000 5500
výška: 49
0
50
100
150
200
250
300
350
400
450
500
550
600
650
700
2000 2500 3000 3500 4000 4500 5000 5500
výška: 50
0
100
200
300
400
500
600
700
800
900
1000
1100
2000 2500 3000 3500 4000 4500 5000 5500
výška: 51
0
50
100
150
200
250
300
350
400
450
500
550
600
650
700
2000 2500 3000 3500 4000 4500 5000 5500
výška: 52
0
50
100
150
200
250
300
350
400
450
500
2000 2500 3000 3500 4000 4500 5000 5500
výška: 53
0
20
40
60
80
100
120
140
160
180
200
2000 2500 3000 3500 4000 4500 5000 5500
výška: 54
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
2000 2500 3000 3500 4000 4500 5000 5500
výška: 55
0
2
4
6
8
10
12
14
16
18
20
22
24
26
2000 2500 3000 3500 4000 4500 5000 5500
![Page 7: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/7.jpg)
Porodní hmotnost a délka
Závislost porodní hmotnosti na porodní délce
délka
hmot
nost
1000
2000
3000
4000
5000
6000
44 46 48 50 52 54 56
![Page 8: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/8.jpg)
Matematický popis regresní závislosti
i=1,2,...,n
- neznámé parametry
i - náhodná chyba N2) (normální rozdělení)
2 - neznámý parametr (rozptyl)
• x1, ..., xn - dané hodnoty proměnné X
• y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y
- průměrná změna Y při jednotkové změně X
- průměrná hodnota Y při X=0
iii xy 10
![Page 9: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/9.jpg)
Odhad parametrů
• metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek:
• toto minimum se nazývá reziduální součet čtverců (Se)
• odhad rozptylu :
( )y b b xi ii
n
0 1
2
1
22
nS
s e
![Page 10: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/10.jpg)
Modelová představa
0
1
0 1 2 3 4
1
b1
[x i, y i]
x i
y i
y i
b 0
y
x
y=b 0+b 1 x
![Page 11: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/11.jpg)
Příklad (úmrtnost na melanom)
• pozorování: jednotlivé státy USA
• MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959
• LAT: zeměpisná šířka státu
• LONG: zeměpisná délka státu
• POP: počet obyvatel (v milionech)
• OCEAN: zda na břehu oceánu
• lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?
![Page 12: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/12.jpg)
Příklad (těsná závislost)
Úmrtnost na melanom
zeměpisná šířka
úm
rtno
st
75
100
125
150
175
200
225
25 30 35 40 45 50
![Page 13: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/13.jpg)
Příklad (slabá závislost)
Úmrtnost na melanom
zeměpisná délka
úm
rtn
ost
75
100
125
150
175
200
225
-125 -100 -75
![Page 14: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/14.jpg)
Statistické vlastnosti odhadů
• H0 (Y nezávisí na x): (tj. yi=+ei)
• zamítáme, když odhad b1 se dostatečně liší od 0
• použijeme
• H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T | t1-(n - 2)
• ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y
21
1
1
..xx
sb
bESb
T i
![Page 15: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/15.jpg)
Příklad (závislost na zeměpisné délce)
parametr odhad S.E. t p
abs. 183,5 29,92 6,133 < 0,001
LONG 0,3363 0,3245 1,0363 0,305
• přímka: odhad MORT = 183,5 + 0,3363 • LONG
• závislost není průkazná na hladině =0,05
• změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)
Se=52 439,0 s2 = 1 115,7 R2=0,022
![Page 16: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/16.jpg)
Příklad (závislost na zeměpisné šířce)
parametr odhad S.E. t p
abs. 389,2 23,81 16,34 < 0,001
LAT -5,978 0,5984 -9,990 < 0,001
Se=17 173,01 s2 = 365,38 R2=0,680
• přímka: odhad MORT = 389,2 - 5,978 • LAT
• závislost je průkazná na hladině =0,05 (i na menších)
• změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší
![Page 17: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/17.jpg)
Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce)
Variabilita součetčtverců
st.vol.
podíl F p
regrese 36 464,2 1 36 464,2 99,8 < 0,001
reziduální 17 173,1 47 365,38
celková 53 637,3
• celková variabilita = vysvětlená regresí + reziduální
• koeficient determinace:
68,03,536372,36464
1ˆ22
22
yy
S
yy
yyR
i
e
i
i
n
i
n
i
n
iiiii yyyyyy
1 1 1
222ˆˆ
![Page 18: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/18.jpg)
Mnohonásobná lineární regrese
• lineární závislost na několika regresorech:
yi = xi1 + xi2 + ... + k xik + ei
• j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů
• H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace)
• H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu
• pro k=1 jsou obě hypotézy ekvivalentní
![Page 19: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/19.jpg)
Příklad (závislost na délce i šířce)
parametr odhad S.E. t p
abs. 401,17 28,04 14,31 < 0,001
LAT -5,929 0,604 -9,82 < 0,001
LONG 0,153 0,187 0,82 0,418
• neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %)
• závislost na LAT byla:
Se=16 927,7 s2 = 367,99 R2=0,684
Se=17 173,01 s2 = 365,38 R2=0,680
![Page 20: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/20.jpg)
Příklad (opravdu na délce nezáleží?)
parametr odhad S.E. t p
abs. 760,35 123,33 6,17 < 0,001
LAT -6,584 0,600 -10,98 < 0,001
LONG 7,418 2,445 3,03 0,004 LONG2 0,039 0,013 2,98 0,005
Se=14 139,5 s2 = 314,21 R2=0,736
bez kvadratického členu bylo:
Se=16 927,7 s2 = 367,99 R2=0,684
![Page 21: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/21.jpg)
Příklad (pobřežní státy jsou jiné ?)parametr odhad S.E. t p
abs. 360,690 21,498 16,78 < 0,001
LAT -5,489 0,526 -10,44 < 0,001
OCEAN 20,430 4,825 4,23 < 0,001
Se=12 357,0 s2 = 268,63 R2=0,770
v kvadratickém modelu bylo:
Se=14 139,5 s2 = 314,21 R2=0,736
![Page 22: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/22.jpg)
Příklad ( analýza kovariance)Závislost úmrtnosti na zeměpisné šířce
zeměpisná šířka
úm
rtn
ost
60
80
100
120
140
160
180
200
220
240
30 35 40 45 50
vnitrozemský státpobřežní stát
![Page 23: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/23.jpg)
Umělé proměnné v regresi
• umělá proměnná: nabývá hodnot 0 - 1
• jediný regresor - umělá proměnná dvouvýběrový t test
• několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění
• spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance
• regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)
![Page 24: Korelace a regrese](https://reader035.fdocument.pub/reader035/viewer/2022062309/56813832550346895d9fdf7d/html5/thumbnails/24.jpg)
Statistické modely závislosti
nezávisle závisle proměnná
proměnná (é)spojitá nominální
spojitá regrese, korelacelogistická regrese
(pro 0-1)
nominální analýza rozptylukontingenční
tabulka