Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody...
Transcript of Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody...
Pokročilé neparametrické metody
Pokročilé
neparametrické
metody
Klára Kubošová
Regresní
stromy
Pokročilé neparametrické metody
Regresní
stromy
I.
Neparametrická, převážně explanatorní technika
Modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných (kategoriálních, spojitých)
Stejný princip tvorby stromu jako u klasifikačních stromůposloupnost rozhodnutí, jejímž výsledkem je zařazení objektu do jednoho z listů na základě vlastností zkoumaného objektuV každém uzlu je určena veličina, podle které dělíme datový soubor a hranice, která určuje, kde dělení má provést (je-li veličina spojitá).
Pokročilé neparametrické metody
Kriteriální
statistika pro regresní
stromyPředpokládejme, že máme strom rozdělený do určitého počtu terminálních uzlů a odpověď závisle proměnné modelujeme jako konstantu pro každý terminální uzel. Pokud použijeme kritérium, které minimalizuje střední kvadratickou chybu, nejlepším odhadem bude průměr.Kritérium LSD - Least Square Deviation
∑∈
=mi Rx
im
m yN
c 1ˆ
( ) ( )2ˆ
1)( ∑∈
−==mi Rx
mim
m cyN
TQmi
kde Rm jsou všechna pozorování
v
uzlu m, Nm je počet pozorování v uzlu m a pmk je podíl pozorování
třídy k v uzlu m.
Pokročilé neparametrické metody
Výsledná
hodnota predikce
Každému objektu z koncových listů je tak přiřazena hodnota, kterou vypočteme jako aritmetický průměr hodnot všech objektů v příslušném listu.
Výsledný odhad hodnot závisle proměnné tak bude nabývat pouze tn -1 hodnot, kde tn je počet terminálních uzlů
Další možností je vytvořit pro jednotlivé listy regresní modelyNemusí však být dostatečný počet dat v koncové uzluVýsledný vztah nelze popsat regresí (není zde závislost, vzorky v terminálním uzlu nesplňují předpoklady regrese)Metoda začne nabývat na složitosti
Pokročilé neparametrické metody
Příklad: Ukázka regresního stromu Závislost spotřeby plynu na venkovní
teplotě
T> -5
T>5S=472-77T
S=470-23.9TS=631-46.8T
- +
- +
-20 -10 0 10 20
050
010
0015
0020
00
Venkovni teplota
Spo
treba
ply
nu
Pokročilé neparametrické metody
Posouzení
kvality regresního stromu
Minimalizujeme Střední kvadratickou chybu (MSE – meansquare error)
S rostoucí velikostí stromu sice MSE na množině trénovacíchdat klesá, ale skutečná chyba zpravidla klesá jen do určitévelikosti stromu, s narůstající velikostí stromu opět roste
Velikost stromu se opět určuje na základě krosvalidace a costof complexity kritéria
Pokročilé neparametrické metody
Prořezávání
(Cost
-
complexity
Prunning)
Mějme
strom
T0
. Prořezáním
určitého
počtu
koncových
uzlů dostaneme
strom
T1
.
.
Cena jednoduššího stromu (cost-complexity
criterion):
kde |T1
| je počet terminálních uzlů
stromu a DT1
je deviance
stromu.Parametr α ≥ 0 vyjadřuje kompromis mezi velikostí
stromu a jeho
vyčerpanou variabilitou. Hledáme tedy, pro každé
α, takový strom ,který minimalizuje Cα(T). K určení
odhadu α
se používá
krosvalidace
( ) ,111 TDTTC αα +=
Pokročilé neparametrické metody
Výhody a nevýhody regresních stromů
Výhody☺
Snadné
grafické
znázornění
☺
Neklade žádné
podmínky na typ rozdělení
(lineární
regresní model –
požadavek normality reziduí)
☺
Algoritmy tvorby stromu jsou odolné
vůči odlehlým hodnotám☺
Možno použít korelované
proměnné
NevýhodyNestabilita - tvar stromu velmi závisí na datech Modelovaná regresní plocha je nespojitá (je-li výsledná hodnota listu rovna aritmetickému průměru hodnot všech objektů v příslušném listu).
Pokročilé neparametrické metody
Příklad chudoba
Sledujeme, jestli existuje vztah mezi Procentem rodin pod hranicíchudoby na šesti různých parametrech
POP_CHNG - Populační
změna (%) (1960-1970)
N_EMPLD - Počet osob zaměstnaných v zemědělství
PT_POOR - Procento rodin pod hranicí
chudoby
TAX_RATE - Sazba daně
a zastavěné
a zemědělské
plochy
PT_PHONE - Procento domácností
s telefonemPT_RURAL - Procento lidí
žijící
na venkověAGE - Průměrný věk
Pokročilé neparametrické metody
Příklad chudoba
Tree 6 graph for PT_POORNum. of non-terminal nodes: 3, Num. of terminal nodes: 4
ID=1 N=30
Mu=23.010000Var=39.924233
ID=2 N=11
Mu=29.618182Var=26.597851
ID=5 N=9
Mu=27.477778Var=6.963951
ID=4 N=2
Mu=39.250000Var=1.562500
ID=6 N=1
Mu=21.600000Var=0.000000
ID=7 N=8
Mu=28.212500Var=2.976094
ID=3 N=19
Mu=19.184211Var=7.721330
PT_PHONE
<= 72.000000 > 72.000000
POP_CHNG
<= -8.300000 > -8.300000
PT_RURAL
<= 73.550000 > 73.550000
Jak interpretovat strom ?Jaká
je vyčerpaná
variabilita stromu ?
Které
parametry jsou významné
?Má
strom správnou velikost?
Pokročilé neparametrické metody
Příklad chudoba
Tree
sequence
(Poverty)
Terminal -
nodes CV -
cost CV std. -
error Resubstitution
-
cost Node
complexity
Tree
1 11 18.60725 3.82166 1.28719 0.00000
Tree
2 10 18.44109 3.68951 1.60641 0.31923
Tree
3 8 18.18720 3.76036 2.55583 0.47471
Tree
4 6 16.72010 3.57865 3.82342 0.63380
Tree
5 5 16.98769 3.59401 4.70379 0.88037
Tree
6 4 16.98769 3.59401 5.78797 1.08418
Tree
7 3 15.24180 5.11862 7.08353 1.29556
Tree
8 2 16.10955 5.14345 14.64272 7.55919
Tree
9 1 43.42712 13.03157 39.92423 25.28151
Pokročilé neparametrické metody
Příklad -ozón
60 70 80 90
050
100
150
temperature
ozon
e
5 10 15 20
050
100
150
wind
ozon
e
0 50 100 200 300
050
100
150
radiation
ozon
e
denní
měření
koncentrace ozónu (%) v
závislosti na rychlosti větru, teplotě
vzduchu a intenzitě
slunečního záření
v
New Yorku
n = 111
Knihovna rpart
Pokročilé neparametrické metody
Příklad –
ozón
|temperature< 82.5
wind>=6.6
temperature< 77.5
radiation< 82
wind>=10.6
wind>=4.3
temperature< 87.5
18.47n=49 13
n=436.75n=20
92.5n=4
48.71n=7
67.5n=10
88.23n=13
112n=4
Délka větví
ukazuje, o kolik se snížila neobjasněná
variabilita
Minsplit =7 - min. počet pozorování, při kterém nedojde k oddělení
do dalšího uzlu
pozor na hledání
odlehlých hodnot
minbucket = 3
-počet pozorování
v koncovém uzlu, kdy se již
strom dále nedělí
Pokročilé neparametrické metody
Příklad ozón –
nalezení
optimální
velkosti stromu
cp
X-va
l Rel
ativ
e Er
ror
0.2
0.4
0.6
0.8
1.0
1.2
Inf 0.27 0.092 0.041 0.029 0.023 0.018 0.012
1 2 3 4 5 6 7 8
size of tree
Referenční
modrá
čára -
nejmenší
hodnota krosvalidované
chyby +standardní
chyba odhadu
Počet terminálních uzlů
cp
-complexity
parametr
Prořezání
stromucp
= 0.041
Pokročilé neparametrické metody
Node number 1: 111 observations mean=42.0991, MSE=1097.315
Node number 2: 77 observations mean=26.77922, MSE=547.3149
Node number 3: 34 observationsmean=76.79412, MSE=607.6341
Node number 4: 73 observationsmean=23.17808, MSE=170.2834
Node number 5: 4 observationsmean=92.5, MSE=2872.25
Node number 6: 7 observationsmean=48.71429, MSE=169.0612
Node number 7: 27 observationsmean=84.07407, MSE=463.9204
Příklad ozón –
výstupy ze stromu
CP nsplit
rel
error
xerror
xstd1 0.484386 0 1.00000 1.02792 0.176382 0.149616 1 0.51561 0.55217 0.181843 0.057062 2 0.36600 0.56462 0.181794 0.030065 3 0.30894 0.49683 0.116245 0.027130 4 0.27887 0.48721 0.115796 0.019943 5 0.25174 0.47647 0.115677 0.015437 6 0.23180 0.43769 0.115148 0.010000 7 0.21636 0.43910 0.11467
Pokročilé neparametrické metody
Příklad ozón
|temperature< 82.5
wind>=6.6
temperature< 77.5
radiation< 82
wind>=10.6
wind>=4.3
temperature< 87.518.47
13 36.75
92.5 48.71
67.5 88.23
11
|temperature< 82.5
wind>=6.6 wind>=10.6
23.18 92.5 48.71 84.07
Strom 1 Strom 2
Standardizovaná
délka větví
Pokročilé neparametrické metody
Příklad ozón: textová
ukázka stromun= 111, (node), split, n, deviance, yval, * denotes terminal node
1) root 111 121801.900 42.09910 2) temperature< 82.5 77 42143.250 26.77922
4) wind>=6.6 73 12430.680 23.17808 *5) wind< 6.6 4 11489.000 92.50000 *
3) temperature>=82.5 34 20659.560 76.79412 6) wind>=10.6 7 1183.429 48.71429 *7) wind< 10.6 27 12525.850 84.07407 14) wind>=4.3 23 6677.913 79.21739 *15) wind< 4.3 4 2186.000 112.00000 *
Pokročilé neparametrické metody
Příklad ozón: Primární
a zástupné
proměnnéNode number 1: 111 observations, complexity param=0.4843857
mean=42.0991, MSE=1097.315 left son=2 (77 obs) right son=3 (34 obs)Primary splits:
temperature < 82.5 to the left, improve=0.4843857, (0 missing)wind < 6.6 to the right, improve=0.4151041, (0 missing)radiation < 153 to the left, improve=0.2165826, (0 missing)
Surrogate splits:wind < 6.6 to the right, agree=0.784, adj=0.294, (0 split)
Node number 2: 77 observations, complexity param=0.1496164mean=26.77922, MSE=547.3149 left son=4 (73 obs) right son=5 (4 obs)Primary splits:
wind < 6.6 to the right, improve=0.4324195, (0 missing)temperature < 77.5 to the left, improve=0.2230477, (0 missing)radiation < 153 to the left, improve=0.1054601, (0 missing)
Pokročilé neparametrické metody
Software
-
stromy
Komerční:1.
Statistica2.
Clementine, data miner
k SPSS3.
Answer
Tree
(SPSS)4.
Matlab
Volně šiřitelné:1.
R –
knihovny tree, rpart2.
C 4.5 http://www.rulequest.com/Personal
Pokročilé neparametrické metody
Literatura
Hastie T., Tibshirani R., Friedman J.: The Elements of StatisticalLearning, Data mining, Inference and Prediction, Springer 2003Lažanský et. Kol.: Umělá inteligence I.- IV.Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004Breiman, L. et al (1984) Classification and Regression Trees, Chapman and HallBreiman L. (2001) Random forests. Machine Learning 45, pp. 5-32.