Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody...

20
Pokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Transcript of Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody...

Page 1: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Pokročilé

neparametrické

metody

Klára Kubošová

Regresní

stromy

Page 2: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Regresní

stromy

I.

Neparametrická, převážně explanatorní technika

Modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných (kategoriálních, spojitých)

Stejný princip tvorby stromu jako u klasifikačních stromůposloupnost rozhodnutí, jejímž výsledkem je zařazení objektu do jednoho z listů na základě vlastností zkoumaného objektuV každém uzlu je určena veličina, podle které dělíme datový soubor a hranice, která určuje, kde dělení má provést (je-li veličina spojitá).

Page 3: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Kriteriální

statistika pro regresní

stromyPředpokládejme, že máme strom rozdělený do určitého počtu terminálních uzlů a odpověď závisle proměnné modelujeme jako konstantu pro každý terminální uzel. Pokud použijeme kritérium, které minimalizuje střední kvadratickou chybu, nejlepším odhadem bude průměr.Kritérium LSD - Least Square Deviation

∑∈

=mi Rx

im

m yN

c 1ˆ

( ) ( )2ˆ

1)( ∑∈

−==mi Rx

mim

m cyN

TQmi

kde Rm jsou všechna pozorování

v

uzlu m, Nm je počet pozorování v uzlu m a pmk je podíl pozorování

třídy k v uzlu m.

Page 4: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Výsledná

hodnota predikce

Každému objektu z koncových listů je tak přiřazena hodnota, kterou vypočteme jako aritmetický průměr hodnot všech objektů v příslušném listu.

Výsledný odhad hodnot závisle proměnné tak bude nabývat pouze tn -1 hodnot, kde tn je počet terminálních uzlů

Další možností je vytvořit pro jednotlivé listy regresní modelyNemusí však být dostatečný počet dat v koncové uzluVýsledný vztah nelze popsat regresí (není zde závislost, vzorky v terminálním uzlu nesplňují předpoklady regrese)Metoda začne nabývat na složitosti

Page 5: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad: Ukázka regresního stromu Závislost spotřeby plynu na venkovní

teplotě

T> -5

T>5S=472-77T

S=470-23.9TS=631-46.8T

- +

- +

-20 -10 0 10 20

050

010

0015

0020

00

Venkovni teplota

Spo

treba

ply

nu

Page 6: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Posouzení

kvality regresního stromu

Minimalizujeme Střední kvadratickou chybu (MSE – meansquare error)

S rostoucí velikostí stromu sice MSE na množině trénovacíchdat klesá, ale skutečná chyba zpravidla klesá jen do určitévelikosti stromu, s narůstající velikostí stromu opět roste

Velikost stromu se opět určuje na základě krosvalidace a costof complexity kritéria

Page 7: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Prořezávání

(Cost

-

complexity

Prunning)

Mějme

strom

T0

. Prořezáním

určitého

počtu

koncových

uzlů dostaneme

strom

T1

.

.

Cena jednoduššího stromu (cost-complexity

criterion):

kde |T1

| je počet terminálních uzlů

stromu a DT1

je deviance

stromu.Parametr α ≥ 0 vyjadřuje kompromis mezi velikostí

stromu a jeho

vyčerpanou variabilitou. Hledáme tedy, pro každé

α, takový strom ,který minimalizuje Cα(T). K určení

odhadu α

se používá

krosvalidace

( ) ,111 TDTTC αα +=

Page 8: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Výhody a nevýhody regresních stromů

Výhody☺

Snadné

grafické

znázornění

Neklade žádné

podmínky na typ rozdělení

(lineární

regresní model –

požadavek normality reziduí)

Algoritmy tvorby stromu jsou odolné

vůči odlehlým hodnotám☺

Možno použít korelované

proměnné

NevýhodyNestabilita - tvar stromu velmi závisí na datech Modelovaná regresní plocha je nespojitá (je-li výsledná hodnota listu rovna aritmetickému průměru hodnot všech objektů v příslušném listu).

Page 9: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad chudoba

Sledujeme, jestli existuje vztah mezi Procentem rodin pod hranicíchudoby na šesti různých parametrech

POP_CHNG - Populační

změna (%) (1960-1970)

N_EMPLD - Počet osob zaměstnaných v zemědělství

PT_POOR - Procento rodin pod hranicí

chudoby

TAX_RATE - Sazba daně

a zastavěné

a zemědělské

plochy

PT_PHONE - Procento domácností

s telefonemPT_RURAL - Procento lidí

žijící

na venkověAGE - Průměrný věk

Page 10: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad chudoba

Tree 6 graph for PT_POORNum. of non-terminal nodes: 3, Num. of terminal nodes: 4

ID=1 N=30

Mu=23.010000Var=39.924233

ID=2 N=11

Mu=29.618182Var=26.597851

ID=5 N=9

Mu=27.477778Var=6.963951

ID=4 N=2

Mu=39.250000Var=1.562500

ID=6 N=1

Mu=21.600000Var=0.000000

ID=7 N=8

Mu=28.212500Var=2.976094

ID=3 N=19

Mu=19.184211Var=7.721330

PT_PHONE

<= 72.000000 > 72.000000

POP_CHNG

<= -8.300000 > -8.300000

PT_RURAL

<= 73.550000 > 73.550000

Jak interpretovat strom ?Jaká

je vyčerpaná

variabilita stromu ?

Které

parametry jsou významné

?Má

strom správnou velikost?

Page 11: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad chudoba

Tree

sequence

(Poverty)

Terminal -

nodes CV -

cost CV std. -

error Resubstitution

-

cost Node

complexity

Tree

1 11 18.60725 3.82166 1.28719 0.00000

Tree

2 10 18.44109 3.68951 1.60641 0.31923

Tree

3 8 18.18720 3.76036 2.55583 0.47471

Tree

4 6 16.72010 3.57865 3.82342 0.63380

Tree

5 5 16.98769 3.59401 4.70379 0.88037

Tree

6 4 16.98769 3.59401 5.78797 1.08418

Tree

7 3 15.24180 5.11862 7.08353 1.29556

Tree

8 2 16.10955 5.14345 14.64272 7.55919

Tree

9 1 43.42712 13.03157 39.92423 25.28151

Page 12: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad -ozón

60 70 80 90

050

100

150

temperature

ozon

e

5 10 15 20

050

100

150

wind

ozon

e

0 50 100 200 300

050

100

150

radiation

ozon

e

denní

měření

koncentrace ozónu (%) v

závislosti na rychlosti větru, teplotě

vzduchu a intenzitě

slunečního záření

v

New Yorku

n = 111

Knihovna rpart

Page 13: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad –

ozón

|temperature< 82.5

wind>=6.6

temperature< 77.5

radiation< 82

wind>=10.6

wind>=4.3

temperature< 87.5

18.47n=49 13

n=436.75n=20

92.5n=4

48.71n=7

67.5n=10

88.23n=13

112n=4

Délka větví

ukazuje, o kolik se snížila neobjasněná

variabilita

Minsplit =7 - min. počet pozorování, při kterém nedojde k oddělení

do dalšího uzlu

pozor na hledání

odlehlých hodnot

minbucket = 3

-počet pozorování

v koncovém uzlu, kdy se již

strom dále nedělí

Page 14: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad ozón –

nalezení

optimální

velkosti stromu

cp

X-va

l Rel

ativ

e Er

ror

0.2

0.4

0.6

0.8

1.0

1.2

Inf 0.27 0.092 0.041 0.029 0.023 0.018 0.012

1 2 3 4 5 6 7 8

size of tree

Referenční

modrá

čára -

nejmenší

hodnota krosvalidované

chyby +standardní

chyba odhadu

Počet terminálních uzlů

cp

-complexity

parametr

Prořezání

stromucp

= 0.041

Page 15: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Node number 1: 111 observations mean=42.0991, MSE=1097.315

Node number 2: 77 observations mean=26.77922, MSE=547.3149

Node number 3: 34 observationsmean=76.79412, MSE=607.6341

Node number 4: 73 observationsmean=23.17808, MSE=170.2834

Node number 5: 4 observationsmean=92.5, MSE=2872.25

Node number 6: 7 observationsmean=48.71429, MSE=169.0612

Node number 7: 27 observationsmean=84.07407, MSE=463.9204

Příklad ozón –

výstupy ze stromu

CP nsplit

rel

error

xerror

xstd1 0.484386 0 1.00000 1.02792 0.176382 0.149616 1 0.51561 0.55217 0.181843 0.057062 2 0.36600 0.56462 0.181794 0.030065 3 0.30894 0.49683 0.116245 0.027130 4 0.27887 0.48721 0.115796 0.019943 5 0.25174 0.47647 0.115677 0.015437 6 0.23180 0.43769 0.115148 0.010000 7 0.21636 0.43910 0.11467

Page 16: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad ozón

|temperature< 82.5

wind>=6.6

temperature< 77.5

radiation< 82

wind>=10.6

wind>=4.3

temperature< 87.518.47

13 36.75

92.5 48.71

67.5 88.23

11

|temperature< 82.5

wind>=6.6 wind>=10.6

23.18 92.5 48.71 84.07

Strom 1 Strom 2

Standardizovaná

délka větví

Page 17: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad ozón: textová

ukázka stromun= 111, (node), split, n, deviance, yval, * denotes terminal node

1) root 111 121801.900 42.09910 2) temperature< 82.5 77 42143.250 26.77922

4) wind>=6.6 73 12430.680 23.17808 *5) wind< 6.6 4 11489.000 92.50000 *

3) temperature>=82.5 34 20659.560 76.79412 6) wind>=10.6 7 1183.429 48.71429 *7) wind< 10.6 27 12525.850 84.07407 14) wind>=4.3 23 6677.913 79.21739 *15) wind< 4.3 4 2186.000 112.00000 *

Page 18: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Příklad ozón: Primární

a zástupné

proměnnéNode number 1: 111 observations, complexity param=0.4843857

mean=42.0991, MSE=1097.315 left son=2 (77 obs) right son=3 (34 obs)Primary splits:

temperature < 82.5 to the left, improve=0.4843857, (0 missing)wind < 6.6 to the right, improve=0.4151041, (0 missing)radiation < 153 to the left, improve=0.2165826, (0 missing)

Surrogate splits:wind < 6.6 to the right, agree=0.784, adj=0.294, (0 split)

Node number 2: 77 observations, complexity param=0.1496164mean=26.77922, MSE=547.3149 left son=4 (73 obs) right son=5 (4 obs)Primary splits:

wind < 6.6 to the right, improve=0.4324195, (0 missing)temperature < 77.5 to the left, improve=0.2230477, (0 missing)radiation < 153 to the left, improve=0.1054601, (0 missing)

Page 19: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Software

-

stromy

Komerční:1.

Statistica2.

Clementine, data miner

k SPSS3.

Answer

Tree

(SPSS)4.

Matlab

Volně šiřitelné:1.

R –

knihovny tree, rpart2.

C 4.5 http://www.rulequest.com/Personal

Page 20: Klára Kubošová - iba.muni.czPokročilé neparametrické metody Pokročilé neparametrické metody Klára Kubošová Regresní stromy

Pokročilé neparametrické metody

Literatura

Hastie T., Tibshirani R., Friedman J.: The Elements of StatisticalLearning, Data mining, Inference and Prediction, Springer 2003Lažanský et. Kol.: Umělá inteligence I.- IV.Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004Breiman, L. et al (1984) Classification and Regression Trees, Chapman and HallBreiman L. (2001) Random forests. Machine Learning 45, pp. 5-32.