The Element of Statistical Learning Data Mining, Inference and Prediction
description
Transcript of The Element of Statistical Learning Data Mining, Inference and Prediction
![Page 1: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/1.jpg)
The Element of Statistical LearningData Mining, Inference
and Prediction
Cluster Analysis and Self-Organizing MapsAnaliza skupień i metody SOM
Trevor Hastie, Robert TibshiraniJerome Friedman
Marta Leniewska
![Page 2: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/2.jpg)
Przykład klasteryzacji
![Page 3: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/3.jpg)
Reprezentacja danych x1, …, xN
Macierze podobieństwa D (N×N) Symetryczne, dij 0, dii = 0,
Obiekty xi Rp
Różnica na atrybucie Atrybut ilościowy:
Porządkowy: zamiana na ilościowy Nominalny: macierze podobieństwa L (M×M) między
wartościami atrybutu
,)( 2' jiij xx
,' jiij xx )),(1(2)( '
2' iij jiij xxxx
),( ' jiijj xxd
![Page 4: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/4.jpg)
Różnice między obiektami
Wpływ atrybutu Xj na
(średnia różnica między obiektami)
błąd kwadratowy: - estymator Var(Xj) z próby
Równe wpływy atrybutów: Wyróżnianie pewnych atrybutówBrakujące wartości atrybutów: pomijanie, wprowadzanie, nowa wartość zmiennej
),,(),( '1
' jiij
p
jjjii xxdwxxD
p
jjw
1
1
p
jjj dwD
1
),( 'ii xxD
jjd var2
jvar
jj dw /1
![Page 5: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/5.jpg)
Algorytmy kombinatoryczneUstalone z góry K < N klastrów Cel: funkcja k = C(i) minimalizująca rozrzut wewn.
= W(C) + B(C)
Ilość podziałów N danych na K klastrów Liczba Stirlinga 2 rodz. S(10,4) = 34.105 S(19,4) 1010
Algorytmy znajdujące lokalne minima
K
k kiC kiC kiCiiii ddT
1 )( )'( )(''2
1
NK
k
kK kkK
KKNS
1
)1(!
1),(
)1,1(),1(),( kNSkNSkKNS
![Page 6: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/6.jpg)
Algorytm K średnichZałożenia: atrybuty ilościowe, miara zróżnicowania: kwadrat odległości euklidesowej, Nk – ilość elementów klastra k
Kryterium:
Znaleźć min centra mk dla wybranych klastrów C
(średnie), koszt ~ (ilość elementów klastra) Znaleźć min podział na klastry C
Do braku zmian C, zbiega do min lokalnego
K
k kiCkik
K
k kiC kiCii xxNxxCW
1 )(
2
1 )( )'(
2'2
1)(
K
k kiCkik
mCmxN
Kk 1
2
)(}{, 1
min
![Page 7: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/7.jpg)
![Page 8: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/8.jpg)
Inne wersje K średnich
Wersja probabilistyczna: algorytm EM – dopasowanie do modelu mieszaniny rozkładów Gaussa. Wersja ulepszona: żadna pojedyncza zmiana przypisania obserwacji do klastra nie polepszy wyniku.
![Page 9: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/9.jpg)
Zastosowanie – kompresja
Podział na bloki po m pixeli – wektory w Rm
Aproksymacja bloków centrami klastrówObraz skompresowany: log2K na blok + mK
czyli log2K/8m oryginału
Lepiej przy zastosowaniu teorii ShannonaDziała bo wiele bloków wygląda tak samoMiara deformacji obrazu - straty
![Page 10: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/10.jpg)
Przykład
Sir Ronald A. Fisher(1890-1962)oryginał
K = 200,m = 4,0,239 oryginału,Deformacja: 0,89
K = 4,m = 4,0,063 oryginału,Deformacja: 16,95
![Page 11: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/11.jpg)
Rozmyte K średnich
Rozmyty pseudopodział – rozmyty K podziałP = {A1, ..., AK}
PrzykładN=3, K=2P = {A1, A2}
A1 = 0.6/x1 + 1/x2 + 0.1/x3
A2 = 0.4/x1 + 0/x2 + 0.9/x3
,1)(1
K
kik xA NxA
N
iik
1
)(0
••
•
0.20.40.60.81.0
••
•x1 x2 x3
0.0
![Page 12: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/12.jpg)
Rozmyte K średnichCentrum rozmytego klastra Ai
v R, v > 1
Minimalizacjawskaźnika Znaleźć centra dla wybranych klastrów P(t-1)
Znaleźć podział na klastry P(t)
zmiana Ak(xi)
Kryterium stopu:
N
ii
N
iii
k
kw
xkwm
1
1
)(
)(
viki xAkw )]([)(
N
i
K
kkiiv mxkwPJ
1 1
2)()(
)()(max )1()(
,
)1()(i
tki
tkki
tt xAxAPP
![Page 13: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/13.jpg)
C.d.
v 1, uogólnienie K średnichv , bardziej rozmytyzbieżny dla każdego v (1, )
Przykład K = 2 v = 1,25
x1
x2
x3
x4
x5
x6
x7 x8 x9 x11
x10
x12
x13
x14
x15
i
A1(xi)
A2(xi)
xi1
xi2
![Page 14: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/14.jpg)
Algorytm K medoidów
Medoid – element centralnyUogólnienie K średnich na dowolne atrybuty i odległości.Kryterium:
Znaleźć min centra xik
dla wybranych klastrów C
(medoidy)koszt dla klastra ~ (ilość elementów klastra)2
Znaleźć min podział na klastry C
K
k kiCii
iC kKk
d1 )(}{, 1
min
![Page 15: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/15.jpg)
Przykład K medoidów
12 krajówK = 3USA, ISR, FRA, EGY, BELZAI, IND, BRAYUG, USS, CUB, CHI
![Page 16: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/16.jpg)
Inna wersja – CLARA
Kilka (np. m = 5) próbek liczności 40+2K Dla każdej próbki – minimalizacja bezp. przez iteracyjne zmiany medoidów (PAM)Koszt iteracji = O(K(N-K)2)Wybór tego z m układów medoidów który jest najlepszy dla wszystkich danych
![Page 17: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/17.jpg)
Kwestie praktyczne
Wybór K* początkowych centrów Podać centra lub indeksy lub koder C Losowo lub krokowo minimalizując kryterium
Estymacja K* Rozrzut w klastrach ~ 1/K Rozrzut dla K<K* i dla K>K* K* odpowiada zgięciu wykresu
![Page 18: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/18.jpg)
Statystyka Gap
0,0
0,5
1,0
1,5
![Page 19: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/19.jpg)
Metody hierarchiczne
Nie wymagają K, tylko miary odległości między grupami obserwacjiKlastry na poziomie M tworzone przez łączenie klastrów z poziomu M-1Poziom min: N klastrów {xi}, poziom max: {x1, ..., xN}
Strategie aglomeracyjne i dzielące, N poziomówUporządkowany ciąg poziomów ~ podziałówWybór poziomu np. statystyka Gap
![Page 20: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/20.jpg)
Dendrogram
![Page 21: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/21.jpg)
Dendrogram jako opis danych
Ocena reprezentacyjności: wspólczynnik korelacji między dii’ a Cii’
Cii wysokość pierwszego wspólnego klastra N różnych na N(N-1)/2 Cii’ <= {Cik, Ci’k} (trójkąty równoramienne)
![Page 22: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/22.jpg)
Metody aglomeracyjne
Od singletonów, do 1 klastra Miary odległości między klastrami G i H: Single Linkage – najmniejsza odległość Complete Linkage – największa odległość Group Avarage – średnia odległość
'',min),( iiHiGiSL dHGd
'',max),( iiHiGiCL dHGd
Gi Hi
iiHG
GA dNN
HGd'
'1),(
![Page 23: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/23.jpg)
GA, CL, SL - dendrogramy
![Page 24: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/24.jpg)
Przykład
![Page 25: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/25.jpg)
Metody dzieląceGdy chcemy otrzymać mało klastrówCiąg podziałów metodą K=2 średnich/medoidów Zależy od początkowej konfiguracji w każdym kroku Nie zawsze otrzymamy własność monotoniczności
Albo Obiekt najbardziej odległy od reszty w klastrze G
do klastra H Obserwacje bliższe H niż G: najbliższa H do H Klaster do podziału – max średnica, lub średni rozrzut
wewnętrzny Do singletonów lub nierozróżnialności w klastrach
![Page 26: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/26.jpg)
Hierarchiczne metody rozmyte
Rozmyta relacja równoważności R na X2
R(x,x) = 1 R(x,y) = R(y,x) x,yXx,zX
-cut rozmytego zbioru A: A = {x | A(x) }
0,2A = {x1, x2}, 0,4A = {x1}
)],(),,(min[max),( zyRyxRzxRXy
•0.20.4
•x1 x2
0.0
A(x)
![Page 27: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/27.jpg)
Hierarchiczne metody rozmyte
R to crisp relacja równoważności – pary podobne Znaleźć odpowiednią relację R(lub relację kompatybilności i jej tranzytywne domknięcie)
gdzie q > 0,
Tranzytywne domknięcie R to RT = R(n-1)
qp
j
q
jiijii xxxxR1
1'' )(1),(
),(max '', iiiixxR
![Page 28: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/28.jpg)
Przykład dla q=2
xi1
xi2
x1
x2
x3
x4
x5
![Page 29: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/29.jpg)
Self-Organizing Maps
Wersja K średnich – prototypy na 1 lub 2 wymiarowej rozmaitości w przestrzeni atrybutów, mapowanie obserwacji na rozmaitośćMacierz K prototypów mj Rp,
o współrzędnych lj R2
Inicjalizacja – np. na płaszczyźnie wyznaczonej metodą głównych składowychRegularne rozmieszczenie prototypów na płaszczyźnieWyginanie płaszczyzny
![Page 30: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/30.jpg)
Algorytm SOMZnajdź mj najbliższy xi w Rp
Przesuń bliskich sąsiadów mj wg. lj do xi
Wskaźnik uczenia maleje od 1 do 0Próg r maleje od R do 1Albo: przesunięcie zależne od odległości do mj
Sąsiedztwo mj zawiera tylko mj K średnich
)( kikk mxmm
))(( kikjkk mxllhmm
![Page 31: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/31.jpg)
1.
2.
3.
![Page 32: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/32.jpg)
SOM aproksymacją K średnich
Porównać błędy rekonstrukcji:Przykład: porównanie z K = 25 średnich
2
jmx
k
kkj w
xwm
![Page 33: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/33.jpg)
Zastosowanie
http://websom.hut.fi/websom
WEBSOM – rzutowanieartykułów z newsgroupwg. tematyki
artykuł jako wektor wystąpień ustalonych terminów
opcja zoom
![Page 34: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/34.jpg)
Średnica zbioru punktów
•
••
••
••
•
•
•• •
•
• • •
•
![Page 35: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/35.jpg)
Średnia zbioru punktów
•
••
•
••
•
•
![Page 36: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/36.jpg)
Medoid zbioru punktów
•
••
•
••
•
•
![Page 37: The Element of Statistical Learning Data Mining, Inference and Prediction](https://reader035.fdocument.pub/reader035/viewer/2022062310/56815027550346895dbe1550/html5/thumbnails/37.jpg)
Odległość międzygrupowa