SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.
-
Upload
heinrich-heidrich -
Category
Documents
-
view
213 -
download
0
Transcript of SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.
![Page 1: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/1.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
1
Kapitel 6: Unüberwachtes Lernen
![Page 2: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/2.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
2
Clustering
• Gegeben: eine Menge von Punkten (Beispielen), „ungelabelt“ (i.e. Klasse unbekannt)
• Gesucht: eine Menge von Clustern (Cluster-Zentren), die die Daten möglichst gut beschreiben („Vektorquantisierung“)
minimiere
(Summe der Abstände zu allen Zentren, quadratischer Quantisierungsfehler)
k
i Cxjij
ij
D1 :
2wx
![Page 3: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/3.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
3
K-means Clustering
• Gradientenverfahren
• Neues Cluster-Zentrum ist Mittelwert der Punkte im Cluster
• Mehrere Iterationen notwendig
n
jji
i nD
1
new 10 xww
![Page 4: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/4.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
4
Clustering als NC: Competitive Learning
• Architektur wie Perceptron
n
iijij wxfx
1
2
f ... Gauss; wie RBFN
Wähle „Gewinner“(am stärksten aktivierte Unit)
Setze „Gewinner“ auf 1,alle anderen auf 0
• „winner-take-all“• Gewinner lernt (Instar Regel): ijiij wxw
![Page 5: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/5.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
5
Geometrische Interpretation• Gewichtsvektoren
und Inputs sind Punkte im Raum
Input• Gewinner wählen = finde nähesten Gewichstvektor
• Resultat: Gruppen in den Daten werden gefunden
• Instar: Ziehe Gewichtsvektor zu Input hin
• stochastische Variante von k-means!
Matlab>demos>neural networks>other demos>chapter 14>competitive learning
![Page 6: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/6.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
6
Eigenschaften
• Clustering nach k-means ist Gauss‘sches Clustering (symmetrische Streuung)
• Aufteilung des Raumes: Voronoi Tesselation
• Mögliche Probleme:– Lokale Minima
(bei schlechter Initialisierung)
– Verzerrung durch Ausreisser
![Page 7: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/7.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
7
Gaussian Mixtures als Clustering• Clustering wird als Dichteschätzung betrachtet
• Anschreibbar wie Klassifikationsproblem:
• EM-Algorithmus (max. Likelihood):
j
iijji xp
PpP
||
xx
Posterior des Clusters iGaussverteilung Prior (i)
Dichte (GMM)
k
i i
ij
i
ij
xxp
12
2
2exp
2
n
kiki
n
kkiki
i
xP
xxP
1
1new
,|
,|
Gewichteter Mittelwert, analog zu k-means
Netlab>demgmm1.m
![Page 8: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/8.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
8
Vorteile der GMM
• Vorteile:– Probabilitischer Rahmen– Zugehörigkeit zu Clustern angebbar
(Posterior)– Ausgeprägtheit von
Clustern bestimmbar– Modellauswahl möglich
(anhand der Likelihood)k-means: optimale Anzahl der Clusters nicht leicht bestimmbar
![Page 9: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/9.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
9
Erweiterungen
• Erweiterung auf beliebige Gauss-Verteilungen möglich
• K-means: entspricht „Mahalonobis Distanz“(berücksichtigt Varianzen innerhalb der Cluster)
Netlab>demgmm3.m, demgmm4.m
Gewöhnliche (sphärische) Gauss-FunktionenBeliebige Gauss-Funktionen
![Page 10: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/10.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
10
Nicht-Gauss‘sches Clustering
• Nur als Mixture von Gauss‘schen Zentren beschreibbar
• Wenn „natürliche“ Cluster gefunden werden sollen: Nur parametrisch möglich (d.h. Form der Cluster bekannt)
• Ansonsten: Identifikationsproblem
![Page 11: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/11.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
11
Andere Formen des Clustering
• Andere Distanz-(Ähnlichkeits-)Maßez.B. Manhattan-Distanz, Ranking
• Andere Fehler-(Kriteriums-)Funktionenz.B. Kohäsion innerhalb des Clusters, Entropie
• Hierarchisches Clustering– Dendrogramme– ART mit verschiedenen
Vigilanzen
![Page 12: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/12.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
12
Selforganizing Maps (SOM)
• Kohonen (1981, 1990)
• Nachbarschaft definiert• Wie CL: winner-take-all, Instar• Aber Nachbarn lernen mit
ijijij wxxxnw win,
Nachbarschaftsfunktion,wird im Laufe des TrainingsKleiner (Stabilisierung)
![Page 13: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/13.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
13
SOM: Geometrische Interpretation
• Topologische Beziehung der Clusters bleibt weitgehend bestehen
• Benachbarte Units entsprechen benachbarten Clustern
• Datenraum wird auf die 2-dim. Struktur abgebildet („Karte“)
• Dient zur Visualisierung hochdimensionaler Daten
• 2-dim. Struktur wird in den hochdimensionalen Raum eingepasst - Projektion
3x3 SOM
Vienet2>uebung4.exe; Matlab>demos>2dim. selforganizing map
![Page 14: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/14.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
14
Beispiel: politische Konflikte
• Daten: Konflikte und Vermittlungsversuche seit 1945 (Bercovitch & Langely 1993)
• 6 Dimensionen:– Dauer– Politische Macht A– Politische Macht B– Politische Rechte B– Initiator– Vermittlunsgerfolg
• 2 dim. Visualisierung
http://websom.hut.fi
![Page 15: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/15.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
15
SOM
• Durch schlechte Initaliseriung kann k-means zu sub-otpimalen Lösungen führen (lokales Minimum)
• SOM: durch Mitziehen der Nachbarn wird der Datenraum besser abgedeckt (lokale Minima können vermieden werden)
• Zusätzlich: – Topologische Beziehung– Mehr Zentren in Bereichen hoher
Dichte
![Page 16: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/16.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
16
Multidimensionale Skalierung
• Aufgabe: Bilde hochdimensionale (n-d) Daten auf niedrige Dimensionalität (k-d) ab, sodaß Abstände zwischen den Punkten annähernd gleich bleiben (Dimensionsreduktion)
• Funktioniert gut, wenn Daten auf k-dim. Mannigfaltigkeit liegen (z.B. gekrümmte Fläche)
![Page 17: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/17.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
17
SOM als MDS
• MDS entspricht dem Prinzip der topologischen Erhaltung in der SOM
SOM ist Clustering + MDS (mit Verzerrung abh. von Dichte)!
Bereich 1
1
Bereich 2
2
![Page 18: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/18.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
18
Topologische Darstellung
• Zwischenzustände durch Gewichtung mittels Distanz zu Zentren
• Ausgeprägte Grenzen darstellbar (U-Map, Ultsch)
![Page 19: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/19.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
19
Alternative: Sammon Mapping
• Minimiere Differenz aller Abstände:
• Nachteil: hoher Berechnungsaufwand• Lösung: zuerst Clustering, dann Sammon
Mapping (weniger Punkte); Flexer 1996• Aber: Gleiche Probleme mit lokalen Minima wie
k-means
i ij ji
jiji
ddd
Dxx
xxxx,
~,~, 2
Abstand OriginalpunktePunkte in der Map
Normalisierung
![Page 20: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/20.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
20
Probleme der SOM
• Keine probabilistische Beschreibung• Konvergenz nicht garantiert• Es gibt keine Fehlerfunktion, die minimiert wird!• Clustering und MDS beeinflussen einander (beides kann
suboptimal sein) • Es ist schwer abschätzbar, ob SOM gut ist oder nicht Empfehlung:
– SOM nur zur Visualisierung einsetzen!(nicht zum Clustering oder für überwachte Probleme)
– Genau überlegen, was Kriterium ist; Alternativen suchen
![Page 21: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/21.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
21
Generative Topographic Mapping (GTM)
• Bishop et al. (1996)• Nichtlineares Mapping von
einer Gitterstruktur auf eine Gaussian Mixture(z.B. durch MLP)
• GMM mit Randbedingungen• Probabilistische
Formulierung, umgeht viele der Probleme der SOM
Aus Bishop et al. (1996), Neural Computation 10(1), 215-235
Aus Netlab Demo demgtm2.m
Netlab>demgtm1.m, demgtm2.m
k
i i
i
i
i yp1
2
2
2exp
2|
W,xtWx,t
Zentrum abh. vonGitterpunkt
![Page 22: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/22.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
22
Praktische Aspekte• Auch für unüberwachte Verfahren gelten im
wesentlichen die 7 Schritte:1. Sichtung (Ausreißer)2. Vorverarbeitung:
Skalierung der Merkmale beeinflusst die Distanz Normalisierung
3. Merkmalsselektion:irrelevante Merkmalekönnen Clusteringerschweren:
![Page 23: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/23.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
23
Kreuzvalidierung für unüberwachtes Lernen
4. Modellschätzung mittels Kreuzvalidierung:bei k-means problematischbei GMM: Likelihood-Funktion als Fehlerfunktion
(„Loss“-Funktion)
![Page 24: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/24.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
24
Kombination von überwachtem mit unüberwachtem Lernen
• Unüberwachte Verfahren alleine eignen sich nur für unüberwachte Probleme!
• Bei überwachtem Problem (gelabelte Daten) kann unüberwachtes Verfahren eingesetzt werden als– Initialisierung– Vorstrukturierung
• Beispiele:– SOM oder GTM als Initialisierung eines RBFN– Learning Vector Quantization– ARTMAP
![Page 25: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/25.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
25
Learning Vector Quantization (LVQ)• Kohonen (1990)
Ordne Units Klassen zu
nearest neighbor Verfahren mit Vektorquantisierung (nicht jeder Trainingspunkt gespeichert)
• Vergleichbar mit Dichteschätzung der class-conditionals
kxcwx
kxcwxw
kii
kiiki
if
if
,
,,
hinbewegen, wenn richtige Klasse
wegbewegen, wenn falsche Klasse
![Page 26: SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.](https://reader036.fdocument.pub/reader036/viewer/2022062818/570491c41a28ab14218da247/html5/thumbnails/26.jpg)
SS 2009 Maschinelles Lernen und Neural Computation
26
Zusammenfassung
• Unüberwachte neuronale Netz-Verfahren reihen sich ebenfalls nahtlos in die Statistik
• Competitive Learning = k-means• GMM als probabilistisches Clusteringverfahren• SOM als Multidimensionale Skalierung +
Clustering, aber mit Problemen