Fachhochschule Flensburg Biotechnologie an der Fachhochschule Flensburg Prof. Dr. Hans-Udo Peters.
Intelligente Systeme - Wissen aus Daten gewinnen Prof. Dr. Norbert Link Email:...
-
Upload
walburg-rehmert -
Category
Documents
-
view
107 -
download
1
Transcript of Intelligente Systeme - Wissen aus Daten gewinnen Prof. Dr. Norbert Link Email:...
Intelligente Systeme -Wissen aus Daten gewinnen
Prof. Dr. Norbert LinkEmail: [email protected]
http://www.iwi.hs-karlsruhe.de/~lino0001/
Fachhochschule Karlsruhe – Hochschule für TechnikFachbereich Informatik
Vorlesung "Intelligente Systeme" 2
Intelligente Systeme - Inhaltsverzeichnis
1. Was leisten intelligente Systeme ? 4 Selbstexperimente
4 Analyse der Selbstexperimente 9 Beispielanwendungen 14 Intelligente Systeme und deren Aufgabe 18
2. Ein vereinfachtes System-Beispiel 22
Motordiagnose für Verbrennungskraftmaschine
3. Statistische Fundamente 44 Bayes´sche Entscheidungstheorie 44 Mehr als ein Merkmal 49 Mehrere Merkmale, mehrere Klassen
53 Entscheidungsfunktionen und –flächen 56 Wie weiter ? 68
4. Entscheidungsflächen und –funktionen 69
Vorlesung "Intelligente Systeme" 3
Intelligente Systeme - Inhaltsverzeichnis
5. Lineare Klassifikatoren 72 Grundlagen 73 Das Perzeptron 76 Lineare Klassifikation nicht linear trennbarer Klassen 87 Lineare Separierung von mehr als zwei Klassen 88 Kleinste-Quadrate-Klassifikatoren 96 Stochastische Approximation und der LMS Algorithmus
100
6. Nicht-lineare Klassifikatoren 109 Mehrschicht-Perzeptrons 110 Backpropagation-Algorithmus 118 Netzgröße und –struktur 127 Konvergenzverhalten und Beschleunigung 136 Lernstrategien 134 Alternative Kosten- und Aktivierungsfunktionen
137
Vorlesung "Intelligente Systeme" 4
Intelligente Systeme - Inhaltsverzeichnis
7. Merkmalsvorverarbeitung und -auswahl 140 Merkmalsvorverarbeitung 141 Merkmalsbewertung und -auswahl 146
8. Merkmalserzeugung 156 Hauptkomponententransformation 157 Signalabtastung und Frequenzraumdarstellung 165
9. Einbringen von a priori Wissen 174 Zeitdiskrete Prozesse: Hidden-Markov-Modelle 175 Kausale Zusammenhänge: Bayesian Belief Networks 185 Randbedingungen: Kostenfunktion-Regularisierung 192
10. Nicht-parametrische Klassifikatoren 197
k-NN Klassifikatoren 198
11. Selbst-organisierende Karten 203
Kohonen-Karten 204
Vorlesung "Intelligente Systeme" 5
1. Leistung intelligenter Systeme
Vorschau über das Kapitel
Selbstversuche Analyse der Selbstversuche Beispiel-Anwendungen Schlussfolgerungen aus den Beispielen
Vorlesung "Intelligente Systeme" 6
1. Leistung intelligenter Systeme
Intelligenz
Intelligenz (lat.: intelligentia = "Einsicht, Erkenntnisvermögen", intellegere = "verstehen") bezeichnet im weitesten Sinne die Fähigkeit zum Erkennen von Zusammenhängen und zum Finden von optimalen Problemlösungen.
Künstliche Intelligenz (KI) bezeichnet die mechanisch-elektronische Nachbildung menschlicher Intelligenz innerhalb der Informatik. Die KI findet zunehmend Einsatz in der ingenieurwissenschaftlichen oder medizinischen Technik. Mögliche Anwendungsszenarien sind: Optimierungsprobleme (Reiseplanung, Schienenverkehr), Umgang mit natürlicher Sprache (automatisches Sprachverstehen, automatisches Übersetzen, Suchmaschinen im Internet), Umgang mit natürlichen Signalen (Bildverstehen und Mustererkennung).
Vorlesung "Intelligente Systeme" 7
1. Leistung intelligenter Systeme
Selbstversuch 1
Hören Sie sich die folgenden Geräusche an. Was hören Sie ?
Erstes Beispiel Musik
Zweites Beispiel Ein Tier
Drittes Beispiel Eine Maschine
Vorlesung "Intelligente Systeme" 8
1. Leistung intelligenter Systeme
Selbstversuch 2
Hören Sie sich die folgenden Geräusche an. Welches Musikinstrument hören Sie ?
Hammond-Orgel
Trommeln (Congas)
Elektrische Gitarre
Erstes Beispiel
Zweites Beispiel
Drittes Beispiel
Vorlesung "Intelligente Systeme" 9
1. Leistung intelligenter Systeme
Selbstversuch 3
Hören Sie sich die folgenden Geräusche an. Welches Tier hören Sie ?
Elephant
Affe
Flugzeug-Landeklappe
Ihr Mustererkennungssystem wurde vermutlich durch eine falsche Erwartung getäuscht.
Erstes Beispiel
Zweites Beispiel
Drittes Beispiel
Vorlesung "Intelligente Systeme" 10
1. Leistung intelligenter Systeme
Selbstversuch 4
Hören Sie sich die folgenden Sounds an. Welchen Unterschied detektieren Sie ?
Erstes Beispiel Zweites Beispiel Drittes Beispiel
Propellerflugzeug 500 rpm 1200 rpm 1800 rpm
Vorlesung "Intelligente Systeme" 11
1. Leistung intelligenter Systeme
Selbstversuche Ergebnis
In Begriffen der Mustererkennung haben Sie saubere Arbeit geleistet:
1) in Schall-Klassifikation
und
2) in Größen-Schätzung aus Schallsignalen
Letzteres haben Sie wahrscheinlich auch erkannt.
Vorlesung "Intelligente Systeme" 12
1. Leistung intelligenter Systeme
Analyse der Selbstversuche
Schall-quelle
Druck-wellen
Ohr Nerven-signal
Was ist bei Ihnen vorgegangen ?
VerarbeitungIm Gehirn
Musik
Tier-Geräusch
Motor-Geräusch
Klassen-zugehörigkeit
Signal Daten Semantik
Vorlesung "Intelligente Systeme" 13
1. Leistung intelligenter Systeme
Analyse der Selbstversuche
Technologisches Äquivalent
Objekt GeräuschPrimär-signal
MikrophonWandler(Sensor)
El. SpannungSekundär-signal
Filter/Ampl.Signalauf-bereitung
SpannungSensorsystemOutput
KlassifikatorMustererkennungs-gerät
rpm zu niedrig 0.06Klasse 1 Wahrscheinlichkeit
rpm ok 0.92Klasse 2 Wahrscheinlichkeit
rpm zu hoch 0.02Klasse 3 Wahrscheinlichkeit
Vorlesung "Intelligente Systeme" 14
1. Leistung intelligenter Systeme
Analyse der Selbstversuche
KlassifikatorMustererkennungs-gerät
rpm zu niedrigKlasse 1
rpm okKlasse 2
rpm zu hochKlasse 3
0.90
0.03
0.07
0.08
0.89
0.03
0.01
0.07
0.92
Ein “rpm aus Geräusch” Klassifikator könnte so funktionieren:
Vorlesung "Intelligente Systeme" 15
1. Leistung intelligenter Systeme
Zusammenfassung unserer Selbstversuch-Erfahrung
Wir haben das Vorliegen einer bestimmten Unterklasse aus einer möglichen Menge einer Oberklasse anhand eines Teilaspekts (Geräusch, Bild, …) festgestellt. Die Klassenzugehörigkeit ist mit Semantik verbunden.
Das Ergebnis (Bestimmung der Unterklasse) hing ab von der Aufgabe (Vorgabe der Oberklasse).
Die Aufgabe bestimmte somit die Menge der möglichen Unterklassen.
Wird die Oberklasse falsch angegeben, sind die Ergebnisse i.A. falsch.
Die Menge der Unterklassen war diskret oder kontinuierlich.
Vorlesung "Intelligente Systeme" 16
1. Leistung intelligenter Systeme
Beispiel-Anwendungen
Dies war keine scharfe Definition, sondern nur ein Hinweis,was Mustererkennung sein könnte.
Bevor wir zu systematischen Ansätzen übergehen, lernen wir noch etwas aus Beispielen.
• Geschmack oder elektrochemische Potentiale• Spektren• Bilder• Symbolische Information
Vorlesung "Intelligente Systeme" 17
1. Leistung intelligenter Systeme
Beispiel-Anwendungen
Geschmack oder elektrochemische Potentiale
Soft drink
Merkmal Süße Säure Bitterkeit Schärfe
Bier Ausprägungxxxxxxxxxx xxxxxxxxxx xxxx xxxxxxxx x
Geschmack ist die Antwort eines Nervs auf das chemische Potential µ bestimmter Substanzen.
Kombinationen von µ-Sensoren werden genutzt, um das Vorhandensein und die Konzentration einer Menge von Substanzen zu festzustellen.
Vorlesung "Intelligente Systeme" 18
1. Leistung intelligenter Systeme
Beispiel-Anwendungen
A
t
A
t
A
t
A
t
t
t
t
t
Signale Schallsignale: Spracherkennung, Maschinendiagn.
Infrarotspektren: Gasmoleküle, pharmazeut. ProduktionEKG/EEG: medizinische Diagnostik, HMIChromatographie: Genanalyse
“auf” “ab” “Auswahl” “zurück”
Vorlesung "Intelligente Systeme" 19
1. Leistung intelligenter Systeme
Spracherkennung
Good morning ladies and gentlemen welcome to the show within the ability of the the million man had run in the middle of the city’s the
law and some run for the moment I want I knew
Vorlesung "Intelligente Systeme" 20
1. Leistung intelligenter Systeme
Beispiel-Anwendungen
Verifikation der Personen-Identität
1. Identifikation (mittels Name oder Magnetkarte)
2. Schnappschuss des Gesichts
3. Extraktion eines Merkmalsmusters
4. Abruf des Merkmalsmusters der Person aus Datenbank
5. Vergleich der Muster
6. Schwellwert: ErkennungKorrelation c
Wenn c > Schwelle, dann Identität ok
Bilder
Vorlesung "Intelligente Systeme" 21
1. Leistung intelligenter Systeme
Gesichtsdetektion
Vorlesung "Intelligente Systeme" 22
1. Leistung intelligenter Systeme
Beispiel-Anwendungen
Symbolische Information
Kundenprofile
M1: Wert pro Einkauf xxxxxxxx xM2: Jährliche Einkäufe xxx xM3: Reklamationen x xxxxM4: Zahlgeschwindigkeit xxxx xM5: Akquisitionsaufwand xxx xxxxx
Klasse gut schlecht
Ausprägung
M1 M
2 M3 M
4 M5
Merkm
al
Ausprägung
M1 M
2 M3 M
4 M5
Merkm
al
Merkmale
Vorlesung "Intelligente Systeme" 23
1. Leistung intelligenter Systeme
Intelligente Systeme und deren Aufgabe
Das intelligente System kann verschiedene Aufgaben haben.
Syntaktischer AnalysatorWert einer linguistischen Variablen
EstimatorWert einer „physikalischen“ Variablen
KlassifikatorKlassenzugehörigkeit
Die Eingabe kann aus verschiedenen Quellen kommen.
Die Ausgabe kann unter-schiedlicher Art sein.
Name
Wert kont.
Wert diskret
Mustererkennungs-Apparat
Ein „intelligentes System“
W3
Vorlesung "Intelligente Systeme" 24
1. Leistung intelligenter Systeme
Intelligente Systeme und deren Aufgabe
Klasse wj
Klasse wk
Klasse wl
Beschreibungs-(Zustands-)raum
C
ZugänglicherMusterraum
P
Beobachtungs- oderMeßraum
F
Gj+j
Gk+k
Gl+l
p3
p1
p2
p4
m1
m2
m3
Abbildung 1 Abbildung 2
Informationsgewinnung
M+M
Erste Aufgabe eines intelligenten Systems: Informationsgewinnung
Vorlesung "Intelligente Systeme" 25
1. Leistung intelligenter Systeme
Zweck intelligenter Systeme: Situationserkennung
Erste Stufe in der Interaktion mit ObjektenInteraktion mit Objekten: Reaktion und Beeinflussung
Erste Situationserkennungs-Aufgabe: Identifikation1. Identifiziere die Klasse eines Objekts anhand eines
Teilaspekts2. Stelle den Zustand bzw. die aktiven Methoden anhand einer
Äußerung des Objekts fest.Folgeaktionen: Rufe aus einer Datenbank alle für eine Reaktion bzw.
Beeinflussung nötigen Aspekte der Klasse ab: • Reaktion: Ablauf der aktiven Methode, Aktivitäten des
aktuellen Zustands• Beeinflussung: Menge und Aufruf der Methoden,
mögliche Zustände und Zustandsübergänge
Vorlesung "Intelligente Systeme" 26
1. Leistung intelligenter Systeme
Zeck intelligenter Systeme: Situationserkennung
Zweite Situationserkennungs-Aufgabe: Verhaltensmodellierung
Modellierung (Nachahmung) von Methoden eines unbekannten Objekts (z.B. Experte oder Prozess)
1. Angebot von Daten und Signalen, Aufzeichnen der Reaktion
2. Erlernen des Zusammenhanges
3. Anwendung
Aus verfügbaren (beobachtbaren, unvollständigen und gestörten) Daten optimale Entscheidung treffen !
Vorlesung "Intelligente Systeme" 27
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Beobachtbare Größe: Signal des Drehzahlgebers
Diagnoseleistung (ohne zusätzliche Sensorik) Zündaussetzer, Verbrennungsstörung Einspritzung Ventilundichtigkeit “Blow-by” (undichter Kolbenring) Reibung
Vorlesung "Intelligente Systeme" 28
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündung
Einspritzung
Dichtheit
Reibung
Motor Zahnrad
Induktionssensor
Uind
t
Die Vorgänge im Motor verursachenÄnderungen der Winkelgeschwindig-keit.
Vorlesung "Intelligente Systeme" 29
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündaussetzer-Erkennung
Komponente 1
Winkel-geschwindigkeit
eines Zyklus
Induktions-Sensor
Vorlesung "Intelligente Systeme" 30
2. Ein Beispiel
Motordiagnose für VerbrennungskraftmaschinenZündung
Einspritzung
Dichtheit
Reibung
Motor Zahnrad
Induktionssensor
Uind
t
0 120 240 360 480 600 720
Kurbelwinkel [Grad]
0
500
1.000
-500
-1.000
Ne
tto
dre
hm
om
en
t [N
m]
Normalbetrieb Zündaussetzer
MTNZähne
,12T
Berechenbar ausBeobachtung:WechselanteildesDrehmoments
Wechseldrehmoment eines 6-Zylinder-Motors
Wec
hsel
dreh
mom
ent [
Nm
]
Vorlesung "Intelligente Systeme" 31
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündaussetzer-Erkennung
Komponenten 2 und 3
Winkel-geschwindigkeit
eines Zyklus
Induktions-Sensor
Periode TBestimmung
DrehmomentBerechnung
Vorlesung "Intelligente Systeme" 32
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündaussetzer-Erkennung
Charakteristisch: Drehmoment-Maxima M1, …, M6 der einzelnen Zylinder.
-> Bestimmung derMaxima (Merkmale)
Bem.: Phasenwinkeli char. Einspr.
M1M2 M3 M4 M5 M6
1 2 3 4 5 6
Betrachte nur Zylinder 4:Messungen von M4 für Normalbetrieb (Klasse c1) und Zündaussetzer (Klasse c2):Stichprobe
0 120 240 360 480 600 720
Kurbelwinkel [Grad]
0
500
1.000
-500
-1.000
Wec
hsel
dreh
mom
ent [
Nm
] Normalbetrieb Zündaussetzer
Vorlesung "Intelligente Systeme" 33
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündaussetzer-Erkennung
Komponente 4
Winkel-geschwindigkeit
eines Zyklus
Induktions-Sensor
Periode TBestimmung
DrehmomentBerechnung
Merkmalsextraktion:Drehmomentmaxima
Vorlesung "Intelligente Systeme" 34
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündaussetzer-Erkennung
Betrachte nur Zylinder 4:Messungen von M4 für Normalbetrieb (Klasse c1) und Zündaussetzer (Klasse c2):Stichprobe aus vielen Umdrehungen.Bilde das Histogramm der Drehmomentwerte der Stichprobe:
0
200
400
600
800
1000
1200
1400
1600
0-100 100-200
200-300
300-400
400-500
500-600
600-700
700-800
800-900
900-1000
Zündaussetzer
Normal
Wechseldrehmoment
Vor
kom
men
sanz
ahl
Vorlesung "Intelligente Systeme" 35
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündaussetzer-Erkennung
Wähle aufgrund des Histogramms der Drehmomentwerte der Stichprobe den geeignetsten Schwellwert (mit dem kleinsten Fehler) zur Entscheidung über die Klassenzugehörigkeit:
0
200
400
600
800
1000
1200
1400
1600
0-100 100-200
200-300
300-400
400-500
500-600
600-700
700-800
800-900
900-1000
Zündaussetzer
Normal
Wechseldrehmoment
Vor
kom
men
sanz
ahl
MT
Zündaussetzer normal
Vorlesung "Intelligente Systeme" 36
2. Ein Beispiel
Nebenbemerkung
Histogramm und Wahrscheinlichkeitsdichte
Wahrscheinlichkeitsdichte: relative Häufigkeit pro Intervall
Histogramm von x
x
Vo
rko
mm
en
san
aza
hl (
fre
qu
en
cy)
k
20 30 40 50 60 700
51
01
5
Stichprobe mit 50 Versuchen
Stichprobe: Führe N Versuche aus, miss jedes mal die Größe x.
Histogramm:Teile die Größe x in Intervalle mit Breite x. Zähle Anzahl in jedem Intervall.
Trage die Anzahl gegen das Intervall auf.
20 70xx xxxxxxx xxxxx x x
20 70
xx xxxxxxx xxxxx x x
Vorlesung "Intelligente Systeme" 37
2. Ein Beispiel
Nebenbemerkung
Histogramm und WahrscheinlichkeitsdichteWahrscheinlichkeitsdichte : relative Häufigkeit pro Intervall= (Vorkommensanzahl/Stichprobenumfang)/Intervallbreite = (k/N)/x= relative Häufigkeit / Intervallbreite = h/ x
Histogramm von x
x
Vo
rko
mm
en
san
aza
hl (
fre
qu
en
cy)
k
20 30 40 50 60 70
05
10
15
Histogram von x
x
Wa
hrs
che
inlic
hke
itsd
ich
te
20 30 40 50 60 70
0.0
00
.02
0.0
40
.06
W-Dichte = (7/50) / 5 = 0.028
Vorlesung "Intelligente Systeme" 38
2. Ein Beispiel
Nebenbemerkung
Histogramm und Wahrscheinlichkeitsdichte
Histogramm von x
x
Wa
hrs
che
inlic
hke
itsd
ich
te
20 30 40 50 60 70
0.0
00
.02
0.0
40
.06
Wahrscheinlichkeitsdichten x Balkenbreiten = 1
Mit zunehmender Stichprobengröße Balkenbreite immer kleiner, so dass im unendlichen Fall die Balkenbreite unendlich klein.
Histogramm von x
Den
sity
20 30 40 50 60 70 80
0.00
0.02
0.04
Vorlesung "Intelligente Systeme" 39
2. Ein Beispiel
Nebenbemerkung
Körpergröße nach Geschlecht (D, über 18a)
Größe F M
<150 cm 0,6% 0,1%
150-154 cm 4% 0,1%
155-159 cm 12,7% 0,3%
160-164 cm 27% 2,3%
165-169 cm 29,1% 9%
170-174 cm 17,6% 19,2%
175-179 cm 6,9% 26,1%
180-184 cm 1,8% 23,9%
185-189 cm 0,2% 12,8%
>190 cm <0,1% 6,3%
Vorlesung "Intelligente Systeme" 40
2. Ein Beispiel
Nebenbemerkung
Körpergröße nach Einkommen (D, über 18a)
Vorlesung "Intelligente Systeme" 41
2. Ein Beispiel
Nebenbemerkung
Körpergröße nach Bundesland (D, über 18a)
Vorlesung "Intelligente Systeme" 42
Auffinden der Schwelle mittels Histogramm-Auswertung (1)
Wahrscheinlichkeitsdichten des Merkmals Mfür Zündaussetzer pZ(M) und Normalbetrieb pN(M)
mit a priori Auftrittswahrscheinlichkeiten von Zündaussetzern PZ und Normalbetrieb PN. Bedingung PZ + PN = 1.
Ergibt Gesamtwahrscheinlichkeitsdichte p(M) = PZ pZ(M) + PN pN(M)
Im Gauss´schen Fall:2
2
2
2
2
)(
2
)(
22)( N
N
Z
Z M
N
N
M
Z
Z eP
eP
Mp
2. Ein Beispiel
Vorlesung "Intelligente Systeme" 43
Auffinden der Schwelle mittels Histogramm-Auswertung (2)
Gaussfunktion: Wahrscheinlichkeitsdichtefunktion der Normalverteilung„Vorurteilsfreieste“ Annahme einer Wahrscheinlichkeitsdichtefunktion, wenn nur der Mittelwert und die Varianz 2 bekannt sind.Wahrscheinlichkeitsdichtefunktion von unendlich vielen Summenvariablen.
2
2
2
)(
2
1)(
x
exp
2. Ein Beispiel
2
1
Gesamtfläche = 1Fläche zwischen und ungefähr 2/3Fläche zwischen und ungefähr 95%
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 44
Auffinden der Schwelle mittels Histogramm-Auswertung (3)
Wahrscheinlichkeit einer Fehlzuordnung E:
Minimierung von E
Einsetzen, logarithmieren und vereinfachen ergibt quadratische Gleichung
mit
NZ
ZNNZNZZNZNNZNZ
TT
TNNTZZ
MMT
T
M
ZZZ
M
NNT
P
PCBA
CMBMA
MpPMpPdM
MdE
dMMpPPdMMpPME
TT
TT
ln2);(2;
0~~
)~
()~
(0!)(
)()()(
2222222222
2
~
2. Ein Beispiel
Vorlesung "Intelligente Systeme" 45
Auffinden der Schwelle mittels Histogramm-Auswertung (4)
Vorgehen nach obiger Methode:
1. Trainingsstichprobe Datenmaterial mit Merkmalswerten2. Histogramm für Zündaussetzer hZ
3. Histogramm für Normalbetrieb hN
4. Berechnung von Z und Z aus hZ
5. Berechnung von N und N aus hN
6. Berechnung von A, B und C:
7. Berechnung der Schwelle durch Lösung der quadratischen Gleichung
8. Anwenden der Schwelle auf neues Datenmaterial
2. Ein Beispiel
NZ
ZNNZZNNZZNNZNZ P
PCBA
ln2);(2; 2222222222
0~~ 2 CMBMA TT
Vorlesung "Intelligente Systeme" 46
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündaussetzer-Erkennung
Komponente 5 und Gesamtsystem
Winkel-geschwindigkeit
eines Zyklus
Induktions-Sensor
Periode TBestimmung
DrehmomentBerechnung
Merkmalsextraktion:Drehmomentmaxima
Klassifikation: AnwendungOptimaler Schwellwert
Normal Zündaussetzer
Vorlesung "Intelligente Systeme" 47
Auffinden der Schwelle mittels Histogramm-Auswertung (5)
Vorgehen nach obiger Methode:
1. Trainingsstichprobe Datenmaterial mit Merkmalswerten
2. Ein Beispiel
Drehmoment Klasse
400 Z
500 Z
300 Z
500 Z
500 Z
400 Z
600 Z
700 Z
500 Z
600 Z
500 Z
800 N
900 N
850 N
Drehmoment Klasse
800 N
750 N
800 N
800 N
800 N
850 N
850 N
800 N
800 N
750 N
750 N
700 N
750 N
800 N
850 N
Vorlesung "Intelligente Systeme" 48
Auffinden der Schwelle mittels Histogramm-Auswertung (6)
Vorgehen nach obiger Methode:2. Histogramm für Zündaussetzer hZ
3. Histogramm für Normalbetrieb hN
2. Ein Beispiel
Drehm. Kl.
400 Z
500 Z
300 Z
500 Z
500 Z
400 Z
600 Z
700 Z
500 Z
600 Z
500 Z
800 N
900 N
850 N
Drehm. Kl.
800 N
750 N
800 N
800 N
800 N
850 N
850 N
800 N
800 N
750 N
750 N
700 N
750 N
800 N
850 N
0
1
2
3
4
5
6
7
8
300 400 500 600 700 800 900 1000
Z
N
M
h[1/11] h[1/18]
Vorlesung "Intelligente Systeme" 49
2. Ein Beispiel
0
1
2
3
4
5
6
7
8
300 400 500 600 700 800 900 1000
Z
N
M
h[1/11] h[1/18]
Auffinden der Schwelle mittels Histogramm-Auswertung (7)Vorgehen nach obiger Methode:4. Berechnung von Z und Z aus hZ
L
iii
L
iii
xhx
xhx
1
22
1
)()(
)(
222222
1
22
)100(11
121)500700(2)500600(5)500500(2)500400(1)500300(
11
1
)()(
L
iiZiZZ MhM
500
1700260055002400130011
1
)(1
L
iiZiZZ MhM
Vorlesung "Intelligente Systeme" 50
2. Ein Beispiel
0
1
2
3
4
5
6
7
8
300 400 500 600 700 800 900 1000
Z
N
M
h[1/11] h[1/18]
Auffinden der Schwelle mittels Histogramm-Auswertung (8)Vorgehen nach obiger Methode:5. Berechnung von N und N aus hN
L
iii
L
iii
xhx
xhx
1
22
1
)()(
)(
222222
5
1
22
)100(9
21)800900(4)800850(8)800800(4)800750(1)800700(
18
1
)()(
i
iNiNN MhM
800
1900485088004750170018
1
)(1
L
iiNiNN MhM
Vorlesung "Intelligente Systeme" 51
Auffinden der Schwelle mittels Histogramm-Auswertung (9)
Vorgehen nach obiger Methode:6. Berechnung von A, B und C:
2. Ein Beispiel
18
11
9
3ln
93
4
3
128
9
50100
2918
10032
2911
10092
ln1009
2
3
2100
3
210064100
9
210025
1009
76100
3
2800100
9
25002
1009
4100
9
2
3
229
18
1811
18,
29
11
1811
11
ln2);(2;
4
2
2
42222
222
22
2222222222
C
B
A
PP
P
PCBA
NZ
NZ
ZNNZZNNZZNNZNZ
500Z
22 )100(11
12Z
800N
22 )100(9
2N
Vorlesung "Intelligente Systeme" 52
Auffinden der Schwelle mittels Histogramm-Auswertung (10)
Vorgehen nach obiger Methode:
7. Berechnung der Schwelle durch Lösung der quadratischen Gleichung
2. Ein Beispiel
7202
4~
0~~
2
2
A
CABBM
CMBMA
T
TT
Vorlesung "Intelligente Systeme" 53
Auffinden der Schwelle mittels Histogramm-Auswertung (11)
Vorgehen nach obiger Methode:
8. Anwenden der Schwelle auf neues Datenmaterial
2. Ein Beispiel
Winkel-geschwindigkeit
eines Zyklus
Induktions-Sensor
Periode TBestimmung
DrehmomentBerechnung
Merkmalsextraktion:Drehmomentmaxima
M > 720 ?
Normal Zündaussetzer
M=820
ja nein
Vorlesung "Intelligente Systeme" 54
2. Ein Beispiel
Motordiagnose für Verbrennungskraftmaschinen
Zündauss.
Einspritzauss.
Ventilundicht.
Beschreibungs-(Zustands-)raum
Motorfehler
ZugänglicherMusterraum
Wechseldrehmoment-muster
Beobachtungs- oderMeßraum
Drehzahlsensordaten
Phase
Schütteln
Auslauf
p3
p1
p2
p4
m1
m2
m3
Abbildung Abbildung
Informationsgewinnung
Geberradfehler,Höhenschlag,
Störungen
Vorlesung "Intelligente Systeme" 55
3. Statistische Fundamente
Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?
A-priori-Wahrscheinlichkeiten
Ein betrachtetes System befindet sich in einem “wahren Zustand” c, z.B. c=c1 (normal) oder c=c2 (Zündaussetzer). Diese können sich zufällig abwechseln und treten mit den Wahrscheinlichkeiten P(c1) und P(c2) auf: A-priori-Wahrscheinlichkeiten. P(c1) + P(c2) =1, wenn keine weiteren Zustände.
Fall 1: Keine weitere Information als P(c1) und P(c2) -> Entscheidungsregel über nächsten Zustand: c1, wenn P(c1) > P(c2) , sonst c2.Sinnvoll nur bei einer einzigen Entscheidung.
Vorlesung "Intelligente Systeme" 56
3. Statistische Fundamente
Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?
Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c)
Information x über das System (z.B. das Drehmoment M4) mit verschiedenen Ausprägungen in verschiedenen Zuständen (Klassen) c.Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c).
Fall 2: Wir verfügen über weitere Information x.
p(x|c)
c1
c2
x
Wahrscheinlichkeitsdichte für das Vorliegen eines Wertes des Merkmals x, wenn das System in Zustand c ist.Die Fläche unter der Kurve ist jeweils 1.
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 57
3. Statistische Fundamente
Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?
Fall 2: Wir verfügen über weitere Information x, also die Wahrscheinlichkeitsdichtefunktionen p(x|ci) für die verschiedenen Klassen und den aktuellen Wert von Merkmal x unseres Systems sowiedie A-priori-Wahrscheinlichkeiten der Klassen P(ci).
Dann ist die verknüpfte Wahrscheinlichkeitsdichte, dass das System in Zustand ci ist und dabei den Merkmalswert x hat: p(ci,x) = P(ci|x)p(x) = p(x|ci)P(ci).
Von Interesse P(ci|x). Mittels Bayes´scher Formel
i
iiii
i cPcxpxpxp
cPcxpxcP )()|()(mit
)(
)()|()|(
Wahrscheinlichkeitsdichte von Merkmal x
Wahrscheinlichkeit für Klasse ci unter der Bedingung, dass ein Wert x vorliegt
Wahrscheinlichkeitsdichte von Merkmal x, unter der Bed., dass Klasse ci vorliegt
Wahrscheinlichkeit für Klasse ci
Vorlesung "Intelligente Systeme" 58
3. Statistische Fundamente
Bayes´sche EntscheidungstheorieA posteriori Wahrscheinlichkeit, dass Klasse ci vorliegt, wenn das Merkmal
die Ausprägung x hat:
i
iiii
i cPcxpxpxp
cPcxpxcP )()|()(mit
)(
)()|()|(
p(x|c)
c1
c2
x
P(c|x)
c1
c2
)()|()()|(
)()|()|(
2211
111 cPcxpcPcxp
cPcxpxcP
)()|()()|(
)()|()|(
2211
222 cPcxpcPcxp
cPcxpxcP
P(c1) = 1/3
P(c2) = 2/3
Likelihood Prior
Evidence
x
Posterior
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 59
3. Statistische Fundamente
Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?
Fall 2: Entscheide c1 wenn P(c1|x) > P(c2|x), sonst c2.
P(c|x)
c1
c2
x
P(c1|x=14)=0.08
P(c1|x=14)=0.92
c1 c2c1c2
Vorlesung "Intelligente Systeme" 60
3. Statistische Fundamente
Mehr als ein Merkmal
Numerische Merkmale und Merkmalsvektor
Betrachte Signale des Motordiagnosesystems.Einfachste Wahl der Merkmale:Äquidistante Abtastung der Amplitudendaten der Wechseldrehmomentkurve.
0 Kurbelwinkel
Wec
hsel
dreh
m.
M1
M2M3 M4
M5
Jedes Wechseldrehmomentmuster ist charakterisiert durch eine Menge von Drehmomentwerten.Die Menge der Drehmomentwerte kann als Spaltenvektor geschrieben werden: [M1, M2, M3, M4, M5]T.
Vorlesung "Intelligente Systeme" 61
Merkmale
Numerische Merkmale und Merkmalsvektor
0 Kurbelwinkel
Wec
hsel
dreh
m.
M1
M2M3 M4
M5
Ein Drehmomentmuster wir dann repräsentiert durch den Vektor M = [M1, M2, M3, M4, M5] T im fünf-dimensionalen “Drehmomentwerteraum”.Ein Drehmomentwert heisst dann “Merkmal”, der Raum “Merkmalsraum“, der Vektor “Merkmalsvektor“.Merkmalsvektoren von verschiedenen Motorzuständen sollten getrennte Volumina im Merkmalsraum einnehmen.
3. Statistische Fundamente
Mehr als ein Merkmal
Vorlesung "Intelligente Systeme" 62
Merkmalsraum
Bild von Objekten unterschiedlicherGröße und Farbe
Maximale Abmessung l
Far
bwer
t h
xxx
x xx
x
+++
++ ++Merkmalsraum
hi
li
*
Meßraum: Farbwerteder Pixel einesKamerasensors
Merkmalsauswahl: Merkmalsvariable Farbwert (h) und maximale Abmessung (l)
fi
Jeder Merkmalsvektor fi= [hi, li]T repräsentiert ein Muster.Wegen der statistischen Prozesse bei derMusterentstehung und beim Meßprozesswerden Merkmale als “random variables” und Merkmalsvektoren als “random vectors”betrachtet.
3. Statistische Fundamente
Mehr als ein Merkmal
Vorlesung "Intelligente Systeme" 63
Merkmalsraum
Wahrscheinlichkeitsdichtefunktion
3. Statistische Fundamente
Mehr als ein Merkmal
Merkmal x1
Merkm
al x 2
Wa
hrs
ch
.
Merkmal x1
Me
rkm
al
x 2
x
xxxxx
xx x
xx
x
xxx
x
x
xxx
x
x x x
xx
x xx
x
x
xx
x
x
xx
x
x
x
x
Stichprobe
i
ii x
xx
2
1ktor Merkmalsve
Nxxx
,,, 21 jcxpxp |,
jcxp |
Vorlesung "Intelligente Systeme" 64
Merkmalsraum
Wahrscheinlichkeitsdichtefunktion
3. Statistische Fundamente
Mehr als ein Merkmal: Korrelation und Kovarianz jcxp |
Zwei unterschiedliche stochastische Größen (z.B. Merkmale)Maßzahl für montonen Zusammenhang zwischen
),K( : und 2121 xxxx
21 und xx
0),K(
0),K(
0),K(
21
21
21
xx
xx
xx wenn gleichsinniger Zusammenhang zw.
wenn gegensinniger Zusammenhang zw.
wenn kein Zusammenhang zw.
21 und xx
21 und xx
21 und xx
)()(),K( 221121 xExxExExx
Die Größe von K hängt von den Maßeinheiten von ab.Daher Invarianz durch Normierung mit Standardabweichung: Korrelation C
21 und xx
2
21
2121 )()(mit
)()(
),K(),C( xExEx
xx
xxxx
Vorlesung "Intelligente Systeme" 65
Merkmalsraum
3. Statistische Fundamente
Mehr als ein Merkmal, mehrere Klassen
Merkmal x1
Merkmal x 2
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 66
Merkmalsraum
3. Statistische Fundamente
Mehr als ein Merkmal, mehrere Klassen
Merkmal x1
Merkmal x 2
Endliche Menge von Klassen{c1,c2,…,cC} mit zugehörigen Wahrscheinlichkeitsdichten
Bayes Formel für a posterioriWahrscheinlichkeit
Entscheidungsregel:
)|( jcxp
mit )(
)()|()|(
xp
cPcxpxcP jj
j
C
jjj cPcxpxp
1
)()|()(
)|()|(
:ij wenn , Entscheide
xcPxcP
c
ji
i
x1T
x 2T
xT
)|( 1 TxcP
)|( 2 xcP
)|( 3 xcP
)|( 4 xcP
)|( xcP j
Vorlesung "Intelligente Systeme" 67
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Merkmal x1
Merkmal x 2
Entscheidungsregel:
)|()|(
:ij wenn , Entscheide
xcPxcP
c
ji
i
Entscheidungsflächen sindGrenzflächen zwischen den Regionen
Teilt Merkmalsraum in Regionen
ij )|()|(
derer innerhalb , i xcPxcP
R
ji
R4
R3
R2
R1x
1T
x 2T
xT
1)|()|( 1
1
jxcPxcP
Rx
TjT
T
Vorlesung "Intelligente Systeme" 68
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Entscheidungsregel:
Entscheidungsregel gilt auch für monotone Funktionen g (Entscheidungs-funktionen) von P:
)|()|(
:ij wenn , Entscheide
xcPxcP
c
ji
i
)(ln)|(ln)(:alternativ
),()|()(:alternativ
,)()|(
)()|()|()(
)()( :ij wenn , Entscheide
1
iii
iii
C
jjj
iiii
jii
cPcxpxg
cPcxpxg
cPcxp
cPcxpxcPxg
xgxgc
(konst. Nenner weglassen)
(logarithmieren)
Vorlesung "Intelligente Systeme" 69
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Bei zwei Kategorien (Klassen) Entscheidungsregel
Kann vereinfacht werden zu einer einzigen Entscheidungsfunktion
deren Vorzeichen über die Klassenzugehörigkeit entscheidet:
Bequeme Wahl von g:
).()( wenn , entscheide
und )()( wenn , Entscheide
212
211
xgxgc
xgxgc
)()()xg( 21 xgxg
.0)( wenn , entscheide
und 0)( wenn , Entscheide
2
1
xgc
xgc
)(
)(ln
)|(
)|(ln)(
mit alternativ ,)|()|()(
2
1
2
1
21
cP
cP
cxp
cxpxg
xcPxcPxg
)(ln)|(ln)( iii cPcxpxg
Vorlesung "Intelligente Systeme" 70
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Modellfunktion für klassenbedingte Wahrscheinlichkeitsdichte: NormalverteilungBisher ein-dimensional:
Jetzt mehr-dimensional:
2
2
2
)(
2
1)(
x
exp
)()(2
1
2/12/
1
)2(
1)(
B
xx
d
T
exp
dxxpxdxxpx )()(,)( 22
xdxpxx
xdxpx
T B
)())((
,)(
Merkmal x1
Merkmal x 2
Wa
hrs
ch
.
lklkllkkkl
nnnn
dxdxxpxpxx
dxxpx
)()())((
,)(
Vorlesung "Intelligente Systeme" 71
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
NormalverteilungJetzt mehr-dimensional:
)()(2
1
2/12/
1
)2(
1)(
B
xx
d
T
exp
xdxpxx
xdxpx
T B
)())((
,)(
Merkmal x1
Merkmal x 2
Wa
hrs
ch
.
lklkllkkkl
nnnn
dxdxxpxpxx
dxxpx
)()())((
,)(
Ellipsoide-Hyper : tSchwerpunk vomAbstands konstantenFlächen
definit-semi positiv h, symmetrisc :Matrix- Kovarianz :
tSchwerpunk :
B von Vektors des Distanz-s Mahalanobi )()( 12 xxxr T
Vorlesung "Intelligente Systeme" 72
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung Schwerpunkt und Kovarianzmatrix aus Stichprobe
3
3
2
1
21 ,,...,, Stichprobe R
x
x
x
xxxxX
i
i
i
iN
N
ii
N
ii
N
ii
N
ii
emp
emp
emp
emp
xN
xN
xN
xN
xdxpx
13
12
11
13
2
1
1
1
1
1)(
Schwerpunktder
Verteilung Empirischer Schwerpunkt der Stichprobe
Vorlesung "Intelligente Systeme" 73
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung empirischer Schwerpunkt und empirische Kovarianzmatrix aus Stichprobe
N
iempi
N
iempiempi
N
iempiempi
N
iempiempi
N
iempi
N
iempiempi
N
iempiempi
N
iempiempi
N
iempi
xxxxx
xxxxx
xxxxx
N
1
233
13322
13311
13322
1
222
12211
13311
12211
1
211
)())(())((
))(()())((
))(())(()(
1
N
i
Tempiempiemp
T xxN
xdxpxx1
))((1
)())(( BB
Im Fall drei-dimensionaler Vektoren:
)()(2
1
2/12/
1
)2(
1)(
empempT
emp xx
empd
Schätz exp
B
Geschätzte Normalverteilung:
Vorlesung "Intelligente Systeme" 74
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Bei Normalverteilung wegen e-Funktion Wahl von ln-Entscheidungsfunktion:
Einfachster Fall: Alle Merkmale unabhängig und mit gleicher Varianz
Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene
)(ln)|(ln)( iii cPcxpxg )()(2
1
2/12/
1
)2(
1)(
iiT
i xx
idi exp
B
)(lnln2
12ln
2)()(
2
1)( 1
iiiiT
ii cPd
xxxg BB
Ii
BB2
0
2222
22
)(
von unabh. da,1
)(ln2ln22
1
2
11
2ln2
)(ln)2(2
1)(ln2ln
2)()(
2
1)(
iTii
Ti
Tii
Ti
Ti
Ti
iiT
iT
iT
iiT
ii
wxwxg
ixxconstxcPd
xxx
dcPxxxcP
dxxxg
jijiTj
Tiji nwwxwwxgxg ktor Normalenvemit 0)()(0)()( 00
Lineare Form
Vorlesung "Intelligente Systeme" 75
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
NormalverteilungEinfachster Fall: Alle Merkmale unabhängig und mit gleicher VarianzLineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene
Weitere Einschränkung: A priori Wahrscheinlichkeiten P für alle Klassen gleich:
Entscheidungsregel: Ordne Vektor der Klasse zu, zu deren Schwerpunkt-vektor er den kleinsten euklidischen Abstand hat:
Minimum-Distance Klassifikator
Ii
BB2
)(ln)(ln2
111)()(
)(ln2ln22
1
2
11)(
222
222
jijT
jiT
iT
jT
iji
iT
iT
iT
ii
cPcPxxgxg
cPd
xxxxg
jijiTj
Tiji nwwxwwxgxg ktor Normalenvemit 0)()(0)()( 00
x
i 2)( ix
jijT
jiT
iT
jT
i xx 2
10
2
1
Vorlesung "Intelligente Systeme" 76
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Normalverteilung, 2 KategorienEntscheidungsfunktionen:Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene
2120102121 ktor Normalenvemit 0)()(0)()( nwwxwwxgxg TT
ein-dim. Merkm.-Raum zwei-dim. Merkm.-Raum drei-dim. Merkm.-Raum
Ii
BB2
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 77
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Normalverteilung, 2 KategorienEntscheidungsfunktionen:Entscheidungsfunktion
Entscheidungsflächen: Hyperquadriken
)(
)(ln
)|(
)|(ln)(
2
1
2
1
cP
cP
cxp
cxpxg
i
iiT
ii
d
xxcxp
B
B
ln2
12ln
2
)()(2
1)|(ln 1
0)(ln)(lnln2
1ln
2
1)()(
2
1)()(
2
121212
1221
111 cPcPxxxx TT
BBBB
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 78
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Normalverteilung, 2 KategorienEntscheidungsflächen: Hyperquadriken
Ebenen
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
0)(ln)(lnln2
1ln
2
1)()(
2
1)()(
2
121212
1221
111 cPcPxxxx TT
BBBB
Vorlesung "Intelligente Systeme" 79
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Normalverteilung, 2 KategorienEntscheidungsflächen: Hyperquadriken
Paraboloide Ellipsoide
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
0)(ln)(lnln2
1ln
2
1)()(
2
1)()(
2
121212
1221
111 cPcPxxxx TT
BBBB
Vorlesung "Intelligente Systeme" 80
Merkmalsraum
3. Statistische Fundamente
Entscheidungsflächen und -funktionen
Normalverteilung, 2 KategorienEntscheidungsflächen: Hyperquadriken
Hyperboloide Kugeln
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
0)(ln)(lnln2
1ln
2
1)()(
2
1)()(
2
121212
1221
111 cPcPxxxx TT
BBBB
Vorlesung "Intelligente Systeme" 81
Merkmalsraum
3. Statistische Fundamente
Wie weiter?
Voraussetzung bisher:A priori Wahrscheinlichkeiten und klassen-bedingte
Wahrscheinlichkeitsdichten bekannt.
Realität:Nur Stichproben gegeben.
Ansätze:1. Parametrische Techniken: Annahme bestimmter parametrisierter
Wahrscheinlichkeitsdichtefunktionenund Schätzung der Parameterwerte anhand Stichprobe, Einsetzen in Bayes Framework.A) Maximum-Likelihood SchätzungB) Bayes Learning
2. Nicht-parametrische Techniken3. Direkte Bestimmung der Parameter der Entscheidungsflächen anhand
Stichprobe.
)|( icxp)( icP
Vorlesung "Intelligente Systeme" 82
Merkmalsraum
3. Statistische Fundamente
Wie weiter?
Möglichkeit 1 bei gegebener Stichprobe: Schätzung der pdf und a-priori-Wahrsch.
Aus Stichprobe:Bildung Histogramm, relative Häufigkeiten h(ci)
Modellbildung:Annahme einer Modellfunktionenklasse für klassenbedingte Wahrscheinlichkeitsdichte, z.B. GaussfunktionSchätzung der Parameter der Funktion -> Instanz der Funktionenklasse, die das Histogramm am besten approximiert (Schätzfunktion der klassenbedingten Wahrscheinlichkeitsdichte):
Anwendung Bayes:Benutze als Näherung für und relative Häufigk. H(c i) für P(ci) und wende Bayes´sche Entscheidungsregel an:
)|( iS cxp
)|( iS cxp
)|( icxp
)|()|(
:ij wenn , Entscheide
xcPxcP
c
jSiS
i
)(
)()|()|(
xp
cHcxpxcP
S
iiSiS
Vorlesung "Intelligente Systeme" 83
Merkmalsraum
Geschätzte pdf und apw
3. Statistische Fundamente
Wie weiter?Möglichkeit 1 bei gegebener Stichprobe: Schätzung der pdf und a-priori-Wahrsch.
Merkmal x1
Merkm
al x 2
Wa
hrs
ch
.
Merkmal x1
Me
rkm
al
x 2
x
xxxxx
xx x
xx
x
xxx
x
x
xxx
x
x x x
xx
x xx
x
x
xx
x
x
xx
x
x
x
x
Stichprobe Njjj
j xxxc
,,,: 21 )(,| jSjS cPcxp
Anwendung Bayes Entscheidungsregel: Entscheidungsfläche
Vorlesung "Intelligente Systeme" 84
Merkmalsraum
3. Statistische Fundamente
Wie weiter?Möglichkeit 2 bei gegebener Stichprobe: Finde eine Entscheidungsfläche, welche
die Stichprobenvektoren einer Klasse von denen der anderen Klassen trennt.
Merkmal x1
Me
rkm
al
x 2
x
xxxxx
xx x
xx
x
xxx
x
x
xxx
x
x x x
xx
x xx
x
x
xx
x
x
xx
x
x
x
xx
x xxxxx
xxx
xxxx
x
x
x
xx
xx x
xx
xxxx
xx
x
x
xx
x
x
x
x
xx
x
Vorlesung "Intelligente Systeme" 85
Statistische Klassifikationsaufgabe
l
h
xxx
x xx
x
+++
++ ++
Trennlinie
Merkmalsraum
Klasse 1
Klasse 2*
Aufgabe 1: Gegeben sei eine Stichprobe mit bekannten Klassenzugehörigkeiten (Klasse 1 und Klasse 2).Finde ein Trennmöglichkeit, um zu entscheiden, zu welcher Klasse ein unbekanntes Muster gehört.
Überwachte Methoden
4. Entscheidungsflächen und -funktionen
Vorlesung "Intelligente Systeme" 86
Klassifikationsaufgabe
Aufgabe 2:Unter der Annahme, daß es sich um zwei Klassen handelt, finde die zugehörigen Cluster in der Stichprobe mit den Mustern.Z.B. Learning Vector Quantisation (LVQ), Self Organising Maps (SOMs).
l
h
xxx
x xx
x
+++
++ ++Merkmalsraum
Klasse 1
Klasse 2*
Unüberwachte Methoden
4. Entscheidungsflächen und -funktionen
Vorlesung "Intelligente Systeme" 87
+
+
Überwachte Methoden
l
h
xxx
x xx
x
+++
++ ++
Gerade TrennlinieKlasse 1
Klasse 2*
l
hx
xx
x xx
x
+++
++ ++
TrennkurveKlasse 1
Klasse 2
xx
xxx
xx
x
xx
x
+
++++
++
++ ++
++
++
+x
xx
Lineare Klassifikatoren Einschichtiges Perceptron Kleinste Quadrate Klass. Lineare Support Vektor Maschine
Nichtlineare Klassifikatoren Mehrschicht-Perceptron logistisch polynom radiale Basisfunktionen Support-Vektor-Maschinen
4. Entscheidungsflächen und -funktionen
Vorlesung "Intelligente Systeme" 88
5. Lineare Klassifikatoren
Grundlagen Das Perzeptron Nicht-lineare Klassen und Mehrklassen-Ansatz Kleinste Quadrate lineare Klassifikatoren Stochastische Approximation und der LMS Algorithmus Schätzung mittels Quadratfehlersumme Mehrklassen-Verallgemeinerung Lineare Support Vektor Maschine
Vorlesung "Intelligente Systeme" 89
Grundlagen
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 90
Der Merkmalsraum wird durch Hyperebenen aufgeteilt.Vorteil: Einfachheit und geringer Berechnungsaufwand.Nachteile: Die zugrundeliegenden statistischen Verteilungen der Trainingsmuster
werden nicht vollständig genutzt. Nur linear separierbare Klassen werden korrekt klassifiziert.
Entscheidungs-Hyperebene:
Eine Entscheidungs-Hyperebene teilt den Merkmalsraum in zwei Halbräume:Punkte (Vektoren) von Halbraum 1 Klasse 1 Punkte von Halbraum 2 Klasse 2.
Hyperebene im N-dimensionalen Merkmalsraum beschrieben durch Normalenvektor n = [n1, n2,..., nN]T und senkrechten Abstand d zum Ursprung.
Ist x ein Merkmalsvektor, z der Abstand des Punktes x von der Hyperebeneund d der Abstand der Hyperebene zum Ursprung,dann ist die Entscheidungs-Hyperebene definiert durch den
Gewichtsvektor w = [w1, w2,..., wN]T und w0, bezeichnet als Schwellwert:g(x) = wT x + w0 =! 0
wobei w und w0 so gewählt werden, dass Merkmalsvektoren x verschiedener Klassen ein unterschiedliches Vorzeichen von g(x) ergeben.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 91
Zweidimensionaler Fall: Geometrie der Entscheidungs-Linie (-Hyperebene)
Merkmalsraum
x1
x2
dx
z
Das Vorzeichen von g(x) gibt die Klassenzugehörigkeit an.
Wie werden die unbekannten Gewichtswerte w1, w2,..., wN und w0 berechnet?
dw
w w
0
12
22
zg x
w w
( )
12
22
5. Lineare Klassifikatoren
2
1
w
ww
0wxwxg T 00 wxwT
Entscheidungshyperebene
Entscheidungsfunktion
Vorlesung "Intelligente Systeme" 92
Lineare Klassifikatoren
Das Perzeptron Die Perzeptron-Kostenfunktion Der Perzeptron Algorithmus Bemerkungen zum Perzeptron Algorithmus Eine Variation des Perzeptron-Lernschemas Arbeitsweise des Perzeptrons
Vorlesung "Intelligente Systeme" 93
Der Perzeptron Algorithmus
Annahme: Es liegen zwei Klassen c1 and c2 vor, die linear separierbar sind. Es existiert eine Entscheidungs-Hyperebene w x + w0= 0 derart, daß
20
10
0
0
cxwxw
cxwxwT
T
Umformulierung mit erweiterten N+1-dimensionalen Vektoren:x´ x, 1]T und w´ w, w0]T ergibt
2
1
0
0
cxxw
cxxwT
T
Die Aufgabe wird als Minimierungsproblem der Perzeptron-Kostenfunktion formuliert.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 94
Die Perzeptron-Kostenfunktion
Y sei diejenige Untermenge der Trainingsvektoren, welche durch die Hyperebene (definiert durch Gewichtsvektor w) fehlklassifiziert werden. Die Variable x wird so gewählt, daß x = -1 wenn x c1 und x = +1 wenn x c2.
Yx
Tx xwwJ
J ist dann stets positiv und wird dann Null, wenn Y eine leere Menge ist, d.h., wenn es keine Fehlklassifikation gibt.J ist stetig und stückweise linear. Nur wenn sich die Anzahl der fehlklassifizierten Vektoren ändert, gibt es eine Diskontituität.
Für die Minimierung von J wird ein iteratives Schema ähnlich der Gradientenabstiegsmethode verwendet.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 95
Kostenfunktion (Anzahl Fehler)
Vorlesung "Intelligente Systeme" 96
Kostenfunktion (Perzeptron)
Vorlesung "Intelligente Systeme" 97
Kostenfunktion (quadratisch)
Vorlesung "Intelligente Systeme" 98
Gradientenmethode für die Perzeptron-Kostenfunktion
5. Lineare Klassifikatoren
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
1w
2w)(wJ
Vorlesung "Intelligente Systeme" 99
w k w kJ w
wkw w k
( ) ( )( )
( )
1
k: Iterationsindex, kLernrate (positiv)
Der Perzeptron-Algorithmus
Iterative Anpassung des Gewichtsvektors entlang dem Gradienten der Kostenfunktion:
(1) ist nicht definiert an Unstetigkeitsstellen von J.An allen Unstetigkeitsstellen von J gilt:
Yx
xYx
Tx x
w
wJxwwJ
)(
Substitution der rechten Seite von (2) in (1) ergibt:
(1)
(2)
w k w k xk xx Y
( ) ( ) 1
wodurch der Perzeptron-Algorithmus an allen Punkten definiert ist.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 100
Geometrische Interpretation für den 2d Merkmalsraum
w(k)
Trennlinie im Schritt k
x1
x2
w(k+1)
Trennlinie im Schritt k+1
x
w wurde in die Richtung von x gedreht. bestimmt die Stärke der Drehung.
Letzter Schritt des Perzeptron-Algorithmus:Nur noch ein einziger Punkt x fehlklassifiziert.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 101
Bemerkungen zum Perzeptron-Algorithmus
1. Der Perzeptron-Algorithmus konvergiert zu einer Lösung in einer endlichen Anzahl von Schritten, vorausgesetzt, daß die Folge k richtig gewählt wird. Es kann gezeigt werden, dass dies der Fall ist, wenn gilt:
t
kk
t
t
kk
t1
2
1
lim und lim
Ein Beispiel einer Folge, welche obige Bedingung erfüllt, ist k = c/k, da
divergent für r <= 1, aber konvergent für r >1.
2. Die Konvergenzgeschwindigkeit hängt von der Folge kab.
3. Die Lösung ist nicht eindeutig, da es immer eine Schar von Hyperebenen gibt, welche zwei linear separierbare Klassen trennt.
5. Lineare Klassifikatoren
t
krt k1
1lim
Vorlesung "Intelligente Systeme" 102
Eine Variation des Perzepton LernschemasBisher: Gesamte Trainingsvektormenge in einem Trainingsschritt.Neu: Ein einziger Trainingsvektor in einem Trainingsschritt und Wiederholung für alle Vektoren der Trainingsmenge: “Trainingsepoche”. Die Trainingsepochen weden wiederholt, bis Konvergenz erreicht ist, d.h., wenn alle Trainingsvektoren korrekt klassifiziert werden.
sonstkwkw
xkwundcxwennxkwkw
xkwundcxwennxkwkw
kT
kk
kT
kk
)()1(
0)()()1(
0)()()1(
)(2)()(
)(1)()(
Dieses Schema ist Mitglied der “Belohnungs- und Bestrafungs-”Schemata.Es konvergiert ebenso in einer endlichen Anzahl von Iterationen.
Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren {
} }
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 103
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 104
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 105
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 106
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 107
Das Perzeptron im Betrieb
Gewichtsvektor w und Schwellwert w0 wurden vom Lernalgorithmus gefunden.Die Klassifikationsprozedur lautet dann:
20
10
:0
:0
czuxzuordnewxwWenn
czuxzuordnewxwWennT
T
Dies kann als Netzwerk interpretiert werden:
x1o
x2o...xNo
w1
w2
.wN
w0
f
Die Elemente des Merkmalsvektorswerden auf die Eingangsknoten gegeben.Jedes wird multipliziert mit den entsprechenden Gewichten der Synapsen.Die Produkte werden zusammen mit dem Schwellwert aufsummiert.Das Ergebnis wird von einer Aktivierungsfunktionf verarbeitet (z.B. +1 wenn Ergebnis > 0, -1 sonst).
Dieses grundlegende Netzwerk wird als Perzeptron oder Neuron bezeichnet.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 108
5. Lineare Klassifikatoren
sonstkwkw
xkwundcxwennxkwkw
xkwundcxwennxkwkw
kT
kk
kT
kk
)()1(
0)()()1(
0)()()1(
)(2)()(
)(1)()(
Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren {
} }
2
1
0
1
cxwenn
cxwennxwsigny
t
ttconv
T
Perzeptron-Lernphase: Bestimmung des erweiterten Gewichtsvektors
Perzeptron-Betriebsphase: Klassifikation eines (erweiterten) Merkmalsvektors
x1o
x2o...xNo
w1
w2
.wN
w0
f
Vorlesung "Intelligente Systeme" 109
Übung zu Perzeptrons:
Programmiere und benutze beide Perzeptron-Algorithmen. Starte mit w=(1,0), w0=2 und weiteren Trennlinien.
Menge 1: Klasse 1: x1,1=[1,1]T, x1,2=[2,1]T, x1,3=[1,2]T, x1,4=[2,2]T, x1,5=[1,3]T
Klasse 2: x2,1=[5,1]T, x2,2=[6,1]T, x2,3=[5,2]T, x2,4=[6,2]T, x2,5=[5,3]T
Menge 2: Klasse 1: x1,1=[1,1]T, x1,2=[2,1]T, x1,3=[1,2]T, x1,4=[4,2]T, x1,5=[1,3]T
Klasse 2: x2,1=[3,1]T, x2,2=[4,1]T, x2,3=[3,2]T, x2,4=[2,2]T, x2,5=[4,3]T
Beobachte und beschreibe das Konvergenzverhalten.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 110
Nicht-lineare Klassen und Mehrklassen-Ansatz Lineare Klassifikation nicht linear separierbarer Klassen Lineare Separierung von mehr als zwei Klassen
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 111
Lineare Klassifikation nicht linear separierbarer Klassen
Klassen nicht linear separierbar: Perzeptron-Algorithmus konvergiert nicht.Erweiterung des Perzeptron-Lernalgorithmus nach Gallant: Pocket-Algorithmus. Konvergiert zu einer optimalen Lösung in dem Sinne, dass die Anzahl der Fehlklassifikationen minimal ist.
Der Pocket-Algorithmus:
Schritt k=0:• Initialisiere Gewichtsvektor w(0) mit Zufallszahlen.• Definiere einen Zufalls-Gewichtsvektor wp und speichere ihn (“in the pocket”).• Setze den Zähler hp von wp auf Null.
Iteriere:• Schritt k+1• Berechne w(k+1) aus w(k) mittels Perzeptron-Regel.• Benutze w(k+1), um die Anzahl h korrekt klassifizierter Trainingsvektoren zu messen.• Wenn h > hp, ersetze wp durch w(k+1) und den aktuellen Wert von hp durch h.
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 112
Lineare Separierung von mehr als zwei Klassen
M Klassen (hier M=4)
1. M lineare Klassifikatoren, die je eine Klasse von allen anderen unterscheiden
oder
2. M(M-1)/2 Klassifikatoren, die jeweils ein paar von Klassen unterscheiden
oder ...
5. Lineare Klassifikatoren
c2c3
c1
c4
c2c3
c1
c4
H12H23
H24 H13
H14
H34
c1c2
c1c3
c2 c3
c3
c4c2 c4
c1
Nicht c1
Nic
ht
c 3
Nicht c4
Nic
ht c
2
c 2
c4
c 3
MehrdeutigesGebiet
MehrdeutigesGebiet
Vorlesung "Intelligente Systeme" 113
Lineare Separierung von mehr als zwei Klassen... Oder Kesler: M lineare Entscheidungsfunktionen gi(x) = wi
T x + w0i mit Klassenzuordnung des Vektors x zu Klasse i, wenn
“Lineare Maschine”
1 und mit
0
xx
w
wwijxwxw T
jT
i
Zuordnungsgrenzen der linearen Maschine für drei bzw. fünf Klassen
c1c3 c2
c5
c4
H15
H14
H25
H35
H13
H34
H23
H24
c1
c3
c2H13
H12
H23
R1R2
R3
R1 R2
R3
R4
R5
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 114
Lineare Separierung von mehr als zwei Klassen
Lineare Maschine:
Verallgemeinerung des Perzeptrons auf M-Klassen-Aufgaben:
• Eine lineare Unterscheidungsfunktion wi sei definiert für jede der Klassen ci i = 1,2,...,M.• Ein l+1 dimensionaler (inklusive w0) Merkmalsvektor x wird Klasse ci zugeordnet, wenn
ijxwxw Tj
Ti
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 115
Lineare Separierung von mehr als zwei Klassen
Lineare Maschine:
Wirkung im Merkmalsraum
Trennebenen zwischen Klassen ci und cj:
5. Lineare Klassifikatoren
0)( xww Tji
c1
c3
c2H13
H12
H23
R1R2
R3
ijxwxw Tj
Ti
Vorlesung "Intelligente Systeme" 116
Lineare Separierung von mehr als zwei Klassen
Lineare Maschine:
Annahme: Drei Klassen mit Gewichtsvektoren Für einen Stichprobenvektor der Klasse c1 gilt:
ijxwxw Tj
Ti ,
5. Lineare Klassifikatoren
1
1
3,1
3
2
1
3,11311
1
1
2,1
3
2
1
2,11211
0 und mit 0oder
und
0
und mit 0oder
c
c
ccT
cT
cT
c
c
ccT
cT
cT
x
x
X
w
w
w
WXWxwxw
x
x
X
w
w
w
WXWxwxw
321 ,, www
Block-Gewichtsvektor Block-Merkmalsvektoren
1cx
Vorlesung "Intelligente Systeme" 117
5. Lineare Klassifikatoren
1
1
3,1
3
2
1
3,11311
1
1
2,1
3
2
1
2,11211
0 und mit 0oder
und
0
und mit 0oder
c
c
ccT
cT
cT
c
c
ccT
cT
cT
x
x
X
w
w
w
WXWxwxw
x
x
X
w
w
w
WXWxwxw
Block-Gewichtsvektor Block-Merkmalsvektoren1cx
2
23,2
3
2
1
3,22322
2
2
1,2
3
2
1
1,22122
0
und mit 0oder
und
0
und mit 0oder
c
cccT
cT
cT
c
c
ccT
cT
cT
x
xX
w
w
w
WXWxwxw
x
x
X
w
w
w
WXWxwxw
Block-Gewichtsvektor Block-Merkmalsvektoren2cx
Vorlesung "Intelligente Systeme" 118
Lineare Separierung von mehr als zwei Klassen
Kesler´s Konstruktion:
Für jeden der Trainingsvektoren aus Klasse ci konstruiere M-1 Vektoren
xij=[0,0,...,x,...,-x,...,0]T, j = 1,2,…M wobei ji Block-Vektoren der Dimension (l+1)Mx1überall Nullen haben,
außer an Blockposition i und j, wo sie x bzw. -x für ji haben.
Konstruiere ferner einen Blockgewichtsvektor w = [w1, w2, ..., wM]T.
Wenn x ci dann impliziert dies:Benutze den Perzeptron-Algorithmus, um eine Trennebene im (l+1)Mdimensionalen Raum zu berechnen, so dass alle (M-1)N Trainingsvektorenauf der positiven Seite liegen.
Das Verfahren konvergiert nur, wenn alle Klassen linear separierbar sind !
w x j M j iij 0 1 2, ,..., ,
5. Lineare Klassifikatoren
M: Anzahl der Klassen
Vorlesung "Intelligente Systeme" 119
Beispiel für Kesler´s Konstruktion (Teil1)Dreiklassenproblem im 2d Merkmalsraum: linear separierbar
c1 : [1,1]T, [2,2]T, [2,1]T Quadrant 1c2 : [1,-1]T, [1,-2]T, [2,-2]T Quadrant 4c3 : [-1,1]T, [-1,2]T, [-2,1]T Quadrant 2
Erweiterung auf 3 Dimensionen und Anwendung von Kesler´s Konstruktion:
c1: [1,1]T gibt x1,2 = [1,1,1,-1,-1,-1,0,0,0]T und x1,3 = [1,1,1,0,0,0,-1,-1,-1]T
c2: [1,-2]T gibt x2 1 = [-1,2,-1,1,-2,1,0,0,0]T und x2,3 = [0,0,0,1,-2,1,-1,2,-1]T
c3:[-2,1]T gibt x3 1 = [2,-1,-1,0,0,0,-2,1,1]T und x3 2 = [0,0,0,2,-1,-1,-2,1,1]T
usw. um die anderen 12 Vektoren zu erhalten.
Die Gewichtsvektoren für c1, c2 und c3 lauten:w1 = [w11, w12, w10]T, w2 = [w21, w22, w20]T, w3 = [w31, w32, w30]T
Kesler: w = [w1, w2, w3]T
Anwendung des Perzeptron-Algorithmus unter der Bedingung
0xw
xij=[0,0,...,x,...,-x,...,0]T, j = 1,2,…M wobei ji Block-Vektoren der Dimension (l+1)Mx1überall Nullvektoren, außer an Blockposition i and j, wo x bzw. -x für ji
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 120
Dreiklassenproblem im 2d Merkmalsraum: linear separierbarKlasse c1 : xa = [1,1]T, xb = [2,2]T, xc = [2,1]T Quadrant 1Klasse c2 : xd = [1,-1]T, xe = [1,-2]T, xf = [2,-2]T Quadrant 4Klasse c3 : xg = [-1,1]T, xh = [-1,2]T, xi = [-2,1]T Quadrant 2Block-Merkmalsvektoren:c1: xa = [1,1]T gibt xa
12 = [1,1,1,-1,-1,-1,0,0,0]T und xa1,3 = [1,1,1,0,0,0,-1,-1,-1]T
xb =[2,2]T gibt xb12 = [2,2,1,-2,-2,-1,0,0,0]T und xb
1,3 = [2,2,1,0,0,0,-2,-2,-1]T
xc =[2,1]T gibt xc12 = [2,1,1,-2,-1,-1,0,0,0]T und xc
1,3 = [2,1,1,0,0,0,-2,-1,-1]T
c2: xd = [1,-1]T gibt xd21 = [-1,1,-1,1,-1,1,0,0,0]T und xd
2,3 = [0,0,0,1,-1,1,-1,1,-1]T
xe =[1,-2]T gibt xe21 = [-1,2,-1,1,-2,1,0,0,0]T und xe
2,3 = [0,0,0,1,-2,1,-1,2,-1]T
xf =[2,-2]T gibt xf21 = [-2,2,-1,2,-2,1,0,0,0]T und xf
2,3 = [0,0,0,2,-2,1,-2,2,-1]T
c3: xg = [-1,1]T gibt xg31 = [1,-1,-1,0,0,0,-1,1,1]T und xg
3 2 = [0,0,0,1,-1,-1,-1,1,1]T
xh =[-1,2]T gibt xh31 = [1,-2,-1,0,0,0,-1,2,1]T und xh
3 2 = [0,0,0,1,-2,-1,-1,2,1]T
xi =[-2,1]T gibt xi31 = [2,-1,-1,0,0,0,-2,1,1]T und xi
3 2 = [0,0,0,2,-1,-1,-2,1,1]T
Die Gewichtsvektoren für c1, c2 und c3 lauten:w1 = [w11, w12, w10]T, w2 = [w21, w22, w20]T, w3 = [w31, w32, w30]T
Block-Gewichtsvektor w = [w1, w2, w3]T = [w11, w12, w10, w21, w22, w20,w31, w32, w30]T
Anwendung des Perzeptron-Algorithmus unter der Bedingung
Beispiel für Kesler´s Konstruktion (Teil2)
0xwT
Yx
mjik
mji
Tmji
mji
xkwkwxwYxY,
,,, )()1(}0:{
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 121
Dreiklassenproblem im 2d Merkmalsraum: linear separierbarKlasse c1 : xa = [1,1]T, xb = [2,2]T, xc = [2,1]T Quadrant 1Klasse c2 : xd = [1,-1]T, xe = [1,-2]T, xf = [2,-2]T Quadrant 4Klasse c3 : xg = [-1,1]T, xh = [-1,2]T, xi = [-2,1]T Quadrant 2
Ergebnis Perzeptron-Algorithmus:w=[5.13, 3.60, 1.00, -0.05, -3.16, -0.4, -3.84, 1.28, 0.69 ]T w1 = [5.13, 3.60, 1.00]T, w2 = [-0.05, -3.16, -0.4]T, w3 = [-3.84, 1.28, 0.69 ]T
Bestimmung Klassenzugehörigkeit neuer Vektor:xp = [1.5, 1.5]T x’p = [1.5, 1.5, 1]T
Berechnung x’pw1 = 14.095, x’pw2 = -5.065, x’pw3 = -3.3ergibt x’pw1 > x’pw3 > x’pw2
daraus folgt xp Element der Klasse c1
Beispiel für Kesler´s Konstruktion (Teil3)
5. Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 122
Lineare Klassifikatoren
Kleinste-Quadrate lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 123
Kleinste-Quadrate Lineare KlassifikatorenWegen der Einfachheit linearer Klassifikatoren ist ihr Einsatz bisweilen auch dann wünschenswert, wenn die Klassifikationsaufgabe nicht-linear ist.Anstelle des Pocket-Algorithmus können Kleinste-Quadrate-Methoden verwendet werden, um eine optimale Lösung zu finden.
Gegeben: linearer Klassifikator w und Stichproben-Merkmalsvektor x (jeweils erweiterte Vektoren). Ausgang des KlassifikatorsDer gewünschte Ausgang ist (2-Klassen-Problem)
Methode der kleinsten Quadrate: Optimaler Gewichtsvektor w durch Minimierung des mittleren quadratischen Fehlers (MSE: mean square error) J zwischen tatsächlichem und gewünschtem Ausgang:
wxxwy TTist
1)( yxysoll
)(minargˆ,)(2
wJwwxyEwJw
T
Minimierung der obigen Gleichung bezüglich w bedeutet:
)ˆ(ˆ0)(2)( !
wxxEyxEwwfürwxyxEw
wJ TT
][][ˆˆ][][1
yxExxEwwxxEyxE TT
Lineare Klassifikatoren
E[...] bezeichnet den Erwartungwert über die Verteilung: ,)( xdxpxfxfE
Vorlesung "Intelligente Systeme" 124
Die obige Gleichung wird also gelöst durch:
][ˆ 1 yxERw x
Wobei R die Korrelationsmatrix der l-dimensionalen Vektoren x ist:
][][
][
][][][
][
1
12
12111
lll
l
Tx
xxExxE
xxE
xxExxExxE
xxER
E[xy] ist die Kreuzkorrelation zwischen tatsächlichem und gewünschtem Ausgang:
][][
1
yx
yx
EyxE
l
Wenn R invertierbar ist, resultiert der optimale Gewichtsvektor aus der Lösung eines linearen Gleichungssystems.
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 125
][ˆ 1 yxERw x
][][
][
][][][
][
1
12
12111
lll
l
Tx
xxExxE
xxE
xxExxExxE
xxER
][][
1
yx
yx
EyxE
l
Zusammenfassung der “Mean Square Error Estimation” (MSE):Lösung gegeben durch folgende Gleichungen:
R ist die Korrelationsmatrix der Verteilung der Merkmalsvektoren.
Aber leider (wie bei Bayes):Eine Lösung der obigen Gleichungen benötigt die Kenntnis der Verteilungsfunktion.Diese ist im Allgemeinen nicht bekannt, sondern nur Stichprobe gegeben.
Daher:Approximation muss gefunden werden, welche die verfügbaren Stichproben-Merkmalsvektoren benutzt: Der LMS-Algorithmus
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 126
Lineare Klassifikatoren
Stochastische Approximation und der LMS Algorithmus
Vorlesung "Intelligente Systeme" 127
Wir betrachten eine Gleichung der Form
wie z.B.wobei
eine Folge von “random vectors” der unbekannten Verteilung ist, F(.,.) ist eine Funktionund w der Vektor der unbekannten Gewichtswerte.
Dann kann eine Lösung gefunden werden durch Anwendung des folgenden iterativen Schemas (Robbins und Monroe 1951):
Wenn
Dann
was bedeutet, daß die gewünschte Konvergenz erreicht wurde.
0),( wxFE k
...,2,1, kxk
))1(ˆ,()1(ˆ)(ˆ kwxFkwkw kk
0lim1
2
1
k
kk
k
kk impliziertwasund
0)(ˆlim1)(ˆlim2
wkwEandwkwprob
kk
Stochastische Approximation und der LMS Algorithmus
0)(2 wxyxE T
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 128
Mithilfe dieser Erkenntnis kann die ursprüngliche Gleichung ohne genaue Kenntnis der Verteilung gelöst werden. Allerdings wird eine hinreichend große Stichprobe von Merkmalsvektoren benötigt.
Dann wird substituiert durch ,
wobei {xk} die Menge der Trainings-Merkmalsvektoren und {yk} die Menge der entsprechenden gewünschten Ausgangswerte +-1 darstellt.
))1(ˆ()1(ˆ)(ˆ kwxyxkwkw Tkkkk
))1(ˆ())1(ˆ,( kwxyxkwxF Tkkkk
Dieses iterative Schema wird als Widrow-Hoff Algorithmus bezeichnet. Er konvergiert asymptotisch gegen die MSE-Lösung.
))1(ˆ,()1(ˆ)(ˆ kwxFkwkw kk
)(minargˆ,)(2
wJwwxyEwJw
T
wwfürwxyxE
w
wJ T ˆ0)(2)(
0),( wxFE k
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 129
Eine verbreitete Variante benutzt ein konstantes für die Folge . Diese Variante wird angewendet, wenn sich die Stichprobenverteilung mit dem Index k ändert. Sie konvergiert jedoch nicht genau gegen die MSE-Lösung. Hayk konnte jedoch 1996 zeigen, daß wenn 0 < < 2/spur{R}, dann
constwkwEundwkwE MSEMSE
2)(ˆ)(ˆ
Es stellt sich heraus, dass, je kleiner der Wert von ist, die MSE Lösung umso besser approximiert wird, aber die Konvergenzgeschwindigkeit umso kleiner ist.
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 130
Lineare Klassifikatoren
Schätzalgorithmus mittels Quadratfehlersummen
Vorlesung "Intelligente Systeme" 131
Schätzung mittels Summe der FehlerquadrateEin anderes Kriterium für die Konstruktion eines optimalen linearen Klassifikators ist die Minimierung der Summe der Fehlerquadrate über die Trainingsstichprobe. Die Kostenfunktion lautet dann:
Die Fehlerquadrate zwischen den gewünschten und den tatsächlichen Klassifikatorausgängen werden über alle verfügbaren Trainingsvektoren der Stichprobe aufsummiert, wodurch die Notwendigkeit der expliziten Kenntnis der zugrundeliegenden Verteilungsfunktionen vermieden wird. Die Minimierung obiger Gleichung bezüglich w ergibt:
N
i
Tii wxywJ
1
2)()(
N
iii
N
i
Tii
N
i
Tiii yxwxxwxyx
11
!
1
ˆ0)ˆ(
yXyxundXXxxwird
y
y
y
yund
x
x
x
XMitTN
iii
TN
i
Tii
NT
N
T
T
11
2
1
2
1
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 132
Die Minimum-Bedingung kann umformuliert werden als:
yXXXwyXwXXTTTT 1
ˆˆ
Matrix XTX wird bezeichnet als “Stichproben-Korrelationsmatrix”.Matrix (XTX)-1XT ist die Pseudoinverse von Matrix X und wird mit X+bezeichnet.
X+ ist nur dann sinnvoll, wenn XTX invertierbar ist, d.h. wenn X den Rang l besitzt.X+ ist eine Verallgemeinerung der Inversen einer invertierbaren quadratischen Matrix: Wenn X eine invertierbare quadratische Matrix ist, dann ist X+ = X-1. Dann ist der geschätzte Gewichtsvektor die Lösung des linearen Gleichungssystems Xw = y.
Wenn es mehr Gleichungen als Unbekannte gibt, d.h., wenn N > l, dann ist die Lösung, die man mit der Pseudoinversen erhält, diejenige, die die Summe der Fehlerquadrate minimiert.
Es kann ferner gezeigt werden, daß die Lösung mit der Summe der Fehlerquadrate gegen die MSE-Lösung strebt, wenn N gegen unendlich geht.
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 133
Lineare Klassifikatoren
Mehrklassen-Verallgemeinerung
Vorlesung "Intelligente Systeme" 134
Mehrklassen-Verallgemeinerung
Konstruiere N lineare Trennfunktionen i=1,...,N wobei der gewünschte Ausgang lautetMit dem MSE Kriterium:
Wenn wir in diesem Fall N=2 wählen gibt die Entscheidungs-Hyperebene die gewünschten Antworten +-1 für die entsprechende Klassenzugehörigkeit.
Definiert man den Vektor der gewünschten Ausgänge für einen gegebenen Merkmalsvektor x als y=(y1, ,yN), wobei yi=1 für die Klasse von Vektor x und y=0 sonst. Es sei ferner Matrix W zusammengesetzt aus Gewichtsvektoren wi als Spalten.
Dann kann das MSE Kriterium verallgemeinert werden als Minimierung der Norm von y-WTx:
Dies ist gleichbedeutend mit N unabhängigen MSE Minimierungsaufgaben, welche mit denbereits vorgestellten Methoden gelöst werden können.
)(minargˆ,)(2
wJwwxyEwJw
iiT
xw Ti
sonstyundcxwennyxy i 01)(
xwwxw )( 21
NwwW
,...,1
N
iii
W
T
WxwyExWyEW
1
22
)(minargminargˆ
Lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 135
Lineare Klassifikatoren
Aufstieg und Fall des Perzeptrons
1957 – Frank Rosenblatt entwickelt Konzept des Perzeptron
1958 – Konzept-Vorstellung
1960 – Konzept-Umsetzung an der Cornell University, Ithaca, New York (USA)
1962 – Zusammenfassung der Ergebnisse in „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms”
1969 – Beweis durch Marvin Minsky und Seymour Papert, dass ein einstufiges Perzeptron den XOR-Operator nicht darstellen kann.
Vorlesung "Intelligente Systeme" 136
Nicht-lineare Klassifikatoren
Das XOR-Problem Das Zweischicht-Perzeptron Eigenschaften des Zweischicht-Perzeptrons Prozedur zum Auffinden geeigneter Abbildungen mit Perzeptrons Der Backpropagation-Algorithmus Bemerkungen zum Backpropagation-Algorithmus Freiheitsgrade beim Backpropagation-Algorithmus
Vorlesung "Intelligente Systeme" 137
In vielen praktischen Fällen sind auch optimale lineare Klassifikatoren unzureichend.Einfachstes Beispiel: Das XOR Problem.Bool´sche Operationen können als Klassifikationen aufgefasst werden:Abhängig vom binären Eingangsvektor ist der Ausgang entweder 1 (Klasse A) oder 0 (Klasse b).
X1 X2 AND(X1, X2) Klasse OR(X1, X2) Klasse XOR(X1, X2) Klasse0 0 0 B 0 B 0 B0 1 0 B 1 A 1 A1 0 0 B 1 A 1 A1 1 1 A 1 A 0 B
1,0),,,,( 21 il xxxxx
0 1
x2
1
x1
B
BB
A
0 1
x2
1
x1
A
AB
A
0 1
x2
1
x1
A
AB
B
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 138
Das zweischichtige PerzeptronWir betrachten zunächst das OR-Gatter:
x10
x2
1
x1
A
AB
A
Die OR-Separierung wird dargestellt durch folgendePerzeptron-Struktur:
x1o
x2o
1
1
-1/2
f
0 1
x2
1
x1
A
AB
B
Das XOR GatterEine offensichtliche Lösung des XOR-Problems wäre, zwei Entscheidungslinien g1(x) and g2(x) einzuzeichnen.Dann ist Klasse A auf der - Seite von g1(x) und auf der + Seite von g2(x)und Klasse B auf der + Seite von g1(x) und auf der - Seite von g2(x).Eine geeignete Kombination der Ergebnisse der beiden linearen Klassifikatoren würde also die Aufgabe erfüllen. g1(x)
g2(x)
+-+
-
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 139
Anderer Blickwinkel als Basis für Verallgemeinerung:
Realisierung zweier Entscheidungslinien (Hyperebenen) durch Training zweier Perzeptrons mit Eingängen x1, x2 und entsprechend berechneten Gewichten.Die Perzeptrons wurden trainiert, die Ausgänge yi = f(gi(x)), i=1,2 zu liefern, Aktivierungsfunktion f: Sprungfunktion mit Werten 0 und 1. In der folgenden Tabelle sind die Ausgänge mit ihren entsprechenden Eingängen gezeigt:
(x1 x2) (y1 y2) Klasse(0 0) (0 0) B (0)(0 1) (1 0) A (1)(1 0) (1 0) A (1)(1 1) (1 1) B (0)
Betrachtet man (x1, x2) als Vektor x und (y1, y2) als Vektor y, definiert dies eine Abbildungvon Vektor x auf Vektor y.Entscheidung über die Zugehörigkeit zu Klasse A oder B anhand der transformierten Daten y:
x10
y2
1
y1
AB
BDie Abbildung überführt linear nicht separierbares Problem im Ursprungsraum in ein linear separierbares im Bildraum.
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 140
Dies führt zum Zweischicht-Perzeptron, welches das XOR-Problem löst:
Dieses kann weiter verallgemeinert werden auf das allgemeine Zweischicht-Perzeptron oder Zweischicht-Feedforward-Netzwerk:
x1o
x2o...xNo
O y1
O y2
.
.O yM
O
w1
.
.wN
w0
f
Dabei bezeichnet jeder Knoten folgendeStruktur:
f
1
00
Sprungfunktion
x1o1
1
1
-2
x2o
1
1
-1/2
f
-3/2
f-1/2
f
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 141
Eigenschaften des Zweischicht-Perzeptrons
Die erste Schicht führt eine Transformation der Bereiche des Eingangsraumes (x1,x2) auf den + und - Seiten der geraden Entscheidungslinien g1: x1+x2-1/2=0 und g2 : x1+x2-3/2=0 durch auf die Vertizes (Ecken) des Einheitsquadrates im Ausgangsraum (y1,y2).
x10
y2
1
y1
AB
B
1
Die zweite Schicht führt eine Abbildung der Bereiche des (y1,y2)-Raumes auf den + und - Seiten der geraden Entscheidungslinie g: y1-2y2-1/2=0 durch auf die Ausgangswerte 0 und 1.
-+
x1o1
1
y1
y2
x2o
1
1
-1/2
f
-3/2
f-1/2
f
Nicht-lineare Klassifikatoren
0 1
x2
1
x1
A
AB
B
g1(x)
g2(x)
+-+
-
1
-2
Vorlesung "Intelligente Systeme" 142
x1o
x2o...xNo
O y1
O y2
.
.O yM
O
Neuronen der ersten Schicht: Abbildung des Eingangsraumes auf die Vertizes eines Hyperkubus im M-dimensionalen Raum der Ausgangswerte der versteckten Neuronen. =>Jeder Eingangsvektor x wird auf einen binären Vektor y abgebildet. Komponenten yi des Abbild-Vektors y von Vektor x werden durch den Gewichtsvektor wi bestimmt.
Wir betrachten den Fall dreier versteckter Neuronen: Drei Hyperebenen g1, g2, g3:
Der Merkmalsraum wird in Polyeder unterteilt (Volumina, die durch Entscheidungs-Hyperebenen begrenzt werden), welche auf die Vertizes eines dreidimensionalen Kubus abgebildet werden, welche durch Tripel der binären Werte y1, y2, y3 definiert werden.
g1
g3
g2
+-
+-+-
111
011010
110
001 000 100
Befindet sich x auf der positiven Seite der Ebene, welche durch wi definiert ist, hat yi den Wert 1 und wenn x auf der negativen Seite der Ebene liegt, die durch wi definiert ist, hat yi den Wert 0.
000 100
110
111
001
011
101Zweite Schicht: Entscheidungshyperebene, welche die Vertizes in zwei Klassen aufteilt. Im vorliegenden Fall werden die Gebiete 111, 110, 101 und 100 in die gleiche Klasse eingeteilt.
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 143
Ein Zweischicht-Perzeptron kann Klassen unterteilen, die aus Vereinigung polyedrischer Bereiche bestehen.Liegen Vereinigungen solcher Bereiche vor, wird eine weitere Schicht benötigt.
x1o
x2o...xNo
O y1,2
O y2,2
.
.O yL,2
O
O y1,1
O y2,1
.
.O yM,1
Das Mehrschicht-Perzeptron löst alle Klassifikationsaufgaben, bei denen die Klassen im Merkmalsraum durch Vereinigungen von Polyedern, Vereinigungen solcher Vereinigungen, ..., gebildet werden, wenn die entsprechende Anzahl von Schichten zur Verfügung steht.
Das Perzeptron kann auch erweitert werden, um Mehrklassenprobleme zu lösen.
:O
Class wj
Class wk
Class wl
Gj
Gk
Gl
p3
p1
p2
p4
m1
m2
m3
Merkm
alsraum
Mer
kmal
srau
mK
lass
enzu
gehö
rigke
its-
raum
Klassenzugehörigkeits-
raum
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 144
Anmerkungen:Struktur zur nicht-linearen Abbildung von Merkmalsvektoren auf Klassenzugehörigkeitsvektoren: Das Mehrschicht-Perzeptron.
Verbleibende, noch zu bestimmenden Freiheitsgrade: Anzahl der Schichten,Anzahl der Neuronen pro Schicht,Aktivierungsfunktion,Gewichtswerte.
Verbleibende Frage:Bei gegebenen Merkmalen und bekannten Klassenzugehörigkeiten der Stichproben-Vektoren:Welches ist die beste Anordnung von Neuronen und Gewichtsvektoren, die eine gegebene Klassifikationsaufgabe lösen?
Hilfe seitens der Mathematik: Für jedes kontinuierliche Abbildungsproblem kann ein Zweischicht-Perzeptron mit einer nicht-linearen Aktivierungsfunktion und einer hinreichenden Anzahl Neuronen in der versteckten Schicht gefunden werden, welches die Abbildung mit beliebiger Genauigkeit annähert. => Freiheit, einen Satz von Aktivierungsfunktionen zu wählen, der eine einfache Lösung ermöglicht.
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 145
Auffinden einer geeigneten Abbildung mit PerzeptronsEinmal wieder Optimierungsprozedur:Minimierung der Differenz zwischen realem Ausgang des Perzeptrons (vorausgesagte Klassenzugehörigkeit) und dem gewünschten Ausgang entsprechend der bekannten Klassenzugehörigkeiten der verfügbaren Stichprobe.
Definition einer Kostenfunktion der Differenz zwischen realem und gewünschtem Ausgang.z.B. Summe der Fehlerquadrate.
Minimierung der Kostenfunktion bezüglich der Perzeptron-Parameter.Vereinfachung: Definiere eine Aktivierungsfunktion.Dann braucht die Minimierung nur bezüglich der Gewichtswerte durchgeführt werden.
Minimierung impliziert die Nutzung der Ableitungen der Aktivierungsfunktion.Wird die Sprungfunktion benutzt, tritt eine Unstetigkeit in der Ableitung auf.
Wir ersetzen daher die Sprungfunktion durch die stetig differenzierbare logistische Funktion.
axexf
1
1)(
x
f Die logistische Funktion ist eine aufgeweichte Sprungfunktion,wobei a die Steigung bei x=0 bestimmt und
Damit ist die Klassenzugehörigkeit nicht mehr scharf 0 oder 1.
tionSprungfunkfa
lim
1
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 146
Nun kann der “geeignetste” Klassifikator durch Minimierung einer Kostenfunktion bezüglich der Gewichtswerte gefunden werden.
Geometrische Betrachtungsweise:Alle Gewichte (aller Schichten) spannen einen Raum auf. Die Kostenfunktion bildet dann eine Fläche über diesem Raum. => Globales Minimum dieser Fläche für die gegebene Stichprobe gesucht.
Da nicht-lineare Aktivierungsfunktionen vorliegen, wird zur Suche ein iteratives Schema benutzt. Der verbreitetste Ansatz ist die Gradientenabstiegsmethode:Starte mit einem Zufalls-Gewichtsvektor w.Berechne den Gradienten der Fläche bei w.Bewege w in Richtung entgegen dem Gradienten.Wiederhole die obigen Schritte, bis ein Minimum erreicht ist, d.h. der Gradient einen Schwellwert unterschreitet. Es sei w der Gewichtsvektor von Neuron n in Schicht l:
ln
ln
ln
lnM
ln
ln
ln wkwkw
w
w
w
w
)()1(istdann1
0
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 147
321
0
lundnmit
w
w
w
w
lnM
ln
ln
ln
Nicht-lineare Klassifikatorenx1o
x2o...xNo
O 3,1
O 3,2
.
.O 3,K
O
O 2,1
O 2,2
.
.O 2,M
:O
l=1
l=L
Neuron 2 in Schicht 3Korrektur-Inkrement mit Kostenfunktion J:
ln
ln w
Jw
Kostenfunktion: Summe der Abweichungen des tatsächlichen vom gewünschten Ausgang für alle K Stichprobenvektoren:
K
k
kJ1
)(
: Summe der Fehlerquadrate über alle M Ausgangsneuronen:
M
mmm kykyk
1
2)(ˆ)(2
1)(
K
kln
ln w
k
w
J
1
)(ln
ln
ln
ln w
v
v
k
w
k
)()(
ln
A
a
la
lna
ln wywv 0
1
1
)(
1
)(
)(
)(
)(
1
1
11
0
1
1
kyky
ky
w
kv
w
kv
w
v l
ln
l
lj
lj
lj
lj
ln
ln
l
Kettenregel: o
o . . . o
w1
w2
.wN
w0
f y
Aktivierung Neuron n in Schicht l
Vorlesung "Intelligente Systeme" 148
Neuron n aus Schicht l-1. Ausgang für Stichprobenvektor k: ynl-1(k).
Gewichtswert zu Neuron j aus der nachfolgenden Schicht l: w jnl.
Dann ist das Argument dieses Neurons j aus Schicht l:
klkymitkywwkywkv ln
n
ln
ljn
lj
n
n
ln
ljn
lj
ll
,1)()()()( 00
10
1
111
)(ˆ)(, kykyLl nLn
)()(,1 1 kxkyl nn
In der Ausgangsschicht ist
An der Eingangsschicht gilt
Definition für gegebenes Abweichungsmaß )()(
)(k
kv
k lnl
n
K
k
lln
ln kykw
1
1 )()( Schließlich erhalten wir: Diese Beziehung gilt für jede
differenzierbare Kostenfunktion.
Nicht-lineare Klassifikatoren o
o . . . o Wn0
l-1
n f
Schicht l-1
1ln 1l
ny
o . .
o . . o
wj0l
j f
Schicht l
lj l
jyljnw
Vorlesung "Intelligente Systeme" 149
Die Berechnungen beginnen an der Ausgangsschicht l=L und propagieren rückwärts durch die Schichten l=L-1, L-2, ..., 1. Bei Benutzung des Quadratfehler-Distanzmaßes erhalten wir:
M
mmm kykyk
1
2)(ˆ)(2
1)(
M
mm
Lm kykvfk
1
2)(ˆ))((
2
1)(
)()(ˆ)()( kvfkykvk Lmm
Lm
Lj
Aus wird
)()(
)(k
kv
k lnl
n
Von folgt
(1) l = L: Fehler für Muster k an Ausgangsschicht
(2) l < L: Schwieriger wegen Einfluss von auf alle der nächsten Schicht Nochmals Kettenregel:
Nach längerer Algebra erhält man folgende Gleichung:
)()()( 1
1
1 kvfwkk lm
n
n
lnm
ln
lm
l
Dies vervollständigt den Gleichungssatz des Backpropagation Algorithmus.
)(1 kv ls )(kv l
s
lm
mln
lm
lm
ln kv
kv
kv
k
kv
k
111 )(
)(
)(
)(
)(
)(
Nicht-lineare Klassifikatoren
Aktivierungsfunktion
Ableitung der Aktivierungsfunktion
lm
mln
lml
nln kv
kvkk
11
1
)(
)()()(
Vorlesung "Intelligente Systeme" 150
Der Backpropagation Gleichungssatz
)()()()( kvfkykvk Lmm
Lm
Lj
)()()()()()( kykvkemitkvfkek mLm
Lm
Lm
Lm
Lj
)()()( 1
1
1 kvfwkk lm
n
n
lnm
ln
lm
l
ln
n
lnm
ln
lm
lm
lm
lm
Lm
Lm
Lm
wk
kvfk
kvfk
1
1
111
)(
)()(
))(()(
ln
n
lnm
ln
lm
lm
lm
lm wkmitkvfk
1
1111 )()()(
Nicht-lineare Klassifikatoren
K
k
lln
ln kykw
1
1 )()(
ln
ln
ln wkwkw
)()1(
Fehler-Rückpropagierung Gewichtsmodifikation
Vorlesung "Intelligente Systeme" 151
Der Backpropagation Algorithmus
Unter der Annahme der logistischen Funktion als Aktivierungsfunktion:
1. InitialisierungInitialisiere die Gewichte des Netzwerks mit kleinen Zufallszahlen. Benutze z.B. einen Pseudozufallszahlengenerator.
2. Vorwärts-BerechnungBerechne für jeden Merkmalsvektor x(i) der Trainingsmenge alle vj
l(i), yjl(i)=f(vj
l(i)) unddie Kostenfunktion J sowie j
l(i) für die momentanen Schätzwerte der Gewichte.
3. Rückwärts-BerechnungBerechne für jedes i die j
l-1(i) und aktualisiere die Gewichte für alle Schichten entsprechend:
Wiederhole Schritte 2 und 3, bis der Wert von J zufriedenstellend klein ist.
ln
n
lln
lj
lj
lj
lj
iyiw
woldwneww
1
1 )()(
)()(
))(1)(()(1
1)( xfxfxf
exf
ax
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 152
Bemerkungen zum Backpropagation AlgorithmusAusgangspunkt Mehrschicht-Perzeptrons mit Stufenfunktionen als Aktivierungsfunktionen: Operatoren zur Aufteilung des Merkmalsraums in Volumina, welche Klassenzugehörigkeiten repräsentieren. Volumina waren allgemeine Vereinigungen von Polyedern, begrenzt durch Entscheidungs-Hyperebenen.
Lösungsweg Für eine gegebene endliche Stichprobe (Merkmalsvektoren mit bekannter Klassenzugehörigkeit) existiert i.A. eine unbegrenzte Anzahl möglicher Mehrschicht-Perzeptron-Realisierungen, welche die Klassifikationsaufgabe lösen. Suche nach einer eindeutigen (der besten) Lösung: Minimum einer Kostenfunktion; Wahl: Fehlerquadratsumme. Für mathematische Formulierung: Ersatz der Stufenfunktion durch die logistische Funktion als Aktivierungsfunktion. Optimierungsprozedur zur Bestimmung der Gewichtwerte für eine gegebene Stichprobe: den Backpropagation Algorithmus.
AllgemeingültigkeitSatz von Kolmogoroff aus der Mathematik: Abbildungsoperatoren mit einer versteckten Schicht und nicht-linearer Abbildungsfunktion sind in der Lage, jegliche stetig differenzierbare Abbildung zu realisieren. Daraus folgt, dass wir eine einfache Methode gefunden haben, einen universellen Mustererkenner zu konstruieren.
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 153
Wie komme ich zu einer guten Netzwerkstruktur ?
Wie kann ich die Konvergenzgeschwindigkeit optimieren ?
Wie kann ich vermeiden, in lokalen Minima der Kostenfunktion steckenzubleiben ?
Wie präsentiere ich die Trainingsstichprobe ?Update nach jedem Trainingspaar, Epochen-Lernen, sequentielle oder zufällige Reihenfolge ?
Wann höre ich mit dem Training auf ?
Gibt es bessere Kostenfunktionen ?
Gibt es Alternativen für die Architektur und die Aktivierungsfunktion ?
Offene Fragen zum Backpropagation Algorithmus
J
m
J
w
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 154
Wahl der Netzwerkgröße und -strukturWie soll man die geeignete Anzahl der Neuronen und Schichten bestimmen? Wenn eine endliche Trainingsstichprobe von Paaren gegeben ist {x1,y1, x2,y2, ..., xN,yN}, dann sollte die Anzahl der freien Parameter (hier synaptische Gewichte) 1) groß genug sein, um eine angemessene Klassentrennung modellieren zu können 2) klein genug sein, damit nicht die Möglichkeit besteht, die Unterschiede zwischen Paaren derselben Klasse (Look-up Tabelle) zu lernen.
Wenn die Anzahl freier Parameter groß ist, tendiert das Netz dazu, sich an die speziellen Details des Trainingsdatensatzes anzupassen (Übertrainieren) und verliert seine Generalisierungsfähigkeit. Das Netz sollte die kleinst mögliche Größe besitzen, um sich den größten Regelmäßigkeiten in den Daten anzupassen und die kleineren zu ignorieren, die von Rauschen herrühren könnten. Zur Bestimmung der Netzgröße gibt es auch systematische Methoden.
x1
x2 *
*
*
**
*
*
**
+
++
++
+
+
+
+
Hohe Anzahl freier Parameter
Niedrige Anzahl freier Parameter
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 155
Methoden zur systematischen Bestimmung der NetzgrößeAlgebraische SchätzungEin Mehrschicht-Perzeptron mit Eingangsraum-Dimensionalität d und einer versteckten Schicht mit N Neuronen kann maximal M polyedrische Gebiete bilden, wobei
.
Für das XOR-Problem mußten wir drei Gebiete unterscheiden, d.h. M=3 und d=2.Mit obiger Gleichung erhält man für N=1 M=2 und für N=2 ergibt sich M=4, was bedeutet, daß eine versteckte Schicht mit zwei Neuronen notwendig und hinreichend ist.
NetzpruningAnfangs wird ein großes Netzwerk für das Training gewählt und danach die Anzahl der freien Parameter sukzessive entsprechend einer ausgewählten Regel (z.B. Kostenfunktions-Regularisierung) reduziert. Die Kostenfunktionsregularisierung schließt in die Kostenfunktion einen Bestrafungsterm ein. Dieser kann z.B. gewählt werden als:
wobei K die Gesamtzahl der Gewichtswerte im Netzwerk und der Regularisierungsparameter ist.Es gibt verschiedene Pruning-Techniken, die auf ähnlichen Grundideen aufbauen.
sonst
mNm
NmNfür
m
N
m
NM
d
m )!(!
!0
,0
2
22
1
2
1 1)(,)()(),()(
k
kk
K
kkpp
M
i w
wwhwhwwiJ
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 156
Konstruktive TechnikenAls Ausgangspunkt wird ein kleines Netzwerk gewählt, dem aufgrund entsprechend angepaßter Lernregeln sukzessive Neuronen hinzugefügt werden.
Fahlmann (1990) schlug die cascade correlation Konstruktionstechnik für neuronale Netze mit einer versteckten Schicht und sigmoider Aktivierungsfunktion vor.
Start: nur Eingangs- und Ausgangsneuronen.Sukzessives Hinzufügen versteckter Neuronen: Jeweils mit dem bestehenden Netzwerk mit zwei Typen von Gewichten verbunden: Typ 1: verbindet das neue Neuron mit den Eingangsneuronen sowie mit den Ausgängen der zuvor hinzugefügten versteckten Neuronen. Die entsprechenden Gewichtswerte werden dann trainiert, um die Korrelation zwischen der Sequenz der Ausgangswerte des neu hinzugefügten Neurons und der Restfehlersequenz des Netzwerkausgangs (für die Trainingsvektormenge) zu maximieren. Diese Gewichtswerte werden dann eingefroren.Typ 2: verbindet den Ausgang des neuen Neurons mit den Ausgangsneuronen des Netzwerks. Nach jedem derartigen Hinzufügen eines Neuron: Training des gesamten Satzes der Typ2-Gewichte, um die Quadratfehlersumme zu minimieren. Neue Neuronen werden solange hinzugefügt, bis die Kostenfunktion spezifizierte Vorgaben erfüllt.
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 157
Konstruktive Technikencascade correlation Konstruktionstechnik
1. Start: nur Eingangs- und Ausgangsneuronen
2. Training bis Minimum SSE
3. Schleife bis SSE < Schwellwert3.1 Hinzufügen neues hidden Neuron3.2 Verbinde Eingänge neues Neuron mit Eingangsneuronen und Ausgängen der alten hidden Neuronen mit Typ1-Gewichten.3.3 Trainiere Typ1-Gewichte neues Neuron, bis die Korrelation zwischen SSE des alten Netzwerks und Ausgang des neuen Neurons maximal ist.3.4 Verbinde Ausgang neues Neuron mit Eingängen der Ausgangsneuronen mit Typ2-Gewichten.3.4 Trainiere Typ2-Gewichte aller versteckten Neuronen, bis SSE des Netzwerks minimal.
O O ..O
O
x1
x2
. . xM
O O ..O
O
x1
x2
. . xM
OTyp1-Gewicht Typ2-Gewicht
O O ..O
O
x1
x2
. . xM
O
O
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 158
Konvergenzverhalten und Beschleunigung
Der Backpropagation Algorithmus ist eine Variante der Gradienteabstiegsmethoden, speziell für Mehrschichtstrukturen. Er hat damit dieselben Nachteile wie sein Original.
ln
ln w
Jw
J
w
steckengeblieben
oszillierend
langsam
Es gibt mehrere Ansätze, diese Probleme zu überwinden.
Hinzufügen eines Impulsterms
Der Impulsterm dämpft das Oszillationsverhalten und beschleunigt die Konvergenz. Er fügt aber auch einen neuen Parameter hinzu, den Impulsfaktor, der den Einfluß des alten Gewichtsvektors auf die Gestalt des neuen Gewichtsvektors gewichtet.
ln
n
lln
lj
lj
lj
lj
lj iyialtwwwaltwneuw
1
1 )()()(,)()(
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 159
Beschleunigung mit Rprop
Die Grundidee besteht darin, für die Lernrate µ einen adaptiven Wert zu verwenden, der vom Unterschied des Kostenfunktionswertes zwischen zwei aufeinanderfolgenden Trainingsschritten abhängt:
Nimmt die Kostenfunktion ab, oder bleibt sie unverändert, dann wird die Lernrate um einen Faktor > 1 erhöht.
Steigt die Kostenfunktion an um mehr als einen bestimmten Faktor, dann wird die Lernrate mit einem Faktor < 1 verringert.
Im Zwischenbereich bleibt die Lernrate gleich.
In der Praxis sind typische Werte ri=1.05, rd=0.7, c=1.04
)1()(1)1(
)(
trtdann
tJ
tJWenn i
)1()()1(
)(
trtdannc
tJ
tJWenn d
)1()()1(
)(1
ttdannc
tJ
tJWenn
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 160
Gegenmaßnahmen bei Steckenbleiben im lokalen Minimum
Bleibt auch nach einer großen Anzahl von Trainingsepochen die Kostenfunktion auf einem unbefriedigend hohen Niveau, kann davon ausgegangen werden, daß die Gradientenabstiegsmethode in einem lokalen Minimum steckengeblieben ist.
Man kann dann zuerst versuchen, das Training mit einer neuen Zufallsgewichtsverteilung zu wiederholen.
Wenn auch dies nicht hilft, kann ein weiteres Neuron in einer versteckten Schicht hinzugeügt werden, um neue Dimensionen im Raum der Gewichtswerte hinzuzufügen, in denen die Gradientenmethode einen Weg aus dem lokalen Minimum finden kann.
J
Anzahl der Epochen
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 161
Präsentation des TrainingsdatensatzesDer Trainingsdatensatz kann in verschiedener Reihenfolge angeboten werden.Die Neuberechnung der Gewichte kann mit unterschiedlicher Strategie erfolgen.Den Daten kann Rauschen hinzugefügt werden.Die Verteilung der Trainingsdaten kann verändert werden.
Neuberechnung der Gewichte:Batch Modus: Nach Präsentation aller Trainingspaare (Epochenlernen)
Mittelungsprozess -> besseres KonvergenzverhaltenPattern Modus: Nach jeder Präsentation eines Trainingspaares
Stärkerer Zufallscharakter -> geringere Gefahr des SteckenbleibensÜberlagerung von Rauschen:
Eine kleine zufällige Störung der Eingangsvektoren kann die Generalisierungsfähigkeit des Netzwerks verbessern.
Reihenfolge der Präsentation des Trainingsdatensatzes: Die Zufallsauswahl bei der Präsentationsreihenfolge glättet die Konvergenz und hilft, aus Regionen um ein lokales Minimum herauszuspringen.
Vervielfachung der Trainingspaare: Wenn die Klassen in der Stichprobe durch sehr unterschiedliche Anzahlen von Trainingspaaren repräsentiert werden, kann die Konzentration des Netzes auf die stark besetzten Klassen vermieden werden, indem Kopien der Trainingspaare der unterbesetzten Klassen der Stichprobe hinzugefügt werden.
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 162
Die optimale Leistung ist erreicht, wennDie Kostenfunktion minimal für den Trainingsdatensatz ist.Das Netzwerk nicht übertrainiert ist.
Aufteilung des Trainingsdatensatzes inLerndatensatz: Zur Neuberechnung der Gewichtswerte Validierungsdatensatz: Nur zur Überprüfung der aktuellen Netzleistung
Beobachte die Entwicklung der Kostenfunktionswerte jeweils für den Lern- und den Vailidierungsdatensatz.
Wenn die Anzahl der Gewichtswerte groß genug gewählt wurde, kann der Fehler für den Lerndatensatz beliebig klein gemacht werden. Dies führt zum Verlust der Generalisierungsfähigkeit: Die Kostenfunktion des Validierungsdatensatzes nimmt nach einem Minimum wieder zu. Die optimale Leistung eines gewählten Netzwerks wird also am Minimum der Kostenfunktion des Validierungsdatensatzes erreicht.
Abbruch des Lernvorgangs
J
Epochenanzahl
Lerndatensatz
Validierungsdatensatz
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 163
Kostenfunktion AlternativenBislang Kostenfunktion vom Typ „quadratischer Fehler“. Mögliche Probleme:1. „Lernfokussierung“ und Ausreisser-EmpfindlichkeitFehler werden an den Ausgangsknoten zuerst quadriert und dann aufsummiert. Folge: große Fehlerwerte -> höherer Einfluß auf das Lernen als kleine. Ausgänge mit großen dynamischen Bereichen der Soll-Ausgangswerte werden stärker berücksichtigt. 2. Lokale MinimaGradientenabstiegsmethode kann in lokalen Minima hängen bleiben.
Lösung:Es gibt eine Klasse von Kostenfunktionen, well-formed functions, die sicherstellen, daß der Gradientenabstiegsalgorithmus zu einer eindeutigen Lösung konvergiert, welche alle Lerndatensätze korrekt klassifiziert. Z.B. cross-entropy Kostenfunktion:
Diese hängt nur von relativen Fehlern ab und gibt Klassen mit niedrigem und hohem dynamischen Bereich das gleiche Gewicht.
L
L
k
k k
kk
k
kk
N
i
k
kkkkk
N
i
iy
iyiy
iy
iyiyJoder
iyiyiyiyJ
11
11
)(1
)(ˆ1ln)(1
)(ln
)(ˆln)(
)(ˆ1ln)(1)(ˆln)(
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 164
Unter der Annahme, dass die beiden Klassen im Ursprungs-raum durch eine nicht-lineare Hyperfläche (x)=0 trennbar waren, dann sind die beiden Relationen rechts äquivalent mit einer Approximation der nicht-linearen Fläche (x) mit einer Linearkombination der f(x).
Alternative AktivierungsfunktionenAusgangspunkt für die Konstruktion nicht-linearer Klassifikatoren war das XOR-Problem.Lösung: Vektor-Abbildung x auf y, welche das in x nicht-lineare Problem in ein linear separierbares in y überführte. F: Aktivierungsfunktion undgi(x): Linearkombination der Eingänge eines jeden Neurons.Verallgemeinerung: Merkmalsvektoren im d-dimensionalen Raum Rd, die zu zwei Klassen gehören, die nicht linear trennbar sind. Gegeben seien k nicht-lineare Aktivierungsfuktionen f1, f2, ..., fk, welche eine Abbildung definieren:
Wir suchen dann nach einer Menge von Funktionen f1, f2, ..., fk, so dass die Klassen linear separierbar sind im k-dimensionalen Raum der Vektoren y durch eine Hyperebene, so dass
)(
)(
2
1
2
1
xgf
xgf
y
yymityx
)(
)(
)(
2
1
xf
xf
xf
ymitRyRx
k
kl
20
10
0
0
cxyww
cxyww
k
jjj xfwwx
10 )()(
Dies ist ein Funktionenapproximationsproblem mit einem Satz Funktionen einer ausgewählten Funktionenklasse.
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 165
Dies entspricht einem Zweischicht-Netzwerk mit Aktivierungsfunktionen f1, f2, ..., fk.Die Äquivalenz wird leicht erkannt im (künstlichen) Fall jeweils eines Ein- und Ausgangsneurons:
O f1
O f2
.
.O fM
OOx y
M
jjjjj wxwfwy
1,0,1,2 )(
w1,1
w1,2
.
w1,M
w2,1
w2,2
.
w2,M
Das bislang betrachtete Perzeptron benutzte als Funktionenklasse die logistischen Funktionen:
y
xw0
Zwei weitere Klassen haben in der Mustererkennung spezielle Bedeutung:Polynome Gaußfunktionen
Polynomklassifikatoren Radiale-Basisfunktionen-Netze
L
l
L
l
L
llll
L
lmmllmll xwxxwxwwxg
1
1
1 1
2
10)(
L
l
cxcx
ll
ll
exwwxg1
2
)()(
0
2
)(
Nicht-lineare Klassifikatoren
Vorlesung "Intelligente Systeme" 166
Nächster-Nachbar-Klassifikator
Nächste-Nachbar-Regel
Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label)
Ein unbekanntes Muster ist zu klassifizieren. Regel: Es wird ihm die Klasse des ihm nächstliegenden Prototypen zugeordnet.
Wirkung im Merkmalsraum:Aufteilung in Voronoi-Zellen
Große Zellen (grobe Auflösung)wo Musterdichte gering
Kleine Zellen (feine Auflösung)wo Musterdichte hoch
Nicht-parametrische Methoden
)},(),...,,(),,{( 2211 NN CxCxCx
Klasse 1 Klasse 2
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 167
K-Nächste-Nachbar-Klassifikator
Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label)
Ein unbekanntes Muster ist zu klassifizieren. Regel: Eine Hyperkugel wird um herum solange vergrößert, bis k Prototypen darin enthalten sind. Es wird die Klasse der einfachen Mehrheit dieser k nächsten Prototypen zugeordnet.
Zwei-dmensionaler Merkmalsraum,
Zwei-Klassenproblem,k=5
Nicht-parametrische Methoden
)},(),...,,(),,{( 2211 NN CxCxCx
Klasse 1 Klasse 2
Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience
Vorlesung "Intelligente Systeme" 168
K-Nächste-Nachbar-Klassifikator
Vergleich mit Bayes:
Entscheidungsfehler E
Für k=3, großes N und kleinen Bayes-Fehler gute Approximation für Bayes.
Weitere Verbesserung im Limes für größeres k.
Vorteil: Kein Training erforderlichNachteil: Komplexität hoch: Speicherbedarf O(N),
Abstandsberechnung O(Dimension), Suche kleinster Abstand O(d*N2) bis O(d*N*lnN).
=> Effizienzsteigerung durch Verdichtung der Stichprobe
Nicht-parametrische Methoden
)},(),...,,(),,{( 2211 NN CxCxCx
23
1
3
2
BayesBayesNN
BayesNNBayes
EEE
EEE
Vorlesung "Intelligente Systeme" 169
Nächste-Nachbar-Klassifikator
Effizienzsteigerung durch Verdichtung der Stichprobe
Kein Beitrag eines Prototypen xi zur Klassifikation, wenn seine Voronoi-Zelle nur Nachbarzellen mit seiner eigenen Klassenzugehörigkeit besitzt.
Elimination überflüssiger Elemente in der Stichprobe:Falls im Voronoi-Diagramm die Nachbarzellen der Zelle von xi die
gleiche Klassenzugehörigkeit wie aufweisen, kann der Prototyp xi aus der Stichprobe entfernt werden, ohne dass die Fehlerrate des NN-Klassifikators verändert wird.
Nicht-parametrische Methoden
Vorlesung "Intelligente Systeme" 170
Nächste-Nachbar-Klassifikator
Effizienzsteigerung durch Verdichtung der Stichprobe
Nicht-parametrische Methoden
Vorlesung "Intelligente Systeme" 171
Klassifikation
Bei der Gesichtserkennung haben wir für jede Person eine Menge an Stichproben-mustern (z.B. Grauwertbilder) mit be-kannter Klassenzugehörigkeit (z.B. Name als Klassenlabel). Rechts ist ein Zweiklassenproblem (Identifikation) dargestellt.
Bei der Konstruktion eines Klassifikators ist die erste Frage: Was ist die beste Menge an Merkmalen (aus Messungen im Bild zu extrahieren) um dem Klassifikator eine richtige und robuste Klassifikation zu ermöglichen?
Die einfachste Wahl der direkten Verwendung der Grauwerte aller Pixel ist keine gute Wahl, da sie einen 64K-komponentigen Merkmalsvektor für 256x256 pixel Bilder erzeugt und der Merlmalsvektor selbst bei Verschiebungen von nur einem Pixel wesentlich gedreht wird.
Person P
P nicht P
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 172
Zunächst wird alles verfügbare a priori Wissen genutzt, wie z.B.:
Korrigiere zuerst alle Verzerrungen, die bekannt sind oder in den Mustern selbst gemessen werden können.
Eliminiere dann sämtliches Rauschen und alle Störungen, die nicht vom Objekt herrühren. Entferne Elemente aus den Mustern, die innerhalb einer Klasse stark variieren können oder instabil sind (z.B. hochfrequ. Komp. in Gesichtserkennung).
Nach den obigen Filterungen und Transformationen folgt eine eventuelle Vorverarbeitung der Stichprobe mittels Entfernung von Ausreissern, Datennormierung und Substituierung fehlender Daten.
Letztlich werden robuste, meßbare Merkmale mit hoher Trennbarkeit ausgewählt durch entweder• Nutzung von Modellwissen oder• Statistische Analyse
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 173
Vorverarbeitung durch Entfernung von AusreißernAusreißer: Punkt, der weit entfernt liegt vom Mittelwert einer Zufallsvariablen. Mögliche Ursachen:• Meßfehler,• Stichprobenwert aus dem „Außenbereich“ der Verteilung erwischt,• Stichprobe besitzt lange „Außenbereiche”.
Um das Problem anzugehen, sollte eine hinreichend große Stichprobe vorliegen, um • statistisch signifikant Mittelwert und Standardabweichung berechnen zu können,• eine gute Schätzung der Verteilung zu ermöglichen.
Für eine normalverteilte Zufallsvariable mit Standardabwei-chung , deckt die Fläche um 2 um den Mittelwert 95% und um 3 99% aller Punkte ab.Noch weiter entfernte Punkte sind höchstwahrscheinlich Fehl-messungen und erzeugen beim Training große Fehler. Solche Punkte sollten entfernt werden.
Ist die Anzahl der Ausreißer nicht klein, kann dies durch eine breite Verteilungsfunktion bedingt sein. Dann gibt die Quadratfehlersummen-Kostenfunktion den außen-liegenden Werten zuviel Gewicht (wegen der Quadrierung) undes sollte eine geeignetere Kostenfunktion (Kreuz-Entropie) gewählt werden.
x
p
x
p
xm
xm
xo
xoxm+
xm+2
x
p
xm xo
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 174
Vorverarbeitung durch DatennormierungDer Meßprozeß zur Extraktion von Primärmerkmalen aus den Mustern kann in sehr unterschiedlichen dynamischen Bereichen für die verschiedenen Merkmale resultieren. So kann beim Punktschweißen die Schweißspannung von 0 V bis 1 kV variieren, der Schweißstrom (bei einer Konstantstromsteuerung) lediglich von 1,8 kA bis 1,9 kA.
Problem: Merkmale mit großen Werten haben mehr Einfluß auf die Kostenfunktion als Merkmale mit kleinen Werten, was nicht unbedingt ihre Signifikanz widerspiegelt.
Lösung: Normierung der Merkmale derart, dass die Werte aller Merkmale in ähnlichen Bereichen liegen.
Maßnahme: Normierung mit den jeweiligen Schätzwerten von Mittelwert und Varianz:Angenommen, wir haben eine Stichprobe aus N Daten des Merkmals f, dann
Nach der Normierung haben alle Merkmale den Mittelwert Null und Einheitsvarianz.
2
2
1
2
1
ˆ:
1
1...,,2,1,
1
f
ffifi
N
iffif
N
ifif
xxxxvonNormierung
xxN
undLfxN
x
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 175
Die obige Methode ist linear.
Sind die Daten nicht gleichmäßig um den Mittelwert verteilt, sind nicht-lineare Normierungen angezeigt. Diese können logarithmische oder logistische Funktionen sein, welche die Daten in vorgegebene Intervalle abbilden.
Das softmax scaling ist ein weit verbreiteter Ansatz:
Dies begrenzt den Bereich auf das Intervall [0,1]. Für kleine Werte des Arguments ergibt sich wieder eine lineare Methode. Der Grad der nicht-linearen Stauchung hängt vom Wert von und vom Parameter r ab.
2
1
1ˆ:
1
1...,,2,1,
12
1
2
1
f
ffi
r
xxfi
N
iffif
N
ifif
e
xxvonNormierung
xxN
undLfxN
x
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 176
Vorverarbeitung durch Ergänzung fehlender Daten
Problem:Manchmal ist die Anzahl verfügbarer Daten nicht für alle Merkmale gleich (z.B. asynchrone Messungen unterschiedlicher Frequenz). Für das Training wird jedoch die gleiche Anzahl von Daten für alle Merkmale benötigt.
Lösung:� Wenn wir über viele Trainingsdaten verfügen und nur einige Messungen von Merkmalswerten fehlen, können Merkmalsvektoren mit fehlenden Elementen aus dem Trainingsdatensatz herausgenommen werden. � Wenn wir uns den Luxus des Wegwerfens von Merkmalsvektoren nicht leisten können, müssen wir die fehlenden Werte durch Schätzwerte ersetzen:
• Mittelwert der verfügbaren Merkmalswerte, • Interpolationswert zwischen Vorgänger und Nachfolger • Schätzwert aus der zugrundeliegenden Verteilung (wenn verfügbar)
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 177
1. Einzelmerkmale
Um einen ersten Eindruck von den ausgewählten Merkmalen zu erhalten, ist es nützlich, die Trennfähigkeit eines jeden einzelnen Merkmals zu betrachten.
Dieses Vorgehen filtert Merkmale heraus, die keine Information über Klassenzugehörigkeiten enthalten.
2. Merkmalskombination
Danach ist die beste Kombination der übrig gebliebenen Merkmale zu einem Merkmalsvektor zu betrachten.
Merkmalsvorverarbeitung und -auswahl
Bewertung und Auswahl von Merkmalen
Vorlesung "Intelligente Systeme" 178
Einzelmerkmals-Auswahl: t-Test für die MerkmalsauswahlAngenommen, wir haben ein Zweiklassenproblem und es sei das betrachtete Merkmal eine Zufallsvariable, dann lautet die Aufgabe, die folgenden Hypothesen zu testen:H1: Die Merkmalswerte unterscheiden sich nicht wesentlich für unterschiedliche Klassen.H0: Die Merkmalswerte unterscheiden sich wesentlich für unterschiedliche Klassen.H0 ist dabei die Nullhypothese und H1 die Alternativhypothese.
Angenommen, Merkmal x gehört zu einer bekannten Familie von Wahrscheinlichkeitsverteilungsfunktionen mit einem unbekannten Parameter µ. Im Falle Gaußscher Verteilungen kann µ der Mittelwert oder die Varianz sein.
Wenn bekannt ist, daß die Varianz denselben Wert hat, lautet die Frage, ob sich die Mittelwerte µ1 und µ2 des Merkmals x für die beiden Klassen wesentlich unterscheiden.
H1: µ = µ1 - µ2 0, H0: µ = µ1 - µ2 = 0
Werden die Werte von x für die Klasse 1 mit X und für Klasse 2 mit Y bezeichnet, definieren wir Z=X-Y.Dann können wir die Stichprobe für z verwenden, um auf die µ Hypothese hin zu testen und einen t-Test durchführen mit
YXYXN
ZN
iii
1
1
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 179
Prüfung bislang auf wesentlichen Unterschied der Mittelwerte eines Merkmals zweier Klassen: Merkmale mit ungefähr gleichem Mittelwert werden ausgeschlossen. Maß für Unterscheidungsfähigkeit eines Merkmals: ROC (Zusätzliche Betrachtung des Überlapps der Wahrscheinlichkeitsverteilungsfunktionen für die beiden Klassen).Wir können einen Schwellwert zwischen beiden Klassen definieren:
Klassentrennbarkeit : Receiver operating characteristics Kurve
x
p
Xm Ym x
p
Schwellwert
Klasse1 Klasse2
Wahrscheinlichkeit einer falschen Entscheidung über die Klasse1-Zugehörigkeit: Fläche unter der oberen Kurve rechts vom Schwellwert; Wahrscheinlichkeit einer korrekten Entscheidung 1- . Entsprechend für Klasse2: und 1-. Die Variation des Schwellwerts ergibt die ROC Kurve:Bei vollständigem Überlapp ist 1- (Diagonale), ohne Überlapp ist 1- = 1 unabhängig von , ansonsten erhalten wir eine Kurve wie im Diagramm. Die Fläche zwischen dieser Kurve und der Dia-gonale ist ein Überlapp-Maß zwischen 0 und 0,5.Die ROC Kurve: Durchfahren des Wertebereichs von x mit dem Schwellwert und Berechnung und Auftragung von = 1- im Diagramm.
1-
1
1
A
Merkmalsvorverarbeitung und -auswahl
Klasse1 Klasse2
Vorlesung "Intelligente Systeme" 180
Merkmalsvektor-KlassentrennbarkeitsmaßeDie bisherigen Betrachtungen sind nicht geeignet, die Korrelationen zwischen Merkmalen zu berücksichtigen, die üblicherweise bestehen und die Unterscheidungseffizienz eines Merkmalsvektors beeinflussen.
1. DivergenzGegeben seien zwei Klassen c1 und c2. Gemäß der Bayes´schen Regel wird ein Merkmalsvektor x zugeordnet zu c1 wenn P(c1|x) > P(c2|x).
Unterscheidbarkeit für eine Merkmalsausprägung =ln[p(c1|x)/p(c2|x)]. Mittelwerte von :
Symmetrische Kombination: Divergenz d
xdcxp
cxpcxpDxd
cxp
cxpcxpD
)1|(
)2|(ln)2|( und
)2|(
)1|(ln)1|( 2112
Merkmalsvorverarbeitung und -auswahl
xdcxp
cxpcxpcxpd
)2|(
)1|(ln)2|()1|(12
Vorlesung "Intelligente Systeme" 181
Merkmalsvektor-KlassentrennbarkeitsmaßeDivergenz bei Normalverteilungen
Für mehrdimensionale Gaussfunktionen mit Mittelwertvektoren und Kovarianzmartizen
xdcxp
cxpcxpcxpd
)2|(
)1|(ln)2|()1|(12
B
B
xx T
exp1
2
1
2
1)(
2121
22221
11221
kk
k
k
B
])[(
)],()[(22
iii
jjiiij
xE
xxE
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 182
Mit ist Divergenz
dann gleich
was sich im eindimensionalen Fall reduziert zu
Verallgemeinerung auf Mehrklassen-TrennbarkeitsmaßM: Anzahl der Klassen
)()(2
12
2
121
1
2
1
1211
1
22
1
112 TIspurd
22
21
2212
2
21
21
22
12
11)(
2
12
2
1
d
B
B
xx T
exp1
2
1
2
1)(
xdcxp
cxpcxpcxpd
)2|(
)1|(ln)2|()1|(12
Merkmalsvorverarbeitung und -auswahl
M
i
M
jijji dPPd
1 1
)()(
Vorlesung "Intelligente Systeme" 183
2. Fishers discriminant ratio
Das FDR Maß basiert auf der sogenannten Streumatrix-Methode. Für Zweiklassenprobleme in einer Dimension (ein Merkmal) hat die FDR folgende Form:
Für Mehrklassenprobleme können mittelnde Formen der FDR benutzt werden:
wobei die Indizes i und j sich auf Mittelwert und Varianz (des betrachteten Merkmals) für die Klassen ci und cj beziehen.
3. Weitere Klassentrennbarkeitsmaße
Chernoff Rand und Brattcharrya Distanz.Die Mahalanobis-Distanz ist ein Spezialfall von (1.), wobei die Wahrscheinlichkeitsverteilungsfunktionen gleiche Kovarianzmatrizen besitzen.
22
21
221
FDR
M
ij ji
jiM
i
FDR22
2
1
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 184
4. Visualisierung des Merkmalsraumes mit entsprechenden Werkzeugen
http://quickcog.phytec.de/
Merkmalsvorverarbeitung und -auswahl
Vorlesung "Intelligente Systeme" 185
MerkmalsvektorauswahlUm den optimalen Merkmalsvektor aufzufinden, könnten wir eine vollständige Suche unter allen Kombinationen von l Merkmalen aus m möglichen durchführen. Wir würden die beste Kombination bezüglich eines bestimmten Trennbarkeitsmaßes suchen.Für große Werte von m kann dies ein ernsthaftes kombinatorisches Problem werden, da
Beispiel: vollständige Suche nach Kombination der 5 besten Merkmale von 20 ergibt 15504 zu untersuchende Kombinationen.
Aus diesem Grund gibt es viele Suchtechniken wie - Sequential forward selection
1. Bestes Einzelmerkmal M12. Beste Kombination von M1 mit einem weiteren Merkmal: M1,M23. Beste Kombination von M1,M2 mit einem weiteren Merkmal: M1,M2,M3… bis gewünschte Leistung erreicht ist.Anzahl zu untersuchender Kombinationen: l+(l-1)+(l-2)+…+(l-m-1).
- Genetische Algorithmen
)!(!
!:
lml
m
l
mVektorenmöglicherGesamtzahl
Merkmalsauswahl
Vorlesung "Intelligente Systeme" 186
MerkmalserzeugungMerkmale können rohe Meßwerte der zugrundeliegenden Muster sein. Dies kann zu sehr hochdimensionalen Merkmalsvektoren führen mit stark korrelierten Merkmalen und folgedessen Redundanz der Information. Die Aufgabe der Merkmalserzeugung ist die Beseitigung dieser Redundanzen durch Transformationen der rohen Meßwerte auf neue Koordinaten und die Auswahl nur solcher Koordinaten als neue Merkmale, die den höchsten Grad an Information beinhalten. Dies sollte zu einer Kompression der klassifikationsrelevanten Information in eine relativ kleine Anzahl von Merkmalen führen. Z.B. genügt bei der Gesichtserkennung eine Transformation auf ein System aus 50 „Eigengesichtern“ um alle Gesichter mit ausreichender Genauigkeit zu beschreiben, während die Ursprungsbilder aus z.B. 65536 Werten bestehen.
Lineare TransformationenKarhunen-Loève (Eigenvektor-Zerlegung)SingulärwertzerlegungFourier-TransformationHadamard TransformationWavelet Transformation...SignaleigenschaftenInvariante Momente, Textur, Rauhigkeit,....
AnwendungsbeispielQualitätskontrolle beimWiderstands-PunktschweißenInkl.Merkmalserzeugung undMerkmalsauswahl
Merkmalsauswahl
Vorlesung "Intelligente Systeme" 187
Hauptkomponenten-Transformation
x1
x 2
h
h
x´ 1
x´2x´ 2
Zwei ursprüngliche Merkmale x1 und x2 sind der Stichprobenverteilung nicht gut angepasst.Besser x1´ und x2´ : Zur Beschreibung genügt x1´:Linearer Unterraum von x1, x2.
Vorlesung "Intelligente Systeme" 188
x1
x 2
h
h
x´ 1x´
2x´ 2
1. Verschiebung in den Schwerpunkt
2. Drehung auf Richtung maximaler Varianz
Hauptkomponenten-Transformation
Vorlesung "Intelligente Systeme" 189
x1
x 2
h
h
1.5
8.4,
4
9.3,
9.2
2.3,
1.2
2,
9.0
1.1,,,, 54321 xxxxx
13
1.13,
9.11
8.11,
11
9.10,
2.10
9.9,
9.8
2.9,
1.8
8,
9.6
1.7,,,,,, 1211109876 xxxxxxx
6.7
6.7
91
91
12
1Sx
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
0,00 5,00 10,00 15,00
Hauptkomponenten-Transformation
Vorlesung "Intelligente Systeme" 190
1. Allgemeines Vorgehen Muster-Stichprobe Schätzung Schwerpunkt
Empirische Kovarianz-Matrix
Hauptachsen und Hauptachsenabschnitte
durch Diagonalisierung von K und davon Eigenwerte, Eigenvektoren
X x xN[ ,..., ]
1x Ri
m x
Nxs i
i
N
1
1 y x x y Ri i s i
m: Y y yN[ ,..., ]
1 Y Rm N
Ti
N
ii
T yyN
YYN
KB
11
1
1
1K Rm m
a i i
iii aaKB
| |a i 1
Hauptkomponenten-Transformation
Vorlesung "Intelligente Systeme" 191
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
0,00 5,00 10,00 15,00x1
x 2
h
h
13
1.13,
9.11
8.11,
11
9.10,
2.10
9.9,
9.8
2.9,
1.8
8,
9.6
1.7,,,,,, 1211109876 xxxxxxx
6.7
6.7
91
91
12
1Sx
4.5
5.5
3.4
2.4
4.3
3.3
6.2
3.2
3.1
6.1
5.0
4.0
7.0
5.0
5.2
8.2
6.3
7.3
7.4
4.4
5.5
6.5
7.6
5.6... 1221 SSS xxxxxxY
B
8.16
63.16
63.16
5.16
84.184
94.182
94.182
54.181
11
1TYYKBBB
Muster-Stichprobe
Schätzung Schwerpunkt
Empirische Kovarianz-Matrix
y x x y Ri i s i
m: Y y yN[ ,..., ]
1
x
Nxs i
i
N
1
1
1.5
8.4,
4
9.3,
9.2
2.3,
1.2
2,
9.0
1.1,,,, 54321 xxxxx
Hauptkomponenten-Transformation
Vorlesung "Intelligente Systeme" 192
Hauptachsen und Hauptachsenabschnitte
x1
x 2
h
a i i
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
0,00 5,00 10,00 15,00
Empirische Kovarianz-Matrix
iii aaKB
0...
100
0
10
001
,0det 22
11
n
nnn aaaIIK
BBB
71.0
7.0,
7.0
71.00 21 aaaIK ii
BB
1. Charakteristisches Polynom null setzen: Nullstellen sind gesuchte Eigenwerte.
2. Eigenvektoren durch Einsetzen in und Lösen von
Hauptkomponenten-Transformation
8.16
63.16
63.16
5.16
84.184
94.182
94.182
54.181
11
1TYYKBBB
28.33,019.063.164
8.165.16
2
8.165.160
8.16
63.16
63.16
5.16det 21
22
2,1
!
Vorlesung "Intelligente Systeme" 193
2. Singulärwert-Zerlegung SVD von Y
3. Eigenwert-Zerlegung von
Y s u vs ii
r
i iT
1
s s sr1 2 0 ...
u v orthonormiert u R v Ri i i
mi
N, , ,
Y s v usT
ii
r
i iT
1
Y Y s u us sT
ii
r
i iT
2
1
Y Y Rs sT m m
Y Y Y Y Y Y u s us
Na us s
T T
s sT
s sT
i i i ii
i i
22
1 ,
Y YT
Y Y s v v RTi i i
T N N 2
Y Y v s vTi i i
2
Y v s u s a as
YvYv
Yvi i i i i ii
ii
i
!
| |
1
Hauptkomponenten-TransformationX x xN[ ,..., ]
1
x Ri
m y x x y Ri i s i
m: Y y yN[ ,..., ]
1 Y Rm N
Vorlesung "Intelligente Systeme" 194
4. Vorgehen zur Lösung der PCA
1.
2. I)
II)
III)
wenn N > m, dann I),wenn N < m, dann III)
Bemerkung:
X x Ys
KN
YY aTEW m m
i i
1
1 ,
Y s u vs
Na u
SVD m N
i i i ii
i i
, , ,
2
1
Y Y Y Y v vN
aY v
Y vT
EW N NT
i i i ii
ii
i
1
,| |
!
Y Y y yT
i j i j,
Hauptkomponenten-TransformationX x xN[ ,..., ]
1
x Ri
m y x x y Ri i s i
m: Y y yN[ ,..., ]
1 Y Rm N
Vorlesung "Intelligente Systeme" 195
Jede m x n – Matrix mit m > n kann geschrieben werden als Produkt einer m x m, spalten-normalen Matrix , einer positiv semi-definiten n x n Diagonalmatrix und der Transponierten einer n x n normalen Matrix .
AB
UB
WB
VB
IVVVVUUundwww
w
w
w
WmitVWUA TTTn
n
TBBBBBBBBBBBB
0,...,,,
.00
....
0.0
0.0
212
1
Vorlesung "Intelligente Systeme" 196
Hauptachsen und Hauptachsenabschnitte• Sortieren nach Hauptachsenabschnitten (relative Relevanz)• Abschneiden ab Schwellwert• Zugehörige Eigenvektoren: Hauptkomponenten (neue Basis)
a i
i
x
Nxs i
i
N
1
1
“Durchschnitts-gesicht”
1a
2a
,..., 21 aa
“Eigengesichter”
Hauptkomponenten-Transformation
5. Beispiel: Eigengesichter
Vorlesung "Intelligente Systeme" 197
Merkmalsgewinnung:• Subtraktion des Schwerpunkts vom Eingangsmuster • Projektion des Ergebnisses auf die Hauptkomponenten
sNN
NN
s
xacacacx
axcaxcaxc
xxx
2211
2211 ,,,
Hauptkomponenten-Transformation
Vorlesung "Intelligente Systeme" 198
Einbringen von a priori Wissen
Bisher: Erlernen einer Abbildung
Anhand einer bekannten Stichprobe
Jetzt: Nutzung von a priori Wissen
a) Nur bestimmte zeitliche Abfolgen sind möglichZeitdiskrete Prozesse: Hidden-Markov-Modelle
b) Kausale Zusammenhänge sind bekannt oder vermutet: Bayesian Belief Networks
c) Randbedingungen für die Lösung sind bekannt: Kostenfunktion-Regularisierung
|1|5|7|8|3|4|
Muster Klassenzugehörigkeit
|1|0|0|
Muster 1 Klassenzugehörigkeit 1
Muster N Klassenzugehörigkeit N
.:
Vorlesung "Intelligente Systeme" 199
Digitale Signale: ADC und DAC
BeobachtbareProzessmuster
Sensor/Wandler
Signalauf-bereitung
Merkmal-/Primitive-extraktion
Klassifik.
Estimation
Deskription
Mögl. Algorithmenrückkopplung oder -interaktion
Mustererkennungssystem
A D
Analoge Welt Digitale Welt• Diskrete Abtastung• Quantisierung
Vorlesung "Intelligente Systeme" 200
Analoge Welt Digitale Welt• Diskrete Abtastung• Quantisierung
Sample &Hold
ADC-Analog/Digital
Converter
Ursprüngl. Analogsignal Abgetastetes Analogsignal Digitalisiertes Signal
Zeit Zeit Abtastpunkt
Am
plit
ude
(p
hys
. E
inh
.)
Am
plit
ude
(p
hys
. E
inh
.)
Dig
itale
Za
hl
Analoger EingangDigitaler Ausgang
Einfrieren der Werte anAbtastzeitpunkten
Wandeln des Signalszur nächsten Ganzzahl
Fehlerquellen bei der Analog-Digital-Wandlung
Vorlesung "Intelligente Systeme" 201
ADC-Analog/Digital
Converter
Abgetastetes Analogsignal Digitalisiertes Signal
Zeit Abtastpunkt
Dig
itale
Za
hl
Digitaler Ausgang
Wandeln des Signalszur nächsten Ganzzahl
Fehlerquelle Quantisierungsfehler
Quantisierungsfehler
Abtastpunkt
Fe
hle
r (i
n L
SB
s)Differenz zw. abget. Analogsignalunddigit. Signal
Fehlerquellen bei der Analog-Digital-Wandlung
Vorlesung "Intelligente Systeme" 202
Fehlerquelle Aliasing
Graphiken aus Steven W. Smith „The Scientist and Engineer´s Guide to Figital Signal Processing“
Abtastung mit mindestens der doppeltenSchwingungsfrequenz
Fehlerquellen bei der Analog-Digital-Wandlung
Vorlesung "Intelligente Systeme" 203
Ortsraum - Frequenzraum
Signale können als Überlagerung (Summe) periodischer Funktionen
mit Frequenzen undmit Amplituden F
dargestellt werden:
Transformation in Frequenzraum
Diskrete Fourier-(Rück)Transformation
Frequenzraum-Darstellung gibt an,mit welcher Häufigkeit jeweilsperiodische Funktionen vorkommen.
Cosinus Funktionen Sinus Funktionen
y(x)
Applet
Frequenzraumdarstellung
xN
kkFxN
kkF
NkxkFxkFxy
o
N
ke
kko
N
kke
2sin)(
2cos)(
2;sin)(cos)()(
1
0
1
0
Vorlesung "Intelligente Systeme" 204
Im Frequenzraum sind viele Operationen günstiger.Alle linearen Operationen z.B.
Hochpass, Tiefpass, Bandpass und Bandsperremit hoher Güte
Erkennung periodischer StrukturenManipulation periodischer Strukturen
Nach einer Bearbeitung im Frequenzraum Fe(k)→Fe
~(k) und Fo(k)→Fo~(k)
kann wieder in den Ortsraum zurück transformiert werden.
Signal y im Ortsraum, Abtastwerte y(i)
Analyse:TransformationOrtsraum Frequenzraum
Synthese:TransformationFrequenzraum Ortsraum
xN
kxy
NkFx
N
kxy
NkF
N
kxxy
NkFxxy
NkF
N
xo
N
xe
kk
N
xo
N
xke
2sin)(
1)(;
2cos)(
1)(
2;sin)(
1)(;cos)(
1)(
1
0
1
0
1
0
1
0
xN
kkFxN
kkF
NkxkFxkFxy
o
N
ke
kko
N
kke
2sin)(
2cos)(
2;sin)(cos)()(~
~1
0
~
~1
0
~
Frequenzraumdarstellung
Vorlesung "Intelligente Systeme" 205
Polare Notation – komplexe Schreibweise
F(k)
)(
)(arctan)(
;)()()( 22
kF
kFk
kFkFkF
e
o
oe
Amplitude, Betrag (Magnitude)
Phase)](sin[)()(
)](cos[)()(
kkFkF
kkFkF
o
e
Komplexe Schreibweise )()()( kiekFkF
|F(k
)|
xN
kxy
NkFx
N
kxy
NkF
N
kxxy
NkFxxy
NkF
N
xo
N
xe
kk
N
xo
N
xke
2sin)(
1)(;
2cos)(
1)(
2;sin)(
1)(;cos)(
1)(
1
0
1
0
1
0
1
0
1
0
1
0
)()(;2
;)(1
)(N
x
xik
N
x
xi kk ekFxyN
kexy
NkF
Fe(k)
Fo(k)
Frequenzraumdarstellung
Vorlesung "Intelligente Systeme" 206
Operationen im Frequenzraum
Filterung der abgetasteten Funktion y:Analyse
Multiplikation mit Filterfunktion
Synthese
Filterfunktion, Abtastwerte f(k)
)()()(~
)()()(~
kFkfkF
kFkfkF
oo
ee
xN
kxy
NkFx
N
kxy
NkF
N
kxxy
NkFxxy
NkF
N
xo
N
xe
kk
N
xo
N
xke
2sin)(
1)(;
2cos)(
1)(
2;sin)(
1)(;cos)(
1)(
1
0
1
0
1
0
1
0
xN
kkFxN
kkF
NkxkFxkFxy
o
N
ke
kko
N
kke
2sin)(
2cos)(
2;sin)(cos)()(~
~1
0
~
~1
0
~
Frequenzraumdarstellung
Vorlesung "Intelligente Systeme" 207
Literatur
R. O. Duda, P. E. Hart, D. G. Stork:Pattern Classification, 2nd ed.,Wiley, New York 2001
C. M. Bishop:Pattern Recognition and Machine Learning,Springer, Berlin 2004
Weitere Literaturangaben unterhttp://www.iwi.hs-karlsruhe.de/~lino0001/BeschrIntelliSys.htm
Vorlesung "Intelligente Systeme" 208
Lineare Trennung nach nichtlinearer Transformation
Vorlesung "Intelligente Systeme" 209
Kostenfunktion (Anzahl Fehler)
Vorlesung "Intelligente Systeme" 210
Kostenfunktion (Perzeptron)
Vorlesung "Intelligente Systeme" 211
Kostenfunktion (quadratisch)
Vorlesung "Intelligente Systeme" 212
2-Klassenproblem
Vorlesung "Intelligente Systeme" 213
3-Klassenproblem
Vorlesung "Intelligente Systeme" 214
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 215
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 216
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 217
Perzeptronalgorithmus
Vorlesung "Intelligente Systeme" 218
Lineare SVM
Vorlesung "Intelligente Systeme" 219
Lineare SVM
Vorlesung "Intelligente Systeme" 220
Lineare SVM
Vorlesung "Intelligente Systeme" 221
Lineare SVM
Vorlesung "Intelligente Systeme" 222
Funktionsapproximation durch Neuronales Netz
Vorlesung "Intelligente Systeme" 223
K-Nächste-Nachbar-Klassifikator
. innerhalb sdichteVerteilung Konstante :Annahme
.Volumen
mitumaft NachbarscheinergBetrachtundurch Mustereinfür
ichtelichkeitsdWahrscheiningteklassenbedder Bestimmung:)|(
0
0
R
V
xRx
cxp i
. innerhalbn Stichprobe davon
, Klassefür mit Umfang Stichprobe
Rn
cN
i
ii
VcxpxdcxpxdcxpcRxP i
R
i
R
ii )|()|()|()|( 00
Vorlesung "Intelligente Systeme" 224
K-Nächste-Nachbar-Klassifikator
k
n
k
NV
NV
n
cPcxp
cPcxpxcP
NV
k
NV
ncPcxp
NV
n
N
N
NV
ncPcxp
NV
ncxp
N
NcPNN
ii
iii
iii
i i
iii
ii
i
iii
i i
ii
iii
)()|(
)()|()|( :Bayes
NN)k()()|(
)()|(
)|(,)(,
0
00
0
0
0
Vorlesung "Intelligente Systeme" 225
K-Nächste-Nachbar-Klassifikator
),(),(),(gilt Metrik eineFür :
)ngleichung(Dreiecksu),(),(),(.4
0),(.3
),(),(.2
0),(.1
wenndann,genau Metrik heißt ),(ktion Distanzfun Eine :
notwendig.
ßAbstandsmaein ist torsKlassifika NN-k bzw. NN des Anwendung dieFür
zxdzydyxd
zxdzydyxd
yxyxd
xydyxd
yxd
yxd
tEigenschaf
Definition
Vorlesung "Intelligente Systeme" 226
K-Nächste-Nachbar-Klassifikator
um!Merkmalsra im Skalierung beiVorsicht
Beispiel
Distanz Chebychev 1,max
Distanz eEuklidisch )()(
MetrikManhattan oder Cityblock
),(
genannt) Norm(auch in Metriken -Minkowski :
2
11
1
1
niyxL
yxyxL
yxL
yxyxL
L
ii
t
n
iii
kn
i
k
iik
kn
Vorlesung "Intelligente Systeme" 227
K-Nächste-Nachbar-Klassifikator