Statistisches und maschinelles Lernen - Einführung › sml-ws2019 › ... · 2019-10-29 ·...
Transcript of Statistisches und maschinelles Lernen - Einführung › sml-ws2019 › ... · 2019-10-29 ·...
Statistisches und maschinelles Lernen - Einfuhrung
Dr. Stefan Richter
29. Oktober 2019
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 1 / 37
Beispiele fur Anwendungen: Entwicklung
Verbrauch (mpg - miles per gallon) von verschiedenen Autos:
Frage: Welche Faktoren haben den großten Einfluss auf den Verbrauch?
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 2 / 37
Beispiele fur Anwendungen: Schrifterkennung
Erkenne handgeschriebene Zahlen:
→ 0 → 3
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 3 / 37
Beispiele fur Anwendungen: Unerwunschte Werbung
→ spam
→ spam
→ spam
→ kein spam
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 4 / 37
Beispiele fur Anwendungen:Gesichtserkennung/Komprimierung
Eigenfaces: Welche Eigenschaften zeichnen ein Gesicht aus? Speicherung vonGesichtern unter Nutzung von moglichst wenig Speicherplatz.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 5 / 37
Beispiele fur Anwendungen:Gesichtserkennung/Komprimierung
Eigenfaces: Welche Eigenschaften zeichnen ein Gesicht aus? Speicherung vonGesichtern unter Nutzung von moglichst wenig Speicherplatz.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 5 / 37
Einleitung
Maschinelles Lernen entwickelt Algorithmen, die aus Daten lernen konnen.
D.h.: Der Algorithmus lernt aus Beispielen und kann das Gelernte nachBeendigung der Lernphase verallgemeinern und auf unbekannte Eingabenanwenden.
Statistisches Lernen ist die ’Antwort’ aus der Statistik auf maschinellesLernen:
Die in maschinellem Lernen entwickelten Algorithmen werden in statistischeModelle uberfuhrt und die Unsicherheit der Entscheidungen quantifiziert.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 6 / 37
Einleitung
Maschinelles Lernen entwickelt Algorithmen, die aus Daten lernen konnen.
D.h.: Der Algorithmus lernt aus Beispielen und kann das Gelernte nachBeendigung der Lernphase verallgemeinern und auf unbekannte Eingabenanwenden.
Statistisches Lernen ist die ’Antwort’ aus der Statistik auf maschinellesLernen:
Die in maschinellem Lernen entwickelten Algorithmen werden in statistischeModelle uberfuhrt und die Unsicherheit der Entscheidungen quantifiziert.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 6 / 37
Einleitung
Was haben alle Beispiele gemeinsam?Es gibt:
Eingabedaten X
Ausgabedaten Y
Oft:
X ∈ Rd mit d sehr groß! → feature vector / input (Elemente: features)
Y ∈ R → label / outputEntweder Y ∈ R (’Regressionsproblem’) oder Y ∈ 0, ...,K − 1(’Klassifikationsproblem’)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 7 / 37
Beispiel
Verbrauch (mpg - miles per gallon) von verschiedenen Autos:
Y = mpg ∈ R → RegressionsproblemX = (cyl , disp, hp, drat,wt, qsec , vs, am, gear , carb) ∈ R10
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 8 / 37
Beispiel
Erkenne handgeschriebene Zahlen:
→ 0 → 3
Y ∈ 0, ..., 9 → KlassifikationsproblemX ∈ R20·20 = R400 (20x20 Pixel-Bild, jedes Pixel hat Graustufen-Wert 0-256)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 9 / 37
Beispiel
Oft werden die Daten X vor der Eingabe in den Algorithmus noch etwas reduziertund vereinheitlicht durch intelligente Vorbearbeitung:
→ spam
→ kein spam
Y ∈ 0, 1 (0 = kein spam, 1 = spam)
X = (f1, ..., f48, c1, ..., c6, a1, a2, a3) ∈ R57, wobei
fi : Misst die Anzahl bestimmter Worte in der Email, z.B. f1 = Anzahl ’gratis’,f2 = Anzahl ’kaufen’, ...ci : Misst die Anzahl bestimmter Buchstaben, z.B. c1 = Anzahl ’ !’, c2 =Anzahl ’ ’, ...a1: Misst die Anzahl der langsten Zeichenkette in Großbuchstaben
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 10 / 37
Beispiel
Oft werden die Daten X vor der Eingabe in den Algorithmus noch etwas reduziertund vereinheitlicht durch intelligente Vorbearbeitung:
→ spam
→ kein spam
Y ∈ 0, 1 (0 = kein spam, 1 = spam)Statt X =’gesamter Text der Email’ verwende eine einheitliche Zusammenfassung:
X = (f1, ..., f48, c1, ..., c6, a1, a2, a3) ∈ R57, wobeifi : Misst die Anzahl bestimmter Worte in der Email, z.B. f1 = Anzahl ’gratis’,f2 = Anzahl ’kaufen’, ...ci : Misst die Anzahl bestimmter Buchstaben, z.B. c1 = Anzahl ’ !’, c2 =Anzahl ’ ’, ...a1: Misst die Anzahl der langsten Zeichenkette in Großbuchstaben
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 10 / 37
Beispiel
Oft werden die Daten X vor der Eingabe in den Algorithmus noch etwas reduziertund vereinheitlicht durch intelligente Vorbearbeitung:
→ spam
→ kein spam
Y ∈ 0, 1 (0 = kein spam, 1 = spam)X = (f1, ..., f48, c1, ..., c6, a1, a2, a3) ∈ R57, wobei
fi : Misst die Anzahl bestimmter Worte in der Email, z.B. f1 = Anzahl ’gratis’,f2 = Anzahl ’kaufen’, ...ci : Misst die Anzahl bestimmter Buchstaben, z.B. c1 = Anzahl ’ !’, c2 =Anzahl ’ ’, ...a1: Misst die Anzahl der langsten Zeichenkette in Großbuchstaben
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 10 / 37
Ermittlung von Algorithmen
Ausgangslage:
X ∈ X = Rd mit d sehr groß!
Y ∈ Y = R
Gegeben:
Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)
Ziel (Supervised machine learning):
Ermittlung eines Algorithmus fn = fn(X1,Y1, ...,Xn,Yn) : X → Y, der neuenEingabedaten X die ’richtigen’ Ausgabedaten Y zuordnet
Vorgehen:
Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).
Nutze die Modellannahme zur Herleitung von fn.
Unsupervised machine learning (spater):
Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 11 / 37
Ermittlung von Algorithmen
Ausgangslage:
X ∈ X = Rd mit d sehr groß!
Y ∈ Y = RGegeben:
Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)
Ziel (Supervised machine learning):
Ermittlung eines Algorithmus fn = fn(X1,Y1, ...,Xn,Yn) : X → Y, der neuenEingabedaten X die ’richtigen’ Ausgabedaten Y zuordnet
Vorgehen:
Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).
Nutze die Modellannahme zur Herleitung von fn.
Unsupervised machine learning (spater):
Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 11 / 37
Ermittlung von Algorithmen
Ausgangslage:
X ∈ X = Rd mit d sehr groß!Y ∈ Y = R
Gegeben:Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)z.B. X1 = (6, 160, 110, 3.9, 2.620, 16.46, 0, 1, 4, 4), Y1 = 21.0X2 = (6, 160, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4), Y2 = 21.0, ...
Ziel (Supervised machine learning):
Ermittlung eines Algorithmus fn = fn(X1,Y1, ...,Xn,Yn) : X → Y, der neuenEingabedaten X die ’richtigen’ Ausgabedaten Y zuordnet
Vorgehen:Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).Nutze die Modellannahme zur Herleitung von fn.
Unsupervised machine learning (spater):Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 11 / 37
Ermittlung von Algorithmen
Ausgangslage:
X ∈ X = Rd mit d sehr groß!
Y ∈ Y = RGegeben:
Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)
Ziel (Supervised machine learning):
Ermittlung eines Algorithmus fn = fn(X1,Y1, ...,Xn,Yn) : X → Y, der neuenEingabedaten X die ’richtigen’ Ausgabedaten Y zuordnet
Vorgehen:
Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).
Nutze die Modellannahme zur Herleitung von fn.
Unsupervised machine learning (spater):
Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 11 / 37
Ermittlung von Algorithmen
Ausgangslage:
X ∈ X = Rd mit d sehr groß!
Y ∈ Y = RGegeben:
Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)
Ziel (Supervised machine learning):
Ermittlung eines Algorithmus fn = fn(X1,Y1, ...,Xn,Yn) : X → Y, der neuenEingabedaten X die ’richtigen’ Ausgabedaten Y zuordnet
Vorgehen:
Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).
Nutze die Modellannahme zur Herleitung von fn.
Unsupervised machine learning (spater):
Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 11 / 37
Ermittlung von Algorithmen
Ausgangslage:
X ∈ X = Rd mit d sehr groß!
Y ∈ Y = RGegeben:
Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)
Ziel (Supervised machine learning):
Ermittlung eines Algorithmus fn = fn(X1,Y1, ...,Xn,Yn) : X → Y, der neuenEingabedaten X die ’richtigen’ Ausgabedaten Y zuordnet
Vorgehen:
Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).
Nutze die Modellannahme zur Herleitung von fn.
Unsupervised machine learning (spater):
Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 11 / 37
Supervised Learning
Gegeben sind n Trainingsdaten (Xi ,Yi ), i = 1, ..., n mit Xi ∈ X ⊂ Rd , Yi ∈ YWesentliche Entwicklung uber die letzten Jahrzehnte:
Bis ca. 1995: Experten arbeiten sehr lange, um gute features zu lernen (d.h.die wesentlichen Einflussfaktoren auf Y durch Experimente etc. zu ermitteln)→ X ∈ Rd mit d klein, d n
Heute: Data Scientist bekommen Datensatz mit (sehr) hochdimensionalenX ∈ Rd (z.B. d/n ≈ 0.3 oder sogar d n), nur wenige Komponenten von Xoder nur wenige Kombinationen der Komponenten von X sind wichtig fur dieVorhersage von Y .
Ein Algorithmus fn aus dem Maschinellem Lernen soll die fur Y wichtigenKomponenten von X bzw. Kombinationen davon selbst bestimmen!
Data Scientist braucht kein detailliertes Wissen mehr uber das unterliegendeProblem zu haben!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 12 / 37
Supervised Learning
Gegeben sind n Trainingsdaten (Xi ,Yi ), i = 1, ..., n mit Xi ∈ X ⊂ Rd , Yi ∈ YWesentliche Entwicklung uber die letzten Jahrzehnte:
Bis ca. 1995: Experten arbeiten sehr lange, um gute features zu lernen (d.h.die wesentlichen Einflussfaktoren auf Y durch Experimente etc. zu ermitteln)→ X ∈ Rd mit d klein, d n
Heute: Data Scientist bekommen Datensatz mit (sehr) hochdimensionalenX ∈ Rd (z.B. d/n ≈ 0.3 oder sogar d n), nur wenige Komponenten von Xoder nur wenige Kombinationen der Komponenten von X sind wichtig fur dieVorhersage von Y .Ein Algorithmus fn aus dem Maschinellem Lernen soll die fur Y wichtigenKomponenten von X bzw. Kombinationen davon selbst bestimmen!Data Scientist braucht kein detailliertes Wissen mehr uber das unterliegendeProblem zu haben!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 12 / 37
Supervised Learning
Gegeben sind n Trainingsdaten (Xi ,Yi ), i = 1, ..., n mit Xi ∈ X ⊂ Rd , Yi ∈ YWesentliche Entwicklung uber die letzten Jahrzehnte:
Bis ca. 1995: Experten arbeiten sehr lange, um gute features zu lernen (d.h.die wesentlichen Einflussfaktoren auf Y durch Experimente etc. zu ermitteln)→ X ∈ Rd mit d klein, d n
Heute: Data Scientist bekommen Datensatz mit (sehr) hochdimensionalenX ∈ Rd (z.B. d/n ≈ 0.3 oder sogar d n), nur wenige Komponenten von Xoder nur wenige Kombinationen der Komponenten von X sind wichtig fur dieVorhersage von Y .
Ein Algorithmus fn aus dem Maschinellem Lernen soll die fur Y wichtigenKomponenten von X bzw. Kombinationen davon selbst bestimmen!
Data Scientist braucht kein detailliertes Wissen mehr uber das unterliegendeProblem zu haben!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 12 / 37
Supervised Learning
Gegeben sind n Trainingsdaten (Xi ,Yi ), i = 1, ..., n mit Xi ∈ X ⊂ Rd , Yi ∈ YWesentliche Entwicklung uber die letzten Jahrzehnte:
Bis ca. 1995: Experten arbeiten sehr lange, um gute features zu lernen (d.h.die wesentlichen Einflussfaktoren auf Y durch Experimente etc. zu ermitteln)→ X ∈ Rd mit d klein, d n
Heute: Data Scientist bekommen Datensatz mit (sehr) hochdimensionalenX ∈ Rd (z.B. d/n ≈ 0.3 oder sogar d n), nur wenige Komponenten von Xoder nur wenige Kombinationen der Komponenten von X sind wichtig fur dieVorhersage von Y .
Ein Algorithmus fn aus dem Maschinellem Lernen soll die fur Y wichtigenKomponenten von X bzw. Kombinationen davon selbst bestimmen!
Data Scientist braucht kein detailliertes Wissen mehr uber das unterliegendeProblem zu haben!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 12 / 37
Supervised Learning
Gegeben sind n Trainingsdaten (Xi ,Yi ), i = 1, ..., n mit Xi ∈ X ⊂ Rd , Yi ∈ YWesentliche Entwicklung uber die letzten Jahrzehnte:
Bis ca. 1995: Experten arbeiten sehr lange, um gute features zu lernen (d.h.die wesentlichen Einflussfaktoren auf Y durch Experimente etc. zu ermitteln)→ X ∈ Rd mit d klein, d n
Heute: Data Scientist bekommen Datensatz mit (sehr) hochdimensionalenX ∈ Rd (z.B. d/n ≈ 0.3 oder sogar d n), nur wenige Komponenten von Xoder nur wenige Kombinationen der Komponenten von X sind wichtig fur dieVorhersage von Y .
Ein Algorithmus fn aus dem Maschinellem Lernen soll die fur Y wichtigenKomponenten von X bzw. Kombinationen davon selbst bestimmen!
Data Scientist braucht kein detailliertes Wissen mehr uber das unterliegendeProblem zu haben!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 12 / 37
Bewertung von Algorithmen
Bewertung von Algorithmen fn = fn(X1,Y1, ...,Xn,Yn) nach 2 wesentlichenGesichtspunkten:
(1) Interpretierbarkeit (qualitativ): Kann der gelernte Algorithmus fn (bzw.dessen Formel) genutzt werden, um tieferes Verstandnis uber denZusammenhang zwischen X und Y zu gewinnen?
(2) Vorhersagefahigkeit (quantitativ): Sagt fn(X ) das ’richtige’ Y voraus?
Dilemma:
Aktuell entwickelte Algorithmen (z.B. neuronale Netzwerke), die sehr gut in(2) sind, sind außerst schlecht in (1).
D.h.: Algorithmen funktionieren sehr gut zum Vorhersagen, aber man weißnicht, welche Komponenten(-kombinationen) von X wichtig sind!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 13 / 37
Bewertung von Algorithmen
Bewertung von Algorithmen fn = fn(X1,Y1, ...,Xn,Yn) nach 2 wesentlichenGesichtspunkten:
(1) Interpretierbarkeit (qualitativ): Kann der gelernte Algorithmus fn (bzw.dessen Formel) genutzt werden, um tieferes Verstandnis uber denZusammenhang zwischen X und Y zu gewinnen?
(2) Vorhersagefahigkeit (quantitativ): Sagt fn(X ) das ’richtige’ Y voraus?
Dilemma:
Aktuell entwickelte Algorithmen (z.B. neuronale Netzwerke), die sehr gut in(2) sind, sind außerst schlecht in (1).
D.h.: Algorithmen funktionieren sehr gut zum Vorhersagen, aber man weißnicht, welche Komponenten(-kombinationen) von X wichtig sind!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 13 / 37
Formalisierung
Formalisierung: Statistische Entscheidungstheorie
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 14 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Beispiel - Regressionsproblem Y = RL(y , s) = (y − s)2. Dann ist
R(f ) = E[(Y − f (X ))2] =
∫X
∫Y
(y − f (x))2dPY |X=x(y)dPX (x),
und f ∗(x) = E[Y |X = x ].
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Beispiel - Klassifikationsproblem Y = 1, ...,KL(y , s) = 1y 6=s. Dann ist
R(f ) = P(Y 6= f (X )) =
∫XP(Y 6= f (X )|X = x)dPX (x),
und f ∗(x)= arg mink∈1,...,K P(Y 6= k |X = x) .
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Statistische Entscheidungstheorie
Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.
P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.
DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.
Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.
L(Y , f (X )) heißt der von f erzeugte Verlust.
R(f ) := EL(Y , f (X )) heißt Risiko von f .
f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.
Problem in der Praxis: Genau wie P(X ,Y ) ist f ∗ unbekannt.
Ziel: Finde f auf Basis von (Xi ,Yi ), i = 1, ..., n, das moglichst ’nah’ an f ∗
liegt
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 15 / 37
Algorithmus
(Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d. ZV auf W-Raum Ω und
Tn := ((Xi ,Yi ))i=1,...,n.
fn : Ω×X → Y heißt Algorithmus, falls es eine messbare Abbildung A gibt mit
fn(ω, x) = A(Tn(ω), x).
ER(fn) heißt Generalisierungsfehler, wobei
R(fn) := E[L(Y , fn(X ))|Tn]
und (X ,Y ) ∼ P(X ,Y ) unabhangig von Tn.
ER(fn)− R(f ∗) ≥ 0 heißt Excess Bayes Risk.
fn lernt im Durchschnitt mit Konvergenzrate ψd(n), falls eine von d , nunabhangiges C > 0 existiert mit
∀n ∈ N : ER(fn)− R(f ∗) ≤ C · ψd(n).
fn lernt mit hoher Wahrscheinlichkeit mit Konvergenzrate ψd(n), falls
lim supc→∞
lim supd,n→∞
P(|R(fn)− R(f ∗)| ≥ c · ψd(n)) = 0.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 16 / 37
Algorithmus
(Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d. ZV auf W-Raum Ω und
Tn := ((Xi ,Yi ))i=1,...,n.
fn : Ω×X → Y heißt Algorithmus, falls es eine messbare Abbildung A gibt mit
fn(ω, x) = A(Tn(ω), x).
ER(fn) heißt Generalisierungsfehler, wobei
R(fn) := E[L(Y , fn(X ))|Tn]
und (X ,Y ) ∼ P(X ,Y ) unabhangig von Tn.
ER(fn)− R(f ∗) ≥ 0 heißt Excess Bayes Risk.
fn lernt im Durchschnitt mit Konvergenzrate ψd(n), falls eine von d , nunabhangiges C > 0 existiert mit
∀n ∈ N : ER(fn)− R(f ∗) ≤ C · ψd(n).
fn lernt mit hoher Wahrscheinlichkeit mit Konvergenzrate ψd(n), falls
lim supc→∞
lim supd,n→∞
P(|R(fn)− R(f ∗)| ≥ c · ψd(n)) = 0.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 16 / 37
Algorithmus
(Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d. ZV auf W-Raum Ω und
Tn := ((Xi ,Yi ))i=1,...,n.
fn : Ω×X → Y heißt Algorithmus, falls es eine messbare Abbildung A gibt mit
fn(ω, x) = A(Tn(ω), x).
ER(fn) heißt Generalisierungsfehler, wobei
R(fn) := E[L(Y , fn(X ))|Tn]
und (X ,Y ) ∼ P(X ,Y ) unabhangig von Tn.
ER(fn)− R(f ∗) ≥ 0 heißt Excess Bayes Risk.
fn lernt im Durchschnitt mit Konvergenzrate ψd(n), falls eine von d , nunabhangiges C > 0 existiert mit
∀n ∈ N : ER(fn)− R(f ∗) ≤ C · ψd(n).
fn lernt mit hoher Wahrscheinlichkeit mit Konvergenzrate ψd(n), falls
lim supc→∞
lim supd,n→∞
P(|R(fn)− R(f ∗)| ≥ c · ψd(n)) = 0.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 16 / 37
Erzeugung von Algorithmen
Naheliegende Forderung an Konstruktion von fn:
∀i ∈ 1, ..., n : L(fn(Xi ),Yi ) = 0 bzw. fn(Xi ) = Yi
’Overfitting’, zufallige Einflusse und Schwankungen von Y gehen direkt in fnein. Falls Xi = Xi ′ , aber Yi 6= Yi ′ , unerfullbar. Keine Info uber fn(x) furx 6∈ X1, ...,Xn.Losung: Suche fn nur noch in einer kleineren MengeF ⊂ f : X → Y messbar.
Ist F ⊂ f : X → Y messbar, so heißt die Bedingung f ∗ ∈ F Modellannahme anf ∗.
Fur fn ∈ F :
ER(fn)− R(f ∗) =[ER(fn)− inf
f∈FR(f )
]︸ ︷︷ ︸
Schatzfehler
+[
inff∈F
R(f )− R(f ∗)]
︸ ︷︷ ︸Approximationsfehler
Trade-off zwischen Schatzfehler und Approximationsfehler!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 17 / 37
Erzeugung von Algorithmen
Naheliegende Forderung an Konstruktion von fn:
∀i ∈ 1, ..., n : L(fn(Xi ),Yi ) = 0 bzw. fn(Xi ) = Yi
’Overfitting’, zufallige Einflusse und Schwankungen von Y gehen direkt in fnein. Falls Xi = Xi ′ , aber Yi 6= Yi ′ , unerfullbar. Keine Info uber fn(x) furx 6∈ X1, ...,Xn.
Losung: Suche fn nur noch in einer kleineren MengeF ⊂ f : X → Y messbar.
Ist F ⊂ f : X → Y messbar, so heißt die Bedingung f ∗ ∈ F Modellannahme anf ∗.
Fur fn ∈ F :
ER(fn)− R(f ∗) =[ER(fn)− inf
f∈FR(f )
]︸ ︷︷ ︸
Schatzfehler
+[
inff∈F
R(f )− R(f ∗)]
︸ ︷︷ ︸Approximationsfehler
Trade-off zwischen Schatzfehler und Approximationsfehler!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 17 / 37
Erzeugung von Algorithmen
Naheliegende Forderung an Konstruktion von fn:
∀i ∈ 1, ..., n : L(fn(Xi ),Yi ) = 0 bzw. fn(Xi ) = Yi
’Overfitting’, zufallige Einflusse und Schwankungen von Y gehen direkt in fnein. Falls Xi = Xi ′ , aber Yi 6= Yi ′ , unerfullbar. Keine Info uber fn(x) furx 6∈ X1, ...,Xn.Losung: Suche fn nur noch in einer kleineren MengeF ⊂ f : X → Y messbar.
Ist F ⊂ f : X → Y messbar, so heißt die Bedingung f ∗ ∈ F Modellannahme anf ∗.
Fur fn ∈ F :
ER(fn)− R(f ∗) =[ER(fn)− inf
f∈FR(f )
]︸ ︷︷ ︸
Schatzfehler
+[
inff∈F
R(f )− R(f ∗)]
︸ ︷︷ ︸Approximationsfehler
Trade-off zwischen Schatzfehler und Approximationsfehler!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 17 / 37
Erzeugung von Algorithmen
Naheliegende Forderung an Konstruktion von fn:
∀i ∈ 1, ..., n : L(fn(Xi ),Yi ) = 0 bzw. fn(Xi ) = Yi
’Overfitting’, zufallige Einflusse und Schwankungen von Y gehen direkt in fnein. Falls Xi = Xi ′ , aber Yi 6= Yi ′ , unerfullbar. Keine Info uber fn(x) furx 6∈ X1, ...,Xn.Losung: Suche fn nur noch in einer kleineren MengeF ⊂ f : X → Y messbar.
Ist F ⊂ f : X → Y messbar, so heißt die Bedingung f ∗ ∈ F Modellannahme anf ∗.
Fur fn ∈ F :
ER(fn)− R(f ∗) =[ER(fn)− inf
f∈FR(f )
]︸ ︷︷ ︸
Schatzfehler
+[
inff∈F
R(f )− R(f ∗)]
︸ ︷︷ ︸Approximationsfehler
Trade-off zwischen Schatzfehler und Approximationsfehler!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 17 / 37
Erzeugung von Algorithmen
Naheliegende Forderung an Konstruktion von fn:
∀i ∈ 1, ..., n : L(fn(Xi ),Yi ) = 0 bzw. fn(Xi ) = Yi
’Overfitting’, zufallige Einflusse und Schwankungen von Y gehen direkt in fnein. Falls Xi = Xi ′ , aber Yi 6= Yi ′ , unerfullbar. Keine Info uber fn(x) furx 6∈ X1, ...,Xn.Losung: Suche fn nur noch in einer kleineren MengeF ⊂ f : X → Y messbar.
Ist F ⊂ f : X → Y messbar, so heißt die Bedingung f ∗ ∈ F Modellannahme anf ∗.
Fur fn ∈ F :
ER(fn)− R(f ∗) =[ER(fn)− inf
f∈FR(f )
]︸ ︷︷ ︸
Schatzfehler
+[
inff∈F
R(f )− R(f ∗)]
︸ ︷︷ ︸Approximationsfehler
Trade-off zwischen Schatzfehler und Approximationsfehler!Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 17 / 37
Diskussion: Bayes Excess Risk fur quadratischeVerlustfunktion
F ⊂ f : X → Y messbar, L(y , s) = (y − s)2 Verlustfunktion. Annahme:f ∗ ∈ F .
Bias-Varianz-Zerlegung
ER(fn)− R(f ∗) = E MSE(fn(X )),
wobei
MSE(fn(x)) := E[(fn(x)− f ∗(x))2] = Var(fn(x)) +∣∣Efn(x)− f ∗(x)︸ ︷︷ ︸
Bias
∣∣2Tafel: Dreifach-Zerlegung Excess Bayes Risk.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 18 / 37
Ermittlung von Algorithmen
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. (Xi ,Yi ), i = 1, ..., n i.i.d.Trainingsdaten
Standard-Ansatz 1
fn ∈ argminf∈F Rn(f ), Rn(f ) :=1
n
n∑i=1
L(Yi , f (Xi )).
Falls F ’groß’ (viele Parameter), gibt es keine eindeutige Losung und fn istuberangepasst an die Trainingsdaten.
Losung: Fuhre Bestrafungsterm J(f ) ein, der f ∈ F mit unerwunschtenEigenschaften bestraft.
Standard-Ansatz 2
fn ∈ argminf∈FRn(f ) + λ · J(f )
,
λ ≥ 0 heißt Bestrafungsparameter.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 19 / 37
Ermittlung von Algorithmen
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. (Xi ,Yi ), i = 1, ..., n i.i.d.Trainingsdaten
Standard-Ansatz 1
fn ∈ argminf∈F Rn(f ), Rn(f ) :=1
n
n∑i=1
L(Yi , f (Xi )).
Falls F ’groß’ (viele Parameter), gibt es keine eindeutige Losung und fn istuberangepasst an die Trainingsdaten.
Losung: Fuhre Bestrafungsterm J(f ) ein, der f ∈ F mit unerwunschtenEigenschaften bestraft.
Standard-Ansatz 2
fn ∈ argminf∈FRn(f ) + λ · J(f )
,
λ ≥ 0 heißt Bestrafungsparameter.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 19 / 37
Ermittlung von Algorithmen
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. (Xi ,Yi ), i = 1, ..., n i.i.d.Trainingsdaten
Standard-Ansatz 1
fn ∈ argminf∈F Rn(f ), Rn(f ) :=1
n
n∑i=1
L(Yi , f (Xi )).
Falls F ’groß’ (viele Parameter), gibt es keine eindeutige Losung und fn istuberangepasst an die Trainingsdaten.
Losung: Fuhre Bestrafungsterm J(f ) ein, der f ∈ F mit unerwunschtenEigenschaften bestraft.
Standard-Ansatz 2
fn ∈ argminf∈FRn(f ) + λ · J(f )
,
λ ≥ 0 heißt Bestrafungsparameter.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 19 / 37
Ermittlung von Algorithmen
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. (Xi ,Yi ), i = 1, ..., n i.i.d.Trainingsdaten
Standard-Ansatz 1
fn ∈ argminf∈F Rn(f ), Rn(f ) :=1
n
n∑i=1
L(Yi , f (Xi )).
Falls F ’groß’ (viele Parameter), gibt es keine eindeutige Losung und fn istuberangepasst an die Trainingsdaten.
Losung: Fuhre Bestrafungsterm J(f ) ein, der f ∈ F mit unerwunschtenEigenschaften bestraft.
Standard-Ansatz 2
fn ∈ argminf∈FRn(f ) + λ · J(f )
,
λ ≥ 0 heißt Bestrafungsparameter.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 19 / 37
Ermittlung von Algorithmen
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. (Xi ,Yi ), i = 1, ..., n i.i.d.Trainingsdaten
Standard-Ansatz 2
fn ∈ argminf∈FRn(f ) + λ · J(f )
, (∗)
λ ≥ 0 heißt Bestrafungsparameter.
Unter geeigneten Annahmen kann man zeigen: (*) ist aquivalent zu
fn ∈ argminf∈Fn,λRn(f ),
wobei Fn,λ := f ∈ F : J(f ) ≤ cn(λ).
Einfuhrung eines Bestrafungsterms ist aquivalent zur Erzeugung einesBias-Terms.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 20 / 37
Ermittlung von Algorithmen
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. (Xi ,Yi ), i = 1, ..., n i.i.d.Trainingsdaten
Standard-Ansatz 2
fn ∈ argminf∈FRn(f ) + λ · J(f )
, (∗)
λ ≥ 0 heißt Bestrafungsparameter.
Unter geeigneten Annahmen kann man zeigen: (*) ist aquivalent zu
fn ∈ argminf∈Fn,λRn(f ),
wobei Fn,λ := f ∈ F : J(f ) ≤ cn(λ).Einfuhrung eines Bestrafungsterms ist aquivalent zur Erzeugung einesBias-Terms.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 20 / 37
Wahl des Bestrafungsparameters
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. Tn := (Xi ,Yi )i=1,...,n i.i.d.Trainingsdaten
Testfehler / Trainingsfehler
Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so gilt (SGGZ):
empRT(fn) :=1
m
m∑i=1
L(Yi , fn(Xi ))→ E[L(Y , fn(X ))|Tn] = R(fn) ≈ ER(fn).
empRT(fn) heißt Testfehler.
Rn(fn) = 1n
∑ni=1 L(Yi , f (Xi )) heißt Trainingsfehler.
empRT(fn) ist Schatzer fur ER(fn), aber Rn(fn) nicht!
Ansatz zur Wahl von λ: Berechne empRT(fn,λ) ≈ ER(fn,λ) fur verschiedene
λ und wahle das λ mit dem kleinsten empRT(fn,λ).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 21 / 37
Wahl des Bestrafungsparameters
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. Tn := (Xi ,Yi )i=1,...,n i.i.d.Trainingsdaten
Testfehler / Trainingsfehler
Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so gilt (SGGZ):
empRT(fn) :=1
m
m∑i=1
L(Yi , fn(Xi ))→ E[L(Y , fn(X ))|Tn] = R(fn) ≈ ER(fn).
empRT(fn) heißt Testfehler.
Rn(fn) = 1n
∑ni=1 L(Yi , f (Xi )) heißt Trainingsfehler.
empRT(fn) ist Schatzer fur ER(fn), aber Rn(fn) nicht!
Ansatz zur Wahl von λ: Berechne empRT(fn,λ) ≈ ER(fn,λ) fur verschiedene
λ und wahle das λ mit dem kleinsten empRT(fn,λ).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 21 / 37
Wahl des Bestrafungsparameters
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. Tn := (Xi ,Yi )i=1,...,n i.i.d.Trainingsdaten
Testfehler / Trainingsfehler
Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so gilt (SGGZ):
empRT(fn) :=1
m
m∑i=1
L(Yi , fn(Xi ))→ E[L(Y , fn(X ))|Tn] = R(fn) ≈ ER(fn).
empRT(fn) heißt Testfehler.
Rn(fn) = 1n
∑ni=1 L(Yi , f (Xi )) heißt Trainingsfehler.
empRT(fn) ist Schatzer fur ER(fn), aber Rn(fn) nicht!
Ansatz zur Wahl von λ: Berechne empRT(fn,λ) ≈ ER(fn,λ) fur verschiedene
λ und wahle das λ mit dem kleinsten empRT(fn,λ).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 21 / 37
Wahl des Bestrafungsparameters
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. Tn := (Xi ,Yi )i=1,...,n i.i.d.Trainingsdaten
Testfehler / Trainingsfehler
Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so gilt (SGGZ):
empRT(fn) :=1
m
m∑i=1
L(Yi , fn(Xi ))→ E[L(Y , fn(X ))|Tn] = R(fn) ≈ ER(fn).
empRT(fn) heißt Testfehler.
Rn(fn) = 1n
∑ni=1 L(Yi , f (Xi )) heißt Trainingsfehler.
empRT(fn) ist Schatzer fur ER(fn), aber Rn(fn) nicht!
Ansatz zur Wahl von λ: Berechne empRT(fn,λ) ≈ ER(fn,λ) fur verschiedene
λ und wahle das λ mit dem kleinsten empRT(fn,λ).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 21 / 37
Wahl des Bestrafungsparameters
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. Tn := (Xi ,Yi )i=1,...,n i.i.d.Trainingsdaten
Wahl von λ
Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so wahle
λstd :∈ arg minλ≥0
1
m
m∑i=1
L(Yi , fn,λ(Xi )).
Cross Validation funktioniert ahnlich; es werden jedoch nur die ursprunglichenTrainingsdaten genutzt und aufgeteilt.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 22 / 37
Wahl des Bestrafungsparameters
f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. Tn := (Xi ,Yi )i=1,...,n i.i.d.Trainingsdaten
Wahl von λ
Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so wahle
λstd :∈ arg minλ≥0
1
m
m∑i=1
L(Yi , fn,λ(Xi )).
Cross Validation funktioniert ahnlich; es werden jedoch nur die ursprunglichenTrainingsdaten genutzt und aufgeteilt.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 22 / 37
Formalisierung
Formalisierung: Begriffe und Vorgehen beiKlassifikationsproblemen
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 23 / 37
Klassifikationsprobleme
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max
k∈1,...,KP(Y = k |X = x).
Sei f : X → Y eine Entscheidungsregel.
Ωk = Ωk(f ) := x ∈ X : f (x) = k heißt die von f induzierteEntscheidungsregion.
Ω∗k = Ωk(f ∗) heißt optimale Entscheidungsregion.
∂Ωk , ∂Ω∗k : (optimale) Entscheidungsrander.
δk = δk(f ) : X → R (k = 1, ...,K ) heißen Diskriminantenfunktionen zu f ,falls f (x) = arg maxk∈1,...,K δk(x).
δ∗k = δk(f ∗) heißen optimale Diskriminantenfunktionen.
Ublicher Ansatz bei Klassifikationsproblemen: Verlagere Schatzung von f ∗
auf (stetige) δ∗k .Beispiel: δ∗k (x) = P(Y = k|X = x) sind optimale Diskriminantenfunktionen.Vorteil: Es gibt auch andere δ∗k !
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 24 / 37
Klassifikationsprobleme
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max
k∈1,...,KP(Y = k |X = x).
Sei f : X → Y eine Entscheidungsregel.
Ωk = Ωk(f ) := x ∈ X : f (x) = k heißt die von f induzierteEntscheidungsregion.
Ω∗k = Ωk(f ∗) heißt optimale Entscheidungsregion.
∂Ωk , ∂Ω∗k : (optimale) Entscheidungsrander.
δk = δk(f ) : X → R (k = 1, ...,K ) heißen Diskriminantenfunktionen zu f ,falls f (x) = arg maxk∈1,...,K δk(x).
δ∗k = δk(f ∗) heißen optimale Diskriminantenfunktionen.
Ublicher Ansatz bei Klassifikationsproblemen: Verlagere Schatzung von f ∗
auf (stetige) δ∗k .Beispiel: δ∗k (x) = P(Y = k|X = x) sind optimale Diskriminantenfunktionen.Vorteil: Es gibt auch andere δ∗k !
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 24 / 37
Klassifikationsprobleme
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max
k∈1,...,KP(Y = k |X = x).
Sei f : X → Y eine Entscheidungsregel.
Ωk = Ωk(f ) := x ∈ X : f (x) = k heißt die von f induzierteEntscheidungsregion.
Ω∗k = Ωk(f ∗) heißt optimale Entscheidungsregion.
∂Ωk , ∂Ω∗k : (optimale) Entscheidungsrander.
δk = δk(f ) : X → R (k = 1, ...,K ) heißen Diskriminantenfunktionen zu f ,falls f (x) = arg maxk∈1,...,K δk(x).
δ∗k = δk(f ∗) heißen optimale Diskriminantenfunktionen.
Ublicher Ansatz bei Klassifikationsproblemen: Verlagere Schatzung von f ∗
auf (stetige) δ∗k .Beispiel: δ∗k (x) = P(Y = k|X = x) sind optimale Diskriminantenfunktionen.Vorteil: Es gibt auch andere δ∗k !
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 24 / 37
Klassifikationsprobleme
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max
k∈1,...,KP(Y = k |X = x).
Sei f : X → Y eine Entscheidungsregel.
Ωk = Ωk(f ) := x ∈ X : f (x) = k heißt die von f induzierteEntscheidungsregion.
Ω∗k = Ωk(f ∗) heißt optimale Entscheidungsregion.
∂Ωk , ∂Ω∗k : (optimale) Entscheidungsrander.
δk = δk(f ) : X → R (k = 1, ...,K ) heißen Diskriminantenfunktionen zu f ,falls f (x) = arg maxk∈1,...,K δk(x).
δ∗k = δk(f ∗) heißen optimale Diskriminantenfunktionen.
Ublicher Ansatz bei Klassifikationsproblemen: Verlagere Schatzung von f ∗
auf (stetige) δ∗k .Beispiel: δ∗k (x) = P(Y = k |X = x) sind optimale Diskriminantenfunktionen.Vorteil: Es gibt auch andere δ∗k !
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 24 / 37
Klassifikationsprobleme
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Sei f : X → Y eine Entscheidungsregel.
δk = δk(f ) : X → R (k = 1, ...,K ) heißen Diskriminantenfunktionen zu f ,falls f (x) = arg maxk∈1,...,K δk(x).
δ∗k = δk(f ∗) heißen optimale Diskriminantenfunktionen.
Lemma
Die folgenden δ∗k sind auch optimale Diskriminantenfunktionen:
Ist gk(x) die bedingte Dichte von X gegeben Y = k , so setzeδ∗k (x) = gk(x) · P(Y = k) (Satz von Bayes)
Ist h monoton wachsend in der ersten Komponente, so setzeδ∗k (x) = h(P(Y = k|X = x), x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 25 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Ansatz: Finde Schatzer fur δ∗k (x) mit Hilfe statistischer Schatzer und geeigneterModellannahmen.
Beispiel: Lineare Diskriminanzanalyse
Modellannahme: X |Y = k ∼ N(µk ,Σ) (k = 1, ...,K ).
Dann: gk(x) = 1(2π)d/2(det Σ)1/2 exp(− 1
2 (x − µk)TΣ−1(x − µk)).
δ∗k (x) = log(gk(x)·P(Y = k)) = xTΣ−1µk−1
2µTk Σ−1µk+log(P(Y = k))+const.
ist optimale Diskriminantenfunktion.
Nur Schatzer fur Σ, µk und P(Y = k) aus den Trainingsdaten werdenbenotigt!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 26 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Ansatz: Finde Schatzer fur δ∗k (x) mit Hilfe statistischer Schatzer und geeigneterModellannahmen.
Beispiel: Lineare Diskriminanzanalyse
Modellannahme: X |Y = k ∼ N(µk ,Σ) (k = 1, ...,K ).
Dann: gk(x) = 1(2π)d/2(det Σ)1/2 exp(− 1
2 (x − µk)TΣ−1(x − µk)).
δ∗k (x) = log(gk(x)·P(Y = k)) = xTΣ−1µk−1
2µTk Σ−1µk+log(P(Y = k))+const.
ist optimale Diskriminantenfunktion.
Nur Schatzer fur Σ, µk und P(Y = k) aus den Trainingsdaten werdenbenotigt!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 26 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Ansatz: Finde Schatzer fur δ∗k (x) mit Hilfe statistischer Schatzer und geeigneterModellannahmen.
Beispiel: Lineare Diskriminanzanalyse
Modellannahme: X |Y = k ∼ N(µk ,Σ) (k = 1, ...,K ).
Dann: gk(x) = 1(2π)d/2(det Σ)1/2 exp(− 1
2 (x − µk)TΣ−1(x − µk)).
δ∗k (x) = log(gk(x)·P(Y = k)) = xTΣ−1µk−1
2µTk Σ−1µk+log(P(Y = k))+const.
ist optimale Diskriminantenfunktion.
Nur Schatzer fur Σ, µk und P(Y = k) aus den Trainingsdaten werdenbenotigt!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 26 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Ansatz: Finde Schatzer fur δ∗k (x) mit Hilfe statistischer Schatzer und geeigneterModellannahmen.
Beispiel: Lineare Diskriminanzanalyse
Modellannahme: X |Y = k ∼ N(µk ,Σ) (k = 1, ...,K ).
Dann: gk(x) = 1(2π)d/2(det Σ)1/2 exp(− 1
2 (x − µk)TΣ−1(x − µk)).
δ∗k (x) = log(gk(x)·P(Y = k)) = xTΣ−1µk−1
2µTk Σ−1µk+log(P(Y = k))+const.
ist optimale Diskriminantenfunktion.
Nur Schatzer fur Σ, µk und P(Y = k) aus den Trainingsdaten werdenbenotigt!
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 26 / 37
Klassifikationsprobleme: Reduktion auf zwei Klassen
Oft: Verfahren werden theoretisch nur fur K = 2 Klassen definiert, undY = −1,+1.Falls mehr als 2 Klassen: Nutze z.B. one-vs.-rest-Strategie.
one-vs.-restFur κ = 1, ...,K ,
Y(κ)i :=
1, Yi = κ,
−1, Yi 6= κ.
Berechne f(κ)n bzw. zugehorige Diskriminantenfunktionen δ
(κ)k , k = −1, 1
basierend auf (Xi , Y(κ)i ), i = 1, ..., n.
fn(x) := arg maxκ∈1,...,K
δ(κ)1 (x).
Fur x ∈ X wird die Klasse ausgewahlt, welche beim gleichzeitigen Vergleich mitallen anderen Klassen die hochste Diskriminantenfunktion besitzt.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 27 / 37
Klassifikationsprobleme: Reduktion auf zwei Klassen
Oft: Verfahren werden theoretisch nur fur K = 2 Klassen definiert, undY = −1,+1.Falls mehr als 2 Klassen: Nutze z.B. one-vs.-rest-Strategie.
one-vs.-restFur κ = 1, ...,K ,
Y(κ)i :=
1, Yi = κ,
−1, Yi 6= κ.
Berechne f(κ)n bzw. zugehorige Diskriminantenfunktionen δ
(κ)k , k = −1, 1
basierend auf (Xi , Y(κ)i ), i = 1, ..., n.
fn(x) := arg maxκ∈1,...,K
δ(κ)1 (x).
Fur x ∈ X wird die Klasse ausgewahlt, welche beim gleichzeitigen Vergleich mitallen anderen Klassen die hochste Diskriminantenfunktion besitzt.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 27 / 37
Klassifikationsprobleme: Reduktion auf zwei Klassen
Oft: Verfahren werden theoretisch nur fur K = 2 Klassen definiert, undY = −1,+1.Falls mehr als 2 Klassen: Nutze z.B. one-vs.-rest-Strategie.
one-vs.-restFur κ = 1, ...,K ,
Y(κ)i :=
1, Yi = κ,
−1, Yi 6= κ.
Berechne f(κ)n bzw. zugehorige Diskriminantenfunktionen δ
(κ)k , k = −1, 1
basierend auf (Xi , Y(κ)i ), i = 1, ..., n.
fn(x) := arg maxκ∈1,...,K
δ(κ)1 (x).
Fur x ∈ X wird die Klasse ausgewahlt, welche beim gleichzeitigen Vergleich mitallen anderen Klassen die hochste Diskriminantenfunktion besitzt.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 27 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1 /Risikoabschatzung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Fall K = 2 Klassen: Schreibe
f ∗(x) =
1, η(x) ≥ 1
2 ,
2, η(x) < 12
, η(x) := P(Y = 1|X = x).
Annahme:
fn(x) =
1, η(x) ≥ 1
2 ,
2, η(x) < 12
,
Lemma
ER(fn)− R(f ∗) ≤ 2E|η(X )− η(X )|.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 28 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1 /Risikoabschatzung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Fall K = 2 Klassen: Schreibe
f ∗(x) =
1, η(x) ≥ 1
2 ,
2, η(x) < 12
, η(x) := P(Y = 1|X = x).
Annahme:
fn(x) =
1, η(x) ≥ 1
2 ,
2, η(x) < 12
,
Lemma
ER(fn)− R(f ∗) ≤ 2E|η(X )− η(X )|.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 28 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1 /Risikoabschatzung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K
f ∗(x) = arg maxk∈1,...,K
P(Y = k |X = x).
Fall K = 2 Klassen: Schreibe
f ∗(x) =
1, η(x) ≥ 1
2 ,
2, η(x) < 12
, η(x) := P(Y = 1|X = x).
Annahme:
fn(x) =
1, η(x) ≥ 1
2 ,
2, η(x) < 12
,
Lemma
ER(fn)− R(f ∗) ≤ 2E|η(X )− η(X )|.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 28 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1 /Risikoabschatzung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max
k∈1,...,KP(Y = k |X = x).
Fall K = 2 Klassen: Ist g die Dichte von X und ηk(x) := P(Y = k)gk(x), sogilt
f ∗(x) =
1, η(x) = η1(x)
η1(X )+η2(X ) ≥12 ,
2, η(x) < 12
,
Annahme:
fn(x) = arg maxk∈1,2
ηk(x) =
1, η(x) := η1(x)
η2(x)+η2(x) ≥12 ,
2, η(x) < 12
,
Lemma
ER(fn)− R(f ∗) ≤ 22∑
k=1
E∣∣∣ ηk(X )
g(X )− ηk(X )
g(X )
∣∣∣.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 29 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1 /Risikoabschatzung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max
k∈1,...,KP(Y = k |X = x).
Fall K = 2 Klassen: Ist g die Dichte von X und ηk(x) := P(Y = k)gk(x), sogilt
f ∗(x) =
1, η(x) = η1(x)
η1(X )+η2(X ) ≥12 ,
2, η(x) < 12
,
Annahme:
fn(x) = arg maxk∈1,2
ηk(x) =
1, η(x) := η1(x)
η2(x)+η2(x) ≥12 ,
2, η(x) < 12
,
Lemma
ER(fn)− R(f ∗) ≤ 22∑
k=1
E∣∣∣ ηk(X )
g(X )− ηk(X )
g(X )
∣∣∣.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 29 / 37
Ermittlung von Algorithmen fn - Moglichkeit 1 /Risikoabschatzung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max
k∈1,...,KP(Y = k |X = x).
Fall K = 2 Klassen: Ist g die Dichte von X und ηk(x) := P(Y = k)gk(x), sogilt
f ∗(x) =
1, η(x) = η1(x)
η1(X )+η2(X ) ≥12 ,
2, η(x) < 12
,
Annahme:
fn(x) = arg maxk∈1,2
ηk(x) =
1, η(x) := η1(x)
η2(x)+η2(x) ≥12 ,
2, η(x) < 12
,
Lemma
ER(fn)− R(f ∗) ≤ 22∑
k=1
E∣∣∣ ηk(X )
g(X )− ηk(X )
g(X )
∣∣∣.Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 29 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
L(Yi , f (Xi )) =1
n
n∑i=1
1Yi 6=f (Xi ).
Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form
∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Es gilt der Zusammenhang
f (x) = sign(δ(x)), sign(z) :=
1, z ≥ 0,
−1, z < 0.
δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:
f (x) = arg maxk∈−1,+1
δk(x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 30 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
L(Yi , f (Xi )) =1
n
n∑i=1
1Yi 6=f (Xi ).
Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form
∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.
Es gilt der Zusammenhang
f (x) = sign(δ(x)), sign(z) :=
1, z ≥ 0,
−1, z < 0.
δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:
f (x) = arg maxk∈−1,+1
δk(x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 30 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
L(Yi , f (Xi )) =1
n
n∑i=1
1Yi 6=f (Xi ).
Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form
∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Beispiel: Lineare Entscheidungsrander
F = δ(x) = βT x + β0|β ∈ Rd , β0 ∈ R.
Es gilt der Zusammenhang
f (x) = sign(δ(x)), sign(z) :=
1, z ≥ 0,
−1, z < 0.
δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:
f (x) = arg maxk∈−1,+1
δk(x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 30 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
L(Yi , f (Xi )) =1
n
n∑i=1
1Yi 6=f (Xi ).
Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form
∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Es gilt der Zusammenhang
f (x) = sign(δ(x)), sign(z) :=
1, z ≥ 0,
−1, z < 0.
δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:
f (x) = arg maxk∈−1,+1
δk(x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 30 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
L(Yi , f (Xi )) =1
n
n∑i=1
1Yi 6=f (Xi ).
Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form
∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Es gilt der Zusammenhang
f (x) = sign(δ(x)), sign(z) :=
1, z ≥ 0,
−1, z < 0.
Anschaulich: δ ’erweitert’ den Wertebereich von f sinnvoll auf ganz R.
δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:
f (x) = arg maxk∈−1,+1
δk(x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 30 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
L(Yi , f (Xi )) =1
n
n∑i=1
1Yi 6=f (Xi ).
Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form
∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Es gilt der Zusammenhang
f (x) = sign(δ(x)), sign(z) :=
1, z ≥ 0,
−1, z < 0.
δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:
f (x) = arg maxk∈−1,+1
δk(x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 30 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
L(Yi , f (Xi )) =1
n
n∑i=1
1Yi 6=f (Xi ).!!!!!
Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form
∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Es gilt der Zusammenhang
f (x) = sign(δ(x)), sign(z) :=
1, z ≥ 0,
−1, z < 0.
δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:
f (x) = arg maxk∈−1,+1
δk(x).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 30 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
1Yi 6=f (Xi ). (∗)
Schreibef (x) = sign(δ(x))
Aquivalente Darstellung von (*) (falls F = sign(δ) : δ ∈ F):
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
1Yi 6=sign(δ(Xi ))
L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 31 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
1Yi 6=f (Xi ). (∗)
Schreibef (x) = sign(δ(x))
Aquivalente Darstellung von (*) (falls F = sign(δ) : δ ∈ F):
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
1Yi 6=sign(δ(Xi ))
L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 31 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
1Yi 6=f (Xi ). (∗)
Schreibef (x) = sign(δ(x))
Aquivalente Darstellung von (*) (falls F = sign(δ) : δ ∈ F):
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
1Yi 6=sign(δ(Xi )) ≈1
n
n∑i=1
1Yi 6=δ(Xi )
L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 31 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
1Yi 6=f (Xi ). (∗)
Schreibef (x) = sign(δ(x))
Aquivalente Darstellung von (*) (falls F = sign(δ) : δ ∈ F):
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
1Yi 6=sign(δ(Xi )) ≈1
n
n∑i=1
1Yi 6=δ(Xi )
L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 31 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:
fn ∈ arg minf∈F
Rn(f ), Rn(f ) =1
n
n∑i=1
1Yi 6=f (Xi ). (∗)
Schreibef (x) = sign(δ(x))
Aquivalente Darstellung von (*) (falls F = sign(δ) : δ ∈ F):
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
1Yi 6=sign(δ(Xi )) ≈1
n
n∑i=1
1−Yiδ(Xi )≥0
L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 31 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x))
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
R0n (δ), R0
n (δ) :=1
n
n∑i=1
L0(Yi , δ(Xi )). (∗∗)
Approximiere L0 durch glatte, konvexe Funktion (Ziel: Bessere Losbarkeit desMinimierungsproblems in der Praxis und moglicherweise explizite Darstellungvon δn). Ublich: Mit φ : R→ [0,∞) konvex, monoton wachsend:
L0(y , s) = 1−ys≥0 ≈ φ(−ys) =: L(y , s).
Approximation von (**):
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 32 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x))
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
R0n (δ), R0
n (δ) :=1
n
n∑i=1
L0(Yi , δ(Xi )). (∗∗)
Approximiere L0 durch glatte, konvexe Funktion (Ziel: Bessere Losbarkeit desMinimierungsproblems in der Praxis und moglicherweise explizite Darstellungvon δn). Ublich: Mit φ : R→ [0,∞) konvex, monoton wachsend:
L0(y , s) = 1−ys≥0 ≈ φ(−ys) =: L(y , s).
Approximation von (**):
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 32 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x))
fn(x) = sign(δn(x)),
wobei
δn ∈ arg minδ∈F
R0n (δ), R0
n (δ) :=1
n
n∑i=1
L0(Yi , δ(Xi )). (∗∗)
Approximiere L0 durch glatte, konvexe Funktion (Ziel: Bessere Losbarkeit desMinimierungsproblems in der Praxis und moglicherweise explizite Darstellungvon δn). Ublich: Mit φ : R→ [0,∞) konvex, monoton wachsend:
L0(y , s) = 1−ys≥0 ≈ φ(−ys) =: L(y , s).
Approximation von (**):
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 32 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Ermittlung von Algorithmen fn - Mgl. 2
fn(x) := sign(δn(x)), wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )). (∗ ∗ ∗)
Aus (***) erwarten wir: δn ≈ δ∗, wobei
δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).
Falls f ∗ = sign(δ∗), folgt
fn = sign(δn)→ sign(δ∗)!
= f ∗.
Kalibrierungsbedingung
f ∗ = sign(δ∗)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 33 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Ermittlung von Algorithmen fn - Mgl. 2
fn(x) := sign(δn(x)), wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )). (∗ ∗ ∗)
Typische φ: φ(z) = (1− z)+, φ(z) = ez , φ(z) = log(1 + ez).
Aus (***) erwarten wir: δn ≈ δ∗, wobei
δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).
Falls f ∗ = sign(δ∗), folgt
fn = sign(δn)→ sign(δ∗)!
= f ∗.
Kalibrierungsbedingung
f ∗ = sign(δ∗)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 33 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Ermittlung von Algorithmen fn - Mgl. 2
fn(x) := sign(δn(x)), wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )). (∗ ∗ ∗)
Aus (***) erwarten wir: δn ≈ δ∗, wobei
δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).
Falls f ∗ = sign(δ∗), folgt
fn = sign(δn)→ sign(δ∗)!
= f ∗.
Kalibrierungsbedingung
f ∗ = sign(δ∗)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 33 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Ermittlung von Algorithmen fn - Mgl. 2
fn(x) := sign(δn(x)), wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )). (∗ ∗ ∗)
Aus (***) erwarten wir: δn ≈ δ∗, wobei
δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).
Falls f ∗ = sign(δ∗), folgt
fn = sign(δn)→ sign(δ∗)!
= f ∗.
Kalibrierungsbedingung
f ∗ = sign(δ∗)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 33 / 37
Ermittlung von Algorithmen - Moglichkeit 2
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Ermittlung von Algorithmen fn - Mgl. 2
fn(x) := sign(δn(x)), wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )). (∗ ∗ ∗)
Aus (***) erwarten wir: δn ≈ δ∗, wobei
δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).
Falls f ∗ = sign(δ∗), folgt
fn = sign(δn)→ sign(δ∗)!
= f ∗.
Kalibrierungsbedingung
f ∗ = sign(δ∗)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 33 / 37
Ermittlung von Algorithmen - NachrechnenKalibrierungsbedingung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Kalibrierungsbedingung
f ∗ = sign(δ∗), wobei δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).
Lemma
Es gilt δ∗(x) = argminz∈RΦη(x)(z), wobei η(x) = P(Y = 1|X = x) und
Φη(z) := φ(−z)η + φ(z)(1− η).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 34 / 37
Ermittlung von Algorithmen - NachrechnenKalibrierungsbedingung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Kalibrierungsbedingung
f ∗ = sign(δ∗), wobei δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).
Lemma
Es gilt δ∗(x) = argminz∈RΦη(x)(z), wobei η(x) = P(Y = 1|X = x) und
Φη(z) := φ(−z)η + φ(z)(1− η).
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 34 / 37
Ermittlung von Algorithmen - Risikoubertragung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Ermittlung von Algorithmen fn - Mgl. 2
fn(x) := sign(δn(x)), wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )). (∗ ∗ ∗)
Wollen: Aussage uber R(fn)− R(f ∗). Brauchen Formel, die den Term durchR(δn)− R(δ∗) abschatzt.
Risikoubertragungsformel
Es gebe eine Ungleichung, so dass fur jedes δ : X → R und f = sign(δ) gilt:
R(f )− R(f ∗) ≤ Term mit R(δ)− R(δ∗)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 35 / 37
Ermittlung von Algorithmen - Risikoubertragung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Ermittlung von Algorithmen fn - Mgl. 2
fn(x) := sign(δn(x)), wobei
δn ∈ arg minδ∈F
Rn(δ), Rn(δ) :=1
n
n∑i=1
L(Yi , δ(Xi )). (∗ ∗ ∗)
Wollen: Aussage uber R(fn)− R(f ∗). Brauchen Formel, die den Term durchR(δn)− R(δ∗) abschatzt.
Risikoubertragungsformel
Es gebe eine Ungleichung, so dass fur jedes δ : X → R und f = sign(δ) gilt:
R(f )− R(f ∗) ≤ Term mit R(δ)− R(δ∗)
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 35 / 37
Ermittlung von Algorithmen - NachrechnenRisikoubertragung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Risikoubertragungsformel
Es gebe eine Ungleichung, so dass fur jedes δ : X → R und f = sign(δ) gilt:
R(f )− R(f ∗) ≤ Term mit R(δ)− R(δ∗)
Lemma
Es gebe Konstanten c ≥ 0, s ≥ 1, so dass fur alle η ∈ [0, 1]:∣∣∣12− η∣∣∣s ≤ cs(1−H(η)), H(η) := min
z∈RΦη(z), Φη(z) := φ(−z)η+φ(z)(1− η).
Dann gilt fur alle δ : X → R und f = sign(δ):
R(f )− R(f ∗) ≤ 2c[R(δ)− R(δ∗)
]1/s.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 36 / 37
Ermittlung von Algorithmen - NachrechnenRisikoubertragung
L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)
Risikoubertragungsformel
Es gebe eine Ungleichung, so dass fur jedes δ : X → R und f = sign(δ) gilt:
R(f )− R(f ∗) ≤ Term mit R(δ)− R(δ∗)
Lemma
Es gebe Konstanten c ≥ 0, s ≥ 1, so dass fur alle η ∈ [0, 1]:∣∣∣12− η∣∣∣s ≤ cs(1−H(η)), H(η) := min
z∈RΦη(z), Φη(z) := φ(−z)η+φ(z)(1− η).
Dann gilt fur alle δ : X → R und f = sign(δ):
R(f )− R(f ∗) ≤ 2c[R(δ)− R(δ∗)
]1/s.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 36 / 37
Ende
Das wars.
Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 37 / 37