8. Repräsentation von Zeit in neuronalen Netzen (KNN mit Speichervermögen)
description
Transcript of 8. Repräsentation von Zeit in neuronalen Netzen (KNN mit Speichervermögen)
18. Präsentation von Zeit in KNNSS 2005
2
17
8. Repräsentation von Zeit in neuronalen Netzen
(KNN mit Speichervermögen)Jörg Krone, Ulrich Lehmann, Hans Brenig, Oliver Drölle
2
17
28. Präsentation von Zeit in KNNSS 2005
Inhalt
a. Grundlangen Assoziation von Zeitverhalten
b. Jordan-Netze
c. Elman-Netze
d. Hierarchische Elman-Netze
e. Lernverfahren für partiell rekurrente Netze
f. Fragen
38. Präsentation von Zeit in KNNSS 2005
2
17
Grundlagen
Repräsentation von Zeit in neuronalen Netzen kann, wie bei der Prognose von Zeitreihen gezeigt, mit einfachen Feedforward-Netzen (MLP) erfolgen, wenn:
• mit einer Trainingsmustersequenz gearbeitet wird, bei der auch die zeitliche Folge f(t) wesentlich ist
• die Reihenfolge der Muster also eine Rolle spielt (siehe Beispiel „Analyse eines Umformprozesses mit KNN)
• dabei wird ein Fenster über die Datenfolge = f(t) geschoben (sliding window) und es wird eine Teilfolge von n-Mustern gleichzeitig als Vektor präsentiert
• n: die Fenstergröße entspricht der Mindestanzahl von Eingabeneuronen
• das dynamische Verhalten von Systemen kann so gelernt werden
Damit wurden gute Ergebnisse in der Praxis erzielt.
48. Präsentation von Zeit in KNNSS 2005
2
17
Prinzip der Speicherung mit KNN
Ähnlich wie in digitalen Filtern kann die Zeitfunktion auch direkt in partiell rekurrenten Netzen (mit partieller Rückkopplung) gespeichert werden:
• sie sind abgeleitet von Feedforward-Netzen
• sie enthalten spezielle verdeckte Zellen Kontextzellen
• sie besitzen zusätzlich eine Rückkopplungsschleife mit den Kontextzellen
• die Rückkopplungen erfolgen in genau definierter Weise (feste Gewichte)
• sie können mit geringfügig modifizierten Standardlernverfahren für Feedforward-Netze trainiert werden
• die Standardlernverfahren sind wesentlich effizienter als spezielle Lernverfahren für beliebig rekurrente Netze, wie z.B. für Hopfield-Netze
• einem partiell rekurrenten Netz wird eine Teilfolge von n-Mustern gleichzeitig als Vektor präsentiert
• dabei wird ein Fenster mit n-Mustern über die Datenfolge = f(t) geschoben (sliding window)
58. Präsentation von Zeit in KNNSS 2005
2
17
Architektur Jordan-Netzwerk
• Kontextzellen mit der Identität als Aktivierung und festen Gewichtenw = = 1 speichern den Ausgabezustand o(t-1) (grüne Verbindungen)
• die Kontextzellen besitzen weiterhin direkte Rückkopplungen (gelbe Verbindungen), die ebenfalls fest sind w = = 0,5 bis 1 (nicht trainierbar)
• die Anzahl der Kontextzellen (hier 2) ist gleich der Anzahl der Ausgabezellen
68. Präsentation von Zeit in KNNSS 2005
2
17
Funktion des Jordan-Netzwerk
O(t) = F (S(t) , I(t) )
S(t+1) = Ğ (S(t) , O(t) )
S(t)
I(t)
O(t)
S(t+1)
S(t+1) = Ğ (S(t) , F (S(t) , I(t) ))
Der Folgezustand ergibt sich aus dem aktuellen Zustand der Eingabe
78. Präsentation von Zeit in KNNSS 2005
2
17
Zustandsspeicherung
Die Aktivierungsfunktion der Kontextzellen ist die identische Abbildung. Ausgehend von einem Startzustand S0 ergibt sich für den Zustandsvektor S zur Zeit t:
S(0) falls t = 1
S(t) = S(t-1) + O(t-1) falls t > 1
Der Wert steuert das Erinnerungsvermögen des Netzes. Er liegt im Bereich [0,1].
• Für 1 ist der Einfluss der älteren Ausgaben wichtiger.
• Ein Wert von = 0,5 bildet einen Kompromiss zwischen Speicherung der alten Ausgaben und Flexibilität für neue Änderungen.
88. Präsentation von Zeit in KNNSS 2005
2
17
Bewertung Jordan-Netzwerke
ein Jordan-Netz kann zu einem festen Eingabewert eine ganze Ausgabesequenz assoziieren, ähnlich der Antwort von einem digitalen Filter auf eine Testfunktion
mit verschiedenen festen Eingabevektoren können verschiedene Ausgabesequenzen assoziiert werden
- Wahl von viele Probleme verlangen einerseits ein kleines 0,5um flexibel auf neue Änderungen zu reagieren, andererseits aber auch einen großen Wert nahe 1, um länger zurückliegende Ausgaben zu berücksichtigen
- die Kontextzellen erlauben keine Speicherung des internen Zustands der verdeckten Schicht, sondern nur der Ausgaben.
o Abhilfe: Verwendung von Elman-Netzen (siehe nächste Folie).
98. Präsentation von Zeit in KNNSS 2005
2
17
Prinzip der Elman-Netze
Sie sind eine Modifikation der Jordan-Netze:
• Rückkopplung von der verdeckten Schicht zur Kontextschicht
• die direkten Rückkopplungen der Kontextschicht zu sich selbst können entfallen 0
• die Zahl der Kontextzellen ist gleich der Zahl der verdeckten Zellen
• jede verdeckte Zelle besitzt eine Rückkopplungsverbindung der ihr 1:1 zugeordneten Kontextzelle mit festem Gewicht 1,0
• die Kontextzellen besitzen wiederum die Identität als Aktivierungsfunktion.
108. Präsentation von Zeit in KNNSS 2005
2
17
Architektur Elman-Netzwerk
• Kontextzellen mit festen Gewichten w = 1 speichern den Zustand o(t-1) (rosa Verbindung) der verdeckten Zellen
• die Anzahl der Kontextzellen ist gleich der Anzahl der verdeckten Zellen
118. Präsentation von Zeit in KNNSS 2005
2
17
Funktion der Elman-Netze
• Zu Beginn der Verarbeitung werden die Aktivierungen der Kontextzellen auf einen definierten Wert gesetzt
• nach Eingabe des ersten Musters der Musterfolge werden die verdeckten Zellen sowohl von den Eingabezellen als auch von den Kontextzellen aktiviert
• da die Kontextzellen die Identität als Aktivierungsfunktion besitzen, ergibt sich der neue Zustand als Kopie der Ausgabe der verdeckten Zellen
• die verdeckten Zellen propagieren wie üblich zu den Ausgangszellen
• beim nächsten Eingabemuster enthalten allerdings die Kontextzellen die Aktivierung (t-1) der verdeckten Zellen
• auf diese Weise kann der zeitliche Bezug zu früheren Mustern hergestellt werden
128. Präsentation von Zeit in KNNSS 2005
2
17
Bewertung Elman-Netzwerke
die Eignung des Netzes für eine bestimmte Anwendung ist nicht direkt von der zu erzeugenden Ausgabesequenz abhängig, wie dies bei Jordan-Netzwerken der Fall ist
die internen Zustände (gespeicherte Zustände) ergeben sich aus den Zuständen der verdeckten Zellen
die verdeckten Zellen werden so zu einer Repräsentation des zeitlichen Kontexts gezwungen
- die einfachen Elman-Netze besitzen nur eine verdeckte Schicht Neuronen. Für viele komplexe Problemstellungen erzielen jedoch Netze mit mehreren verdeckten Schichten etwas bessere Ergebnisse.
o Abhilfe: Hierarchische Elman-Netze mit mehreren Hidden Layern.
138. Präsentation von Zeit in KNNSS 2005
2
17
Architektur hierarchischer Elman-Netze
• Kontextzellen (hellblau) mit festen Gewichten w = 1 speichern den Zustand o(t-1) der verdeckten Zellen und in der dritten Schicht auch der Ausgangszellen
• die Kontextzellen können direkte Rückkopplungen besitzen, die ebenfalls fest sind (nicht trainierbar), allerdings für jede Schicht individuelle Werte 123annehmen können
• die Anzahl der Kontextzellen ist gleich der Anzahl der verdeckten Zellen plus Ausgangszellen
148. Präsentation von Zeit in KNNSS 2005
2
17
Bewertung Hierarchische Elman-Netze
für komplexe Problemstellungen mit Zeitverhalten (dynamische Systeme) einsetzbar
die Kontextschichten können durch die Wahl unterschiedlicher Parameter i
unterschiedliches Speicherverhalten assoziieren
hierarchische Elman-Netze wurden bereits erfolgreich für Prognose von dynamischen Vorgängen in der Biologie und Physik, z.B. Prognose des Intensitätsverlaufs eines chaotisch pulsierenden NH3-Lasers, eingesetzt (siehe auch A. Zell)
- das Training ist geringfügig aufwendiger als beim MLP mit Fenstertechnik (siehe auch Beispiel: Analyse von Umformprozessen mit KNN)
158. Präsentation von Zeit in KNNSS 2005
2
17
Lernverfahren für partiell rekurrente Netze
Ablauf des Backpropagation-Algorithmus für partielle rekurrente Netze:
1. Initialisierung Kontextzellen
2. Für jedes Trainigsmuster erfolgt:
• Anlegen des Eingabemusters und Vorwärtspropagierung bis Ausgabe (ohne Beachtung der rekurrenten Verbindungen / Rückkopplung (oBrV))
• Kontextzellen liefern konstant den gespeicherten Zustand t-1
• Vergleich der tatsächlichen Ausgabe mit erwünschter und Fehlerberechnung für jede Ausgabezelle
• Backpropagation der Fehlersignale bis zur Eingabe (oBrV)
• Berechnung der Gewichtsänderung
• Adaption der Gewichte (bei offline-Verfahren außerhalb der Schleife – nur nach jeder Epoche)
• Berechnung des Folgezustands t der Kontextzellen gemäß ihrer Eingangsverbindungen. Einziger Schritt mit Beachtung der rekurrenten Verbindungen
168. Präsentation von Zeit in KNNSS 2005
2
17
Fragen
Fragen Sie bitte!
178. Präsentation von Zeit in KNNSS 2005
2
17
Danke
Vielen Dank für Ihr Interesse!