Relative Entropie
„Spracherkennung mit zip-Programmen“
aus der Sicht des Physikstudenten Lennart Hilbert
Orientierung an
„Language Trees and Zipping“Benedetto, Caglioti, Loreto 2008
Vergleichsdatenbank mit Referenztexten
• Französisch• Spanisch• Englisch• Tschechisch• …
Textstück unbe-kannter Sprache
• Zu welchem Text besteht größte Ähnlichkeit?
Beispiel Spracherkennung
Tabelle mit Ähnlichkeits-Werten
Probe En Probe De Probe Fr
Referenz En 0,2853 0,3689 0,3001
Referenz De 0,3585 0,2574 0,3926
Referenz Fr 0,3562 0,3737 0,3072
Messgröße:Relative Entropie
• Maß für die Unähnlichkeit von Wahrscheinlichkeitsverteilungen
• Grundlegender Begriff der Informationstheorie
Übersicht
0. Einleitung
• Entropie
• Codierung von Alphabeten / Relative Entropie
• Relative Entropie und .zip-Files
• Beispieluntersuchung
• Ergebnisse und Ausblick
Entropie (1/5)
Entropie
• Unordnung wächst• Wahrscheinlichere Zustände
treten auf• Gleichverteilung• Einfachere Strukturen• Weniger freie Energie• Weniger
InformationsübertragungGer
ing
e E
ntr
op
ie Ho
he E
ntro
pie
Entropie-zunahme
Meine richtige Kamera fiel der Entropie zum Opfer, sorry!
www.madebymark.com
In der Informationstheorie betrachten wir die Entropie
einer Sequenz.
Entropie einer Sequenz
Text als wiederholte Ziehung mit Zurücklegen aus dem Alphabet,
Erklärung an der Tafel.
Die Entropie einer Sequenz ist zweifach beschränkt.
Beide Extremfälle werden an der Tafel erklärt.
Die Entropie ist zweifach beschränkt:
Maximale Entropie
Minimale Entropie
Erhöhung der Entropie
40 Stützstellen
sigma = 0.0002
Entropie = 1.1976
Erhöhung der Entropie
40 Stützstellen
sigma = 0.002
Entropie = 2.8861
Erhöhung der Entropie
40 Stützstellen
sigma = 0.02
Entropie = 4.5438
Informationsgehalt eines Elements
Häufigkeit der Buchstaben in einem englischen Text
Viele verknüpft Ereignisse
Geringe Shannon-Information
Wenig verknüpfte Ereignisse
Hohe Shannon-Information
Codierung von Alphabeten /Relative Entropie (2/5)
Morse-Code für verschiedene Sprachen
Morsecode
1 Bit 2 Bit 3 Bit 4 Bit
Bildquelle:
Wikipedia.de
Die Anzahl der verwendeten Bits wird nach
Shannoninformation festgelegt.
Zuteilung der Bits
Umso ähnlicher die Häufigkeitsverteilung, desto effizienter ist die Codierung.
Relative Entropie
• Summe gewichteter inverser Häufigkeiten
• Gibt den „Abstand“ zweier Wahrscheinlichkeitsverteilungen an
• Gutes Maß für die Anpassung einer Codierung
Relative Entropie
Relative Entropie
Äquivalent zu Kullback-Leibler-Distanz
Für die Anwendung brauchen wir eine automatisierte
Methode.
Praktischer:Chaitin-Kolmogorov-Entropie
„Die Entropie einer Sequenz ist die Länge des kürzesten Programms,
welches sie erzeugen kann.“
Relative Entropie und .zip-Files (3/5)
Wie komprimieren wir eine Sequenz?
• Winzip
• gzip
• Zipgenius
• bzip2
• …
Kompression = Codierung
Ursprüngliche Sequenz:1010010101001101
Wiederkehrende Stücke:
10 1001 010 1001 101
Rückverweise: Startpunkt n, Länge l
101001 010 ( n=3, l=4)101
Die Entropie entspricht der Länge der komprimierten
Sequenz. Das ist äquivalent zur Dateigröße!
Feststellen der relativen Entropie Δ
Referenztext A s(A)
Referenztext B s(B)
Referenztext C s(C)
Größe der gezippten Dateien: s(X)
+ t
+ t
+ t
Probetext t
Feststellen der relativen Entropie Δ
Referenztext A t s(A + t) Δ = s(A + t) – s(A)
Referenztext B t s(B + t) Δ = s(B + t) – s(B)
Referenztext C t s(C + t) Δ = s(C + t) – s(C)
Größe der gezippten Dateien: s(X)
Vorteile
• Einfach zu handhaben
• Allgemein anwendbar
• Kein Vorwissen über Daten benötigt
• Verlässlich
Beispieluntersuchung (4/5)
Beispieluntersuchung
• Drei Referenztexte ( ca. 60 kB)
• Drei Probestücke ( 2, 3 und 4 kB)
• Deutsch, Englisch, Französisch
Normierte relative Entropien
Probe En Probe De Probe Fr
Referenz En 0,2853 0,3689 0,3001
Referenz De 0,3585 0,2574 0,3926
Referenz Fr 0,3562 0,3737 0,3072
Ergebnisse (5/5)Benedetto, Caglioti, Loreto 2008
• Spracherkennung: Bei 60 kB Referenztext ab 20 Zeichen sicher
• Autorenschaft Sicherheit 93,3%
Ausblick
• DNA-Analyse
• Aktienmärkte
• Geologische Zeitserien
• Medizinische Untersuchungen
Danke für‘s Durchhalten!
Quellen
• D Benedetto, E Caglioti, V Loreto, „Language Trees and Zipping“, Phys. Rev. Lett. 88, 048702 (2002)
• D J C MacKay, „Information Theory, Inference, and Learning Algorithms“, Cambridge University Press, 2003
Top Related