Transcript of Mitglied der Leibniz-Gemeinschaft Token-Annotation im FO rschungs- und L ehr K orpus Gesprochenes...
- Folie 1
- Folie 2
- Mitglied der Leibniz-Gemeinschaft Token-Annotation im FO
rschungs- und L ehr K orpus Gesprochenes Deutsch Thomas Schmidt,
IDS Mannheim thomas.schmidt@ids-mannheim.de
- Folie 3
- Mitglied der Leibniz-Gemeinschaft FOLK Forschungs- und
Lehrkorpus gesprochenes Deutsch Groes, breit stratifiziertes,
computergesttzt verarbeitbares, ffentlich verfgbares Korpus
deutscher Gesprche Seit 2008 am IDS Erstes offizielles Release:
Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch
(DGD2) Anfang 2014: Ca. 100h Audio-Aufnahmen, ca. 1 Millionen
transkribierte Wort-Tokens Weiter im Aufbau
- Folie 4
- Mitglied der Leibniz-Gemeinschaft Gliederung
(semi-)automatisierte Normalisierung literarischer Umschrift in
FOLK Literarische Umschrift Orthographische Normalisierung
Automatisierung / Evaluation Verbesserungsmglichkeiten
(semi-)automatisiertes POS-Tagging von Transkriptionen
- Folie 5
- Mitglied der Leibniz-Gemeinschaft Literarische Umschrift =
Reprsentation von Mndlichkeit, so wie in der (schnen) Literatur
blich Sei glcklich, du gutes Kend [Sesemi Weichbrodt, Buddenbrooks]
Zwirner/Bethge (1958): Deutsche Mundarten Ehlich/Rehbein (1976):
Halbinterpretative Arbeitstranskriptionen Selting et. al. (1998):
Gesprchsanalytisches Transkriptionssystem Modified Orthography, Eye
dialect, Orthographe adapte I wuz de ony one dat had much. So I
stuck out for mo dan fo dollars, en I said [][Jim, Adventures of
Huckleberry Finn] b'jour, chais pas[Convention ICOR, CLAPI
Lyon]
- Folie 6
- Mitglied der Leibniz-Gemeinschaft Literarische Umschrift
- Folie 7
- Mitglied der Leibniz-Gemeinschaft Literarische Umschrift
Ellisionen Verschleifungen Assimilationen dialektale Frbungen
generelle Kleinschreibung
- Folie 8
- Mitglied der Leibniz-Gemeinschaft Literarische Umschrift Warum
nicht Standardorthographie? relevante Charakteristika der
Mndlichkeit (hist.) visuelle Abgrenzung von geschriebenem Text
Warum nicht phonetische Umschrift? Arbeitskonomie Zugnglichkeit /
Lesbarkeit Verlust morphologischer/lexikalischer Systematik
- Folie 9
- Mitglied der Leibniz-Gemeinschaft Literarische Umschrift
Bewusstes Abweichen von schriftsprachlichen Standards
Regelgeleitet? Von der Orthographie soll [] abgewichen werden, wo
der gesprochene Laut durch einen anderen Buchstaben [] besser
wiedergegeben wird [Zwirner/Bethge 1958] standardsprachliche
Realisierungen Standardorthographie, nicht-standardsprachliche
Realisierungen literarische Umschrift [] abweichende Ausdrcke
werden [] nachgebildet, wenn sie vereinzelt auftreten [], allgemein
verbreitete Phnomene [] werden nicht notiert [Rehbein et al. 1993]
Beispiellisten bei HIAT, GAT, Verbmobil (sddeutsch) [lustik]
lustig? lustick? lustik? (norddeutsch) [stain] ???
- Folie 10
- Mitglied der Leibniz-Gemeinschaft Warum normalisieren?
Vorhersagbarkeit bei Suchen nein, nee, na, ne, neeh, nehee, n, nh,
n bleibsch, bleibscht, gebliewe, gebliwwe Anwendung von
NLP-Methoden Lemmatisierung POS-Tagging syntaktische Annotation
etc.
- Folie 11
- Mitglied der Leibniz-Gemeinschaft FOLK-Annotationsebenen
Maskierung Transkription / Kontrolle Normalisierung POS-Tagging
2h-10h 30h-80h 1h-3h 2h-4h
Transkriptiondagehstdejetzeinfachberdembild
NormalisierungdagehstdujetzteinfachberdemBild
LemmatisierungdagehendujetzteinfachberdBild
POSADVVFINPPERADVADJDAPPRARTNN Korrekturen Effektivierung des
Workflows: Beschleunigung Vereinfachung
- Folie 12
- Mitglied der Leibniz-Gemeinschaft Normalisierungsregeln
Interpretationsarme Annherung an Standardorthographie
Normalisierung auf Ebene von Lexikon und Morphosyntax, keine
syntaktischen oder stilistischen Korrekturen Orientierung am DUDEN,
bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti)
redaktionell bevorzugte Varianten Explizite Regelungen fr
Interjektionen: Hsitationen, Rezeptionssignale, Frageanhngsel etc.
Unvollstndige Formen: (rekonstruierbare vs. nicht rekonstruierbare)
Abbrche, fragmentierte Wrter Umgangssprachliche Verkrzungen
Diskussion und Dokumentation von Einzelfallentscheidungen
Konsistenz
- Folie 13
- Mitglied der Leibniz-Gemeinschaft Normalisierungsregeln
Zweifelsflle Rekonstruktion von Abbrchen Kontraktionen hammers
haben wir es kannst kannst Du? durchs durch das zum zu dem?[ugs.]?
/ Frequenz?
- Folie 14
- Mitglied der Leibniz-Gemeinschaft Evaluation 22 manuell
normalisierte Transkriptionen aus FOLK 61.495 Wort-Tokens, 6.219
Wort-Types Quote: 29.89% / max. 42.45% / min. 20.93% Hufige Typen:
Klein- Groschreibung: 12.99% Ergnzung / Klassifizierung
unvollstndiger Formen: 6.49% Hsitation (hm h): 1.46% 18 Trainings-
/ 4 Evaluationsdaten
- Folie 15
- Mitglied der Leibniz-Gemeinschaft Automatisierung
Lexikonbasiert Transkribierte Form W mehr als n-mal zu Form W
normalisiert Zuweisung von Form W Nur grogeschriebene Variante in
DeReWo Groschreibung
- Folie 16
- Mitglied der Leibniz-Gemeinschaft Automatisierung
SchwellenwertPrecisionRecallError 186.76%84.14%17.80%
587.81%77.50%16.67% 1087.89%74.30%16.41% 5092.53%61.70%11.89%
10091.75%53.88%12.71% hhere Przision inakzeptabler Recall deutliche
Erleichterung der manuellen Korrektur mehr Lexikondaten Erhhung von
Precision und Recall? keine Annherung an 100%
- Folie 17
- Mitglied der Leibniz-Gemeinschaft Phnomenologie: Lexikon
Eindeutige Flle Mehrdeutige Flle heutheute67 mein 115 meine39
meinen2 meiner1 fragfrage19 frag2 Frage1 sacheSache19 sagen16
Sachen1 mamal280 man221 wir123 %3 #2 ma2 mir2 Mama1 mach1 machen1
meinst1 hallgewersignalHallgebersignal3 aa109 ah17 auch8 aber7 an5
ach2 acht2 also2 abgestanden1 akut1 alles1 als1
- Folie 18
- Mitglied der Leibniz-Gemeinschaft Phnomenologie: Lexikon
Regelmigkeiten abbaueabbauen2 abgezogeabgezogen2 abklopfeabklopfen2
absetzeabsetzen1 abstelleabstellen1 abwendeabwenden1
abzieheabziehen1 achteachten1 altealten1 andereanderen3
anfangeanfangen1 angebeangeben1 angesprocheangesprochen1
anrufeanrufen1 abziehabziehe2 akzeptierakzeptiere1 allalle1
anfanganfange1 anhabanhabe1 aufmachaufmache1 baubaue1
bedankbedanke1 behandelbehandele1 beinahbeinahe1 bekommbekomme1
bereubereue1 bestellbestelle3 besuchbesuche1 bleibbleibe2
brauchbrauche33
- Folie 19
- Mitglied der Leibniz-Gemeinschaft Phnomenologie: Lexikon
hnlichkeiten abber aber ankucken angucken gsagt gesagt hintn hinten
isch ich odder oder sauwer sauber schaun schauen spieln spielen
verdrehn verdrehen warn waren widder wieder wrdst wrdest
zusammenarbeiden zusammenarbeiten zusammengearbeidet
zusammengearbeitet (Levenshtein-Distanz) ansonschtenansonsten
aufgawestellungAufgabenstellung besserwischerischbesserwisserisch
bltterteigstckscheBltterteigstckchen eklichemekligem
geschebergegenber geschterngestern hihngehinhngen
karteikardeKarteikarten linsensupLinsensuppe nkschtennchsten
runnerguggeruntergucken sptdienschSptdienst wollisWallace
(Phonetische Distanz)
- Folie 20
- Mitglied der Leibniz-Gemeinschaft Phnomenologie: Fehler
kannslosgehnalsoihrsolltaujetztganznormalreden eslosgehenauch es
sollteauch
undanngehstebiszurhhedestoastersbeidembildranddestoastersnstckchen
undgehst duzu derHheToastersBildrandToasterseinStckchen undgehst
duzu derHhedas Bildranddas einStckchen dasonmannmitnstckfleisch
einManneinemStckFleisch einManneinStckFleisch
wattemawattemawosollichlang wartemalwartemal WattemalWattemal
- Folie 21
- Mitglied der Leibniz-Gemeinschaft Verbesserung der
automatischen Normalisierung Ermittlung von Kandidaten (Recall)
Abgleich mit bereits normalisierten Formen Abgleich mit Wortliste
(DeReWo) Ermittlung von mglichen Normalisierungen aus bereits
normalisierten Formen hnliche Formen aus Wortliste (Regeln:
n-Ellision, e-Ellision)? Entscheidung zwischen Alternativen
(Precision) einfache Hufigkeiten aus FOLK einfache Hufigkeiten aus
anderen Korpora? (kombinatorische Hufigkeiten)?
- Folie 22
- Mitglied der Leibniz-Gemeinschaft In Wortliste? Bereits
normalisiert? nein ja DeReWo etc. ja nein FOLK-Lexikon keine
Normalisierung Transkribierte Form Kandidatenliste Normalisierte
Form(en) Hufigkeit in FOLK hnliche Form(en) Hufigkeit in DeReKo
Auswahl Normalisierte Form n-gram-Hufigkeiten? Manuelle Korrektur
(OrthoNormal)
- Folie 23
- Mitglied der Leibniz-Gemeinschaft Effektivierung der manuellen
Korrektur
- Folie 24
- Mitglied der Leibniz-Gemeinschaft Test: POS-Tagging TreeTagger
/ STTS / Default-Parameterdatei 3 manuell korrigierte Transkripte
aus Testdatensatz Fehlerquoten:
Transkript1Transkript2Transkript3Gesamt literarische Umschrift
33.22%29.96%31.33%31.39% normalisiert 18.79%18.62%19.5%18.84%
(optimiert) 13.38%11.52%16.13% (vereinfacht) 8.7%7.5%11.9%
- Folie 25
- Mitglied der Leibniz-Gemeinschaft POS-Tagging: aktuelle
Arbeiten Erweiterung/Anpassung des STTS-Tagsets: Interaktive
Einheiten: Responsive, Interjektionen Partikeln Koordiniert mit
STTS-Workshops / Arbeiten zu IBK Erstellen eines Trainings- und
Evaluationskorpus Neu-Training des TreeTaggers / andere Tagger (?)
Westpfahl/Schmidt (2013): POS fr(s) FOLK. In: JLCL.
- Folie 26
- Mitglied der Leibniz-Gemeinschaft Zusammenfassung Brauchbare
Automatisierung durch lexikonbasierte Verfahren Annherung an 100%
vorerst nicht realistisch Weitere Verbesserungen mglich durch
grere/andere Lexika Ermitteln hnlicher Formen als Kandidaten
verfeinerte Methoden zur Auswahl des besten Kandidaten
Effektivierung manueller Korrektur
- Folie 27
- Mitglied der Leibniz-Gemeinschaft Ausblick Anwenderbedarf
Sprachtechnologie/Ressourcen zur Verbesserung der Normalisierung?
hnliche Wrter (phonetische, orthographische Distanz)
N-gramm-Methoden Support Web-Service Normalisierung? OrthoNormal fr
IBK-Daten (Dortmunder Chat-Korpus)? WebLicht fr
Transkriptionen?