Semimanuelle Generierung und Auswertung von Alternativentexten
Christian [email protected]
IDS JahrestagungMannheim, 18.03.2005
I MotivationVariation sprachlicher Mittel
referentielle Ausdrücke bezeichnen prototypische „Objekte“ in der
Diskurswelt (Diskursreferent, Karttunen 1975) wirken kohärenzstiftend
beeinflussen Wahrnehmung und Verständlichkeit
Instrument zur Strukturierung von Texten
I MotivationVariation sprachlicher Mittel
referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF)
Was wollte dein Kollege vorhin von der Gärtnerin ?
Hans kaufte bei ihr Blumen. Pronomen
Hans kaufte bei Maria Blumen. Eigenname
Hans kaufte bei der Frau Blumen. definite NP
Hans kaufte bei dieser Frau Blumen. NP + dem.prn
I MotivationVariation sprachlicher Mittel
referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) der Wortstellung (WS) der grammatischen Rollen (GR)
diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert
I MotivationProbleme
Strenge einer Kodierungsentscheidung stilistische Präferenz oder sprachlich restriktiv
„Goldstandard-Problem“ für die Textgenerierung natürliche Texte können suboptimal sein Übereinstimmung ist damit kein hinreichendes Gütekriterium
verschränkte Variabilität Abweichungen bzgl. der erwarteten Kodierung auf einer
Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden
II AlternativentexteHintergrund
Ziel Untersuchung dieser Freiheitsgrade Untersuchung kontextueller Parameter
Grundidee (Mellish & Yeh 1997) Lückentext Probanden wählen für jede Lücke aus
verschiedenen vorgegebenen Alternativen diese Kodierungsentscheidung kann mit der
eines Textgenerierungssystems verglichen werden
II AlternativentexteZielstellung
Betrachtung mehrer Ebenen sprachlicher Variation REF, WS, GR
Sicherstellung hinreichender Überlappung kurze Texte (15-20 Sätze) skalierbare Variabilität der Lückentexte
REF REF+WO REF+WO+GR
II AlternativentexteBasisdaten
Potsdamer Kommentarkorpus (Stede 2004) deutschsprachige Zeitungskommentare auf verschiedenen Ebenen annotiert
Morphosyntax (TIGER) Koreferenz (PoCoS) rhetorische Struktur (URML) Informationsstruktur (SFB 632) integratives Metaformat (ANNIS)
II AlternativentexteErzeugung und Einsatz
Erzeugung aus morphosyntaktisch (TIGER) und Koreferenz-
(PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt,
dann semimanuell mit Alternativen angereichert
Einsatz menschliche Probanden werden mit dem daraus
erstellten Lückentext („Entscheidungsbaum“) konfrontiert
Kodierungsentscheidungen („Pfade“) werden separat gespeichert
II AlternativentexteSemimanuelle Anreicherung
Projekt-Skelett
Koreferenz-Annotation
morphosyntaktischeAnnotation
nur eine Alternative enthaltend (denoriginalen Text)
GR
REF
WS
Alternativentext
Alternativen-annotiert
Alternativenannotation
Variation des referentiellen Ausdrucksund Kongruenzprüfung
+
Variation der grammatischen Rollen(Passivierung, Verbwechsel)
(+ )
Variation der Worstellung
(+ )
III XALT
Ein Format für Alternativentexte
XML-basiertstandoff-Architektur verteiltes Format
mehrere Ebenen der Annotation beziehen sich auf dieselben Basisdaten werden separat gespeichert
modulare Struktur erweiterbar platzeffizient
III XALT Ein Format für Alternativentexte
base.xml
ref.xml
die Worte des Textes
für jeden Referentenverschiedene referen-
tielle Ausdrücke
segments.xml
für jeden Satz alternative Ab-
folgen von Wor-ten und Ver-weisen aufReferenten
text.xml
die Abfolgeder Segmentein einem Text
III XALT Ein Format für Alternativentexte
base.xml
ref.xml
die Worte des Textes
für jeden Referentenverschiedene referen-
tielle Ausdrücke
segments.xml
für jeden Satz alternative Ab-folgen von Wor-
ten und Ver-weisen aufReferenten
text.xml
die Abfolgeder Segmentein einem Text
paths.xml
vom Nutzer oderAutor gewählte
Kodierungsalter-nativen
III XALT Beispiel
base.xml
ref.xml segments.xml text.xml
paths.xml
Was wollte dein Kollege vorhin von der Gärtnerin ?
III XALT Beispiel
base.xmlbase.xml
ref.xml segments.xml text.xml
paths.xml
Was1 wollte2 dein3 Kollege4 vorhin5 von6 der7 Gärtnerin8 ?9
word_1: wasword_2: wollteword_3: dein....
III XALT Beispiel
base.xml
ref.xmlref.xml segments.xml
paths.xml
[Was]1 wollte [[dein][[dein]22 Kollege] Kollege]33 vorhinvon [der Gärtnerin]4 ?
text.xml
ref_3: [dein]2 Kollegeder Kollege[dein]2 netter Kollegeder Kollege HansHansder Hansdieser Hans...
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1: alt_1 alt_2 ...ref_1 ref_3word_2 word_2ref_3 word_5word_5 ref_1word_6 word_6ref_4 ref_4word_9 word_9
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1: alt_1 ...ref_1 („was“)word_2 („wollte“)ref_3 („dein Kollege“)word_5 („vorhin“)word_6 („von“)ref_4 („der Gärtnerin“)word_9 („?“)
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1: alt_1 ...ref_1ref_1 („was“)word_2 („wollte“)ref_3ref_3 („dein Kollege“)word_5 („vorhin“)word_6 („von“)ref_4ref_4 („der Gärtnerin“)word_9 („?“)
Entscheidungsknoten:referentielle Ausdrücke
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1seg_1: alt_1 alt_2 ...... ref_3 („Hans“)
word_2 („wollte“)word_5 („vorhin“)ref_1 („was“)word_6 („von“)ref_4 („der G.“)word_9 („?“)
Entscheidungsknoten:Form der Äußerung
III XALT Beispiel
base.xml
ref.xml segments.xml text.xmltext.xml
paths.xml
[Was wollte dein Kollege vorhinvon der Gärtnerin ?]1
text_1: alt_text_1seg_1seg_2
[Hans kaufte bei ihr Blumen.]2
III XALT Ein partieller Entscheidungsbaum
seg_1seg_1
ref_1ref_1 was
wollte
ref_3ref_3 deinKollege
derHans
vorhin von
ref_4ref_4 derGärtnerin
ihr
?
...
...
ref_3ref_3dein
Kollegeder
Hans...
wollte vorhin
ref_1ref_1was
von
ref_4ref_4derGärtnerin
ihr
?
...
alt_1 alt_2
III XALT Ein Pfad
seg_1seg_1
ref_1ref_1 was
wollte
ref_3ref_3 deinKollege
derHans
vorhin von
ref_4ref_4 derGärtnerin
ihr
?
...
...
ref_3ref_3dein
Kollegeder
Hans...
wollte vorhin
ref_1ref_1was
von
ref_4ref_4derGärtnerin
ihr
?
...
alt_1
III XALT Beispiel
base.xml
ref.xml segments.xml text.xml
paths.xmlpaths.xml
seg_1seg_1
ref_1ref_1 was
wollte
ref_3ref_3 deinKollege
derHans
vorhin von
ref_4ref_4 derGärtnerin
ihr
?
...
...
...
pathid = „orig“
alt_1
IV Anwendung und Auswertungpaths.xml
ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu
gestattet die Rekonstruktion des Textes
enthält zusätzlich Verweise auf die Form des referentiellen Ausdrucks (REF) grammatische Relationen (GR) Wortstellung (WS)
alleiniger Gegenstand der empirischen Auswertung
IV Anwendung und AuswertungStatistische Auswertung
empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption Relevanz- („importance/salience“) Indikatoren Givenness- („contextual boundedness/salience“)
Indikatoren
praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, -zusammenfassung und -interpretation
IV Anwendung und AuswertungTheoretische Interpretation
Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten Centering Theory (Grosz et al. 1995) Givón (2001) Sgall et al. (1986) ...
IV Anwendung und AuswertungEvaluation der Textgenerierung
automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen
der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden
Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert Minimierung von individuellen/stilistischen Artefakten
A Platzkomplexität
wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem AdverbHans kaufte gestern bei Maria Blumen.
A PlatzkomplexitätHans kaufte gestern bei Maria Blumen.
REF pro Referent durch eine große Konstante abschätzbar, z.B.
10, daher 103=1000
GR Passivierung: 2 Verbalternation: mind. 2 (verkaufen)
WS Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24
Permutationen
Varianten pro Satz 1.000 * 4 * 24 = 96.000
in Abhängigkeit von der Länge n eines Satzesbase.xml O(log n + n)ref.xml O(n*log n) linear: max. konstant viele neue Referenten pro Satz mit
konstant beschränkbarer Länge
segment.xml O(n!*nc*log n) nur aus Verweisen bestehend
text.xml O(1)gesamt verteilt O(n!*nc*log n) monolithisch O(n!*nc)
A PlatzkomplexitätHans kaufte gestern bei Maria Blumen.
Top Related