Kontext Kontext und grammatische Kategorien ...dm/handouts/theorien-am... · SUBJ 88 84.09 78.72...
Transcript of Kontext Kontext und grammatische Kategorien ...dm/handouts/theorien-am... · SUBJ 88 84.09 78.72...
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Kontext
Detmar MeurersSeminar fur Sprachwissenschaft
Ringvorlesung “Text und Sprache: Theorien am Brechtbau (und am Blochbau)”organisiert von Frauke Berndt
31.5.2011
1 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Uberblick: Drei Streiflichter
I. Kontext und grammatische Kategorien:I Distributionelle Evidenz fur WortartenI Wo kommen grammatische Kategorien her?I Wie lassen sich linguistisch annotierte Korpora
automatisch uberprufen?
II. Sprache und außersprachlicher KontextI Sprache als linguistisches System vs. Weltwissen
I Beispiel: Statistische maschinelle UbersetzungI Beispiel: Parservergleich mit handgeschriebenen vs.
aus Korpora induzierten Grammatiken
III. Kontext in der linguistische Analyse: InformationsstrukturI Linguistisches Fallbeispiel: Reduktion von syntaktisch
stipulierten Beschrankungen auf KontexteigenschaftenI Informationsstruktur im Bedeutungsvergleich von
Antworten auf Leseverstandnisfragen (SFB 833/A4)
2 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Kontext und grammatische KategorienI Grammatische Kategorien: Wortarten
I Konstituenten, Dependenzrelationen, . . .
I Wortartenzuweisung (POS tagging) reduziert dielexikalisch moglichen Kategorien eines Wortes auf diefur ein bestimmtes Vorkommen korrekte.
I Beispiel can: Hilfsverb, Nomen, Verb
(1) I can walk. (Aux)(2) Pass me a can of beer. (Noun)(3) I can tuna for a living. (Verb)
I Variation in Korpusannotation:Sprachliches Material das mehrfach in einem Korpusvorkommt und unterschiedlich annotiert ist
I Variation kann resultieren ausI genuine AmbiguitatI inkonsistente, fehlerhafte Annotation
3 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Variationsklassifikation
I Wie kann man solche Variation auffinden undklassifizieren, ob die Annotation fehlerhaft ist?
I Entscheidender Faktor: sprachlicher KontextI Umso ahnlicher der Kontext eines Vorkommens, desto
wahrscheinlicher ist Annotationsvariation inkorrekt.
I Die einfachste Art, Kontext zu konkretisieren beinhaltet:I Oberflachenformen der WorterI in direkter Umgebung der Variation
⇒ Extrahiere alle Annotationsvariation mit KontextI Variations-Nucleus: Wiederkehrendes Material (hier: Wort),
das unterschiedlich annotiert wurdeI Variations-n-Gram: Variations-Nucleus mit identischem
Kontext von insgesamt n Worten
4 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Variation klassifizierenBeispiel aus dem Wall Street Journal Corpus (Marcus et al. 1993)
I Variations-12-Gram mit off als Nucleus
(4) to ward off a hostile takeover attempt by two Europeanshipping concerns
I einmal als Praposition (IN) annotiert undI einmal als Partikel (RP).
I Annotationsvariation lasst sich effizient auch in großenKorpora identifizieren und klassifizieren. → DECCA Projekt
5 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Welcher Kontext zur Disambiguierung?
Beispiel: Ein Variations-37-Gram mit Nucleus joined:
(5) a. John P. Karalis . . .b. John P. Karalis has . . .
joined the Phoenix , Ariz. , law firm of Brown & Bain . Mr.Karalis , 51 , will specialize in corporate law and internationallaw at the 110-lawyer firm . Before joining Apple in 1986 ,
I Der Kontext vor dem 37-Gram zeigt: korrekte Ambiguitata. Vergangenheitsform (vbd),b. Partizip (vbn).
Einsicht: Morphol. & syntakt. Eigenschaften lokal regiert.
⇒ Ein Rahmen um den Nucleus herum ist eine guterdisambiguierender Kontext: X Y
6 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Wie gut funktioniert das in der Realitat?
I Wall Street Journal Corpus, handannotiert (Marcus et al. 1993)
I Resultierende Variations-n-Grammen mit Kontextrahmen:I zwischen 3 und 224 Worter LangeI 7141 unterschiedliche Typen mit RahmenkontextI 6626 echte Fehler (92.8% Prazision)
→ Warum ist der Rahmen als Kontext so effektiv?
7 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Unabhangige Evidenz vom Spracherwerb
I Mintz (2002): Auftreten eines Elements in Rahmen (frame)X Y fuhrt zu Kategorienbildung bei Erwachsenen
I Mintz (2003): haufige Rahmen sind robuste Datenquellenin Erstspracherwerbskorpora (CHILDES, MacWhinney 2000):
I you put itI you want itI you see it→ you it
I Rahmen-Konzept auch sprachubergreifend validiert:I Franzosisch (Chemla et al. 2009)I Mandarin (Xiao et al. 2006)
8 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Kontexte als Trigger fur Kategorienbildung
I Chemla et al. (2009): Rahmen um ein Wort bessererKontext als andere Optionen gleicher Große
Category Accuracy Using Different Contexts (Corpus Analysis)
00.10.20.30.40.50.60.70.80.9
1
French English
Acc
urac
y
X__YXY____XY
Chemla et al. (in press)
The Importance of the Frame
• Is it crucial that the two co-occurring words frame the target word?– yes
• Frame configurations are more likely to capture structurally consistent sequences than computationally similar contexts.
Studies of Frames
üCategorization Using Lexical Co-Occurrence Patterns: FramesüCorpus AnalysesüCross-Linguistic Viability of FramesüComparison to Other Patterns• Evidence for Frame-Based Categorization
in Infants
Frequent Frames and Categorization in Infants
• Do infants categorize words based on frequent frames?
• Infants notice “frame” when middle position varies (Gomez, 2002; Gomez & Maye, 2005)
Testing Distributional Categorizationin 12-Month-Olds Mintz (2006)
Testing Distributional Categorizationin 12-Month-Olds Mintz (2006)
• Familiarize to nonce words embedded in normal English sentences– in noun positions: I see the gorp in the room!– in verb positions: She wants to deeg it!
• Frames immediately surrounding the nonce words were frequent frames in the previous analysis.
⇒ Automatisierte Fehlersuche in annotierten Korporaverwendet die kognitiven Grundlagen, welche dielinguistischen Kategorien uberhaupt geschaffen haben.
9 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Von Wortarten zu grammatischen Kategorien
DECCA Projekt zur Fehlersuche in “gold standard” Korpora:I Wortarten (Dickinson & Meurers 2003a)
I Konstituenten (Dickinson & Meurers 2003b; Boyd, Dickinson & Meurers 2007)
I diskontinuierliche Konstituenten (Dickinson & Meurers 2005b)
I transkribierte gesprochene Sprache (Dickinson & Meurers 2005a)
I Dependenzannotation (Boyd, Dickinson & Meurers 2008)
10 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Syntaktische AnnotationBeispiel aus Penn Treebank 3 (Marcus et al. 1993)
I Variation zwischen zwei syntaktischen Kategorien:
(6) maturity
labeled as
next Tuesday
NP twicePP once
I Variation in der Konstituentenstruktur:
The
DT
shaky
JJ
market
NN
received
VBD
its
PRP$
biggest
JJS
jolt
NN
last
JJ
month
NN
from
IN
Campeau
NNP
Corp.
NNP
,
,
which
WDT
*T*
−NONE−
created
VBD
its
PRP$
U.S.
NNP
retailing
NN
empire
NN
with
IN
junk
NN
financing
NN
.
.
NP NP NP
TMP
NP
NP WHNP NP NP NP
PP
MNR
VP
SBJ
S
SBAR
NP
PP
CLR
VP
SBJ
S
*T*
The
DT
fragile
JJ
market
NN
received
VBD
its
PRP$
biggest
JJS
jolt
NN
last
JJ
month
NN
from
IN
Campeau
NNP
Corp.
NNP
,
,
which
WDT
*T*
−NONE−
created
VBD
its
PRP$
U.S.
NNP
retailing
NN
empire
NN
with
IN
more
JJR
than
IN
$
$
3
CD
billion
CD
*U*
−NONE−
in
IN
junk
NN
financing
NN
.
.
NP NP NP WHNP NP NP QP
NP
NP
PP
NP
PP
VP
SBJ
S
SBAR
NP
PP
CLR
VP
SBJ
S
*T*
11 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Sprache und außersprachlicher Kontext
I Zur Relation von Bedeutung und Verwendung im Kontext
I “You shall know a word by the company it keeps.” (Firth 1957)
I Einsicht ist Basis der distributionellen SemantikI Automatische Identifikation von Synonymen
(Turney 2001; Turney & Pantel 2010)I Essay Bewertung mit Latent Semantic Analysis
(Landauer et al. 1998)I . . .
I Caveat: Korpora erlauben keine klare Unterscheidungzwischen sprachlichen Regularien und Weltwissen!
I Beispiel: statistische maschinelle Ubersetzung in GoogleI Verfahren basieren auf Distribution in alignierten Korpora
12 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Sprachliche Regularitaten und Weltwissen
I Korpora kodierenI sprachliche RegularitatenI außersprachliche Regularitaten (Weltwissen)
I Korpusbasiertes maschinelles LernenI lernt Weltwissen automatisch mitI unterscheidet nicht zwischen sprachlichem & Weltwissen
I Unterschied zwischen linguistischer Generalisierungund ublicher Verwendung bereits im Parsing sichtbar.
25 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Sprachliches Wissen vs. Weltwissen im Parsing
I Vergleich von zwei Parsern (Krivanek & Meurers 2011):I handgeschriebenes, regelbasiertes WCDG (Foth et al. 2004)I korpusinduzierter, statistischer MaltParser (Nivre et al. 2007)
I Ergebnisse auf deutschem CREG-109 Korpus:MaltParser WCDG
Label # Recall Prec. Recall Prec.Argument-Relationen:
SUBJ 88 84.09 78.72 86.36 85.39OBJA 49 65.31 69.57 75.51 74.00PRED 25 60.00 68.18 60.00 83.33AUX 22 59.09 86.67 72.73 94.12
Adjunkt-Relationen:ADV 40 67.50 57.45 65.00 48.15PP 27 74.07 52.63 66.67 38.30
26 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Kontext in der linguistischen AnalyseAm Syntax-Pragmatik Interface: Informationsstruktur
I Die Integration eines Satzes in den Kontext wirdanhand der Informationsstruktur untersucht(Fokus-Hintergrund, Thema-Rhema, Given-New, . . . ).
I Die explizite Reprasentation & Untersuchung potentiellerKontexte eines Satzes birgt neue Erklarungsmoglichkeiten.
I Bislang in der Grammatik stipulierte Eigenschaftenkonnen aus der Art der Diskurseinbettung folgen.
I Beispiel: Partielle Konstituenten und ihre Beschrankungen(De Kuthy 2002; De Kuthy & Meurers 2003)
27 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Beispiel: Spezifizitatseffekt
I PP Extraktion aus NP zeigt Spezifizitatseffekt, eineklassische Extraktionsrestriktion (G. Muller 1996):
(7) [Uber Syntax]i hat Karl [ein/*das Buch i ] gelesen.
I Pafel (1993) weist auf akzeptable Gegenbeispiele hin:
(8) Uber Syntax hat Karl nur dieses, aber nicht jenesBuch gelesen.
I Idee (De Kuthy 2002): Reduktion des Spezifizitatseffektauf informationsstrukturelle Notwendigkeiten.
28 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Zur Pragmatik definiter Artikel
Zwei Klassen definiter NPs mussen unterschieden werden:
a) Definite NPs, die als Antezedenz einen Diskursreferentenim vorhergehenden Diskurs haben und somit im Diskursgegeben sind, cf. strongly familiar (Roberts 2003).→ sind immer im Hintergrund des Satzes
b) Definite NPs, die deiktisch, endophorisch, odersemantisch definit sind, cf. weakly familiar (Roberts 2003).→ konnen auch im Fokus des Satzes sein
(die Frage beantworten)
29 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
a) Definite NPs mit Antezedenz im Diskurs
(9) Gestern sah ich ein tolles Buch uber Syntax in der UB.a. Ich habe mir [das Buch uber Syntax] heute
ausgeliehen.
I Die gesamte definite NP (inklusive der PP) ist gegeben,also Teil des Hintergrundes.
(10) Gestern sah ich ein tolles Buch uber Syntax in der UB.a. # Uber Syntax habe ich mir [das Buch] heute
ausgeliehen.
I Die PP kann nicht aus der NP extrahiert werden, wennbeide im Hintergrund sind.
30 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
b) Definite NPs ohne Antezedenz im Diskurs
(11) Was hast Du in der UB ausgeliehen?a. Ich habe mir [das Buch uber Syntax] ausgeliehen, das
Du mir letztlich empfohlen hast.
I Die definite NP tragt als Antwort auf die Frage neueInformation bei, steht also im Fokus der Außerung.
(12) Was hast Du uber Syntax in der UB ausgeliehen?a. Uber Syntax habe ich mir [das Buch] ausgeliehen, das
Du mir empfohlen hast.
I Definite NP kann im Fokus stehen, mit gegebener PP,und erlaubt dann Extraktion der PP aus der definiten NP!
31 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Generalisierung dank Informationsstruktur
I Generalisierung: Die Extraktion einer PP aus einer NPist nur moglich, wenn sie zu unterschiedlichen Teilender Informationsstruktur gehoren.
I Ausweitung auf andere partielle Konstituenten:I partielle VPs (De Kuthy & Meurers 2003)
⇒ Konstituenten kommen nur partiell vor, wenn diesinformationsstrukturell motiviert ist.
I Eine explizite Integration des Kontextes in dielinguistische Modellierung bietet interessante neueErklarungsmoglichkeiten.
32 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Praktische Relevanz von Informationsstruktur
I Aufgabe: Wie kann in realistischen Situationen dieBedeutung von Satzen und Textfragmenten analysiertund verglichen werden?
I Realistische Situationen:I Sprache nicht notwendigerweise wohlgeformtI Unterschiede im situativen Wissen oder Weltwissen→ erschweren vollstandige, tiefe Analyse
⇒ Bedeutungsvergleich im Kontext: Komponenten einerflachen semantischen Analyse (SFB 833, Projekt A4)
I Welche Reprasentationen lassen sich robust fur einecomputerlinguistische Approximation identifizieren?
I Wie lasst sich die Rolle des Kontextes integrieren?
33 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Beispiel fur Bedeutungsvergleich
34 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Elimination von gegebener Information
(13) Welches Beispiel fur mogliche Verletzungen der Privatsphareim Internet erwahnt der Autor?
TA Der Autor erwahnt , dass Webseiten, die man besuchthat, von Dritten uberwacht werden konnen.
LA Wenn Du im Internet surfst, so konnen alle besuchtenWebseiten durch andere gesehen werden.
I In der Frage gegebene Information sollte bei einemBedeutungsvergleich nicht berucksichtigt werden.
35 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Von gegebener Information zum Fokus
(14) Ist die Wohnung in einem Neubau oder einem Altbau?TA Die Wohnung ist in einem Neubau .SA Die Wohnung ist in einem Neubau
I Problem: Alle Antwortteile sind in der Frage gegeben!
I Wechsel der Perspektive von Given zu Fokus:I Statt gegebene Einheiten nicht zu vergleichen,
determinieren was von der Frage erfragt wird (Fokus)!
I Einbettung des Satzes in Kontext (Informationsstruktur)ist wichtig fur einen effektiven Bedeutungsvergleich.
36 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Schluss
I Sprachlicher und außersprachlicher Kontext spielt einezentrale Rolle fur linguistische Analyse und Interpretation
I Drei Streiflichter:1. distributionelle Induktion grammatischer Kategorien und
die Uberprufungsmoglichkeit von Korpusannotation
2. sprachliches System vs. Weltwissen & was passiert wenndatengetriebene Verfahren den Unterschied verwischen
I statistische maschinelle UbersetzungI Vergleich Ergebnisse regelbasierte und statistische Parser
3. Informationsstruktur in der linguistischen AnalyseI Explizite Modellierung der Einbettung eines Satzes in
den Kontext bietet neue Erklarungsmoglichkeiten.I Relevant fur computerlinguistischen Bedeutungsvergleich
37 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Literaturverzeichnis
Boyd, A., M. Dickinson & D. Meurers (2007). Increasing the Recall of CorpusAnnotation Error Detection. In Proceedings of the Sixth Workshop onTreebanks and Linguistic Theories (TLT-07). Bergen, Norway. URLhttp://purl.org/dm/papers/boyd-et-al-07b.html.
Boyd, A., M. Dickinson & D. Meurers (2008). On Detecting Errors in DependencyTreebanks. Research on Language and Computation 6(2), 113–137. URLhttp://purl.org/dm/papers/boyd-et-al-08.html.
Chemla, E., T. H. Mintz, S. Bernal & A. Christophe (2009). Categorizing wordsusing ‘frequent frames’: what cross-linguistic analyses reveal aboutdistributional acquisition strategies. Developmental Science 12(3). URLhttp://dx.doi.org/10.1111/j.1467-7687.2009.00825.x.
De Kuthy, K. (2002). Discontinuous NPs in German — A Case Study of theInteraction of Syntax, Semantics and Pragmatics. Stanford, CA: CSLIPublications. URL http://ling.osu.edu/∼kdk/papers/dekuthy00.html.
De Kuthy, K. & W. D. Meurers (2003). The secret life of focus exponents, and whatit tells us about fronted verbal projections. In S. Muller (ed.), Proceedings ofthe Tenth Int. Conference on HPSG. Stanford, CA: CSLI Publications, pp.97–110. URL http://purl.org/dm/papers/dekuthy-meurers-hpsg03.html.
Dickinson, M. & W. D. Meurers (2003a). Detecting Errors in Part-of-SpeechAnnotation. In Proceedings of the 10th Conference of the European Chapter ofthe Association for Computational Linguistics (EACL-03). Budapest, Hungary,pp. 107–114. URL http://purl.org/dm/papers/dickinson-meurers-03.html.
37 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Dickinson, M. & W. D. Meurers (2003b). Detecting Inconsistencies in Treebanks. InProceedings of the Second Workshop on Treebanks and Linguistic Theories(TLT-03). Vaxjo, Sweden, pp. 45–56. URLhttp://purl.org/dm/papers/dickinson-meurers-tlt03.html.
Dickinson, M. & W. D. Meurers (2005a). Detecting Annotation Errors in SpokenLanguage Corpora. In The Special Session on treebanks for spoken languageand discourse at NODALIDA-05. Joensuu, Finland. URLhttp://purl.org/∼dm/papers/dickinson-meurers-nodalida05.html.
Dickinson, M. & W. D. Meurers (2005b). Detecting Errors in DiscontinuousStructural Annotation. In Proceedings of the 43rd Annual Meeting of theAssociation for Computational Linguistics (ACL’05). pp. 322–329. URLhttp://aclweb.org/anthology/P05-1040.
Foth, K. A., M. Daum & W. Menzel (2004). A broad-coverage parser for Germanbased on defeasible constraints. In In KONVENS 2004, Beitrage zur 7.Konferenz zur Verarbeitung naturlicher Sprache. pp. 45–52. URLhttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.6728&rep=rep1&type=pdf.
Krivanek, J. & D. Meurers (2011). Comparing Rule-Based and Data-DrivenDependency Parsing of Learner Language. In Proceedings of the Intern.Conference on Dependency Linguistics (DEPLING 2011). Barcelona.Submitted.
Landauer, T., P. Foltz & D. Laham (1998). An Introduction to Latent SemanticAnalysis. Discourse Processes 25, 259–284. URLhttp://lsa.colorado.edu/papers/dp1.LSAintro.pdf.
MacWhinney, B. (2000). The CHILDES Project: Tools for Analyzing Talk. Vol 1: TheFormat and Programs, Vol 2: The Database. Mahwah, NJ: Lawrence ErlbaumAssociates, 3rd ed.
37 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Marcus, M. P., M. A. Marcinkiewicz & B. Santorini (1993). Building a LargeAnnotated Corpus of English: the Penn Treebank. Computational Linguistics19(2), 273–290. URL http://aclweb.org/anthology/J93-2004.
Mintz, T. H. (2002). Category induction from distributional cues in an artificiallanguage. Memory & Cognition 30, 678–686.
Mintz, T. H. (2003). Frequent frames as a cue for grammatical categories in childdirected speech. Cognition 90, 91–117.
Muller, G. (1996). Incomplete Category Fronting. Habilitationsschrift, UniversitatTubingen, Tubingen. Published as SfS-Report 01–96.
Nivre, J., J. Nilsson, J. Hall, A. Chanev, G. Eryigit, S. Kubler, S. Marinov & E. Marsi(2007). MaltParser: A Language-Independent System for Data-DrivenDependency Parsing. Natural Language Engineering 13(1), 1–41. URLhttp://w3.msi.vxu.se/∼nivre/papers/nle07.pdf.
Pafel, J. (1993). Ein Uberblick uber die Extraktion aus Nominalphrasen imDeutschen. In F.-J. d’Avis, S. Beck, U. Lutz, J. Pafel & S. Trissler (eds.),Extraktion im Deutschen I, Tubingen: Universitat Tubingen, Arbeitspapiere desSFB 340 Nr. 34, pp. 191–245.
Roberts, C. (2003). Uniqueness in Definite Noun Phrases. Linguistics andPhilosophy 26, 287–350.
Turney, P. (2001). Mining the Web for Synonyms: PMI-IR Versus LSA on TOEFL.In Proceedings of the Twelfth European Conference on Machine Learning(ECML-2001). Freiburg, Germany, pp. 491–502.
Turney, P. D. & P. Pantel (2010). From Frequency to Meaning: Vector Space Modelsof Semantics. Journal of Artificial Intelligence Research 37, 141–188.
37 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Xiao, L., X. Cai & T. Lee (2006). The development of the verb category and verbargument structures in Mandarin-speaking children before two years of age.Paper presented at The Seventh Tokyo Conference on Psycholinguistics. KeioUniversity.
38 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
ProblemfalleTheoriegetriebene Unterscheidungen
interest in einer flachen koordinierten Struktur:
The
DT
amount
NN
covers
VBZ
taxes
NNS
,,
interest
NN
and
CC
penalties
NNS
owed
VBN
*
−NONE−
from
IN
1966
CD
,,
when
WRB
the
DT
state
NN
began
VBD
*
−NONE−
collecting
VBG
corporate
JJ
taxes
NNS
*T*
−NONE−
,,
to
TO
1985
CD
.
.
NP NP NP NP WHADVP NP NP NP
VP
SBJ
S
ADVP
TMP
VP
SBJ
S
SBAR
NP
PP
NP
PP
PP
TMP
VP
NP
VP
SBJ
S
* *T*
interest in einer Koordination mit komplexen Schwestern:
He
PRP
also
RB
owes
VBZ
a
DT
lot
NN
of
IN
back
JJ
taxes
NNS
,
,
interest
NN
and
CC
civil
JJ
fraud
NN
penalties
NNS
.
.
NP ADVP NP NP NP NP
NP
PP
NP
VP
SBJ
S
38 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
ProblemfalleNicht lokal motivierte Annotation: Koordination
(15) a.Atr Sb Pred AuxP Adv
Nejlevnejsı telefony jsou v Britaniicheapest telephones are in Britain
b.AuxP Adv Pred Sb Co Coord Sb Co
Na pokojıch jsou telefony a faxyin rooms are telephones and fax machines
39 / 42
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
ProblemfalleNicht lokal motivierte Annotation: Prapositionen
(16) a.AuxP Atr
utkanı v Brnegame in BrnoNoun Prep Noun
b.AuxP Adv
zadrzen v Brnedetained in Brno
Verb Prep Noun
40 / 42
ProblemfalleSignifikante Distanz bei Nicht-Lokalitat
(17) a.
Atr Atr AuxP Atr Atr Co Coord AuxP Atr Co
Oblastnı sdruzenı ODS na severnı Morave a ve Slezskuregional branches of ODS in Northern Moravia and in Silesia
Adj Noun Noun Prep Adj Noun Conj Prep Noun
b.
AuxP Atr Adv Co Coord AuxP Adv Co
na severnı Morave a ve Slezsku spachanoin Northern Moravia and in Silesia committed
Prep Adj Noun Conj Prep Noun Verb
Kontext
Detmar Meurers
Uberblick
Kontext undgram. KategorienVariationsklassifikation
Kontext zur Disambiguierung
Ergebnisse fur WSJ POS
Spracherwerbsevidenz
Von Wortarten zu anderengrammatischen Kategorien
AußersprachlicherKontextUbersetzungsbeispiele
Sprachliche Regularitatenund Weltwissen
Parsing
InformationsstrukturTheorie
Spezifizitatseffekt
Pragmatik def. Artikel
Generalisierung
Praxis
Bedeutungsvergleich
Givenness Elimination
Von Given zu Fokus
SchlussProblemfalle fur Lokalitat
Adjunktextraktionen
Korpusbeispiele fur Extraktion aus NP
(18) Aus dem English Theater stehen zwei Modelle in denVitrinen.
(19) Aus dem 17. Jahrhundert erklangen in dynamischdifferenziertem Spiel und mit weich gestaltendem AnsatzTanzsatze von JCP und MP
(20) In Cockpit und Kabine wurden neue Gehaltsstrukturen mit“marktkonformen” Anfangsgehaltern vereinbart.
42 / 42