Ad-Hoc Routing Motivation Ansätze aus dem Festnetz Reaktive Ansätze Positionsbasierte Ansätze 9.0.2.
Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf ·...
Transcript of Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf ·...
"Ansätze des Tagging" "Ansätze des Tagging" 1114.07.200314.07.2003
Ansätze des Ansätze des TaggingTagging
Ein Seminarreferat, Ein Seminarreferat, vorgestellt vonvorgestellt von
Alexander Valet, Christian Pretzsch und Vanessa Alexander Valet, Christian Pretzsch und Vanessa MicelliMicelli
im Rahmen des Hauptseminars „im Rahmen des Hauptseminars „ParsingParsing“ bei “ bei Dr. Karin Haenelt im SS 2003 an der Dr. Karin Haenelt im SS 2003 an der
RuprechtRuprecht--Karls Universität HeidelbergKarls Universität Heidelberg
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 22
ÜbersichtÜbersicht
•• Einführung in das Einführung in das POSPOS--TaggingTagging–– GenerellGenerell–– ProbabilistischProbabilistisch–– RegelbasiertRegelbasiert
•• MontyMonty TaggerTagger–– BeispielBeispiel–– ArchitekturArchitektur–– ModuleModule–– TestTest–– EvaluationEvaluation
•• Semantisches Semantisches TaggingTagging–– AllgemeinAllgemein–– SemanticSemantic WebWeb
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 33
EinführungEinführung
•• Was ist „Was ist „TaggingTagging“?“?–– Wörter werden mit vordefinierten Etiketten Wörter werden mit vordefinierten Etiketten
versehen (Tagset versehen (Tagset -- abhängig)abhängig)–– Etiketten = Wortarten (Part of Etiketten = Wortarten (Part of SpeechSpeech) oder ) oder
semantische Informationsemantische Information–– Wichtig: Wichtig: DisambiguierungDisambiguierung durch Kontext, etc.durch Kontext, etc.–– Vorstufe des Vorstufe des ParsingsParsings
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 44
ProbabilistischesProbabilistisches TaggingTagging II
•• AnnotiertAnnotiert einein WortWort in in einemeinem bestimmtenbestimmtenKontextKontext mitmit demdem wahrscheinlichstenwahrscheinlichsten TagTag
•• Die Die WahrscheinlichkeitWahrscheinlichkeit wirdwird durchdurchBeobachtungenBeobachtungen, die an , die an einemeinem richtigrichtig getaggtengetaggtenKorpusKorpus festgestelltfestgestellt werdenwerden, , berechnetberechnet. .
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 55
ProbabilistischesProbabilistisches TaggingTagging IIII
nach Bohm, Stefan / nach Bohm, Stefan / KinscherKinscher, Jürgen W. (1995), Jürgen W. (1995)
RAW TEXT
TOKENIZATION + PRE -
TAGGING
AMBIGUOUSLY ANNOTATED TEXT
DISAMBIGUATION
UNAMBIGUOUSLY ANNOTATED
REFERENCE CORPUS
LEXICAL RESSOURCES
TRANSITION TABLES + WORD
TAG PROBAB.
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 66
Regelbasiertes Regelbasiertes TaggingTagging II
•• AnnotierenAnnotieren des des WortsWorts mitmit demdem Tag, Tag, derder am am häufigstenhäufigsten imim TrainingskorpusTrainingskorpus in in VerbindungVerbindung mitmiteinemeinem Token Token auftrittauftritt ((bisbis zuzu 90% 90% richtigerichtige TrefferTreffer) )
•• LernenLernen und und anschließendesanschließendes AnwendenAnwenden derderTransformationenTransformationen
•• RichtigkeitRichtigkeit wirdwird an an manuellmanuell getaggtemgetaggtemReferenzkorpusReferenzkorpus, (100%ige , (100%ige RichtigkeitRichtigkeitvorausgesetztvorausgesetzt), ), gemessengemessen
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 77
Regelbasiertes Regelbasiertes TaggingTagging IIII
ANNOTATED TEXT
RAW TEXT
INITIAL STATE CORRECTLY TAGGED TEXTCORPUS
TRANSFORMATIONS
LEARNER
nach nach BrillBrill (1995)(1995)
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 88
Tagsets I Tagsets I –– Penn Penn TreebankTreebank
stirring focusing stirring focusing angering...angering...
verb, present verb, present participle or participle or gerund gerund
VBGVBG
third illthird ill--mannered premannered pre--war regrettable...war regrettable...
adjectiveadjective orornumeralnumeral, , ordinalordinal
JJJJ
ExamplesExamplesDescriptionDescriptionTagsTags
http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 99
Tagsets I Tagsets I –– Penn Penn TreebankTreebank
Ist nicht eindeutig, welcher Tag annotiert Ist nicht eindeutig, welcher Tag annotiert werden soll, gibt es die Möglichkeit „werden soll, gibt es die Möglichkeit „verticalverticalslashslash Tags“ zu verwendenTags“ zu verwenden
http://www.scs.leeds.ac.uk/amalgam/tagsets/upenn.html
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1010
Tagsets I Tagsets I –– Penn Penn TreebankTreebank
Beispiel:Beispiel:
–– The duchess was entertaining last night.The duchess was entertaining last night.
FrageFrage: : IstIst “entertaining” “entertaining” hierhier VBG VBG oderoder JJ? JJ?
......entertainingJJ|VBGentertainingJJ|VBG......
http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1111
Tagsets I Tagsets I –– Penn Penn TreebankTreebank
•• Insgesamt 48 Tags (inklusive 12 Tags für Insgesamt 48 Tags (inklusive 12 Tags für Interpunktion)Interpunktion)
•• Penn Penn TreebankTreebank Tagset basiert auf BROWN Tagset basiert auf BROWN Corpus (186 Tags) Corpus (186 Tags) àà Eliminierung Eliminierung üüberflberflüüssiger Tags (Verwenden von ssiger Tags (Verwenden von lexikalischer und semantischer Information) lexikalischer und semantischer Information)
http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1212
Tagsets I Tagsets I –– Penn Penn TreebankTreebankElimination of Elimination of lexicallylexically recoverablerecoverable distinctionsdistinctions
hadhad/VBN/VBNdonedone/VBN/VBNbeenbeen/VBN/VBNsungsung/VBN/VBN
havinghaving/VBG /VBG doingdoing/VBG/VBGbeingbeing/VBG/VBGsingingsinging/VBG/VBGhadhad/VBD/VBDdiddid/VBD/VBDwas/VBDwas/VBDsang/VBDsang/VBD
has/VBZ has/VBZ doesdoes/VBZ/VBZisis/VBZ/VBZsingssings/VBZ/VBZ
havehave/VB /VB do/VBdo/VBbebe/VB/VBsing/VB sing/VB
http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1313
Lexikalische Regeln ILexikalische Regeln I
•• NN s NN s fhassuffhassuf 1 NNS x 1 NNS x –– verändere den Tag eines Wortes von NN zu NNS, wenn es verändere den Tag eines Wortes von NN zu NNS, wenn es
das Suffix das Suffix --s hat; s hat;
z.B. z.B. webpageswebpages/NN to /NN to webpageswebpages/NNS/NNS
•• NN NN -- fcharfchar JJ xJJ x–– verändere den Tag eines Wortes von NN zu JJ, wenn es verändere den Tag eines Wortes von NN zu JJ, wenn es
den den CharacterCharacter ''--' beinhaltet; ' beinhaltet;
z.B. z.B. manman--mademade, , rulerule--basedbased......
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1414
Lexikalische Regeln IILexikalische Regeln II
•• NN ed NN ed fhassuffhassuf 2 VBN x2 VBN x–– verändere den Tag eines Wortes von NN zu VBN, verändere den Tag eines Wortes von NN zu VBN,
wenn es das Suffix wenn es das Suffix --eded hat; hat; –– z.B. z.B. donateddonated/NN to /NN to donateddonated/VBN/VBN
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1515
KontextKontext--RegelnRegeln((TransformationsTransformations))
•• CONTEXTUALRULEFILE:CONTEXTUALRULEFILE:
•• NN VB PREVTAG TONN VB PREVTAG TO
•• VBP VB PREV1OR2OR3TAG MDVBP VB PREV1OR2OR3TAG MD•• NN VB PREV1OR2TAG MDNN VB PREV1OR2TAG MD•• VB NN PREV1OR2TAG DTVB NN PREV1OR2TAG DT
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1616
KontextKontext--RegelnRegeln
One of One of thethe prevprev. . twotwo tags tags isis DTDT
NNNNVBVB44
One of One of thethe prevprev. . twotwo tags tags isis MDMD
VBVBNNNN33
One of One of thethe prevprev. . threethreetags tags isis MDMD
VBVBVBPVBP22
PreviousPrevious tag tag isis TOTOVBVBNNNN11
ConditionConditiontoto
Change TagChange Tagfromfrom##
nach nach BrillBrill (1995), 20.(1995), 20.
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1717
STTSSTTS--TagsetTagset
•• Verschmelzung zweier Verschmelzung zweier PartPart--ofof--SpeechSpeech Tagsets (Uni Tagsets (Uni Tübingen und Uni Stuttgart)Tübingen und Uni Stuttgart)
•• 54 Tags: 48 POS Tags, 6 zusätzliche Tags für 54 Tags: 48 POS Tags, 6 zusätzliche Tags für fremdsprachlfremdsprachl. Material. Material
•• Mehrwortlexeme (entweder...oder, so dass etc. Mehrwortlexeme (entweder...oder, so dass etc. werden als einzelne Worte werden als einzelne Worte getaggtgetaggt àà ideal wideal wääre re Erkennung als ML (Mehrwortlexem)Erkennung als ML (Mehrwortlexem)
•• AbkAbküürzungen: werden wie ausgeschriebene Form rzungen: werden wie ausgeschriebene Form getaggtgetaggt (USA/NE)(USA/NE)
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1818
STTSSTTS--TagsetTagset IIII
•• Nomina NNomina N•• Verben V Verben V •• Artikel ARTArtikel ART•• Adjektive ADJ Adjektive ADJ •• Pronomina P Pronomina P •• Kardinalzahlen CARDKardinalzahlen CARD•• Adverbien ADVAdverbien ADV•• Konjunktionen KOKonjunktionen KO•• AdpositionenAdpositionen APAP•• Interjektionen ITJInterjektionen ITJ•• Partikeln PTKPartikeln PTK
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1919
STTSSTTS--TagsetTagset IIIIII
Tag Beispiele:Tag Beispiele:
NNNN NomenNomenNENE EigennamenEigennamenFMFM fremdsprachliches Materialfremdsprachliches Material
(„Er hat das mit „a („Er hat das mit „a bigbig fishfish“/FM übersetzt.“)“/FM übersetzt.“)
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2020
STTSSTTS--TagsetTagset IVIV
•• SchreibSchreib--, Syntaxfehlertolerantes Vorgehen, Syntaxfehlertolerantes Vorgehen–– Hautür Hautür àà HaustHaustüür/NNr/NN–– Er hat im gesagt…Er hat im gesagt…àà Er hat ihm/PPERSEr hat ihm/PPERS……
•• Produktnamen: werden als NN nicht als NE Produktnamen: werden als NN nicht als NE getaggtgetaggt
•• DisambiguierungDisambiguierung von Partizipien bzw. von Partizipien bzw. AdjektivenAdjektiven–– Er hat die Haare kurz geschnitten. Er hat die Haare kurz geschnitten.
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2121
STTSSTTS--TagsetTagset VV
Kriterien zur Abgrenzung NN/FMKriterien zur Abgrenzung NN/FM•• Deutsche Flexion Deutsche Flexion àà NNNN•• Großgeschrieben, wenn das Großgeschrieben, wenn das
entsprechende Wort in Originalsprache entsprechende Wort in Originalsprache kleingeschrieben wurde kleingeschrieben wurde àà NN, z.B. die NN, z.B. die Contras/NNContras/NN
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2222
MontyMonty TaggerTagger II
•• Regelbasierter POS Regelbasierter POS –– TaggerTagger•• Basiert auf Basiert auf BrillsBrills 1994 entwickelten 1994 entwickelten
TransformationalTransformational –– BasedBased LearningLearningPOS POS TaggerTagger
•• In plattformunabhängigem Python In plattformunabhängigem Python und Javaund Java
•• Benutzt als Grundlage die Penn Benutzt als Grundlage die Penn TreebankTreebank
http://web.media.mit.edu/~hugo/research/montytagger.html
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2323
MontyMonty TaggerTagger IIII
•• Tokenizer:Tokenizer:–– „Tokenization“ des Eingabetextes„Tokenization“ des Eingabetextes
•• children's children's ----> children 's > children 's •• parents' parents' ----> parents ' > parents ' •• won't won't ----> wo n't > wo n't •• I'm I'm ----> I 'm > I 'm
ØØ Trennung von Wörtern und Interpunktion durch Trennung von Wörtern und Interpunktion durch LeerzeichenLeerzeichen
–– Ausnahme: Abkürzungen und AkronymeAusnahme: Abkürzungen und Akronyme
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2424
MontyMonty TaggerTagger IIIIII
•• Lexikon und lexikalische Regeln:Lexikon und lexikalische Regeln:–– Einbindung eines Lexikons und eines Regelsets Einbindung eines Lexikons und eines Regelsets
(„Brill94 lexical rule files“)(„Brill94 lexical rule files“)–– Morphosyntaktische Analyse Morphosyntaktische Analyse –– Zuordnung des „wahrscheinlichsten“ TagsZuordnung des „wahrscheinlichsten“ Tags
•• „golden gate“ „golden gate“ --> /NNP> /NNP•• „race“ „race“ --> /NNS oder /VB ?> /NNS oder /VB ?
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2525
MontyMonty TaggerTagger IVIV
•• Kontextregeln und Syntaxanalyse:Kontextregeln und Syntaxanalyse:–– Einbindung der Kontextregeln („Brill94 Einbindung der Kontextregeln („Brill94 contextcontext
rule files“)rule files“)–– Syntaktische (KontextSyntaktische (Kontext--) Analyse: jede Regel wird ) Analyse: jede Regel wird
für alle Wörter geprüft für alle Wörter geprüft –– Überprüfung und anschließende Zuordnung bzw. Überprüfung und anschließende Zuordnung bzw.
Auswahl der „wahrscheinlichsten“ TagsAuswahl der „wahrscheinlichsten“ Tags•• „golden gate“ „golden gate“ --> /NNP> /NNP•• „race“ „race“ --> /NNS oder /VB ? > /NNS oder /VB ? --> Entscheidung: > Entscheidung: racerace /NNS/NNS
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2626
BeispielBeispiel
•• OrginaltextOrginaltext::–– “All the 100 million words of the British National “All the 100 million words of the British National
Corpus (BNC) have been grammatically tagged: Corpus (BNC) have been grammatically tagged: that is, a label is attached to each of them, that is, a label is attached to each of them, indicating its grammatical class, or part of speech.” indicating its grammatical class, or part of speech.”
MontyMonty TaggerTagger
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2727
BeispielBeispiel ((MontyMonty TaggerTagger))
TokenizerLexikon
ParserKontextParser
TextText
MontyTagger
MontyTagger
Optional für Evaluation TagsetAnalyse
Kontext Regeln
LexikonAusgabe
LexikonRegeln
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2828
BeispielBeispiel ((TokenizerTokenizer))•• EingabeEingabe des des TokenizerTokenizer::
–– “All the 100 million words of the British National Corpus “All the 100 million words of the British National Corpus (BNC) have been grammatically tagged: that is, a label is (BNC) have been grammatically tagged: that is, a label is attached to each of them, indicating its grammatical class, or attached to each of them, indicating its grammatical class, or part of speech.”part of speech.”
•• AusgabeAusgabe des des TokenizerTokenizer::–– AllAllÿÿthetheÿÿ100100ÿÿmillionmillionÿÿwordswordsÿÿofofÿÿthetheÿÿBritishBritishÿÿNationalNationalÿÿ
CorpusCorpusÿÿ((ÿÿBNCBNCÿÿ))ÿÿhavehaveÿÿbeenbeenÿÿgrammaticallygrammaticallyÿÿtaggedtaggedÿÿ::ÿÿthatthatÿÿisisÿÿ,,ÿÿaaÿÿlabellabelÿÿisisÿÿattachedattachedÿÿtotoÿÿeacheachÿÿofofÿÿthemthemÿÿ,,ÿÿindicatingindicatingÿÿitsitsÿÿgrammaticalgrammaticalÿÿclassclassÿÿ,,ÿÿororÿÿpartpartÿÿofofÿÿ speechspeechÿÿ..
Lexikon ParserLexikon Parser
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2929
BeispielBeispiel ((Lexikon ParserLexikon Parser))
•• Nach Lexikon „Look up“:Nach Lexikon „Look up“:–– All/DT the/DT 100/UNK million/CD words/NNS of/IN All/DT the/DT 100/UNK million/CD words/NNS of/IN
the/DT British/JJ National/NNP Corpus/NNP (/( the/DT British/JJ National/NNP Corpus/NNP (/( BNCBNC/UNK/UNK )/) have/VBP been/VBN grammatically/RB )/) have/VBP been/VBN grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.or/CC part/NN of/IN speech/NN ./.
Lexikon RegelnLexikon Regeln
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3030
BeispielBeispiel ((Lexikon ParserLexikon Parser))
•• Nach Lexikon Regeln:Nach Lexikon Regeln:–– All/DT the/DT 100/CD million/CD words/NNS of/IN All/DT the/DT 100/CD million/CD words/NNS of/IN
the/DT British/JJ National/NNP Corpus/NNP (/( the/DT British/JJ National/NNP Corpus/NNP (/( BNCBNC/NNP/NNP )/) have/VBP been/VBN grammatically/RB )/) have/VBP been/VBN grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.or/CC part/NN of/IN speech/NN ./.
Kontext ParserKontext Parser
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3131
BeispielBeispiel ((Kontext ParserKontext Parser))
•• All/DT the/DT 100/CD million/CD words/NNS of/IN All/DT the/DT 100/CD million/CD words/NNS of/IN the/DT British/JJ National/NNP Corpus/NNP (/( the/DT British/JJ National/NNP Corpus/NNP (/( BNC/NNP )/) have/VBP been/VBN BNC/NNP )/) have/VBP been/VBN grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO each/DT a/DT label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.speech/NN ./.
AusgabeAusgabe
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3232
BeispielBeispiel ((AusgabeAusgabe))
•• All/DT the/DT 100/CD million/CD All/DT the/DT 100/CD million/CD words/NNS of/IN the/DT British/NNP words/NNS of/IN the/DT British/NNP National/NNP Corpus/NNP (/( BNC/NNP )/) National/NNP Corpus/NNP (/( BNC/NNP )/) have/VBP been/VBN grammatically/RB have/VBP been/VBN grammatically/RB tagged/VBN :/: that/WDT is/VBZ ,/, a/DT tagged/VBN :/: that/WDT is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.part/NN of/IN speech/NN ./.
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3333
ArchitekturArchitektur
Lexicon.py ContextualRuleParser.pyLexicalRuleParser.py
EvaluateMonty.py
CleanGoldenStandard.py
MontyTagger.py
Lexicon LexicalRules ContextualRules
MontyTagFile.py
output
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3434
DatenbasisDatenbasis
•• Komponenten:Komponenten:–– LexiconLexicon
•• Ca. 100 000 EinträgeCa. 100 000 Einträge–– LexicalRuleFileLexicalRuleFile
•• 148 Regeln 148 Regeln •• NNP NNP inging fhassuffhassuf 3 VBG x3 VBG x
–– ContextualRuleFileContextualRuleFile•• 177 Regeln177 Regeln•• JJ NN SURROUNDTAG IN INJJ NN SURROUNDTAG IN IN•• NN VBG NEXTBIGRAM JJ NNSNN VBG NEXTBIGRAM JJ NNS
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3535
MontyTagger.pyMontyTagger.pyAlgorithmus IAlgorithmus I
Ablauf in drei Stufen:Ablauf in drei Stufen:ààINPUT:INPUT:
LexikonabfrageLexikonabfrageLexikonLexikon--RegelnRegeln
KontextKontext--RegelnRegelnàà OUTPUTOUTPUT
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3636
LexikonabfrageLexikonabfrage
text_arrtext_arr = [ ]= [ ]BEGINBEGIN
all_posall_pos = = Lexicon.all_pos(tokenLexicon.all_pos(token))IF NOTIF NOT entryentry in in all_posall_pos
THENTHEN markmark pospos as `UNK`as `UNK`ELSEELSE markmark tokentoken withwith firstfirst pospos in listin list
appendappend dictdict {{tokentoken, , pospos, , all_posall_pos} to } to text_arrtext_arr
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3737
LexikonLexikon--RegelnRegeln
FORFOR dictdict in in text_arrtext_arrIFIF pospos NOTNOT ´UNK´´UNK´
continuecontinueIFIF tokentoken ISIS uppercaseuppercase
tag as NNPtag as NNPELSEELSE
tag as NNtag as NNapplyapply all all lexlex--rulesrules ( ( text_arrtext_arr, , dictdict ) )
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3838
KontextKontext--Regeln IRegeln I
BrillBrill –– VersionVersion
FORFOR i i ININ text_arrtext_arrFORFOR j j IN IN rulerule
apply_ruleapply_rule to to wordword
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3939
KontextKontext--Regeln IIRegeln II
MontyMonty –– versionversiondepth_or_breadth_firstdepth_or_breadth_first::
IFIF depthdepthsamesame as as BrillBrill, , applyapply everyevery rulerule to word1to word1
IFIF breadthbreadthfirefire onlyonly oneone rulerule to word1, word2 ...to word1, word2 ...
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4040
KontextKontext--Regeln IIIRegeln III
mainmain--functionfunction: : apply_ruleapply_rule
IFIF from_tagfrom_tag != != pospos::EXITEXIT
IFIF 'UNK' 'UNK' NOT INNOT IN all_posall_pos ANDAND to_tag to_tag NOT INNOT IN all_posall_posEXITEXIT
IFIF predicatepredicate == ´....´== ´....´IFIF real_argsreal_args[…] in [.....]:[…] in [.....]:
update update pospos
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4141
EvaluationEvaluation
ØØ PerformancePerformance–– 200 Wörter /s200 Wörter /s
ØØ GenauigkeitGenauigkeit–– ca. 96 ca. 96 –– 97 %97 %
ØØ Fehler: Evaluationsmodul Fehler: Evaluationsmodul
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4242
Semantisches Semantisches TaggingTagging
•• Idee:Idee:Statt rein syntaktische Informationen,werden Statt rein syntaktische Informationen,werden einem Text bzw. einem Text bzw. TokenToken auch semantische auch semantische Merkmale zugewiesen.Merkmale zugewiesen.
<<namename> Hellwig </> Hellwig </namename> > <<name><titelname><titel> Prof. </> Prof. </titeltitel> Hellwig </> Hellwig </namename> >
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4343
VorgehensweiseVorgehensweise
–– Syntaktisches Syntaktisches TaggingTagging–– Semantisches Semantisches TaggingTagging mit Hilfe von Ontologienmit Hilfe von Ontologien–– MarkupMarkup mit XMLmit XML
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4444
XMLXML
•• Auszeichnung des Textes mit XML, einer Auszeichnung des Textes mit XML, einer MetaMeta--MarkupMarkup Sprache.Sprache.
•• XML Standart: well XML Standart: well –– formedformed–– W3CW3C
•• DTD: DTD: validvalid–– legt Elemente festlegt Elemente fest
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4545
ProblemProblem
•• Konsistenz der MarkierungKonsistenz der Markierung–– Theater: Gebäude oder InstitutionTheater: Gebäude oder Institution
•• Anaphorische BezügeAnaphorische Bezüge–– „Der Präsident[...]. Er erklärte[...] „Der Präsident[...]. Er erklärte[...]
•• Sehr aufwendiges Sehr aufwendiges TaggingTagging
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4646
SemanticSemantic WebWeb
Tim BernersTim Berners--Lee / 1998Lee / 1998Das WWW soll von einem Netz von Hyperlinks Das WWW soll von einem Netz von Hyperlinks zu einem Netz von Inhalten werden.zu einem Netz von Inhalten werden.Informationen sollen in einem maschineInformationen sollen in einem maschine--lesbaren Format abgelegt werden. lesbaren Format abgelegt werden.
www.semanticweb.orgwww.semanticweb.org
14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4747
LiteraturLiteratur
•• Bohm, Stefan / Bohm, Stefan / KinscherKinscher, Jürgen W. (1995), Jürgen W. (1995) : : Das Münster Das Münster TaggingTagging Projekt Projekt ----Automatische Automatische DisambiguierungDisambiguierung deutscher Zeitungstexte" In: Sprache und deutscher Zeitungstexte" In: Sprache und Datenverarbeitung 19(1995)2, S. 3Datenverarbeitung 19(1995)2, S. 3--18 18 ; ;
•• BrillBrill, Eric (1995), Eric (1995) : : ""TransformationTransformation--BasedBased ErrorError--DrivenDriven LearningLearning and and NaturalNaturalLanguageLanguage ProcessingProcessing: A : A CaseCase StudyStudy in in PartPart--ofof--SpeechSpeech TaggingTagging" In: " In: ComputationalComputationalLinguisticsLinguistics 21(1995)4, S. 54321(1995)4, S. 543--565 565 ; ;
•• Schiller, Anne / Teufel, Simone / Schiller, Anne / Teufel, Simone / StöckertStöckert, Christine / Thielen, Christine (?), Christine / Thielen, Christine (?) : : Vorläufige Vorläufige GuidelinesGuidelines für das für das TaggingTagging deutscher Textcorpora mit STTS"deutscher Textcorpora mit STTS" ; ;
•• http://www.csic.cornell.edu/201/natural_language/#lexRuleshttp://www.csic.cornell.edu/201/natural_language/#lexRules•• http://web.media.mit.edu/~http://web.media.mit.edu/~hugohugo//researchresearch//montytagger.htmlmontytagger.html•• http://www.scs.leeds.ac.uk/amalgam/tagsets/upenn.htmlhttp://www.scs.leeds.ac.uk/amalgam/tagsets/upenn.html•• http://http://www.cis.upenn.eduwww.cis.upenn.edu/~/~treebanktreebank//home.htmlhome.html