Trends in Computerlinguïstiek
Transcript of Trends in Computerlinguïstiek
1
Trends in Computerlinguïstiek
Walter DaelemansUniversiteit Antwerpen, CNTS
http://www.cnts.ua.ac.be/~walterFormerly at
Tilburg University (ILK)http://ilk.uvt.nl
Computers in de taalkunde
Verzamelen en analyseren van gegevens– awk, perl, geannoteerde corpora,
concordantieprogramma’s, … Modelleren van taalkundige theorieën
– Theorie --- Computermodel --- Simulatie Systemen maken die taal produceren, begrijpen,
manipuleren, …– Om te begrijpen hoe het werkt bij mensen– Vanuit socio-economisch belang (taal- en
spraaktechnologie)
2
Sociaal en economisch belang
Vertaal-explosie– EU: 700 miljoen euro (15% administratief budget)
in 1999– Geen uniek Europees probleem: Zuid-Afrika 11
officiële talen Informatie-explosie (o.a. internet)
– 2002: 5 exabytes nieuwe opgeslagen informatie(1018 bytes; 37000 keer Library of Congress; ~alle woorden ooit uitgesproken door mensen)
– Verdubbeling elke 2-3 jaar
Toepassingen
Gesproken Dialoogsystemen Automatisch vertalen Automatisch samenvatten Intelligente tekstverwerking Indexeren en terugvinden van spraak, beeld
en tekst op inhoud
3
Ambiguïteit
Het fundamentele probleem vande computerlinguïstiek
Ambiguïteit
Lexicaal - MorfologischBrussel wil vrachtwagens zwaarder belasten.Fremdzugehen -- external train marriages
SyntactischDe prins heeft zijn huwelijk met Verhofstadt besproken.
WereldkennisTom had geen werk. Hij nam de krant.Tom werd lastig gevallen door een vlieg. Hij nam de krant.
EllipsisAlcohol is voor vrouwen schadelijker dan mannen
4
Representaties en context-gevoelige transformaties
De vermoeide slager ramde een taxi
segmentatie
(de vermoeide slager) (ramde) (een taxi)
desambiguering
(de vermoeide slager)onderwerp (ramde)actie (een taxi)voorwerp
Shallow Parsing: POS Tagging
The/Det woman/NN will/MD give/VBMary/NNP a/Det book/NN
5
Shallow Parsing: Chunking
[The/Det woman/NN]NP [will/MD give/VB]VP[Mary/NNP]NP [a/Det book/NN]NP
Shallow parsing: Sense Tagging
[The/Det woman/NN]NP-PERSON [will/MDgive/VB]VP [Mary/NNP]NP-PERSON [a/Detbook/NN]NP-MATERIAL-OBJECT
6
Shallow Parsing: RelationFinding
person person material-object
Taaldata
Kennis(Competence)Input Representatie Output Representatie
(Acquisition)
Verwerking(Performance)
7
Inductieve & DeductieveModelbouw
Deductief (UG / nativisme / formeel-linguistisch)– Regels, logica– Deductie, inferentie– Handgemaakte kennisbronnen
Inductief (Data / empiricisme / corpustaalkunde)– Waarschijnlijkheden, regels, patronen, gewichten– Statistiek en patroonherkenning– Training
Computertaalkunde publicaties
8
Verklaring?
Beschikbaarheid van bronnen– BROWN, LOB, Penn Treebank, Celex,
Wordnet, ... Verwerkings- en opslagcapaciteit Toepasbaarheidsdruk (in research
sponsoring)Laatste 10 jaar: meer aandacht voor
zelflerende systemen naast statistiek
Computerlinguïstiek in 2005
Pragmatische benadering
9
Vertaalhulpmiddelen in plaats vanautomatisch vertalen
Text Mining in plaats van tekstbegrip
“Klassieke model” van AV
Brontaaltekst Doeltaaltekst
Interlingua
Analyse GeneratieTransfer
DirectExample-based Statistical
Knowledge-based
10
VertaalhulpmiddelenVertaalgeheugen: decomputer ‘onthoudt’ allevoordien vertaalde zinnen
SpellingcorrectieVertaalwoordenboekThesaurus
“State of the Art” Automatische Vertaling
HONG KONG - De Hongkongse justitie heeft voor een wereldprimeurgezorgd door vanmorgen een man vast te zetten die illegaal filmsverspreidde via het internet. Chan Nai-ming (38) werd op 24 oktoberschuldig bevonden van inbraak op de auteurswet omdat hij driehollywoodfilms zonder auteursrechtelijke toestemming onlineverspreidde via de BitTorrent technologie.
HONG KONG - the hongkongse justice has ensured a world first byfixing a man who illegally spread films by means of the Internetvanmorgen. Chan Nai-ming (38) were been on 24 October guilty ofburgling on the author law because he spread three hollywoodfilmswithout copyright authorisation online by means of the BitTorrenttechnology.
HONG KONG - le hongkongse Justice s'est occupé d'une premièregrande en un homme déposant ce matin qui a diffusé illégalement lesfilms via l'internet. Chan Nai-ming (38) a été trouvé le 24 octobrecoupable de cambriolage sur la loi d'auteur parce qu'il a diffusé troishollywoodfilms sans autorisation des droits d'auteur en ligne via leBitTorrent technologie.
Systran: Dutch to English to Dutch
11
Vertaalkwaliteit ~ inspanning Human Language Technology (HLT) allows people to communicate
with computers and to use computers in a natural manner in theirown language.
SYSTRAN E-F: La technologie humaine de langage (HLT) permet àdes personnes de communiquer avec des ordinateurs et d'utiliserdes ordinateurs d'une façon normale en leur propre langage.
SYSTRAN E-S : La tecnología humana del lenguaje (HLT) permiteque la gente se comunique con los ordenadores y que utilice losordenadores de una manera natural en su propio lenguaje.
Hoe bereiken we volledigtaalbegrip?
Een fundamentele oplossing voor probleem vantekstbegrip veronderstelt een oplossing voor– Representatie en gebruik van kennis / betekenis– Verwerving van kennis vergelijkbaar met menselijk niveau
Niet voor morgen, dus ...
12
Pragmatische aanpak, bijv:‘Question Answering’
Geef antwoord op een vraag(in tegenstelling tot information retrieval: vind
documenten die relevant zijn voor de vraag) Wie heeft de telefoon uitgevonden?
– Alexander Graham Bell Wanneer werd de telefoon uitgevonden?
– 1876
PhD project Sabine Buchholz, Tilburg University
QA Systeem: Shapaqa Analyseer de vraag
Wanneer werd de telefoon uitgevonden?– Welke informatie is gegeven?
Werkwoord uitgevonden Voorwerp telefoon
– Welke informatie hebben we nodig? Een temporele frase verbonden met het werkwoord
Document retrieval op WWW met de gegeven informatie Analyse van zinnen waar alle gegeven informatie in de juiste
grammaticale relaties voorkomt Tel de antwoorden die voorkomen in de gevraagde grammaticale
relatie (temporele frase)
13
Shapaqa: voorbeeld (Engelssysteem)
When was the telephone invented? Google: invented “the telephone”
– levert 835 paginas op– 53 geanalyseerde zinnen met de twee gegeven relaties en
met een temporele frase
is through his interest in Deafness and fascination withacoustics that the telephone was invented in 1876 , withthe intent of helping Deaf and hard of hearing
The telephone was invented by Alexander Graham Bell in1876
When Alexander Graham Bell invented the telephone in 1876, he hoped that these same electrical signals could
Shapaqa: frequentievolgorde Wanneer werd de telefoon uitgevonden? WWW resultaten bevatten fouten en de parser maakt fouten, maar
door het grote aantal antwoorden is het resultaat toch juist– 17:1876– 3:1874– 2: ago– 2: later– 1: Bell– …
14
Who shot Kennedy ?
4 x OSWALD
* www.anusha.com/jfk.htm situation in which Oswald shot Kennedy on November 22 , 1963 . * www.mcb.ucdavis.edu/people/hemang/spooky.html Lee Harvey Oswald shot Kennedy from a warehouse and ran . * www.gallica.co.uk/monarch.htm November 1963 U.S. President Kennedy was shot by Lee Harvey Oswald . * astrospeak.indiatimes.com/mystic_corner.htm Lee Harvey Oswald shot Kennedy from a warehouse and fled .
2 x BISHOP
* www.powells.com/biblio/0-200/000637901X.html The day Kennedy was shot by Jim Bishop . * www.powells.com/biblio/49200-49400/0517431009.html The day Kennedy was shot by by Jim Bishop .
1 x BULLET
* www.lustlysex.com/index_m.htm President John F. Kennedy was shot by a Republican bullet .
1 x MAN
* www.ncas.org/condon/text/appndx-p.htm KENNEDY ASSASSINATION Kennedy was shot by a man who was not .
Hoe moet het verder?(Het optimistische standpunt)
15
Deep Blue effect
Exponentiële groei in rekenkracht enopslagmogelijkheden van de hardware
Meer is beter bij inductieve benaderingen Er zit nog rek in de inductieve aanpak (beter
begrip welke methodes werken) Semantiek en wereldkennis zitten impliciet in
taalgebruik: grote (meertalige) corpora enlexicale databanken
Moravec 1998
16
WWW als corpus Februari 2000 (Altavista), aantal woorden:
Er is robuuste taaltechnologie om dezeteksten op te schonen en te verrijken.
Computerrekenkracht
Wet van Moore: rekenkracht verdubbelt elke18 maanden
Geheugen is geen probleem:2010: 1 Tbyte = $40 (nu: $4000)10 Tbyte glazen disk (grootte CD)
Parallelle machines
17
Tussenconclusies Op dit moment begrijpt de computer geen
taal Beperkte praktische toepassingen zijn al
mogelijk (en zullen nog beter worden) dooreen pragmatische aanpak
Echt begrip van tekst veronderstelt– een oplossing van het AI probleem of– een deep blue effect
Generalisation ≠ Abstraction
+ abstraction
- abstraction
+ generalisation - generalisation
Rule InductionConnectionism
Inductive Logic ProgrammingStatistics
Handcrafting
Table LookupMemory-Based Learning
…(Fill in your most hated
linguist here)
18
This “rule of nearest neighbor” has considerableelementary intuitive appeal and probably corresponds topractice in many situations. For example, it is possible thatmuch medical diagnosis is influenced by the doctor'srecollection of the subsequent history of an earlier patientwhose symptoms resemble in some way those of the currentpatient. (Fix and Hodges, 1952, p.43)
MBL: Use memory traces of experiences as a basis foranalogical reasoning, rather than using rules or otherabstractions extracted from experience and replacing theexperiences.
-etje
-kje
Coda last syl
Nucleus last syl
Rule Induction
19
?
-etje
-kje
Coda last syl
Nucleus last syl
MBL
Cognitive Architectures ofInflectional Morphology
Dual Route (Pinker, Clahsen, Marcus …)
– Rules for regular cases (over)generalization default behaviour
– Associative memory for exceptions irregularization / family effects
Single Route (R&M, MacWhinney, Plunkett, Elman, …)
– Frequency-based regularity
Dual Route
PatternAssociator Rule
Input Features
Suffix-class
MemoryFailure
20
The default status of -s
Similar item missing Fnöhk-s Surname, product name Mann-s Borrowings Kiosk-s Acronyms BMW-s Lexicalized phrases Vergissmeinnicht-s Onomatopoeia, truncated roots, derived nouns, ...
21
Data & Representation Symbolic features
– segmental information (syllable structure)– gender
~25,000 nouns from CELEX
24
Discussion Three “classes” of plurals: ((-en -)(-e -er))(s)
the former 4 suffixes seem “regular”, can be accuratelylearned using information from phonology and gender
-s is learned reasonably well but information is lacking Hypothesis: more “features” are needed (syntactic, semantic,
meta-linguistic, …) to enrich the “lexical similarity space”
No difference in accuracy and speed of learning withand without Umlaut
Overall generalization accuracy very high: 95% Schema-based learning (Köpcke).
*,*,*,*,i,r,M e