Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim [email protected].
-
Upload
adalina-carnevale -
Category
Documents
-
view
216 -
download
0
Transcript of Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim [email protected].
![Page 2: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/2.jpg)
Parametri di un corpus (1)
• Lingua: Monolingue Multilingui (corpora confrontabili) Paralleli
• Tipi di sorgenti: Scritto (generi) Parlato (radio, spontaneo, …) Misto
![Page 3: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/3.jpg)
Parametri di un corpus (2)
• Dimensioni corpus size (= numero di token) vocabulary size (= numero di type)
• Dinamicità: statico/monitor
• Informazione aggiuntiva (annotazione/markup) annotato/non annotato livello di annotazione tipo di codifica (testo, SGML/XML)
![Page 4: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/4.jpg)
Modi di usare un corpus
• Concordanze
• Liste di frequenza (token/type)
• Collocazioni
• Programmi appositi per la ricerca (specialmente laddove il corpus è annotato)
![Page 5: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/5.jpg)
Dimensioni: type e token
![Page 6: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/6.jpg)
Type e token
• Brown corpus: 1M tokens 50,406 types
• Birmingham/Cobuild corpora: 1M tokens (spoken only) 36,807 types 17,459 occorrono una volta sola
• Times newspapers 4M tokens 122,773 types 54,144 occorrono una volta sola
• general corpus of English 18m tokens 228,323 types 131,299 occorrono una volta sola
![Page 7: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/7.jpg)
Type e token
• 121m tokens 475,633 types 213,684 occorrenze singole
• 211m tokens 638,901 types
• 323m tokens 812,467 types
• 418m tokens 938,914 types 438,647 occorrenze singole
![Page 8: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/8.jpg)
Liste di frequenza
• liste che indicano le parole che compaiono in un corpus e la loro frequenza
• danno un’immagine quantitativa del corpus• una lista di frequenza ottenuta su un dato
corpus può essere confrontata con quella ottenuta su dati diversi
• NB: ciascuna parola è isolata dal contesto
![Page 9: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/9.jpg)
N-grammi
• gruppi di N parole che appaiono in sequenza nel testo
• si presentano come liste di frequenza (a ciascun N-gramma è associato il numero di occorrenze)
• utili per identificare espressioni specifiche e ricorrenti in un corpus
• la parola non è completamente avulsa dal contesto
![Page 10: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/10.jpg)
Collocazioni
• collocazione = N-gramma significativo (ricordate le misure di associazione?)
• collocati estratti data una certa finestra a sinistra (w-x) e destra (w+x) di una data parola (w)
• utili per identificare espressioni polirematiche e per studiare l’immediato contesto di una parola (frames etc.)
![Page 11: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/11.jpg)
Parametri di un corpus (2)
• Dimensioni corpus size (= numero di token) vocabulary size (= numero di type)
• Dinamicità: statico/monitor
• Informazione aggiuntiva (annotazione/markup) annotato/non annotato livello di annotazione tipo di codifica (testo, SGML/XML)
![Page 12: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/12.jpg)
Annotazione
• Arricchimento di un corpus con informazione di vario tipo (sostanzialmente tutti i livelli di analisi linguistica che abbiamo discusso) speech (fonetica) parola: part of speech, classi, sensi, … frasi: confini, alberi sintattici, dipendenze, … discorso: segmenti, anafora, relazioni di coerenza,
… oltre: variazioni, opinioni, sentimenti, …
![Page 13: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/13.jpg)
Schema di annotazione
• rappresentazione di un dato fenomeno linguistico da annotare
• teorico + pratico
• accompagnato solitamente da un insieme di istruzioni per guidare l’annotatore nelle scelte
![Page 14: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/14.jpg)
Esempio
• <P><S><W POS="PRON" NUM="PL“ LEMMA="we">We</W><W POS="V" LEMMA="have">have</W><W POS="EN" LEMMA="develop">developed</W><NP><W POS="DET" LEMMA="a">a</W><W POS="A“ LEMMA="computational"> computational</W><W POS="N" NUM="SG" LEMMA="paradigm"> paradigm</W><W POS="PUNCT">,</W> ...</NP> ... </S></P>
![Page 15: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/15.jpg)
Esempio schema
![Page 16: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/16.jpg)
Livelli di annotazione
• sostanzialmente tutti i livelli di analisi di cui abbiamo parlato (e oltre…): speech morfosintassi lessico semantica discorso pragmatica altro
![Page 17: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/17.jpg)
Principi di annotazione (Leech 93)
• l'annotazione deve poter essere rimossa• lo schema per l'annotazione deve essere basato su regole
precise ed essere anche a disposizione dell'utente• deve essere sempre chiaro chi (quanti annotatori e con
quali caratteristiche) e come (manualmente semi-automaticamente e con quali strumenti) ha annotato
• l'utente deve essere consapevole che l'annotazione non è ``oro" né infallibile e deve essere semplicemente considerata come strumento di lavoro
• lo schema di annotazione dovrebbe essere basato su principi il più possibile condivisi
![Page 18: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/18.jpg)
Come annotare in pratica
• manualmente, attraverso strumenti di sostegno appositi: sveltiscono il processo riducono l’errore umano
• automaticamente (per esempio POS)
• semi-automaticamente: primo passo automatico seguito da correzione (spesso di una porzione) manuale
![Page 19: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/19.jpg)
Costruire corpora
• Modi di acquisire/costruire corpora: Già in formato elettronico: conversione
diretta Scansione da cartaceo Digitazione manuale Trascrizione di registrazioni (parlato)
![Page 20: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/20.jpg)
Costruire corpora
• Lingua
• Dimensioni
• Genere (dominio, distribuzione, …)
• Dinamicità (statico/monitor)
• Annotazione
![Page 21: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/21.jpg)
Costruire corpora è impegnativo!
• Selezione del materiale, permessi, acquisizione
• Pulizia, spell-checking, annotazione, indicizzazione
• Documentazione
• Valutazione
• Distribuzione
![Page 22: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/22.jpg)
Distributori di corpora
• LDC (Linguistic Data Consortium)• ELRA (European Language Resources
Association)• TRACTOR (TELRI Research Archive of
Computational Tools and Resources)• ICAME (International Computer Archive
of Modern and Medieval English)
![Page 23: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/23.jpg)
Web = corpus?
![Page 24: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/24.jpg)
Web = corpus?
• Il Web può essere una sorgente di testi estremamente utile (enorme)
• Può essere di grande aiuto specialmente per lingue diverse dall’Inglese (e lingue per cui corpora controllati già esistono)
• Non è bilanciato, non è pulito, non si sa esattamente cosa c’è dentro…
![Page 25: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/25.jpg)
Wacky!
• corpora creati dal Web ma “ripuliti” e annotati
• circa 2% di materiale tenuto• ItWac, UkWac, …
![Page 26: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/26.jpg)
Alcuni corpora esistenti
• Brown Corpus/LOB corpus• Bank of English• Wall Street Journal, Penn Tree Bank, BNC, ANC,
ICE, WBE, Reuters Corpus• Canadian Hansard: corpus parallelo inglese-francese• York-Helsinki Parsed corpus of Old Poetry• Tiger corpus – tedesco• Europarl - corpora paralleli (lingue della Comunità
Europea)• …
![Page 27: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/27.jpg)
Per l’Italiano
• CORIS/CODIS (POS)• La Repubblica (POS+lemma)• ItWac (POS+lemma)• TuT (Turin Treebank)• VIT (Venice Italian Treebank)• VENEX (anafora)
![Page 28: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/28.jpg)
Altre risorse
http://www.ling.ohio-state.edu/~dickinso/corpus.html
http://linguistlist.org/sp/Texts.html
![Page 29: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/29.jpg)
Alcuni riferimenti
• Karin Aijmer and Bengt Altenberg (1991) English corpus linguistics, Longman
• Tony McEnery and Andrew Wilson (1996) Corpus linguistics, Edinburgh University Press
• Geoff Barnbrook (1996) Language and Computers, Edinburgh University Press
• Michael Oates (1998) Statistics for Corpus Linguistics, Edinburgh University Press
• Duglas Biber, Susan Conrad and Randi Reppen (1998) Corpus linguistics, Cambridge University Press
• Graeme D. Kennedy (1998) An introduction to corpus linguistics, Longman
• Tony McEnery (2003) Corpus linguistics. In Ruslan Mitkov (ed.) The Oxford Handbook of Computational Linguistics, Oxford University Press
![Page 30: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/30.jpg)
Verso i corpora
• Linguisticamente: critiche a linguistica formale ed esempi ad hoc interesse per linguistica testuale/discorso
• Tecnologicamente: Disk space costa sempre meno Testi digitali sempre più diffusi
• Economicamente: USA: fondi per valutazione sistemi su larga
scala e su dati reali
![Page 31: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/31.jpg)
Verso le macchine
• Linguisticamente: formalizzazioni (grammatiche categoriali) filosofia del linguaggio e logica matematica
(Wittgenstein) astrazione e grammatica universale
• Tecnologicamente: macchina di Turing (1936) nascita computer elettronici
• Storicamente/Economicamente: seconda guerra mondiale guerra fredda (specialmente anni ‘50)
![Page 32: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/32.jpg)
Prime macchine
• 1940-1945: primi computer Zuse Z3 (Germania 1941) Atanasoff–Berry Computer (USA 1941) ENIAC (USA 1944)
Electronic Numerical
Integrator And
Computer
![Page 33: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/33.jpg)
Macchine intelligenti
• Può una macchina svolgere le funzioni della mente umana?
• Quand’è che una macchina si può definire intelligente?
![Page 34: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/34.jpg)
Macchine intelligenti
• Può una macchina svolgere le funzioni della mente umana?
• Se la mente umana è caratterizzata dal linguaggio, può la macchina essere fornita di linguaggio umano?
È la capacità di linguaggio che rende intelligente una macchina?
![Page 35: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/35.jpg)
Cartesio (1637)Discorso sul Metodo
• se ci fossero delle macchine somiglianti agli umani che sapessero imitare le nostre azioni nel miglior modo possibile, avremmo comunque due modi certi di riconoscerle come macchine:
UNO: non potrebbero mai usare parole, o mettere insieme simboli, come invece noi facciamo per esprimere i nostri pensieri agli altri. Possiamo sì concepire una macchina che parla, ma non è pensabile che produca una risposta appropriata e che ha significato ad un qualsiasi input, come saprebbe invece fare anche il più insignificante degli uomini
![Page 36: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/36.jpg)
Cartesio (1637)Discorso sul Metodo
• se ci fossero delle macchine somiglianti agli umani che sapessero imitare le nostre azioni nel miglior modo possibile, avremmo comunque due modi certi di riconoscerle come macchine:
DUE: anche se alcune macchine possono svolgere dei compiti tanto bene quanto noi, o forse meglio, fallirebbero laddove è richiesto il ragionamento: rivelerebbero che agiscono non tanto tramite comprensione, quanto semplicemente per il modo in cui sono state costruite. È praticamente impossibile che una macchina abbia parti talmente elaborate che la rendano in grado di reagire agli stimoli della vita di ogni giorno come invece fa l’uomo mosso dalla ragione
![Page 37: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/37.jpg)
Alan Turing (1950)
• 1912-1954• articolo su Mind: è possibile creare un
programma che permetta ad un computer di comportarsi in maniera intelligente
“comportarsi in maniera intelligente”
?
![Page 38: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/38.jpg)
Test di Turing
• scopo: determinare se una macchina pensa
• origine del test (gioco di imitazione): A = uomo B = donna C = terza persona che senza vedere A e B
pone domande per cercare di capire chi è uomo e chi è donna
![Page 39: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/39.jpg)
Test di Turing
• scopo: determinare se una macchina pensa
in una conversazione, può una persona non accorgersi di stare parlando con una macchina invece che con un’altra persona?
![Page 40: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/40.jpg)
ELIZA
• il primo chatterbot: un programma che imita la conversazione umana (1962/66)
• Joseph Weizenbaum (MIT) • “imitazione” di una psicoterapia
utente = paziente computer = psicoterapeuta
• il paziente digita qualcosa, la macchina risponde di conseguenza
• JW: parodia delle domande di uno psicoterapista
![Page 41: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/41.jpg)
ELIZA
• P: Men are all alike. • E: IN WHAT WAY? • P: They’re always bugging us about something or other. • E: CAN YOU THINK OF A SPECIFIC EXAMPLE? • P: Well, my boyfriend made me come here.• E: YOUR BOYFRIEND MADE YOU COME HERE • P: He says I’m depressed much of the time. • E: I AM SORRY TO HEAR YOU ARE DEPRESSED
![Page 42: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/42.jpg)
ELIZA
• It’s true. I am unhappy • DO YOU THINK COMING HERE WILL HELP
YOU NOT TO BE UNHAPPY • I need some help, that much seems certain. • WHAT WOULD IT MEAN TO YOU IF YOU
GOT SOME HELP • Perhaps I could learn to get along with my
mother. • TELL ME MORE ABOUT YOUR FAMILY
![Page 43: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/43.jpg)
ELIZA
• My mother takes care of me. • WHO ELSE IN YOUR FAMILY TAKES CARE OF YOU • My father. • YOUR FATHER • You are like my father in some ways. • WHAT RESEMBLANCE DO YOU SEE • You are not very aggressive but I think you don’t want
me to notice that. • WHAT MAKES YOU THINK I AM NOT VERY
AGGRESSIVE • You don’t argue with me.
![Page 44: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/44.jpg)
ELIZA
• WHY DO YOU THINK I DON’T ARGUE WITH YOU • You are afraid of me. • DOES IT PLEASE YOU TO BELIEVE I AM AFRAID
OF YOU • My father is afraid of everybody. • WHAT ELSE COMES TO YOUR MIND WHEN YOU
THINK OF YOUR FATHER • Bullies. • DOES THAT HAVE ANYTHING TO DO WITH THE
FACT THAT YOUR BOYFRIEND MADE YOU COME HERE
![Page 45: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/45.jpg)
La strategia di ELIZA
• analisi input: ricerca di keyword• se viene trovata una keyword, la frase viene
trasformata seguendo alcune regole specifiche
• altrimenti viene selezionato un commento ``fuori dal
contesto”, standard, sempre valido viene selezionata una trasformazione precedente
• il testo creato/selezionato viene stampato sullo schermo per il paziente
![Page 46: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/46.jpg)
ELIZA: regole di trasformazione
• “I am X” “How long have you been X?"
“I am very unhappy” “How long have you been very unhappy?”
• “X you Y me” “What makes you think that I Y you?”
• “It seems that you hate me”“What makes you think that I hate
you?”
![Page 47: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/47.jpg)
ELIZA
• da punto di vista terapeutico: fallimento!
• ma scopo originario: studiare la possibilità di costruire interazioni fra macchina e uomo basate sui linguaggi naturali
• ma è linguistica? conoscenza linguistica assente “linguistic processing” assente
NB: ELIZA passa il test di Turing!
![Page 48: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/48.jpg)
Traduzione automatica
• prima applicazione linguistica dei calcolatori (anni ‘50)
• forte motivazione storica: successo della crittografia (seconda guerra
mondiale) necessità in guerra fredda (russo)
• riflessione linguistica: lingua universale
![Page 49: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/49.jpg)
Traduzione automatica
• interlingua: data l’universalità della lingua si può pensare di passare da una lingua all’altra attraverso una rappresentazione astratta
• Leibniz e Cartesio (XVII sec): codici per trasformare parole da una lingua all’altra
• prime “macchine di traduzione” (non computer) già negli anni ‘30
![Page 50: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/50.jpg)
Traduzione automatica
• Georgetown experiment (1954) traduzione completamente automatica di 50 frasi dal russo
all’inglese sistema estremamente semplice:
• sei regole grammaticali• 250 vocaboli
mini-dominio: chimica organica grande successo, soprattutto economico e mediatico
entro tre/cinque anni: MT = solved problem!
![Page 51: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/51.jpg)
Traduzione automatica
• ALPAC report (1966): Automatic Language Processing Advisory
Committee enorme scetticismo sui progressi in MT lingua troppo complessa (aha!) necessari studi in linguistica computazionale fondi drasticamente ridotti
![Page 52: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/52.jpg)
Traduzione automatica
• Systran (1970) russo -> inglese scopo principale: comprensione (anche se approssimativa) sistema ancora utilizzato in Altavista! (babelfish)
• “oggi lezione è alle tre”
• “today lesson is to the three”
• “oggi la lezione è ai tre”
• “today the lesson is to the three”
![Page 53: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/53.jpg)
Anni Settanta
• 1970: TAUM “Macchina del Tempo” traduzione automatica delle previsioni del tempo (Canada)
• 1970s: SYSTRAN sistema di traduzione automatica (ancota usato da Altavista!)
• 1972: LUNAR: sistema di question-answering su dominio iper-ristretto (analisi di materiali rocciosi lunari)
• 1968-1970: SHRDLU (Terry Winograd): istruzioni ad un robot per spostare dei blocchi giocattolo
![Page 54: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/54.jpg)
SHRDLU
• Terry Winograd, MIT (Ph.D.)
• 1968-1970 sviluppa SHRLDU:
sistema di interazione uomo-macchina in linguaggio naturale: l’utente ordina alla macchina di svolgere alcuni compiti specifici in un dominio ristretto
![Page 55: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/55.jpg)
SHRDLU: principi
• dominio ristretto: sufficienti alla descrizione circa 50 lemmi (palla, cono, blocco, sposta, sopra, rosso,…)
• memoria: la macchina “ricorda” lo status raggiunto dopo l’ordine (history)
• memoria: nuovi concetti vengono incamerati (es.: definizioni di alcune combinazioni) e possono essere richiamati
![Page 56: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/56.jpg)
SHRDLU
• Person: Pick up a big red block.• Computer: OK.• Person: Grasp the pyramid.• Computer: I don't understand which pyramid you mean.• Person (changing their mind): Find a block which is taller
than the one you are holding and put it into the box.• Computer: By "it", I assume you mean the block which is
taller than the one I am holding.• Computer: OK.
![Page 57: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/57.jpg)
SHRDLU
• Person: What does the box contain?• Computer: The blue pyramid and the blue block.• Person: What is the pyramid supported by?• Computer: The box.• Person: How many blocks are not in the box?• Computer: Four of them.• Person: Is at least one of them narrower than the one
which I told you to pick up?• Computer: Yes, the red cube.
![Page 58: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/58.jpg)
SHRDLU
• comprende il linguaggio in un dominio (molto) limitato usando: grammatica per l’Inglese parsing sintattico (insieme di regole) ragionamento semantico
![Page 59: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/59.jpg)
Minsky (1968)
• "Il problema della ricerca efficace con euristiche rimane un presupposto soggiacente [in IA], ma non è più il problema a quale pensare, dato che siamo immersi in sotto-problemi più sofisticati, ossia la rappresentazione e modifica di piani"
![Page 60: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/60.jpg)
Scenari
• per aiutare una macchina a capire e prendere decisioni, si possono sviluppare alcuni scenari: Minsky: Frames Schank (& Abelson): Scripts
• modo di semplificare, “aggirare” il ragionamento da parte della macchina: sviluppo di “abitudini”
• modo di fornire alla macchina la conoscenza del mondo che gli umani naturalmente hanno e condividono
![Page 61: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/61.jpg)
Overview/Sommario
• ‘50: traduzione automatica (stop a ricerca da ALPAC report)
• ‘60: applicazioni usano tecniche linguistiche, soprattutto sintattiche; influenza Chomsky (grammatiche formali). Domini ristretti, assenza di portabilità
• ‘70/’80: approcci simbolici (sistemi di regole). Molta più consapevolezza (e ricerca!) linguistica. Consapevolezza necessità di conoscenza del mondo, ma difficoltà implementative
![Page 62: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/62.jpg)
Overview/Sommario
• ‘90 Statistical NLP tecniche favorite da grandi quantità di dati
disponibili problemi dati dalla qualità dei dati controsenso: spesso poca attenzione al problemi
linguistici e maggiore attenzione a problemi computazionali
• ora: combinazioni di metodi simbolici e statistici, creazione (anche automatica) di risorse: grammatiche, basi di conoscenze
![Page 63: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/63.jpg)
Applicazioni (e problemi linguistici)
• Spell e grammar checking correggere automaticamente un input
• calvin tira una plala di neve a hobbes• calvin ho tirato un palla di neve a hobbes
• Speech recognition Derivare una rappresentazione testuale da
un enunciato
![Page 64: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/64.jpg)
Applicazioni (e problemi linguistici)
• Parsing assegnare una struttura sintattica ad una frase in
input
• Machine Translation tradurre un testo da lingua A a lingua B
• Word Sense Disambiguation in casi di polisemia, individuare il significato di una
parola in un dato contesto• amo la pesca matura• amo la pesca sul lago• amo la pesca d’estate
![Page 65: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/65.jpg)
Applicazioni (e problemi linguistici)
• Question Answering domanda in linguaggio naturale, risposta in
linguaggio naturale
• Summarisation creare un riassunto da più testi su un dato
argomento
• Semantic Role Labelling assegnare un ruolo tematico ad ogni
argomento di un dato verbo
![Page 66: Fondamenti di Linguistica 1 Dicembre 2009 Malvina Nissim malvina.nissim@unibo.it.](https://reader036.fdocument.pub/reader036/viewer/2022062512/5542eb6a497959361e8d59de/html5/thumbnails/66.jpg)
Questioni terminologiche
• Artificial Intelligence
• Linguistica Computazionale
• Natural Language Processing
• Human Language Technology
• Language Engineering