linguisticacomputazionale.files.wordpress.com · Web view, che in ogni caso esula degli scopi di...
Transcript of linguisticacomputazionale.files.wordpress.com · Web view, che in ogni caso esula degli scopi di...
LE POLIREMATICHE DELL’ITALIANO
Annibale Elia, Mario Monteleone, Giustino De Bueriis, Franco Di Maio
Dipartimento di Scienze della ComunicazioneUniversità degli Studi di Salerno
0. Premessa............................................................................................................................................2
1. MONOREMATICHE E POLIREMATICHE NELLA LINGUISTICA CONTEMPORANEA.....2
1.1 DEFINIZIONI DI MONOREMATICA, POLIREMATICA, PAROLA SEMPLICE E PAROLA COMPOSTA....21.2 PRIMI STUDI ITALIANI SULLA COMPOSIZIONE DELLE PAROLE....................................................21.3 MORPHEME SEQUENCES E PHRASES.............................................................................................2
2. Le parole composte polirematiche nel lessico-grammatica......................................................................2
2.1 IL CONCETTO DI CONTINUUM......................................................................................................22.2 NOMI COMPOSTI E GRUPPI LIBERI DI PAROLE.............................................................................2
2.2.1 Strutture formali..................................................................................................................22.2.2 Analisi morfologica, lessicografica, semantica e sintattica delle parole composte polirematiche.....2
2.3 LE PAROLE COMPOSTE POLIREMATICHE NELL’ANALISI TESTUALE AUTOMATICA......................22.3.1 I software per l’analisi testuale automatica........................................................................2
2.3.1.1 Automi a stati finiti, grafi ed espressioni regolari........................................................22.3.2 Dizionari elettronici............................................................................................................2
2.3.2.1 La strutturazione del DELAS-DELAF.........................................................................22.3.2.2 La strutturazione del DELAC-DELACF......................................................................2
2.3.3 Parole composte polirematiche e terminologia..................................................................2
3. Conclusioni.........................................................................................................................................2
4. Appendice...........................................................................................................................................2
4.1 UN ESEMPIO DI UTILIZZO DEI DATI SUL WEB..............................................................................24.2 ESTRATTO DAL DELACF DELL'ECONOMIA................................................................................2
5. Bibliografia.........................................................................................................................................2
2
0. Premessa
In questo saggio1, ci occuperemo principalmente della parole composte polirematiche
dell’italiano, ovvero di quelle unità di significato formate da più di una parola e che hanno valore di
entrata di dizionario, in quanto lessicalizzate. Nell’analisi di queste forme, faremo riferimento al
quadro teorico e metodologico lessico-grammaticale individuato da Maurice Gross2 per il francese
ed applicato all’italiano da Annibale Elia, Emilio D’Agostino e Maurizio Martinelli3. Inoltre,
faremo ampio riferimento alla teoria della formazione dei gruppi di parole elaborata da Zelig S.
Harris4, come antecedente effettivo a quella dei sintagmi nominali elaborata da N. Chomsky5,
nonché come impostazione metodologica più vicina all’approccio analitico che intendiamo
utilizzare in queste pagine.
Sebbene appaia superfluo, specifichiamo infine che la nostra analisi mira ad essere uno
studio di carattere strutturalista, ovvero un’indagine sulle forma delle polirematiche; di carattere
lessicologico e lessicografico, ovvero un’indagine sulle necessità di lemmatizzazione delle
polirematiche, e di carattere semantico, in virtù del rapporto stretto che esiste tra polirematiche e
terminologia, nonché tra polirematiche, recupero automatico delle informazioni e strutturazione del
Web Semantico.
1 Il contenuto di questo articolo è stato elaborato da: Annibale Elia per quanto riguarda la Premessa, il capitolo 1 (inclusi tutti i relativi paragrafi e sottoparagrafi) e le Conclusioni; da Giustino De Bueriis, per quanto riguarda il capitolo 2 e fino al paragrafo 2.2.2; da Mario Monteleone per quanto riguarda i paragrafi e sottoparagrafi da 2.3 a 2.3.3 e l’Appendice, salvo il paragrafo 4.1, che è stato realizzato da Franco Di Maio.2 Cfr. Gross, M. (1968), (1975), (1977) e (1991).3 Cfr. Elia, A., Martinelli, M., D’Agostino, E. (1981).4 Cfr. Harris, Z. S. (1970).5 Cfr. Chomsky, N. A. (1965).
3
1. Monorematiche e polirematiche nella linguistica contemporanea
1.1 Definizioni di monorematica, polirematica, parola semplice e parola composta
Il termina polirematica si compone del prefisso poli- (molti) anteposto all’aggettivo
rematico, di uso prettamente linguistico e derivato dal sostantivo rema (greco rhêma "parola,
verbo"). È attestato in italiano a partire dal 1995, e come indicato da De Mauro (2000), si usa in
riferimento ad un gruppo di parole che ha un significato unitario, non desumibile da quello delle
parole che lo compongono, sia nell'uso corrente sia in linguaggi tecnico-specialistici, come in
italiano vedere rosso "adirarsi" o scala mobile "crescita dei salari al crescere dell'inflazione", ecc.
In tempi recenti, rispetto alla sua originaria definizione, questo termine ha tuttavia visto modificarsi
la rilevanza della non-composizionalità (in relazione al significato unitario non desumibile da
quello delle parole che lo compongono). Oggi infatti, con il termine polirematiche si indicano anche
sequenze a carattere composizionale, o comunque non fortemente idiomatiche, soprattutto per ciò
che riguarda i linguaggi settoriali e terminologici. In base alla precedente definizione, saranno
quindi parole composte polirematiche termini come capo stazione o anche capo-stazione, capi
stazioni o anche capi-stazione, case di cura, corto circuito, ben pensanti, dopo scuola o anche
dopo-scuola, madre lingua e sordo-muto.
Un passaggio tuttavia complesso della stessa definizione è di certo quello relativo al
concetto di “parola”, che non viene definito, e di conseguenza a quello di “gruppo di parole” che
compone una polirematica. Ricordiamo che definire con precisione cosa sia una parola è
un’operazione complessa1, che in ogni caso esula degli scopi di questo articolo. Tuttavia, pur non
potendo qui approfondire ulteriormente questo aspetto, appare necessario fornire delle indicazioni
di massima sul concetto di “parola”, al solo scopo di offrire elementi non ambigui sia per
l’interpretazione di quanto stiamo definendo, sia come ausilio alla lettura delle prossime pagine. A
tale proposito, notiamo che il lessico-grammatica, come vedremo in seguito, ha applicato una netta
divisione tra parole semplici, da una parte, e parole composte dall’altra, opponendo le une alle altre
principalmente su base formale e lessicale. Le parole semplici del lessico-grammatica sono infatti
delle sequenze alfabetiche o alfanumeriche che vengono trascritte senza interruzioni di sorta, e che
possono essere sia unità di significato, qualora abbiano al loro interno almeno un morfema lessicale
corredato da pertinenti informazioni grammaticali e flessive, come avviene per i sostantivi sedia o
cavalli, sia meri elementi funzionali morfosintattici e grammaticali, come ad esempio la
preposizione per o la congiunzione o. Il lessico-grammatica definisce invece come parole composte
tutte quelle sequenze di due o più parole semplici, separate da spazi bianchi o caratteri non 1 Cfr. De Bueriis, G. (2003).
4
parole semplici parole composte
opposte a
parole composte monorematicheparole composte polirematiche
alfanumerici, e che possono essere sia unità di significato lessicalizzate, come ad esempio carta di
credito, sia elementi funzionali morfosintattici e grammaticali, come ad esempio a cavallo di, usato
come preposizione nell’espressione essere a cavallo di una motocicletta.
Riguardo quest’ultima definizione, è possibile tuttavia affermare che essa è più generale di
quella indicata in precedenza per le polirematiche, e che per certi versi la racchiuda, poiché come
abbiamo già potuto notare, all’interno delle definizione di polirematica rientrano gruppi di parole
che hanno un valore esclusivamente lessicale, mentre non vengono presi in considerazione quei
gruppi di parole che hanno funzione morfosintattica e grammaticale, quali ad esempio i
determinanti composti o le preposizioni composte. In tal senso, le parole composte polirematiche
rappresentano un sottoinsieme specifico delle parole composte del lessico-grammatica. Inoltre,
proprio a causa delle specifiche caratteristiche lessicali e semantiche di cui dispongono, le
polirematiche si oppongono a loro volta per definizione alle parole composte monorematiche,
ovvero a quelle unità di significato in cui due parole semplici si realizzano in una parola unica,
come ad esempio capostazione, capistazione, pomodoro, pomidori, bagnasciuga, cortocircuito,
benpensanti, doposcuola, madrelingua e sordomuto. Sempre in un’ottica di agglutinazione di
morfemi lessicali, saranno invece considerate monorematiche parole semplici come sedia, il o
contemporaneamente, in cui non c’è fusione di due parole diverse, ma solo di morfemi diversi
(lessicali, grammaticali, o derivazionali). Su tali basi, è perciò anche possibile affermare che le
parole composte monorematiche siano un sottoinsieme specifico delle parole semplici del lessico-
grammatica, in virtù di una definizione che non è solo formale e lessicale, ma che si basa anche su
restrizioni più specificamente morfologiche e morfemiche.
L’immagine riportata qui di seguito servirà, in termini di insiemi e sottoinsiemi, da supporto
grafico alle schematizzazioni fornite in precedenza:
5
Figura 1.
1.2 Primi studi italiani sulla composizione delle parole
Allo stato attuale, da un punto di vista formale e morfologico-composizionale, risultano
quindi chiaramente delineate sia le definizioni che le opposizioni formali tra parole semplici e
composte, nonché tra monorematiche e polirematiche. Tuttavia, come già accennato, si tratta di
definizioni ed opposizioni che appartengono all’analisi linguistica a noi contemporanea, poiché
sono frutto di studi e ricerche nate a partire dagli anni ’60 del secolo scorso. Al contrario, è
possibile notare che nella descrizione linguistica precedente a quel periodo, il trattamento di queste
espressioni era stato impostato in termini diversi da quelli che qui abbiamo cominciato a definire.
Ad esempio, spesso all’interno dell’analisi dei composti si faceva rientrare anche quella di
argomenti come la suffissazione e la prefissazione, in cui come è noto un morfema lessicale e le sue
pertinenti informazioni flessive e grammaticali vengono modificati dall’aggiunta di morfemi
derivazionali, notoriamente privi di significato autonomo. La scelta di abbinare lo studio della
derivazione e quello della composizione ha quindi portato in alcuni casi a classificare come
composti anche termini quali indurire o pretendere, in cui c’è effettivamente presenza di morfemi
diversi, di cui solo uno è tuttavia lessicale – e nel caso di indurire, è per altro obsoleto. Oggi,
invece, prefissazione e suffissazione, sebbene restino argomenti trattati specificamente dalla
morfologia della composizione, hanno una collocazione analitica diversa rispetto allo studio
formale, lessicale e semantico che qui intendiamo esporre.
Per ciò che riguarda le principali funzionalità metodologiche della nostra analisi, nelle
prossime pagine ci occuperemo principalmente di parole composte polirematiche, così come esse
sono state precedentemente definite. Infatti, vedremo che queste unità di significato rivestono oggi
una grande importanza sia nell’analisi automatica delle forme testuali, sia nella terminologia, quindi
in modo piuttosto diretto, anche nella strutturazione del Web Semantico.
Tuttavia, per dare alcuni esempi di come generalmente si è svolto in passato l’analisi sui
composti dell’italiano, qui di seguito citiamo un breve passaggio in cui Tollemache (1945), che
riprende l’analisi e l’impostazione di Darmsteter (1894) per il francese e altre lingue romanze,
imposta metodologicamente il suo studio:
6
… per ogni composto occorre esaminare la natura dei componenti,
quella dei rapporti che intercorrono fra di essi e quella della
risultante. Che si debba tener conto della natura dei singoli elementi è
evidente, tanto più che il lavoro del Bologna ha sufficientemente
dimostrato l’impossibilità del sistema contrario. Questo tuttavia non
basta, giacché ci sono parole uguali esternamente, ma essenzialmente
diverse o per la diversa natura dei rapporti logici fra i componenti, o
perché appartengono a categorie grammaticali differenti. Così, ad
esempio, i composti “linguamadre” e “madreperla” vanno distinti,
giacché nel primo caso il determinante ha funzione di apposizione: la
lingua è madre; in “madreperla” invece, che è la madre della perla, i
rapporti fra i due membri sono di subordinazione.1
Il libro di Tollemache è il primo testo post-saussuriano in cui si tratta dei composti
dell’italiano, sia monorematici che polirematici2. Il metodo di analisi utilizzato è allo stesso tempo
basato su criteri morfologici, etimologici ed anche (blandamente) formali e strutturalisti, e la
fusione di tutti questi approcci produce risultati in alcuni casi – e con il senno di poi – piuttosto
eterogenei e poco metodici.
Tuttavia, quest’opera ha degli indubbi pregi, quali ad esempio:
aver ricercato per la prima volta in modo moderno, all’interno di specifiche parole
dell’italiano, la presenza di più morfemi diversi, quindi anche di più morfemi
lessicali;
aver investigato le modalità con cui i morfemi arrivano a comporre parole uniche;
aver tentato una prima classificazione delle parole composte in base ai criteri di
formazione e struttura interna.
Aggiungiamo che in alcuni passaggi specifici, l’autore sembra inoltre tentare un’operazione
di difficile compimento, ovvero quella di voler coniugare i canoni strutturalisti di valutazione con
un semanticismo (anche) etimologico, necessario alla stesura del saggio, perciò non autonomo, ma
funzionale all’analisi stessa.
1 Tollemache, F. S. J. (1945), pagg. 8-9.2 Tollemache non usa mai il termine “monorematica” e “polirematica” per fare riferimento alla parole composte di cui tratta.
7
Ma al di là dell’articolazione dei contenuti, la cui finalità è di fatto fortemente diversa da
quella di queste nostre pagine, ci sembra tuttavia opportuno sottolineare che i pregi individuati in
precedenza costituiscono contemporaneamente anche il limite principale di quest’opera: nonostante
la molteplicità di approcci analitici, che teoricamente avrebbero potuto garantire risultati più solidi,
Tollemache arriva ad analizzare in modo piuttosto omogeneo solo le parole composte
monorematiche dell’italiano, tracciando per esse delle precise linee di sviluppo possibile per gli
studi a lui posteriori. Riguardo le parole composte polirematiche, e per motivi oggi difficilmente
individuabili, il testo appare invece molto povero1. Aggiungiamo infine che nell’individuazione
delle parole composte monorematiche, Tollemache non fa distinzione tra le procedure di
prefissazione e la giustapposizione (o l’agglutinazione) di termini diversi, anche derivanti dal latino.
Quindi, risultano catalogati come monorematici termini quali accomunare, rimaledire, rimescolare
o addirittura uccidere, nonché termini come guardacoste e guastafeste.
Di maggior caratura analitica ed interesse scientifico si presenta invece Dardano (1978),
opera di taglio più moderno nonché maggiormente esaustiva per quanto riguarda l’analisi dei
fenomeni relativi alla formazione delle polirematiche e della loro catalogazione. In questo testo, che
è fortemente debitore verso le impostazioni metodologiche di Zellig S. Harris – del quale ci
occuperemo in seguito – e dello strutturalismo, viene mantenuto l’impianto analitico di Tollemache
– studio di suffissazione, prefissazione e composizione, sia per le parole composte monorematiche
che per quelle polirematiche. Tuttavia, per quanto riguarda suffissazione e prefissazione, Dardano
applica in modo sistematico l’analisi delle trasformazioni categoriali, ovvero di quelle creazioni in
cui l’aggiunta di un suffisso porta una parola a mutare di categoria grammaticale2. Quindi,
contrariamente a quanto visto in Tollemache, rispetto a suffissazione e prefissazione l’analisi delle
parole composte monorematiche ha una collocazione autonoma e distinta all’interno dell’opera.
Inoltre, probabilmente mutuandola dalla grammatica sintagmatica di Chomsky, Dardano applica in
modo esaustivo un’analisi strutturale dei composti, che vengono perciò suddivisi in base alla
categoria grammaticale degli elementi costitutivi interni. Ciò porta l’autore ad individuare sequenze
del tipo:
N + di + N (cavallo di razza);
N + a + N (motore a gas);
N + da + N (carta da disegno);1 Le parole composte polirematiche riconosciute e catalogate da Tollemache sono di numero molto esiguo; alcuni avverbi, come a fortiori, a posteriori, a priori, di fronte (ma non la preposizione di fronte a), alcune preposizioni oggi poco utilizzate come a cagione di (ma è assente a causa di) e di là da; infine, qualche sporadico sostantivo come arco buttante, lacrime di Giobbe, lachryma Christi, padre di famiglia e palla a volo.2 In tal caso, parliamo di verbalizzazione, nominalizzazione, aggettivizzazione tramite l’applicazione di specifici suffissi a morfemi lessicali.
8
N + PREP + N (furto con scasso);
N + N (uccello mosca);
N + A (campagna presidenziale).
Sebbene l’opera si presenti comunque lievemente sbilanciata verso lo studio delle parole
composte monorematiche, l’impianto metodologico ed analitico complessivo è estremamente
moderno, tanto da risultare ancora valido a distanza di trent’anni dalla sua pubblicazione.
Aggiungiamo che rifacendosi ai sintagmi chomskiani, Dardano basa indirettamente la sua analisi
anche sui presupposti harrisiani, che come detto sono antecedenti alla grammatica sintagmatica.
1.3 Morpheme sequences e phrases
Abbiamo evidenziato come la peculiarità delle parole composte polirematiche sia sfuggita a
Tollemache. Tuttavia, nello stesso periodo in cui fu pubblicato il testo dello studioso italiano, e per
la precisione nel 1946, il linguista americano di origine ucraina Zellig S. Harris impostava per la
prima volta, in termini strutturalisti ed in relazione all’inglese, lo studio della composizione di
morfemi diversi in unità linguistiche più complesse1, quindi anche dei gruppi di parole o sintagmi.
Le formulazioni di Harris hanno un valore fondamentale per lo studio contemporaneo delle parole
composte polirematiche, poiché tracciano in modo quasi definitivo le modalità formali e funzionali
di analisi dei composti, costruendo quindi un metodo universale che si focalizza inizialmente sui
composti dell’inglese ed interessa in seguito anche altre lingue. Inoltre, nell’ambito degli sviluppi
dell’analisi formale del linguaggio naturale, i metodi individuati da Harris sono risultati basilari per
lo studio tassonomico sulle parole composte impostato e realizzato del lessico-grammatica in
francese, italiano e molte altre lingue.
L’articolo in cui Harris fonda tale metodo analitico si intitola From Morpheme to
Utterances. Originariamente pubblicato nella rivista Language (22, n. 3 del 1946), si apre come
segue:
This paper presents a formalized procedure for describing utterances
directly in terms of sequences of morphemes rather than of single
morphemes. It thus covers an important part of what is usually
included under syntax. When applied in a particular language, the
procedure yields a compact statement of what sequences of
1 Cfr. Harris (1970), in particolare l’articolo del 1946 intitolato “From Morphemes to Utterances” e a seguire, “Componential Analysis of a Paradigm” e “Immediate-Constituent Formulation of English Syntax”.
9
morphemes occur in the language, i.e. a formula for each utterance
(sentence) structure in the language.
At present, morpheme classes are formed by placing in one class all
morphemes which are substitutable for each other in utterances, as
“man” replaces “child” in “The child disappeared”. The procedure
outlined below consists, essentially, in extending the technique of
substitution from single morphemes (e.g. “man”) to sequences of
morphemes (e.g. “intense young man”). In so far as it deals with
sequences, it parallels the type of analysis frequently used in syntax,
so that the chief usefulness of this procedure is probably its
explicitness rather than any novel of method or result. 1
In questa rapida introduzione, ed in maniera semplice ma immediata, Harris menziona per la
prima volta nella linguistica contemporanea il concetto di sequenza libera di parole semplici2 con un
unico significato complessivo. Inoltre, poche pagine dopo, fornisce la classificazione di ogni
sequenza di parole in base alla funzione grammaticale svolta all’interno di contesti frastici,
individuando un gruppo per ogni categoria grammaticale, ovvero:
i gruppi nominali3, come il cane bianco o il cane della pistola;
1 “Questo articolo presenta una procedura formale per descrivere le proposizioni direttamente in termini di sequenze di morfemi piuttosto che di morfemi semplici. Perciò, prende in esame una parte importante di ciò che normalmente viene studiato dalla sintassi. Quando viene applicata ad una specifica lingua, questa procedura permette di definire in modo preciso quali siano le sequenze di morfemi che occorrono in quella lingua, i.e. quale sia la formula per ogni struttura proposizionale (frastica) di quella lingua.Allo stato attuale, le classi di morfemi vengono formate inserendo in una specifica classe tutti i morfemi in grado di sostituirsi l’uno all’altro all’interno di proposizioni, come ad esempio “uomo” sostituisce “bambino” in “Il bambino è scomparso”. La procedura delineata nelle pagine che seguono consiste essenzialmente nell’estendere la tecnica di sostituzione dai morfemi semplici (ad esempio, “uomo”) alle sequenze di morfemi (ad esempio “giovane uomo vigoroso”). Considerando che essa esamina delle sequenze, si associa al tipo di analisi spesso usata nella sintassi, quindi la maggiore utilità di questa procedura è probabilmente nella esplicitezza piuttosto che nella innovazione metodologica o risultativa.” Harris, Z. S. (1970), pag. 100, traduzione dei redattori.2 Va tuttavia sottolineato che in questo articolo, con il termine morpheme Harris vuole indicare ogni tipo di morfema, che sia lessicale, grammaticale o flessivo. Ancora, va sottolineato che a causa della particolare struttura morfologica dell’inglese, spesso c’è perfetta coincidenza formale tra morfemi lessicali e parole lemmatizzate nei dizionari. Ad esempio, man è sia morfema lessicale che lemma, caratteristiche assenti nel suo traducente italiano “uomo”, che è un’entrata di dizionario composta dal morfema lessicale “uom-” e da quello grammaticale/flessivo “-o”. 3 Elemento principe di questa tipologia, il gruppo nominale o sintagma nominale è una sequenza di parole semplici che in genere comprende un nome. Questo gruppo viene detto nominale in quanto all’interno di frasi e discorsi assume le funzioni grammaticali di un elemento nominale. All’interno del gruppo, il nome è generalmente preceduto o seguito da parole, dette premodificatori e postmodificatori, che in qualche modo lo caratterizzano. Da un punto di vista compositivo, il vincolo della presenza di un elemento testa all’interno dei gruppi viene conservato anche per tutte le altre categorie, perciò si è soliti dire che un gruppo aggettivale contiene generalmente un aggettivo, anche se come vedremo più che di una regola, in questo caso, si deve parlare di una tendenza statistica, che a volte viene elusa da restrizione di carattere sintatto-semantico.
10
i gruppi verbali, come mettere in moto o tirare le cuoia;
i gruppi aggettivali, come rosso vivo e rosso d’India;
i gruppi avverbiali, come per le scale e a quattro palmenti;
i gruppi preposizionali, come in mezzo a e in direzione di;
i gruppi congiuntivi, come e ancora, o anche se;
i gruppi esclamativi, come alla salute o santi numi;
i gruppi di determinanti, come qualche tipo di o un sacco di;
i gruppi pronominali, come suo di lei, o i nostri tre.
Ancora, sempre nello stesso articolo, Harris effettua una lunga e dettagliata classificazione
delle classi di morfemi dell’inglese, introducendola con una analisi dei rapporti di equivalenza
distribuzionale possibili tra parole semplici e gruppi di parole:
For the purposes of the English examples, we shall set up the
following classes of morphemes, on the criterion that for each class
there are particular sentence positions which can be filled by any
member of that class and by these alone. (…) Sequences of morpheme
classes which are found to be substitutable in virtually all
environments for some single morpheme classes, will be equated to
that morpheme class: AN = N means that “good boy”, for example,
can be substituted for “man” anywhere. If we write DA = A (“quite
old” for “old”) then DA can substitute for A wherever A appears, e.g.
in AN = N (“old fellow” for “man”, where we can substitute “quite
old” for “old”, and obtain “quite old fellow” DAN = AN = N). There
is nothing to prevent us from substituting DA for A even in the
equation DA =A. We would then obtain DDA = A: “really quite old”
for “old”. 1
1 “Per supportare gli esempi in lingua inglese, utilizzeremo le seguenti classi di morfemi, basandole sulla considerazione che per ogni classe, all’interno di ogni frase, ci sono particolari posizioni che possono essere ricoperte da qualsiasi membro di quella classe, e solo dagli elementi di quella classe. (…) Le sequenze di classi di morfemi per cui si arriva a definire che possono sostituire alcune classi di singoli morfemi in quasi ogni contesto, verranno equiparate a quella classe: AN = N significa che good boy [bravo ragazzo], ad esempio, può sostituire ovunque man [uomo]. Se scriviamo DA =A (quite old [molto vecchio] per old [vecchio], allora DA potrà sostituire A ogni volta che A appare, ad esempio in AN = N (old fellow [vecchio amico] per man [uomo], in cui possiamo sostiure old [vecchio] con quite old [piuttosto vecchio], ed ottenere quite old fellow [amico piuttosto vecchio] DAN = AN = N). Nulla ci impedisce di sostituire A con DA persino nell’equazione DA = A. Otterremmo così DDA = A: really quite old [davvero piuttosto vecchio] per old [vecchio].”, Harris, Z. S. (1970), pagg. 105-108, traduzione dei redattori.
11
Le classi di morfemi dell’italiano, le loro capacità di formare gruppi di parole nonché i
rapporti di equivalenza distribuzionale che tali gruppi stabiliscono con le parole semplici all’interno
di contesti frastici non differiscono di molto da quelli evidenziati da Harris per l’inglese. Le uniche
eccezioni sostanziali si devono al fatto che l’italiano è una lingua con una morfologia flessiva molto
più sviluppata di quella dell’inglese. Perciò, nel nostro caso, oltre a quello sulle strutture interne dei
gruppi di parole, si impone anche uno studio morfologico dei singoli componenti, allo scopo di
valutare in quale misura la loro morfologia influisca sulla flessione del gruppo intero, laddove
richiesta, o venga addirittura bloccata da caratteristiche specifiche di alcuni gruppi. Sarà questo un
aspetto di cui ci occuperemo ampiamente nelle prossime pagine di questo articolo.
Sempre in relazione ai gruppi di parole, un ulteriore spunto di analisi di cui Harris si è fatto
promotore è di tipo sintatto-semantico, ovvero trasformazionale, con cui ad esempio si esaminano le
modalità in cui una frase, tramite nominalizzazione, dà origine ad un gruppo nominale. In
trasformazioni simili, all’interno del gruppo nominale trasformato vengono trasportati i rapporti di
co-occorrenza e restrizione di selezione già esistenti fra i componenti della frase di partenza,
soprattutto quelli tra premodificatori, postmodificatori e il componente principale, o anche quelli
dell’operatore nominalizzato verso i suoi argomenti. Su tali basi, sembra quindi possibile applicare
anche ai gruppo di parole un concetto analitico tipicamente harrisiano, detto di verosimiglianza di
occorrenza e principalmente utilizzato per lo studio di frasi e discorsi. Come vedremo, tale
applicazione permette di evidenziare risultati cruciali nella classificazione tassonomica non solo dei
gruppi di parole impostati da Harris, ma anche delle parole composte polirematiche nel lessico-
grammatica, soprattutto per quanto riguarda le relazioni fra i singoli elementi nonché l’analisi
combinatoria effettuabile su di essi.
Per definire il concetto di verosimiglianza di occorrenza, Harris scrive:
We speak here of likelihood under an operator (or over an argument),
in the sense of estimated frequency or probability per fixed number of
occurrences of that operator (or argument); no one has actually
counted the frequencies of various words in argument position under
another word. Nevertheless it should be noted that counting such
frequencies over a small sample of the language is not as impossibly
vast a task as it might seem to be, and this because we are not
speaking of frequency in respect to other words in arbitrary sentences
but only in the word pairs or triples in operator-argument relation,
which is the elementary sentential structure and the sentential
12
component of all sentences, and which constitutes the great bulk of
meaning-characterizing, roughly stable relative frequencies.
Each word has a somewhat fuzzy selection of other words that are
more likely than average to occur in the position for its argument –
that is, more likely than would be expected if the occurrences were
random or equal in frequency. Under “sleep”, this hold for hundreds
of words such as “man” and event “tree”, in contrast with “earth”
rarely, “stone” or “universe” even more so. The set of words having
this higher-than-average likelihood is called selection, in this case
under “sleep”. The central meaning of a word is given by (the
meaning of) the selection arguments under it or of operators over it.1
Se la verosimiglianza di occorrenza, come desumibile dalla precedente citazione, per Harris
riguarda maggiormente il rapporto tra operatori ed argomenti all’interno di frasi e discorsi, gli
esempi che diamo qui di seguito dimostrano come sia possibile in una certa misura utilizzare gli
stessi parametri analitici anche per gruppi di parole e soprattutto, come già detto, per i gruppi
nominali ottenuti tramite nominalizzazioni di frasi. Se analizziamo infatti la seguente equivalenza:
1) Max spinge Luca = la spinta di Max a Luca
2) L’impresa di Max fallisce = il fallimento dell’impresa di Max
notiamo come nei due gruppi nominali derivati vengano riprodotte sia le regole di co-occorrenza
(quindi anche quella di verosimiglianza di occorrenza) che quelle di restrizione di selezione.
Questa rapida analisi assume un’importanza maggiore in relazione a quelle polirematiche che di
fatto non possono essere derivate tramite nominalizzazione di frasi semplici, quali ad esempio:
1 “Intendiamo qui, per verosimiglianza di una parola sotto un operatore (o per un argomento), una stima della probabilità o della frequenza di quella parola rispetto a un fissato numero di occorrenze di quell’operatore (o argomento). Nessuno ha finora valutato le frequenze delle varie parole in posizione argomento rispetto a un’altra parola. Nonostante ciò si deve osservare che valutare tali frequenze in un piccolo campione della lingua non è un lavoro così immenso come potrebbe sembrare, perché non stiamo parlando di frequenza rispetto ad altre parole in frasi arbitrarie, ma solo rispetto a coppie o terne di parole in relazione operatore-argomento. Queste costituiscono la struttura frasale elementare e il componente frasale di tutte le frasi e forniscono il contributo maggiore alle frequenze approssimativamente stabili che caratterizzano il significato.Ogni parola esercita una selezione alquanto sfumata sulle altre parole che occorrono nella posizione dei suoi argomenti – vale a dire una selezione che rende la distribuzione diversa da quanto ci si aspetterebbe se le occorrenze fossero casuali o con pari frequenza. Sotto sleep [dormire], questo vale per centinaia di parole come man [uomo], e persino tree [albero], in contrasto con earth [terra], raro, oppure stone [pietra] o universe [universo], ancora più rari. L’insieme delle parole che hanno frequenza più alta della media è chiamato la selezione, in questo caso sotto sleep. Il significato principale di una parola è dato dal significato della selezione degli argomenti su cui opera o della selezione degli operatori di cui è argomento.” Harris, Z. S. (1988), pagg. 16-20, trad. it. Martinelli (a cura di, 1995).
13
3) Max ha il cappello sulle ventitré ≠ il cappello sulle ventitré di Max
4) ?*Max spinge la barzelletta ≠ la barzelletta spinta di Max
5) Max ha un cavallo che (è di + viene da) Troia ≠ il cavallo di Troia di Max
Notiamo che nell’esempio (3), e diversamente da quelli in (1) e (2), non si assiste a nessuna
nominalizzazione del tipo spingere – spinta o fallimento – fallire; nell’esempio (4), il tentativo di
ricondurre il gruppo nominale barzelletta spinta all’operatore spingere sull’argomento barzelletta,
produce una frase di dubbia accettabilità. Infine, nell’esempio (5), la preposizione di posta in mezzo
a cavallo e Troia non segnala né origine, né provenienza, e ciò dimostra l’assenza di contiguità
semantica tra il gruppo nominale e la frase cui è posto in equivalenza. Notiamo inoltre che se negli
esempi (1) e (2) la nominalizzazione di fatto produce i due gruppi nominali, lo stesso non può
essere detto per l’esempio (3), in cui cappello sulle ventitré è presente sia nella frase che nel gruppo
nominale.
Negli esempi da (3) a (5) notiamo inoltre che i premodificatori e/o i postmodificatori
dell’elemento principale hanno un livello di verosimiglianza di occorrenza basso, ovvero la loro co-
occorrenza con l’elemento principale è statisticamente meno predicibile. È questa una caratteristica
tipica delle polirematiche che non possono essere derivate tramite nominalizzazioni di frasi, e che
proprio grazie a questo vengono definite semanticamente non composizionali. Su questo e altri
argomenti correlati torneremo ampiamente nelle prossime pagine.
In realtà, questa breve serie di esempi, e le rapide considerazioni su di essi, dimostrano che i
gruppi di parole dell’italiano hanno caratteristiche di coesione variabili, dovute alle loro diverse
modalità di formazione, di distribuzione degli elementi interni, nonché a fenomeni di
cristallizzazione del significato originati da fattori evoluitivi specifici della nostra lingua. Tutti
questo aspetti, come vedremo qui di seguito, sono risultati cruciali per l’analisi lessico-
grammaticale delle parole composte polirematiche dell’italiano.
14
2. Le parole composte polirematiche nel lessico-grammatica
Come detto, in quanto metodo di formalizzazione del linguaggio naturale, il lessico-
grammatica elaborato da Maurice Gross si basa principalmente sulle conclusioni strutturaliste,
trasformazionali e distribuzionali di Harris. Da quest’ultimo, Gross riprende soprattutto i concetti
di trasformazione linguistica e di frase nucleare1 (che diviene frase semplice nel lessico-
grammatica), riportandoli all’interno del quadro di una grammatica formale delle lingue naturali
secondo cui il lessico è solo l’insieme di valori terminali da associare a sequenze ordinate in base a
regole e principi combinatori autonomi. Quindi, il concetto basilare della metodologia analitica di
Gross è che il lessico non è separabile dalla sintassi, ovvero che ogni elemento lessicale, occorrendo
all’interno di un contesto frastico, porta con sé una parte di grammatica che gli è inalienabile e che
va a combinarsi con le proprietà grammaticali di altri elementi lessicali, in base alle regole di co-
occorrenza e restrizione di selezione.
Tuttavia, come vedremo in seguito, rispetto alla definizione di gruppi di parole data da
Harris, nonché a quella di sintagmi di Chomsky, Gross si fa protagonista di un approfondimento
analitico che gli permette di andare oltre i gruppi nominali liberi, e di individuare e formalizzare
l’esistenza delle parole composte, ovvero di gruppi di parole legati al loro interno da diversi gradi di
variabilità e coesione – da meno coeso a più coeso – e che di fatto, da un punto di vista tipologico e
tassonomico, si racchiudono tra due estremi di un continuum2 avente come limite da una parte
sequenze del tipo acqua minerale o vino rosso, e dall’altra sequenze del tipo chi va al mulino si
infarina, ovvero i proverbi. A proposito di questa varia e contigua tipologia, si può affermare che ad
una minore coesione interna di un gruppo di parole corrispondono un elevato livello di
composizionalità ed un basso livello di idiomaticità; invece, ad una maggiore coesione interna di un
gruppo di parole corrispondono un basso livello di composizionalità ed un elevato livello di
idiomaticità.
Questa impostazione metodologica del lessico-grammatica è stata nel tempo empiricamente
consolidata anche grazie a nuove modalità di validazione ed aggiornamento, rese possibile dal
continuo svilupparsi degli strumenti informatici analitici e dalla nascita della linguistica
computazionale. Ciò ha inoltre ristretto l’analisi tassonomica delle parole composte polirematiche,
che vengono oggi naturalmente accostate alla nozione di parole composte impostata da Gross.1 Per la definizione di frase semplice, cfr. Gross (1968).2 La teoria del continuum, che ha avuto origine nelle scienze matematiche e fisiche, fa riferimento ad un insieme in cui, ordinando i singoli elementi, è possibile evidenziare la presenza di una transizione graduale, da una condizione ad un’altra di tipo diverso, che si sviluppa senza salti o discontinuità. Si può quindi affermare che in un continuum, due elementi attigui abbiano caratteristiche non eccessivamente dissimili, contrariamente a quelle di due elementi distanti fra loro. In un continuum, i singoli elementi possono essere anche costituiti da sottoinsiemi specifici. I due estremi del continuum avranno fra loro caratteristiche più dissimili.
15
2.1 Il concetto di continuum
Citando Elia e D’Agostino1, riguardo i gruppi di parole, quindi alle polirematiche, alla luce
delle ricerche condotte finora, è possibile affermare che le combinazioni in sintagmi o frasi possono
essere di quattro tipi:
a) con un grado elevato di variabilità di co-occorrenza fra le parole, per cui è possibile parlare
di combinazioni a distribuzione libera;
b) con un grado ridotto di variabilità di co-occorrenza fra le parole, per cui è possibile parlare
di combinazioni a distribuzione ristretta;
c) con un grado nullo o quasi nullo di variabilità di co-occorrenza fra le parole, per cui è
possibile parlare di combinazioni a distribuzione fissa;
d) senza alcuna variabilità di co-occorrenza fra le parole, per cui si parla di proverbi.
Le relazioni tra le classi in questione possono essere interpretate, non come relazioni tra classi
discrete, ma come relazioni tra polarità di un continuum. Gli esempi di tali classi di combinazioni
possono essere i seguenti:
a)
- strutture verbali: (Max, Ugo, tuo nipote,...) guarda (un libro, il fiume, Eva,...)
- strutture nominali: acqua (sporca, pulita,...)
- strutture avverbiali: con (eleganza, amore, devozione,...)
b)
- strutture verbali: (Max, Ugo, tuo nipote,...) stende (i panni, il bucato)
- strutture nominali: acqua (minerale, gassata, naturale,...)
- strutture avverbiali: da un (momento, giorno, anno,...) all'altro
c)
- strutture verbali: (Max, Ugo, tuo nipote,...) alza il gomito
- strutture nominali: acqua pesante, acqua tofana
- strutture avverbiali: chiaro e tondo
1 Cfr. D’Agostino, E., Elia, A. (2006)
16
d)
- proverbi: Chi rompe paga e i cocci sono suoi
Da un punto di vista semantico-comunicativo si può osservare che i tipi (c) e (d) possono
subire delle interpretazioni "idiomatiche", cioè delle interpretazioni che in modo chiaro non sono
frutto di un calcolo composizionale del significato dei singoli elementi. Una certa parte di queste
combinazioni fisse e idiomatiche è molto probabilmente il residuo operazioni metaforico-
metonimico ormai cristallizzate, morte. È per questo, tra l'altro, che possiamo arguire che l'uso dei
tipi in questione è legato più ad esigenze di rapidità che non di ricchezza comunicativa. Mentre le
metafore e le metonimie vive, come d'altronde qualsiasi "figura", necessitano di un lavoro
supplementare di decodifica e di interpretazione, le combinazioni fisse e idiomatiche, che vengono
apprese in blocco, rappresentano invece delle scorciatoie semantiche, per le quali non è neanche
necessario "conoscere" il valore dei singoli elementi componenti della stringa.
Il concetto di continuum precedentemente esposto viene ulteriormente rafforzato
dall’applicazione di alcuni possibili aggiustamenti formali e combinatori su specifiche
polirematiche, a seguito dei quali spesso si produce una violazione della nota regola aritmetica che
dice: cambiando l’ordine degli addendi, il risultato non cambia.
Consideriamo ad esempio le seguenti coppie di parole composte polirematiche:
1. amministrazione ordinaria ordinaria amministrazione
2. amico vecchio vecchio amico
3. amore grande grande amore
4. biblioteca normale normale biblioteca
5. biblioteca perfetta perfetta biblioteca
6. buco nero nero buco
7. casa vecchia vecchia casa
8. casa nuova nuova casa
9. circolo vizioso vizioso circolo
10. circuito corto corto circuito
11. dominio pubblico pubblico dominio
12. fuoco rosso rosso fuoco
13. oro giallo giallo oro
14. idea vecchia vecchia idea
15. isolamento splendido splendido isolamento
16. mano lunga lunga mano
17. misura giusta giusta misura
18. uomo grande grande uomo
17
19. pezzo grosso grosso pezzo
20. pallino vecchio vecchio pallino
Tabella 1.
In questa tabella, la seconda delle tre colonne contiene una serie di gruppi nominali del tipo
N (nome) A (aggettivo); la terza colonna, invece, contiene la stessa sequenza di gruppi nominali,
ma con l’ordine delle parole invertito. Come è possibile verificare, per ogni esempio prodotto il
cambiamento di posizione degli “addendi” produce un cambiamento di significato, che è minimo in
alcuni casi ma che si presenta molto marcato in (1), (2), (6), (9), (10), (11), (12), (13), (15), (17),
(18) , (19) e (20).
Si è soliti attribuire un simile cambiamento di significato alla posizione dell’aggettivo, che
se preposto al nome sembra conferire una maggiore “soggettività” di significato (normale
biblioteca) in opposizione ad una maggiore “oggettività” (biblioteca normale); o anche, un valore
descrittivo generico (nuova casa, in cui l’aggettivo non serve ad identificare materialmente la casa), rispetto ad uno più restrittivo (casa nuova, in opposizione ad una casa vecchia); o infine un senso traslato (vecchia idea), rispetto ad un valore fattuale e fisico (idea vecchia).
Queste valutazioni, tuttavia, sembrano troppo incentrate sul significato dei singoli elementi del composto, mentre ciò che andrebbe valutato attentamente è la coesione interna dei composti, nonché il loro significato complessivo, che può essere marcatamente composizionale (amore grande), blandamente composizionale (grande amore), oppure per nulla composizionale (lunga mano), come già descritto per il concetto di continuum. È evidente che in termini statistici l’occorrenza di gruppi liberi di parole sia maggiore rispetto a quella dei gruppi non composizionali, ma quanto abbiamo evidenziato cambiando l’ordine degli “addendi”1, va di fatto visto come un punto di contatto fra i due tipi di formazione, ovvero una ulteriore dimostrazione dell’esistenza del continuum, nonché della stretta relazione tra forma (ovvero combinazione degli elementi) e contenuto (ovvero il significato finale dei composti, che è in molti casi indipendente dal significato dei singoli elementi nei composti).
1 Si veda Malkiel 1959 per lo studio di binomi cosiddetti irreversibili quali l’inglese gas and oil.
18
Notiamo inoltre che delle tre ipotetiche coppie di analisi individuate precedentemente (soggettività – oggettività, descrizione generica – descrizione specifica, senso traslato – valore fattuale e fisico), nessuna può essere applicata con successo a binomi (alla Malkiel) quali amministrazione ordinaria – ordinaria amministrazione, buco nero – nero buco, uomo grande – grande uomo o pallino vecchio – vecchio pallino. Ciò si verifica perché uno dei due elementi è un cliché linguistico, o in alcuni casi una parola composta idiomatica o cristallizzata, le cui creazione e occorrenza non si basano sulla semplice anteposizione/posposizione dell’aggettivo rispetto al nome, ma sono autonome, ed in certi casi piuttosto antiche come usi linguistici. Da un punto di vista sintattico, una ulteriore dimostrazione di quanto stiamo dicendo ci viene dalle frasi seguenti:
1) L’amministrazione di questo comune è ordinaria
ovvero:
1a) Questo comune è in amministrazione ordinaria
in opposizione a:
2) Questo comune è in amministrazione (commissariale + straordinaria)
difficilmente collegabile a frasi come:
2a) ?L’amministrazione di questo comune è (commissariale + straordinaria)
Nel passaggio da (1) ad (1a), notiamo la formazione del gruppo nominale amministrazione ordinaria. Tuttavia, abbiamo:
3) Vincere la partita di domenica sarà (E + di) ordinaria amministrazione
19
che non può in nessun modo essere ricondotta a frasi del tipo:
4) L’amministrazione della vittoria della partita di domenica sarà ordinaria
Ancora, abbiamo:
5) Un buco nero rischia di inghiottire l’intero pianeta
ma non:
6) ?Un nero buco rischia di inghiottire l’intero pianeta
e abbiamo anche:
7) Questo buco (è + sembra + appare) nero ≠ Questo (è + sembra + appare) un buco nero
in cui il secondo elemento della disequazione può avere un doppio significato, uno in riferimento
all’oggetto astronomico ed uno ad un foro oscuro variamente classificabile.
Simili verifiche possono essere applicate anche alle altre coppie della precedente lista,
nonché ad altri gruppi nominali dell’italiano, ottenendo risultati analoghi a quelli da noi evidenziati.
2.2 Nomi composti e gruppi liberi di parole
Come già accennato, le parole composte includono elementi legati da un livello di
verosimiglianza di occorrenza più basso ed una composizionalità meno evidente rispetto ai gruppi
nominali liberi. Ad esempio, un gruppo nominale libero è composto da un nome di base, detto
“nome testa”, e da una serie di termini che lo qualificano. Si dice quindi che la formazione del
gruppo nominale avviene per espansione a partire dal nome testa, come nell’esempio che segue:
a) camicia
b) la camicia
c) la camicia rossa
d) la camicia rossa di Max
20
e) la camicia rossa di Max sulla sedia1
Tuttavia in base all'analisi degli usi linguistici, è possibile dire che le parole composte,
rispetto ai gruppi nominali liberi, hanno all’interno delle frasi un valore essenzialmente funzionale,
che a volte è svincolato dall’elemento testa del composto stesso. Ciò implica che le parole composte
possono essere etichettate grammaticalmente solo in funzione del ruolo morfosintattico che
svolgono. Questo assunto, pur contrario all'endocentrismo sintagmatico chomskiano, è ad esempio
verificabile con i composti simili all'aggettivo nonché nome composto rosso fuoco.
Analizziamo la seguente frase
1) Max compra una Ferrari rosso fuoco
Se venisse riscritta in base alle regole standard della grammatica sintagmatica, questa frase
genererebbe il seguente albero:
F
SN SV
N V SN
Max compra DET SN
una N SA
Ferrari N N
rosso fuoco
1 È per altro evidente che questo gruppo nominale libero può anche essere ottenuto attraverso la nominalizzazione di una frase ad operatore a legame come:
Max ha la camicia rossa sulla sedia
o anche di una frase a verbo ordinario come:
La camicia rossa di Max è sulla sedia
21
Come è possibile verificare nell’ultima notazione dell’albero precedente, il sintagma
aggettivale rosso fuoco non contiene nessun aggettivo, ovvero è un sintagma aggettivale che ha
come elemento testa il nome rosso. Ciò è verificabile nella frase seguente:
2) *Max compra una Ferrari rossa fuoco
in cui accordando la parola onomastica femminile Ferrari a rosso, ovvero ipotizzando che rosso sia
un aggettivo e non un nome, si ottiene una gruppo nominale, nonché una frase, non accettabili e non
grammaticali. Per cui, è possibile affermare che il sintagma aggettivale rosso fuoco sia esocentrico1,
ovvero che abbia una testa nominale ma funzioni come un aggettivo. Anche in questo caso, è
possibile giustificare questa apparente anomalia attraverso la nominalizzazione di una frase
semplice, preceduta da una riduzione di un gruppo nominale più ampio:
3) Questa Ferrari è di un colore rosso come il fuoco
ovvero
3a) Questa Ferrari è (E + di) color rosso fuoco
e infine
3b) Questa Ferrari è rosso fuoco
Su queste basi, è possibile affermare che una parola composta anche con un livello medio di
coesione intera, qualora venga inserita in un gruppo nominale libero, può modificare la sua funzione
grammaticale, ma non subisce variazioni interne di tipo morfologico, dovute al genere o al numero
del nome testa del gruppo nominale esteso. Ciò è dimostrato anche dalle frasi che seguono:
4) Max compra una Ferrari giallo oro
4a) *Max compra una Ferrari gialla oro
1 L’esocentrismo di alcuni tipi di sintagmi è ancora più evidente con i gruppi esclamativi del tipo santi numi, per bacco, o alla salute, in cui nessuno dei componenti interni è un’esclamazione. In tal caso, la funzione grammaticale e la coesione interna del sintagma sono indipendenti l’una dall’altra, e trovano un punto di incontro nell’idiomaticità dei composti.
22
Esempi simili dimostrano che nelle parole composte polirematiche, non sempre è possibile
reperire una relazione consequenziale tra l’elemento testa all’interno e il valore distribuzionale (o
funzionale) nelle occorrenze frastiche. Ciò conferma quindi che l’analisi delle parole composte
polirematiche deve lasciare separato ed autonomo lo studio formale, con cui si classificano i
componenti interni in base al loro valore lessicale di parole singole, da quello morfo-sintattico, in
cui le polirematiche vengono analizzate in base al loro valore distribuzionale ed alla loro funzione
grammaticale.
2.2.1 Strutture formali
La struttura formale di una polirematica composta è data dalla descrizione categoriale delle
singole parole che la compongono. Ciò significa che una parola composta come la seguente:
carta da zucchero
avrà la seguente struttura formale:
NPREPN
in cui il primo N indicherà il nome carta, PREP la preposizione da ed il secondo N indicherà il
nome zucchero. Ancora, il composto:
rosso cadmio
verrà etichettato come NN, in virtù della presenza al suo interno dei due nomi rosso e cadmio.
Questa metodologia descrittiva fu inaugurata da Harris nell’articolo descritto in 1.21, ed
usata dal linguista americano non solo per descrivere formalmente i gruppi di parole, ma anche per
indicare rapporti morfosintattici di predicazione all’interno di frasi nucleari, nonché paratattici e
ipotattici all’interno di discorsi.
Questo tipo di formalizzazione fu usata in seguito da Chomsky per la descrizione tipologica
dei sintagmi, nonché da Gross per tutte le indicazioni formali morfo-sintattiche utilizzate dal
lessico-grammatica del francese.
Per quanto riguarda invece l’italiano, le etichette utilizzate nella descrizione formale delle
polirematiche sono le seguenti, in ordine alfabetico:
1 Cfr. Harris (1970), pagg. 105-114.
23
A per gli aggettivi;
AVV per gli avverbi;
C per i complementi fissi nelle frasi idiomatiche1;
CONG per le congiunzioni
D2 per la sola preposizione di;
DET per i determinanti;
ESC per le interiezioni e le esclamazioni;
N per i nomi;
PREP per le preposizioni semplici diverse da di;
PRON per i pronomi
V per i verbi.
Queste etichette consentono di applicare descrizioni formali omogenee ad ogni polirematica,
anche se di varia o più complessa struttura interna. Esse possono anche essere utilizzate per indicare
la funzione grammaticale di ogni singola polirematica, fatta eccezione per “C”, che come detto
viene utilizzata solo all’interno delle frasi idiomatiche. Per cui, il precedente composto:
rosso cadmio
verrà etichettato come:
- N+NN
- A+NN
ad indicare che la sua funzione grammaticale può essere sia quella di nome, come in:
1) Il rosso cadmio è un bel colore
1 Va sottolineato inoltre che per le espressioni idiomatiche, il lessico-grammatica ha individuato etichette specifiche sia per i verbi che per i complementi fissi di questo tipo di polirematiche. Ad esempio, la frase idiomatica fare il diavolo a quattro è classificata come FC1, dove F sta per fare e C1 indica l’unico complemento fisso, ovvero diavolo a quattro. Ancora, la frase idiomatica utilizzata in Max ha fatto la pelle a Paolo verrà invece classificata come FC1PN2, poiché ha un solo complemento fisso, ovvero pelle, ed un secondo complemento variabile (in questo caso, Paolo). Per una più completa classificazione delle idiomatiche, si veda Vietri (2004), pag. 151, e Monteleone (1989) per quanto riguarda le idiomatiche con il verbo fare.2 La scelta di un’etichetta formale singola per la preposizione di è giustificata su basi statistiche. Infatti, nelle parole composte polirematiche dell’italiano, la presenza di questa preposizione risulta essere più elevata rispetto a quella di tutte le altre preposizioni.
24
o quella di aggettivo, come in:
2) Max indossa una camicia rosso cadmio
2.2.2 Analisi morfologica, lessicografica, semantica e sintattica delle parole composte polirematiche
Come già specificato in 2.1, le parole composte hanno gradi variabili di coesione interna,
con un intervallo che va dai composti con un elevato livello di verosimiglianza di occorrenza –
ovvero, sono poco o per nulla idiomatici, quindi semanticamente composizionali – ai composti che
ne hanno uno molto basso – ovvero sono molto più idiomatici, quindi semanticamente non
composizionali.
Ribadiamo inoltre che da un punto di vista formale, più precisamente in termini di
morfologia della composizione, le parole composte si definiscono in opposizione alle parole
semplici1: mentre queste ultime contengono essenzialmente un solo morfema lessicale, le prime ne
includono e combinano almeno due, con i relativi morfemi grammaticali necessari al loro corretto
uso. All'analisi morfologica è possibile associarne una lessicografica, in base alla quale hanno
dignità di lessicalizzazione nei dizionari cartacei le polirematiche corredate da una specifica
funzione grammaticale e da un significato condiviso ed autonomo. Tuttavia, tale lemmatizzazione
non sembra avvenire in modo sistematico, poiché all'interno dei maggiori dizionari cartacei non
specialistici della lingua italiana, le polirematiche sono spesse volte inserite come esempi d'uso,
all'interno delle glosse dei loro elementi testa. Ad esempio, in De Mauro (2000), il lemma capo,
all'accezione 2b, recita come segue:
"TS mar. nella marina militare, sottufficiale: capo di prima, di seconda, di terza
classe."
Sempre da un punto di vista lessicografico, come è noto, un diverso trattamento è invece
riservato alle parole composte polirematiche terminologiche, per le quali esistono dei dizionari
cartacei dedicati, detti dizionari settoriali o di specialità, e che nelle prossime pagine verranno
trattati in modo approfondito, vista la loro importanza nell’ambito dell’analisi testuale automatica e
della strutturazione del Web Semantico.
1 Ricordiamo che in ambito lessico-grammaticale, la definizione formale di parola semplice è quella di sequenza non interrotta di caratteri alfabetici, delimitata fra due spazi bianchi.
25
Ed è proprio nell’ambito di una seppur rapida analisi semantica che è opportuno evidenziare
le evidenti differenze esistenti tra gruppi nominali liberi e parole composte polirematiche,
soprattutto in virtù della necessità già delineata per di lemmatizzare i secondi, ma non i primi.
L'individuazione del limite che separa parole composte polirematiche e gruppi nominali liberi è
infatti uno dei problemi più rilevanti per la descrizione approfondita delle lingue naturali. Appare
evidente che le differenze esistenti, ad esempio, tra colletto bianco e colletto rosso portino alla
lemmatizzazione della prima espressione, ma non della seconda. Infatti, non lemmatizzando
autonomamente colletto bianco, non si darà giusto conto del suo significato specifico di "lavoratore
di concetto" o "impiegato", né si potrà dare conto delle proprietà morfo-grammaticali e lessicali ad
esso associate, quali quelle di nome umano, di genere maschile, di numero singolare, con una forma
flessa maschile in colletti bianchi1.
È tuttavia evidente che nell'analisi della specifiche caratteristiche delle polirematiche
italiane, colletto rosso e colletto bianco rappresentino due estremi opposti facilmente gestibili, e che
ci siano polirematiche più complesse da classificare e descrivere, come ad esempio alcuni
neologismi del linguaggio politico quali editto bulgaro ed elezione bulgara, che sembrerebbero al
limite fra lo status di parole composte e quello di gruppi nominali liberi, e più vicine a questi ultimi.
A tale scopo, Silberztein2 adotta i seguenti criteri di distinzione per individuare e lemmatizzare
correttamente una parola composta:
- atomicità semantica: se il significato preciso di un gruppo di parole non può essere dedotto
dal significato dei suoi componenti, allora tale gruppo di parole è una parola composta e va
quindi lemmatizzata; è questo il caso di composti quali berretto verde, teste di cuoio, casa
chiusa, guerra fredda, che rispetto al loro nomi testa aggiungono elementi che non ne
modificano il significato, ma che partecipano alla costruzione del significato completo e non
letterale del composto;
- restrizione di distribuzione: si è in presenza di questa caratteristica nei casi in cui i
costituenti del gruppo di parole non possono essere liberamente sostituiti, in quanto
appartenenti ad alcune classi distribuzionali specifiche. In questi casi, il gruppo di parole
sarà trattato come una parola composta. È questo il caso dell'opposizione già descritta fra
colletto bianco e colletto rosso, ma anche di altre opposizioni quali tra cintura nera e
cintura cremisi, porta scorrevole e porta chiusa, berretto verde e berretto rosso, e così via;
1 Aggiungiamo che in ambiti quali il trattamento automatico dei dati, la mancata lemmatizzazione delle parole composte minerebbe in modo sostanzioso i risultati di alcune specifiche attività quali, ad esempio, l'information retrieval, l'analisi testuale automatica e la traduzione assistita da computer.2 Cfr. Silberztein (1997), pag. 117.
26
- uso condiviso e istituzionalizzato: alcuni gruppi di parole, anche fra quelli semanticamente e
distribuzionalmente liberi, vengono usati in forma quasi obbligatoria ed in opposizione
teorica con altre costruzioni sintattiche potenziali che sarebbero altrettanto valide, ma che
non vengono quasi mai utilizzate. È questo ad esempio il caso del calco dall'inglese in tempo
reale, il cui uso in italiano sembrerebbe immotivato1 ma che è ormai molto diffuso. In casi
simili, sarà necessario lemmatizzare tali parole composte.
Questi tre criteri consentono di individuare un numero di parole composte ben più elevato di
quello che normalmente si assume esista in una data lingua. Come vedremo in seguito, e soprattutto
in relazione alle parole composte terminologiche, l'impostazione analitica qui evidenziata consente
una copertura lessicale ampia e di grande rilevanza per tutte le attività di analisi lessicale, nonché
per quelle basate sul recupero delle informazioni e sul trattamento automatico del linguaggio
naturale.
Un'ulteriore possibile livello di analisi delle parole composte è quello morfosintattico,
effettuabile all'interno di frasi semplici e su base distribuzionale. È infatti possibile evidenziare per
le parole composte la medesima funzione di complemento di verbo che hanno le parole semplici e i
gruppi nominali liberi, come dimostrano gli esempi seguenti, in cui tutte le sequenze sottolineate
hanno in relazione al verbo consegnare uguale valore e funzione distribuzionale:
1) L'impiegato ha consegnato il plico a Max
2) Il padre di Lia ha consegnato il plico di Paolo al fratello di Max
3) Il capo stazione ha consegnato l'ordine di servizio all'assistente di direzione
Questo livello di analisi, formalmente definito dal lessico-grammatica e strettamente connesso a
quello lessicografico evidenziato in precedenza, giustifica ulteriormente, qualora fosse necessario,
l'importanza della lemmatizzazione e della classificazione morfosintattica delle parole composte.
2.3 Le parole composte polirematiche nell’analisi testuale automatica
L’analisi testuale automatica è una disciplina relativamente moderna che si è sviluppata
all’interno della linguistica computazionale, in particolare nel momento in cui quest’ultima si è
staccata dall’ambito delle ricerche di intelligenza artificiale ed ha cominciato ad utilizzare software
1 Analizzando questa parola composta in termini di opposti, non infatti è possibile attestare l'uso di *in tempo irreale, mentre è possibile reperire un quasi sinonimo nella parola composta in diretta, tuttavia di uso meno comune.
27
dedicati, creati dall’informatica, per impostare e portare a termine specifici procedimenti analitici
quali la lettura automatica dei corpora ed il relativo recupero delle informazioni. La linguistica
computazionale è una disciplina che si colloca a cavallo tra scienze umane e scienze esatte, e che si
occupa dello “studio dei sistemi di elaborazione dedicati alla comprensione ed alla generazione del
linguaggio“1. Va comunque detto che storicamente l’informatica si è sempre occupata del
linguaggio naturale, in particolare allo scopo di costruire e perfezionare i meccanismi e le interfacce
che consentono agli esseri umani di dialogare interattivamente con un computer, usando appunto il
linguaggio naturale invece di quello binario.
Dal canto suo, la linguistica ha invece trovato nell’informatica diversi e potenti supporti per
sviluppare le simulazioni di operazioni cognitive complesse, per sperimentare gli impianti teorici
descrittivi che essa stessa ha elaborato o anche, più semplicemente, per analizzare
contemporaneamente e automaticamente corpora di vasta portata, attività queste che in passato
richiedevano lo spoglio manuale di voluminosi documenti. In quest’ultimo caso, e soprattutto in
tempi recenti, di grande importanza si sono rivelate le capacità di memorizzazione dei supporti
magnetici e ottici come gli hard disk di nuova generazione, i CD-Rom e i DVD-Rom scrivibili e
riscrivibili, che permettono di registrare e riutilizzare facilmente grandi quantità di dati, agevolando
classificazione, analisi e gestione automatica.
Nel corso degli anni, la linguistica computazionale ha portato avanti vari tipi di
sperimentazioni che simulano tramite computer attività in linguaggio naturale anche complesse, tra
cui ricordiamo essenzialmente la traduzione automatica e assistita, l’analisi testuale automatica, il
parsing2, il riconoscimento e la generazione automatica dei testi. Con l’andar del tempo, le attività e
1 Cfr. Grishman, R. (1988).2 All’interno del trattamento automatico del linguaggio naturale, il parsing può essere definito come il procedimento di assegnazione di descrizioni strutturali alle sequenze di parole prodotte dalle lingue naturali (o alle sequenze di simboli derivate da sequenze di parole). Il tipo di descrizione strutturale da assegnare e le modalità di assegnazione dipendono dalla grammatica – ovvero da un linguaggio descrittivo e da un insieme di restrizioni strutturali – in base alla quale il parser cerca di analizzare le sequenze di simboli che gli vengono presentate. In altre parole, un parser prende in input una sequenza di parole (o un loro surrogato) di una data lingua ed una descrizione astratta delle possibili relazioni strutturali che possono intercorrere tra le parole o le sequenze di parole di quella lingua, e produce in output zero o più descrizioni strutturali dell’input in base a quanto prevede l’insieme di regole strutturali. Ci saranno zero descrizioni sia se la sequenza di input non può essere analizzata dalla grammatica (ovvero se non è grammaticale, o se il parser è incompleto, cioè se non riesce a trovare tutte le strutture rese possibili dalla grammatica. Ci sarà invece più di una descrizione se l’input è ambiguo nei confronti della grammatica, ovvero se la grammatica prevede più di un’analisi corretta dell’input. Per un parser, la sequenza di simboli dell’input può anche non essere formato solo da parole di una lingua naturale. Non considerando il parsing di linguaggi artificiali (come quelli di programmazione o logici), di documenti etichettati (ad esempio in SGML) o di sequenze non linguistiche come quelle dei codici genetici, il parsing nel trattamento del linguaggio naturale può essere effettuato su sequenze di parole, sequenze di etichette di parti del discorso, o su sequenze di simboli complessi quali i corredi di caratteristiche (ovvero laddove una parola può essere stata sostituita da un insieme di caratteristiche, incluse la sua forma ortografica, la parte del discorso, la classe flessiva, e così via).In genere, si effettua un parsing perché si ritiene che le strutture grammaticali contribuiscano al significato e che individuare la struttura grammaticale di una sequenza di parole in una lingua naturale sia un passo necessario nella individuazione del significato di quella sequenza. In alcuni parser, la costruzione di una rappresentazione del significato viene effettuata contemporaneamente alla derivazione di un’analisi strutturale in base alla grammatica.
28
le applicazioni della linguistica computazionale si sono ulteriormente ampliate e moltiplicate, ed
hanno quindi contribuito a ridefinirne scopi e funzioni, come è possibile leggere nella citazione che
segue:
linguistica computazionale
Lo studio del linguaggio con l’ausilio del calcolatore. Anche se di
fatto le ricerche di linguistica computazionale sono spesso intrecciate
con quelle di intelligenza artificiale, si usa distinguere tra linguistica
computazionale ed elaborazione (automatica) del linguaggio naturale
(ELN) perché la prima non persegue anzitutto la realizzazione di
sistemi artificiali capaci di prestazioni intelligenti in rapporto al
linguaggio, ma invece la conoscenza del linguaggio stesso, e usa
spesso il calcolatore come strumento di verifica di teorie linguistiche
indipendenti. Inoltre, fanno parte della linguistica computazionale
(ma non dell’ELN) ricerche che usano tecniche informatiche “non
intelligenti”, come quelle di stilistica computazionale e in generale
quelle basate sull’elaborazione (anche con strumenti statistici) di
corpora lessicali, in vista della realizzazione di vocabolari,
concordanze, ecc. La linguistica computazionale è peraltro impegnata
in tutti i settori della ricerca linguistica teorica, dalla sintassi alla
pragmatica e all’analisi del discorso, attraverso la costruzione di
sistemi che realizzino teorie o frammenti di teorie linguistiche.1
Anche il lessico-grammatica, come metodo di formalizzazione del linguaggio naturale, ha
trovato nella linguistica computazionale un ambito in cui riadattare, rielaborare ed applicare
automaticamente tutti i dati raccolti in un lungo periodo di tempo – circa venticinque anni – in cui le
ricerche linguistiche non potevano ancora usufruire del supporto informatico. Perciò, in tempi
recenti, grazie all’apporto della linguistica computazionale, il lessico grammatica ha potuto
ulteriormente validare il suo l’impianto metodologico empirico, nonché verificare l’eventualità di
rivedere e ricalibrare alcune delle sue impostazioni di ricerca.
Uno dei risultati più evidenti dell’incontro tra lessico-grammatica e linguistica
computazionale è la creazione di specifici software per l’analisi testuale automatica, strutturati Le operazioni di parsing vanno dal semplice isolamento sintagmatico, ad esempio con lo scopo di riconoscere i nomi propri, alla completa analisi semantica di un testo, per il l’estrazione delle informazioni o la traduzione assistita da computer.
1 Cfr. Beccaria G. L. (a cura di, 1994), pag. 446.
29
intorno a strumenti applicativi quali i dizionari elettronici, i trasduttori e gli automi a stati finiti.
Saranno questi gli argomenti di cui tratteremo nei prossimi paragrafi.
2.3.1 I software per l’analisi testuale automatica
L’analisi testuale automatica del lessico-grammatica, inaugurata da Maurice Gross per il
francese ed in seguito sviluppata ed applicata all’italiano da Annibale Elia al Dipartimento di
Scienze della Comunicazione dell’Università di Salerno, è soprattutto di tipo morfosintattico, e si
basa sull’uso di motori linguistici (i.e. dizionari elettronici detti anche basi di dati lessicali)
incorporati all’interno di una shell pacchettizzata e composta da software modulari.
Allo stato attuale, esistono quattro pacchetti software che sfruttano questa modalità di
strutturazione, ovvero:
INTEX1, che si basa sull’uso di dizionari elettronici, grammatiche locali ed automi a stati
finiti (che descriviamo dettagliatamente in 2.3.1.1) e la cui prima versione è stata realizzata
agli inizi degli anni novanta da Max Silberztein sotto la guida di Maurice Gross. Questo
software è stato implementato fino al 2004, ed oggi è considerato non più implementabile;
UNITEX2, versione speculare di INTEX, tuttora implementata per quanto riguarda il
lingware;
NOOJ3, che è la naturale continuazione di INTEX, del quale migliora alcuni aspetti relativi
alla gestione della segmentazione delle parole in lettere o gruppi di lettere, nonché del
rapporto tra parole semplici e parole composte;
CATALOGA, realizzato da Alberto Postiglione (per la costruzione e la strutturazione della
shell) e Mario Monteleone (per la gestione del lingware) del Dipartimento di Scienze della
Comunicazione dell’Università di Salerno.
Le modalità di analisi di INTEX, UNITEX e NOOJ sono molto simili tra loro e possono
essere suddivise in tre fasi principali. In una prima fase, il modulo iniziale effettua la lettura
automatica di un testo, completandone sia l’indicizzazione che la tokenizzazione, per poi eseguire il
matching tra le parole contenute dal testo e le entrate catalogate e classificate nei dizionari
elettronici. Il risultato del matching è la creazione di dizionari elettronici del testo analizzato; in
questi dizionari, le entrate sono elencate in ordine alfabetico, corredate da informazioni di tipo
morfo-grammaticale e suddivise in base alla loro caratteristica di unità di significato autonome. 1 Per ulteriori informazioni su Intex, cfr. http://intex.univ-fcomte.fr/.2 Per ulteriori informazioni su Unitex, cfr. http://igm.univ-mlv.fr/%7Eunitex/3 Per ulteriori informazioni su Nooj, cfr. http://www.nooj4nlp.net/.
30
Una seconda fase dell’analisi consente di leggere all’interno del testo, effettuando specifiche
ricerche visualizzabili sotto forma di concordanze, nonché di effettuare la localizzazione di pattern
sintattici, la disambiguazione ed il parsing del testo. Queste operazioni sono possibili grazie all’uso
di automi e trasduttori a stati finiti, realizzati sotto forma di grafi ed applicati come elementi di
lettura ed analisi del testo. Tali automi vengono anche chiamati “grammatiche locali”, in quanto in
ognuno di essi vengono analizzate e descritte isolate caratteristiche morfosintattiche di una lingua,
come ad esempio – per l’italiano – l’uso dei participi passati, l’accordo grammaticale o la forma
passiva di specifici verbi. È inoltre da sottolineare che ad un testo possono essere applicati
contemporaneamente più automi a stati finiti, ovvero è possibile effettuare analisi usando
contemporaneamente più grammatiche locali, o anche potenzialmente tutte le grammatiche locali
realizzabili per la lingua italiana.
Una terza ed ultima fase dell’analisi consente di importare specifici file realizzati in forma di
tabella con Microsoft® Office Excel (soprattutto in INTEX e UNITEX) e che contengono
informazioni di carattere morfo-sintattico formalizzate in base alle proprietà distribuzionali e
trasformazionali di ogni singolo elemento – in particolar modo, i predicati di una data lingua. Ogni
singola tabella importata diventa una grammatica locale pronta per essere applicata durante l’analisi
testuale automatica.
CATALOGA invece ha funzionalità e scopi diversi dagli atri tre software. Mutua da INTEX
il matching fra testi e dizionari elettronici, ma si concentra sull’analisi terminologica del corpus,
basata sulla localizzazione delle parole composte di tipo tecnico-scientifico. Questo software ha
quindi fasi di analisi diverse dai tre precedenti, riassumibili schematicamente come segue:
1. lettura automatica dei testi;
2. computo delle entrate composte terminologiche contenute nei testi;
3. catalogazione automatica dei testi sulla base delle parole composte terminologiche da
essi estratte, del loro numero, del settore della conoscenza più ricorrente, e tramite il
computo statistico del rapporto rilevato tra parole terminologiche e non
terminologiche incluse;
4. restituzione a video delle statistiche di occorrenza terminologica di ogni singolo
testo, in ordine decrescente e suddivise in base al relativo settore della conoscenza.
Questo tipo di analisi è possibile poiché, come vedremo, nei dizionari elettronici di parole
composte le entrate sono corredate da specifiche etichette che indicano il settore o i settori della
31
conoscenza in cui vengono utilizzate1. Ad esempio, il composto acconto dividendo è corredato
dall’etichetta ECON, poiché è utilizzato specificamente nel settore di conoscenza dell’economia. A
sua volta il composto martello pneumatico è corredato da due etichette: ING MEC per ingegneria
meccanica e UTIL per utensili, in virtù del fatto che il composto viene utilizzato con identico
significato all’interno di due settori diversi della conoscenza.
L’utilità di questo tipo di analisi è rilevante se si considera che in ogni testo di carattere
tecnico-scientifico, la presenza dei composti può anche raggiungere il 20% delle occorrenze totali, e
che i composti terminologici, seppure in numero inferiore rispetto alle parole semplici, sono in
grado di concentrare fino all’80% del significato globale di un dato testo.
2.3.1.1 Automi a stati finiti, grafi ed espressioni regolari
Come accennato, nell’analisi testuale automatica lessico-grammaticale hanno grande
importanza i grafi e gli automi a stati finiti. In tal senso, è utile specificare che un automa a stati
finiti (FSA), detto anche meccanismo a stati finiti (FSM) o più semplicemente meccanismo a stati, è
un algoritmo o modello di comportamento composto da un numero finito di stati, delle transizioni
tra stati, e delle azioni. Inoltre, un automa a stati finiti è anche definito come modello astratto di
meccanismo con una memoria interna di tipo primitivo.
Infatti, all’interno di un automa, uno stato immagazzina informazioni solo sul suo
antecedente immediato, ovvero riflette i cambiamenti di input che vanno dallo start del sistema al
momento immediatamente precedente. Una transizione, invece, comporta il passaggio di
informazioni da uno stato ad un altro; in una transizione, l’informazione contenuta ad esempio da
uno stato “A”, passando ad uno stato B successivo, crea un input finale “AB”. Un’azione è infine la
descrizione dell’attività che deve essere compiuta in un dato momento. Le azioni effettuabili sono
di diverso tipo:
- ingresso, effettuata nel momento in cui si accede allo stato;
- uscita, effettuata la momento in cui si esce dallo stato;
- input, effettuata in base allo stato corrente ed alle condizioni di input;
- transizione, effettuata in fase di passaggio da uno stato ad un altro.
Un automa a stati finite può essere rappresentato tramite un grafo, come quello della figura
seguente, in cui viene composta la parola porta tramite l’applicazione di cinque stati e sei
transizioni:
1 Per gli approfondimenti sul rapporto tra polirematiche e terminologia si veda il paragrafo 2.2.3.
32
Figura 2.
In genere gli automi sono di due tipi: di riconoscimento e trasduttori1. L’automa della figura
1 è un automa di riconoscimento in quanto, stato dopo stato, compone la parola porta e la riconosce
in quanto tale. Gli automi di riconoscimento (detti anche accettori o riconoscitori di sequenze)
producono un output binario, rispondendo affermativamente o negativamente sull’informazione
composta, stato dopo stato, da parte dell’automatismo. Tutti gli stati degli automi di riconoscimento
sono detti stati di accettazione o di non accettazione. Nel momento in cui l’input viene processato,
se lo stato in questione è di accettazione, allora l’input viene riconosciuto; in caso contrario, viene
respinto. Come norma, l’input è composto da simboli (caratteri); non vengono invece applicate
azioni.
Un automa di riconoscimento può anche essere descritto come un elemento che definisce un
linguaggio in cui è inclusa ogni parola accettata dall’automatismo stesso, mentre sono escluse tutte
le parole respinte. In tal senso, si è soliti dire che il linguaggio è accettato dall’automatismo. Per
definizione, sono accettati dagli automi tutti i linguaggi regolari, ovvero ogni linguaggio formale
composto da un insieme di parole (nel senso di stringhe finite di lettere), o da simboli.
I trasduttori, invece, producono output che provengono da specifici input o da stati sottoposti
ad azioni. In genere vengono usati per applicazioni di carattere linguistico-computazionale.
Esistono due tipo di trasduttori: deterministici e non-deterministici. I trasduttori
deterministici, permettono di riconoscere una sola sequenza. Al contrario, si dicono non
deterministici quegli automi che consentono di riconoscere più di una sequenza. Ad esempio,
l’automa descritto di seguito: 1 Le immagini qui prodotte raffigurano degli automi di tipo morfologico, ovvero incentrati sulla descrizione della formazione delle parole. Esistono nondimeno automi di tipo sintattico, in grado di riconoscere e disambiguare pattern testuali, il cui trattamento esula tuttavia dagli scopi di questo articolo. Per un accurato approfondimento di questo tipo di automi, si rimanda pertanto ai già citati siti Web di Intex, Unitext e Nooj, nonché a Silberztein (2004) e (2008).
33
Figura 3.
consente di riconoscere tre parole diverse, ovvero porto, portare e portata. Da notare che le tre
parole hanno tutte lo stessa morfema lessicale port-.
In INTEX, UNITEX e NOOJ, gli automi a stati finiti sono concepiti come esempi specifici
di trasduttori a stati finiti che non producono nessuna informazione (ovvero non dànno nessun
output) se non quello relativo alle informazioni binarie “la sequenza è riconosciuta” oppure “la
sequenza non è riconosciuta”. In genere, questi automi a stati finiti vengono utilizzati per estrarre
(ricercare, indicizzare, contare, localizzare, e così via) specifiche sequenze di interesse nel testo.
Inoltre, nei tre software all’uso di trasduttori e automi a stati finiti si affianca quello delle
espressioni regolari, ovvero di sequenze di comandi governate da sintassi predefinite1 attraverso le
quali, all’interno di un testo, si possono localizzare pattern aventi caratteristiche morfosintattiche
simili. Nei tre software trattati, le espressioni regolari rappresentano perciò un mezzo rapido per
produrre dei semplici automi a stati finiti (in genere di tipo booleano, per il riconoscimento di
macrosequenze di tipo lineare) che non necessitano dell’adozione di un grafo. Ad esempio, quando
la sequenza da riconoscere è composta da una, due o tre parole, risulta più efficace ricercarla
direttamente con un’espressione regolare. Tuttavia, se la struttura da localizzare risulta più
complessa, sarà necessario usare un grafo.
Sempre in questi software, una delle caratteristiche essenziali dell’uso di trasduttori a stati
finiti, o di varianti di essi, è che in determinate fasi dell’analisi testuale possono descrivere la gran
parte degli oggetti processati (siano essi testi, dizionari, o grammatiche). Un trasduttore a stati finiti
è di fatto un grafo che rappresenta un gruppo di sequenze riconosciute (ovvero esistenti) all’esterno
1 Cfr. Silberztein, M. (1993), (2004) e (2008).
34
del grafo ed associa ad esse ad un gruppo di sequenze prodotte in uscita dal grafo stesso. In genere,
una grammatica descritta all’interno di un trasduttore a stati finiti rappresenta sequenze di parole
presenti in un testo da analizzare, e produce informazioni di carattere linguistico, ad esempio sulla
struttura sintattica delle sequenze di parole. Per un dizionario, invece, rappresenta sequenze di
lettere che compongono singole entrate, e produce informazioni lessicali, come ad esempio quelle
relative alle parti del discorso, ai codici di flessione, e via di seguito. Infine, il trasduttore di un testo
rappresenta sequenze di parole così come esse occorrono in ogni singola frase del testo, ed assegna
ad esse informazioni lessicali e/o sintattiche basate su tutte le analisi possibili.
Nei tre software creati dal lessico-grammatica per l’analisi automatica dei testi, la
rappresentazione univoca sotto forma di trasduttori/grafi di questi tre oggetti (testi, dizionari e
grammatiche) presenta vantaggi notevoli, soprattutto in termini di rapidità di esecuzione. Tutte le
operazioni eseguite con i tre software possono infatti essere effettuate attraverso un numero limitato
di step, basati sull’uso di trasduttori a stati finiti. Ad esempio, la lettura di un testo tramite dizionari
consisterà nell’unire i trasduttori realizzati per ciascun dizionario, operazione che produrrà un
singolo trasduttore, a sua volta applicabile al trasduttore creato per descrive il testo. Inoltre, in
INTEX un trasduttore può essere utilizzato per controllare il formato o la consistenza di un
dizionario.
Un ulteriore elemento di analisi offerto da questi software sono le reti a transizione ricorsiva,
composte da grafi che a loro volta inglobano altri grafi inclusi in stati specifici detti metanodi. I
grafi inglobati possono a loro volta contenere riferimenti ad altri grafi. Questa struttura a cascata
crea una rete a transizione ricorsiva, ovvero librerie di grafi del tipo bottum-up, in cui i grafi più
semplici sono alla base della rete e vengono inglobati in grafi più complessi. In questo modo, una
rete a transizione ricorsiva è in grado di analizzare un testo applicando più grammatiche
contemporaneamente, anche in numero molto elevato. A loro volta, più reti a transizione ricorsiva
possono essere collegate fra loro, creando di fatto delle grammatiche indipendenti dal contesto,
ovvero applicabili ad ogni testo in quanto includono al loro interno la gran parte delle grammatiche
locali realizzabili nello studio formale di una data lingua. In pratica, tali grammatiche indipendenti
dal contesto possono essere formate da un numero illimitato di grammatiche dipendenti dal
contesto.
2.3.2 Dizionari elettronici
In base alla descrizione fatta precedentemente sui software di analisi testuale automatica,
risulta evidente che nessuno di essi potrebbe funzionare correttamente se fosse privo di dizionari
elettronici. Ma cosa sono esattamente i dizionari elettronici del lessico-grammatica, e soprattutto,
35
quali caratteristiche strutturali hanno? Per fornirne una definizione chiara ed esaustiva, converrà
rifarsi al concetto di base di dati, ovvero chiedersi cosa sia una base di dati e quando un file da noi
elaborato può essere definito tale.
L’informatica stabilisce che una base di dati è un “insieme di informazioni esaurienti e non
ridondanti necessarie a una serie di applicazioni automatizzate e conosciute da un insieme logico
che ne garantisce la gestione. (...) La formulazione di una base di dati (...) è un processo che
partendo dall’osservazione di una situazione reale giunge alla definizione della base di dati
corrispondente.”1 Una base di dati è inoltre un “insieme, anche molto esteso, di informazioni di
diverso tipo che fanno riferimento ad uno specifico settore di conoscenza o ad una determinata
organizzazione. Questi dati sono organizzati secondo precisi criteri e mediante precise strutture
informative, per poter essere consultati, aggiornati ed eventualmente ristrutturati per mezzo di
procedure organizzate in modo unitario”2.
In termini algebrici, le basi di dati sono quindi degli insiemi finiti, poiché includono
elementi con caratteristiche comuni tali da poter essere descritti congiuntamente, secondo un unico
metodo. La realizzazione di una base di dati è governata da rigorosi criteri di organizzazione
formale, che impongono la catalogazione dei contenuti in base a campi ed etichette univoci e non
ambigui, da applicare a tutti gli elementi dell’insieme da descrivere. È questo tipo di impostazione
che consente il trattamento delle basi di dati tramite computer, con la creazione e l’applicazione di
mirati Data Base Management System (DBMS) che permettono di effettuare rapidamente operazioni
di consultazione, information retrieval, importazione e esportazione verso altre basi di dati,
aggiornamento e copia. Partendo da dei dati cartacei, un esempio di base di dati sarebbe il
riversaggio su supporto ottico o magnetico del contenuto dei vecchi fascicoli anagrafici di un
comune, ordinato alfabeticamente e suddiviso in base a campi diversi per cognomi, nomi, giorni e
mesi nascita indirizzi e così via. In tal caso, avremo creato una base di dati anagrafica.
Una identica rigorosità formale di strutturazione è applicata per la creazione dei dizionari
elettronici, che vengono realizzati:
in riferimento ad un settore specifico della conoscenza, nel nostro caso il linguaggio naturale
e più specificamente il lessico di una lingua;
con una strutturazione empirica basata su specifiche osservazioni di aspetti e fenomeni reali,
ovvero quelli relativi all’uso del lessico;
1 Cfr. Morvan, P. (1989), pag. 36.2 Cfr. Barcellona, N., Marini, A., Monti, P., Vercesi, M. (1988), pag. 106.
36
con criteri di strutturazione omogenei, in quanto gli elementi che include sono le unità
lessicali di una stessa lingua ed hanno quindi per definizione delle caratteristiche in comune;
in funzione di un uso esclusivamente informatico, e con un rigoroso formalismo descrittivo,
che ne rendono necessario lo stoccaggio su supporti magnetici al fine di essere impiegato
solo in sistemi logici di gestione, ovvero da software di analisi linguistica.
I dizionari elettronici possono perciò a pieno titolo essere definite delle basi di dati lessicali.
che all’interno di software di analisi testuale svolgono il ruolo di motori linguistici con cui
effettuare tutte le applicazioni di matching e parsing sui testi. Inoltre, riprendendo le definizioni date
in precedenza riguardo la linguistica computazionale, possiamo affermare che un dizionario
elettronico faccia parte di quelle applicazioni informatiche “non intelligenti”, adottate nello studio
del linguaggio naturale e nella verifica di teorie linguistiche indipendenti.
I dizionari elettronici dell'italiano1, elaborati su base lessico-grammaticale, sono
essenzialmente di due tipi, suddivisibili in base all’aspetto formale e semantico del loro contenuto.
Avremo perciò dei:
- dizionari elettronici di parole semplici (denominati DELAS-DELAF) che includono tutte le
parole semplici dell’italiano, sia monorematiche che polirematiche;
- dizionari elettronici di parole composte (denominati DELAC-DELACF), qui anche definite
parole composte polirematiche, ovvero come già indicato tutte quelle sequenze formate da
due o più parole e che costruiscono congiuntamente singole unità di significato.
Tale suddivisione è necessaria sia dal punto di vista formale e morfologico, sia da quello
semantico2. Infatti, in fase di compilazione di un software di query, recupero informazioni o analisi
testuale automatica, come ad esempio i già citati INTEX, UNITEX e CATALOGA, l'assenza di
separatori all'interno delle parole semplici, e la presenza di questi all'interno delle parole composte,
1 Questi dizionari, insieme a tutto il lingware utilizzato nei vari software di analisi testuale automatica citati più avanti in questo articolo sono stati realizzati da e sono visionabili presso il dipartimento di Scienze della Comunicazione dell’Università di Salerno, che vanta una decennale collaborazione prima con il L.A.D.L. di Maurice Gross, già all’Université Paris 7 ma attualmente inserito nelle strutture dell’Université de Marne-la-Vallé, nonché con Max Silberstein, attualmente docente di linguistica computazionale presso l’Université de Franche-Comté di Besançon. 2 Aggiungiamo che le parole semplici hanno sempre un tasso di polisemia (leggi ambiguità) più elevato di quelle composte, che ne hanno uno molto prossimo allo zero. Per quanto riguarda il recupero informazioni e l'analisi testuale automatica, ciò implica indirettamente la necessità di prevedere ed impostare modalità analitiche diverse per i due tipi di parole.
37
saranno fattori discriminanti e comporteranno impostazioni e scelte differenti per quanto riguarda
gli automatismi nel trattamento dei dati. Nel caso delle parole semplici, sarà infatti necessario
prevedere e trattare solo dati alfabetici o numerici; con le parole composte, la presenza di separatori
inserirà un livello aggiuntivo di dati, ai quali si dovranno assegnare funzioni univoche, non
ambigue, e di valore diverso da quelli alfabetici e numerici.
Diverso è invece il caso di NOOJ, il più recente dei software precedentemente citati,
compilato in modo da gestire congiuntamente basi di dati di struttura diversa; in NOOJ, infatti, è
possibile realizzare un unico dizionario elettronico contenente sia parole semplici che composte.
Per quanto stiamo esponendo, una descrizione esaustiva del DELAC-DELACF, in termini di
analisi strutturale di una basi di dati di parole composte dell’italiano, sarebbe forse sufficiente al
corretto trattamento degli argomenti prefissati. Tuttavia, poiché alcune modalità di realizzazione di
questo dizionario dipendono fortemente da quelle DELAS-DELAF, li descriveremo entrambi, per
fornire un quadro omogeneo non solo sulla loro concretizzazione, ma anche sulle relative modalità
di formalizzazione del linguaggio naturale adottate dal lessico-grammatica.
2.3.2.1 La strutturazione del DELAS-DELAF
Il dizionario elettronico DELAS, o delle parole semplici, si compone di tre parti essenziali:
1. un lemmario;
2. dei codici alfanumerici, formati da un'etichetta morfologica e da una numerica, ed
assegnabili alle entrate per riassumerne le caratteristiche morfo-grammaticali e di
flessione;
3. dei trasduttori a stati finiti, ognuno dei quali è associato univocamente ad un codice
alfanumerico, in base alle modalità flessive che formalizza al suo interno. Tali trasduttori
vanno infine a far parte di moduli specifici di INTEX, UNITEX E NOOJ, e sono
utilizzati per la flessione automatica delle entrate.
I codici alfanumerici servono quindi a collegare le entrate ai trasduttori a stati finiti che ne
formalizzano le modalità flessive. Ad esempio, il codice N41 verrà applicato a tutte le parole
semplici che sono dei nomi (N) femminili singolari aventi -a come morfema grammaticale finale e
una forma plurale in -e. Quindi, il codice N41 sarà applicato a parole quali casa, lista, pietra, e così
via, mentre il trasduttore a stati finiti corrispondente avrà la seguente struttura grafica:
38
Figura 4.
Nella figura 1, l’istruzione “L” inserita nello stato iniziale del trasduttore indica che è
necessario cancellare l’ultimo carattere della parola da flettere. Un numero maggiore di istruzioni
“L” nello stato iniziale corrisponde ad un numero equivalente di caratteri da cancellare: l'istruzione
“LL” cancella quindi due caratteri, “LLL” ne cancella tre, e così via. Tramite queste cancellazioni
otteniamo delle sequenze che possono essere sia dei morfemi lessicali canonici, quali cas-, sia delle
forme non morfemiche alle quali il trasduttore potrà associare desinenze specifiche per effettuare la
flessione di entrate date. Negli altri stati del grafo della figura 3, troviamo invece i morfemi
grammaticali da aggiungere per ricostruire la forma singolare ed ottenere le forma plurale di ogni
specifica entrata cui il trasduttore è applicabile. Il grafo della figura 3 assocerà quindi a cas-, list- e
pietr- la -a per il singolare e la -e per il plurale.
Simili procedimenti di formalizzazione morfo-grammaticale sono utilizzati per tutte le
categorie flessive, mentre per le categorie non flessive vengono adottate solo delle etichette
alfabetiche. La lista delle etichette categoriali del DELAS è la stessa descritta in 2.2, cui qui
aggiungiamo:
PAA per le preposizioni composte formate da un determinante e la preposizione semplice a,
come al;
PAC per le preposizioni composte formate da un determinante e la preposizione semplice
con, come col;
PADA per le preposizioni formate da un determinante e la preposizione semplice da, come
dal;
PADI per le preposizioni formate da un determinante e la preposizione semplice di, come
del;
PAN per le preposizioni formate da un determinante e la preposizione semplice in, come
nel;
PAS per le preposizioni formate da un determinante e la preposizione semplice su, come sul;
39
PREP per le preposizioni semplici
In base a quanto descritto, le stringhe del DELAS saranno strutturate come segue:
amare,V3
andare,V5
casa,N41
finestra,N41
lestofante,A79
lestofante,N79
In questa breve lista, si noti come che la virgola “,” sia utilizzata come un separatore di
campo di una base di dati, per dividere i lemmi dai rispettivi codici alfanumerici di flessione.
La flessione automatica del DELAS, che attualmente contiene oltre 120.000 entrate, produce
il DELAF, ne contiene invece oltre 800.000. La piccola lista della pagina precedente, invece, viene
flessa automaticamente in quella che segue. Come è possibile verificare, durante il passaggio da
DELAS in DELAF, i codici alfanumerici di flessione vengono sostituiti da altre etichette, anche
queste codificate in modo univoco e non ambiguo: ama,amare.V:Q2sama,amare.V:X3samai,amare.V:J1samammo,amare.V:J1pamando,amare.V:Gamano,amare.V:X3pamante,amante.A:fsamante,amante.A:msamante,amante.N:fsamante,amante.N:msamante,amare.V:Zms:Zfsamanti,amante.A:fpamanti,amante.A:mpamanti,amante.N:fpamanti,amante.N:mpamanti,amare.V:Zmp:Zfpamar,amare.V:Lamare,amare.V:Iamarono,amare.V:J3pamasse,amare.V:H3samassero,amare.V:H3pamassi,amare.V:H1samassi,amare.V:H2samassimo,amare.V:H1pamaste,amare.V:H2pamaste,amare.V:J2pamasti,amare.V:J2samata,amare.V:Ufsamate,amare.V:Q2p
amate,amare.V:Ufpamate,amare.V:X2pamati,amare.V:Umpamato,amare.V:Umsamava,amare.V:Y3samavamo,amare.V:Y1pamavano,amare.V:Y3pamavate,amare.V:Y2pamavi,amare.V:Y2samavo,amare.V:Y1samerai,amare.V:K2sameranno,amare.V:K3pamerebbe,amare.V:F3samerebbero,amare.V:F3pamerei,amare.V:F1sameremmo,amare.V:F1pameremo,amare.V:K1pamereste,amare.V:F2pameresti,amare.V:F2samerete,amare.V:K2pamerà,amare.V:K3samerò,amare.V:K1sami,amare.V:Q3sami,amare.V:W1sami,amare.V:W2sami,amare.V:W3sami,amare.V:X2samiamo,amare.V:Q1pamiamo,amare.V:W1p
40
amiamo,amare.V:X1pamiate,amare.V:W2pamino,amare.V:Q3pamino,amare.V:W3pamo,amare.V:X1samò,amare.V:J3scasa,casa.N:fscase,casa.N:fpfinestra,finestra.N:fsfinestre,finestra.N:fplestofante,lestofante.A:fslestofante,lestofante.A:mslestofante,lestofante.N:fslestofante,lestofante.N:mslestofanti,lestofante.A:fplestofanti,lestofante.A:mp
lestofanti,lestofante.N:fplestofanti,lestofante.N:mpva',andare.V:Q2sva,andare.V:Q2sva,andare.V:X3svada,andare.V:Q3svada,andare.V:W1svada,andare.V:W2svada,andare.V:W3svadano,andare.V:Q3pvadano,andare.V:W3pvado,andare.V:X1svai,andare.V:Q2svai,andare.V:X2svanno,andare.V:X3pvo,andare.V:X1s
Come possiamo vedere, le stringhe del DELAF presentano un formalismo descrittivo
diverso da quello del DELAS. Notiamo infatti che le morfologia flessiva viene sempre indicata,
laddove necessario, dalle etichette m (maschile), f (femminile), s (singolare) p (plurale). In aggiunta,
per le voci verbali vengono utilizzate le seguenti etichette:
F = condizionale presenteG = gerundio presenteH = congiuntivo imperfetto I = infinito presenteJ = indicativo passato remotoK = indicativo futuro presenteL = infinito elisoQ = imperativo presenteU = participio passatoW = congiuntivo presente X = indicativo presenteY = indicativo imperfettoZ = participio presente
Quindi, l’etichetta:
V:Q2p
applicata ad una voce verbale di mangiare indicherà che si tratta della seconda persona plurale (2p)
dell’imperativo presente (Q). Inoltre, poiché il DELAF è un dizionario di sole parole semplici, non
sono previste etichette per i tempi verbali composti.
Inoltre, le stringhe del DELAF sono strutturate diversamente da quelle del DELAS;
leggendo da sinistra a destra, includono i seguenti elementi:
- la parola nella sua forma flessa;
- un primo separatore di campo, ovvero la virgola “,”;
41
- la parola nella sua forma canonica, ovvero non flessa;
- un secondo separatore, ovvero il punto “.”;
- l’etichetta grammaticale;
- un terzo separatore, ovvero il punto e virgola “;”;
- le informazioni grammaticali relative alla forma flessa.
2.3.2.2 La strutturazione del DELAC-DELACF
Il dizionario elettronico DELAC, o delle parole composte in forma canonica, è formato
anch'esso delle stesse tre parti essenziali viste per il DELAS. Una differenza sostanziale è tuttavia
costituita dalla presenza dei traducenti inglesi per le stringhe italiane. Diverso rispetto al DELAS è
anche il formalismo descrittivo per la flessione e le proprietà morfo-grammaticali delle entrate.
Infatti, in fase di elaborazione del DELAC, i codici alfanumerici già individuati per il
DELAS vengono inseriti all'interno delle parole composte, in corrispondenza delle singole unità
lessicali che fletteranno nelle forme plurali.1 Una identica operazione viene svolta per i componenti
dei traducenti inglesi, ai quali verranno applicati codici flessivi appositamente elaborati e basati
sulla morfologia flessiva dell'inglese. Le etichette inserite verranno in seguito lette a mezzo di
automi a stati finiti, che fletteranno automaticamente il DELAC, in DELACF, o dizionario delle
parole composte flesse. L'esempio seguente mostra un'entrata del DELAC etichettata da codici di
flessione sia per la parte italiana che per quella inglese:
accertamento(N7)/di/valore/.NPN:ms-+,ECON /=assessment(N1)/N/N:s+
I codici di flessione, indicano che la forma flessa della parola composta precedente, ovvero la
corrispondente entrata DELACF, sarà così strutturata:
accertamenti/di/valore,accertamento/di/valore.NPN:mp-+,ECON / =assessments,assessemt.N/N:p+
1 Ricordiamo che la tipologia flessiva delle parole composte è molto varia, non sempre prevede la pluralizzazione di tutti gli elementi costituenti ed è spesso legata alle proprietà categoriali degli stessi costituenti. Lo dimostra ad esempio il composto casa di cura, del tipo nome-preposizione-nome, che ha una forma plurale in case di cura, mentre risulta non accettabile la forma *case di cure. Ancora, il composto già citato paura morbosa degli spazi aperti , del tipo nome-aggettivo-nome-preposizione-nome-aggettivo, non ha nessuna forma plurale, vista l'inaccettabilità di *paure morbose degli spazi aperti; non risulta inoltre attestata una forma in paura morbosa dello spazio aperto. Invece, i composti del tipo nome-aggettivo, come ad esempio berretto verde, pluralizzano entrambe le unità lessicali costituenti, come dimostra la forma berretti verdi.
42
Da un punto di vista del formalismo descrittivo applicabile ad una base di dati, è possibile
evidenziare una formalizzazione che prevede:
1. la parola flessa, i cui componenti interni sono indicati dal separatore di campo "/";
2. il separatore di campo”,”;
3. la parola composta canonica, i cui componenti interni sono indicati dal separatore di
campo "/";
4. il separatore di campo ".";
5. un'etichetta grammaticale che indica la struttura interna della parola composta;
6. il separatore di campo “:”;
7. le informazioni morfologiche relative alla parola composta (come detto, m per maschile,
f per femminile, s per singolare, p per plurale) seguite dalle indicazioni relative alle
possibile presenza di altre forme;
8. il separatore di campo “;”;
9. le informazioni relative agli specifici settori della conoscenza in cui l'uso della parola
composta è attestato, insieme a quelle relative alla fonte di reperimento del composto;
10. il separatore di campo "/" seguito da uno spazio bianco e dal separatore di campo "=";
11. la traduzione inglese del composto italiano, che viene formalizzata allo stesso modo
della stringa italiana, come indicato dai punti 1-7;
12. in ultimo, la notazione della funzione grammaticale del composto inglese preceduta dal
separatore di campo "/" e seguita dalle informazioni di tipo morfologico e flessivo. Tale
notazione non è utilizzata per i composti italiani, qualora, come nell’esempio, un
dizionario contenga solo entrate con funzione nominale.
Sottolineiamo inoltre che nel DELAC e nel DELACF la descrizione morfo-grammaticale
delle entrate viene effettuata con una matrice binaria, in cui si alternano la lettera m per indicare una
forma maschile, la f una femminile, la s una singolare e la p una plurale. A queste lettere si
aggiunge l'uso dei segni + e - che forniscono ulteriori informazioni sulle possibili forme flesse, nel
DELAC, e sulle forma canoniche di derivazione, nel DELACF. Quindi, un’etichetta del tipo fs-+
indicherà che la parola composta è femminile singolare, che non ha una forma maschile
corrispondente (come indicato dal segno -) e che può invece avere una forma femminile plurale
(come indicato dal segno +). Allo stesso modo, un'etichetta del tipo mp-- indicherà che la parola è
maschile plurale, e che non ha nessun'altra forma flessa, né maschile né femminile.
43
In 4, diamo alcuni esempi bilingui di entrate del DELACF estratte dal linguaggio
specialistico dell'economia.
2.3.3 Parole composte polirematiche e terminologia
In tutte le lingue del mondo esiste una stretta relazione di necessità tra terminologia1 e parole
composte polirematiche: di fatto, la terminologia ha bisogno delle parole composte, soprattutto di
quelle polirematiche, e ciò è testimoniato dalla presenza nei lessici di specialità2 di un numero
molto elevato di composti, in alcuni casi superiore al 90% di tutto l'insieme lessicale repertoriato.
Non va tuttavia dimenticato che l'uso di parole composte è ampiamente attestato anche nei registri
non marcati terminologicamente, sebbene in essi le parole semplici e le composte monorematiche
siano più diffuse. Tuttavia, per quanto riguarda i domini semantici specialistici e terminologici, di
grande funzionalità si dimostrano le modalità di strutturazione e composizione sintagmatica delle
polirematiche, che hanno dàto in passato e dànno ancora vita – nel caso di neologismi – ad unità di
significato molto pregnanti e mai ambigue, tali da riassumere in toto il significato di un testo in cui
occorrono, e di indirizzarne, come abbiamo visto, la catalogazione automatica tramite computer
effettuata in base al dominio semantico di appartenenza più ricorrente.
Ciò è possibile anche perché, come ha per altro evidenziato il lessico-grammatica, le parole
composte terminologiche3, contrariamente alle parole semplici di uso generico, non sono
polisemiche e sono etichettabili in modo univoco – ovvero, pur appartenendo a campi semantici
diversi, in ognuno di essi assumono uno ed un solo significato. Tale caratteristica riveste grande
valore per il linguaggio terminologico, che nell'abbinamento dei suoi significati e significanti ha la
necessità di essere il più preciso possibile. Le principali finalità della terminologia riguardano infatti
la classificazione non ambigua di oggetti e concetti, e quindi in seconda analisi il raggiungimento di
1 Per una rapida definizione di terminologia, citiamo (a cura di Beccaria 1994: 719):
"Insieme dei termini che si riferiscono ai concetti e agli oggetti appartenenti a un particolare settore del sapere o a una qualsiasi attività umana. Il materiale lessicale di una terminologia è costituito da parole comuni a cui si attribuisce un significato specifico, da prestiti[...] da calchi [...] e più raramente da veri e propri neologismi [...] I termini che costituiscono una terminologia debbono essere univoci, cioè avere un solo significato preciso per tutti gli specialisti del settore: in realtà questo non è sempre possibile, in particolare nelle scienze umane. Periodicamente le associazioni che raggruppano gli esperti di ogni settore rivedono la terminologia del settore per aggiornarla, per eliminare insorgenze di polisemia, per redigere dizionari specialistici che svolgano un'azione uniformatrice."
2 Si definiscono lessici di specialità tutti quei sottoinsiemi lessicali omogenei che contengono termini usati specificamente ed in modo semanticamente univoco all'interno dei vari domini della conoscenza. In tal senso, il dominio della conoscenza - o campo semantico - dell'economia avrà un suo lessico di specialità, e lo stesso varrà per la fisica, la biochimica, la geodesia, e via discorrendo. Questi sottoinsiemi lessicali, inoltre, vengono in genere catalogati e descritti all'interno di opere cartacee specifiche, dette anche dizionari di specialità. 3 Per una valutazione di questo tipo di parole semplici e della loro polisemia, cfr. Gross (1989).
44
una comunicazione tecnico-scientifica non disfunzionale. Il linguaggio terminologico, per
definizione, non può essere ambiguo, e trova quindi nelle parole composte polirematiche la forma
più adeguata ed adatta di formulazione linguistica.
Da ricordare inoltre che sempre grazie alla sintagmaticità dei composti, in ambito
terminologico è possibile non solo definire specificamente un concetto, ma anche istituire relazioni
logico-inclusive con altri concetti simili, fino a creare reti cognitive terminologiche in cui i diversi
nodi sono rappresentati da parole composte aventi specifici elementi in comune. È questo il caso di
una serie aperta di composti appartenenti al lessico specialistico della psicologia, formata da
cinquantanove entrate che hanno in comune, come elemento testa, il gruppo nominale paura
morbosa:paura morbosa degli spazi apertipaura morbosa dei bambinipaura morbosa dei canipaura morbosa dei coloripaura morbosa dei fioripaura morbosa dei gattipaura morbosa dei pescipaura morbosa dei precipizipaura morbosa dei pulcinipaura morbosa dei ragnipaura morbosa dei serpentipaura morbosa dei suonipaura morbosa dei vermipaura morbosa del buiopaura morbosa del calorepaura morbosa del colorepaura morbosa del denaropaura morbosa del disordinepaura morbosa del dolorepaura morbosa del freddopaura morbosa del fuocopaura morbosa del marepaura morbosa del matrimoniopaura morbosa del peccatopaura morbosa del piacerepaura morbosa del ridicolopaura morbosa del sessopaura morbosa del sonnopaura morbosa del tuonopaura morbosa del veleno
paura morbosa del ventopaura morbosa del vetropaura morbosa dell'amorepaura morbosa dell'errorepaura morbosa dell'idrofobiapaura morbosa dell'infinitopaura morbosa della crescitapaura morbosa della divinitàpaura morbosa della faticapaura morbosa della felicitàpaura morbosa della follapaura morbosa della gentepaura morbosa della gravitàpaura morbosa della lebbrapaura morbosa della lucepaura morbosa della nebbiapaura morbosa della nevepaura morbosa della pioggiapaura morbosa della polverepaura morbosa della profonditàpaura morbosa della responsabilitàpaura morbosa delle apipaura morbosa delle deformitàpaura morbosa delle fecipaura morbosa delle forestepaura morbosa delle infezionipaura morbosa delle malattiepaura morbosa delle scalepaura morbosa di tutto
Tuttavia, essendo un dizionario essenzialmente terminologico, nel DELAC-DELACF ad
ogni singola entrata vengono assegnate una o più etichette terminologiche, in base ai settori della
conoscenza in cui uno specifico composto è stato attestato. Allo stato i settori della conoscenza
inseriti nel DELAC-DELACF sono 173, come è evidenziato dalla tabella che segue:
45
ETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZAABB ABBIGLIAMENTOACC ACCESSORIACUS ACUSTICAAGR AGRICOLTURAALIM ALIMENTAZIONEANAT ANATOMIAANTROP ANTROPOLOGIAARALD ARALDICAARCH ARCHITETTURAARCH NAV ARCHITETTURA NAVALEARCHEOL ARCHEOLOGIAASTROFIS ASTROFISICAASTROL ASTROLOGIAASTRON ASTRONOMIAAUT AUTOMATISMIAUT IND AUTOMATISMI INDUSTRIALIAUT INT AUTOMATISMI INTELLIGENTIAUT UFF AUTMATISMI PER UFFICIOBASI DATI BASI DI DATIBIOCHIM BIOCHIMICABIOFIS BIOFISICABIOL BIOLOGIABIOL MOL BIOLOGIA MOLECOLAREBOT BOTANICACARTOGR CARTOGRAFIACHIM CHIMICACHIM ANAL CHIMICA ANALITICACHIM FIS CHIMICA FISICACHIM INORG CHIMICA INORGANICACHIM ORG CHIMICA ORGANICACITOL CITOLOGIACLIMATOL CLIMATOLOGIACOMUN COMUNICAZIONICOSM COSMOLOGIACOSTR AER COSTRUZIONI AERONAUTICHECOSTR NAV COSTRUZIONI NAVALICRIOGEN CRIOGENIACRISTAL CRISTALLOGRAFIACRONOM CRONOMETRIADANZA DANZADIGE DIZIONARIO GENERICODIR DIRITTODISP DISPOSITIVIDISP ELAB DISPOSITIVI ELABORAZIONE DATIECOL ECOLOGIAECON ECONOMIAEDIL EDILIZIAETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZA
46
EDIT EDITORIAELAB ELABORAZIONE DATIELAB DISTR ELABORAZIONE DATI DISTRIBUITAELETTR ELETTRICITA'ELETTROMAG ELETTROMAGNETICAELETTRON ELETTORNICAEMBRIOL EMBRIOLOGIAENOL ENOLOGIAEVOL EVOLUZIONISMOFANT FANTASTICOFARM FARMACOLOGIAFERR FERROVIAFIG FIGURATOFIS FISICAFIS ATOM FISICA ATOMICAFIS NUCL FISICA NUCLEAREFIS PLASMA FISICA DEL PLASMAFIS SOL FISICA DEI SOLIDIFIS SUBNUCL FISICA SUBNUCLEAREFISC FISCOFISIOL FISIOLOGIAGASTR GASTROLOGIAGEMMOL GEMMOLOGIAGEN GENERAZIONE DATIGENET GENETICAGEOCHIM GEOCHIMICAGEOD GEODINAMICAGEOFIS GEOFISICAGEOGR GEOGRAFIAGEOL GEOLOGIAGIOCO GIOCOGRAF GRAFICAIDROL IDROLOGIAINF INFORMATICAING INGEGNERIAING ACUS INGEGNERIA ACUSTICAING AER INGEGNERIA AERONAUTICA E AEROSPAZIALEING CHIM INGEGNERIA CHIMICAING CIV INGEGNERIA CIVILEING MECC INGEGNERIA MECCANICAING MIN INGEGNERIA MINERARIAING NAV INGEGNERIA NAVALEING NUCL INGEGNERIA NUCLEAREING PETROL INGENGERIA PETROLIFERAING SIS INGEGNERIA DEI SISTEMIINT ART INTELLIGENZA ARTIFICIALEINTERAZ INTERAZIONEISTOL ISTOLOGIAETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZA
47
LETTER LETTERATURALING LINGUISTICAMAR DIZIONARIO MARITTIMOMAT MATEMATICAMATER MATERIAMECC MECCANICAMECC FL MECCANICA DEI FLUIDIMECC QUANT MECCANICA QUANTISTICAMECC STAT MECCANICA STATICAMED MEDICINAMEMOR DISPOSITIVI DI MEMORIEMEST NOMI DI MESTIEREMETALL METALLURGIAMETEOR METEOROLOGIAMICOL MICOLOGIAMICROBIOL MICROBIOLOGIAMIL MILITAREMINERAL MINERALOGIAMUS MUSICANAVIG NAVIGAZIONINOTAZ NOTAZIONINUMER NUMERAZIONIOCEANOGR OCEANOGRAFIAORG ORGANIZZAZIONEORG AZ ORGANIZZAZIONE AZIENDALEORG DATI ORGANIZZAZIONE DATIORG IND ORGANIZZAZIONE INDUSTRIALEOTTICA OTTICAPALEOBOT PALEOBOTANICAPALEONT PALEONTOLOGIAPATOL PATOLOGIAPATOL VEG PATOLOGIA VEGETALEPELL PELLAMEPERIF PERIFERICHEPETROGR PETROGRAFIAPITT PITTURAPOL POLITICAPROG MECC PROGRAMMAZIONE MECCANICAPROGR PROGRAMMAZIONEPSIC PSICOLOGIA, PSICANALISI E PSICHIATRIAPT POSTE E TELECOMUNICAZIONIRAP ART RAPPRESENTAZIONI ARTISTICHERELAT RELATIVITA'RELIG RELIGIONIRETI RETISART SARTORIASCI TEC SCIENZA E TECNICASCOL SCUOLAETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZA
48
SCULT SCULTURESICUR SICUREZZASILVIC SILVICOLTURASIS CONTR SISTEMI DI CONTROLLOSIST SISTEMISIST ELAB SISTEMI DI ELABORAZIONE DATISPETTR SPETTROGRAFIASPORT SPORTST STORIASTAT STATISTICASVIL SVILUPPOSVIL SIST SVILUPPO SISTEMITASSON TASSONOMIATEAT TEATROTECN TECNICHETECN ELAB TECNICHE DI ELABORAZIONE DATITECNOL TECNOLOGIATELECOM TELECOMUNICAZIONITEOR TEORIETERMOD TERMODINAMICATESS TERMINI TESSILITRATT TRATTAMENTOTRATT DATI TRATTAMENTO DATITRATT TESTI TRATTAMENTO TESTITUR TURISMOVETER VETERINARIAVIROL VIROLOGIAZOOL ZOOLOGIAZOOL INVERT ZOOLOGIA DEGLI INVERTEBRATIZOOL VERT ZOOLOGIA DEI VERTEBRATI
Tabella 2.
Come già accennato, le entrate di ogni settore della conoscenza trattato formano nel loro
insieme il lessico di specialità o terminologico di quello specifico settore. Allo stato attuale, i lessici
terminologici più ampi sono quello della medicina (etichetta MED, con circa 63.000 forme flesse),
dell'economia (etichetta ECON, con circa 58.000 forme flesse), dell'informatica (etichetta INF, con
circa 38.000 entrate flesse), del diritto (etichetta DIR, con 14.000 forme flesse), e dell'ingegneria
(etichetta ING, con circa 5.000 forme flesse).
49
3. Conclusioni
Quali sono le prospettive applicative ipotizzabili per un simile approccio analitico, e in subordine,
per un uso ampio di composti e polirematiche? Gli scenari possibili sono principalmente due:
1. l’inserimento di simili base di dati lessicali all’interno di sistemi di interrogazione
automatica, che possono essere utilizzati per scopi informativi diversi, come ad esempio
quelli previsti dall’e-government e dalla cittadinanza elettronica;
2. l’applicazione e l’uso dei concetti di “unità lessicale e semantica” delle polirematiche
all’interno dei vari settori di ricerca legati alla strutturazione del Web Semantico, in
particolare quelli che prevedono la creazione di ontologie non ambigue, quindi
univocamente legate al materiale lessicale che definiscono. In tal senso, e sempre
nell’ambito della costruzione di ontologie possibili, i campi semantici delle
polirematiche possono essere facilmente interpretati come delle macroetichette in cui
inserire ulteriori e più dettagliate specificazioni.
In breve i composti e le polirematiche, così come li abbiamo descritti in queste pagine, possono
rivelarsi uno strumento utilissimo per avvicinare varie tipologie di utenti all’uso degli automatismi
offerti oggi dalla linguistica computazionale, soprattutto di quegli automatismi che hanno una
ricaduta essenziale sulle attività informative e consultative più frequenti e rilevanti.
50
5. Bibliografia
Barabási, L. A. 2004: Link. La scienza delle reti, Einaudi, Torino.
Barcellona, N., Marini, A., Monti, P., Vercesi, M. 1988: 5000 termini dell’informatica, Gruppo Editoriale Jackson, Milano.
Beccaria, G. L. 1984: (a cura di) Dizionario di linguistica, Einaudi, Torino.
Berners-Lee, T., 1999: L'architettura del nuovo web, Feltrinelli, Milano.
Chomsky, N. A. 1965: Aspects of the Theory of Syntax, MIT Press, Cambridge, Mass (trad. fr. Aspécts de la
théorie syntaxique, Le Seuil, Paris, 1971).1995: The Minimalist Program, MIT Press, Cambridge, Mass.
D’Agostino, E., Elia, A.2006: “Il significato delle frasi: un continuum dalle frasi semplici alle forme polirematiche”,
appunti del corso di Informatica per le Applicazioni su Web, Università degli Studi di Salerno, Salerno (disponibile su: http://www.scienzecom.unisa.it/appunti%20elia%20specialistica.htm .
Dardano, M.1978: La formazione delle parole nell’italiano d’oggi, Bulzoni, Roma.
Darmsteter A. 1894, Traité de la formation des mots composés dans la langue française comparée aux autres langues romanes et au latin, Paris, Emile Bouillon.
De Bueriis G. 2003: Le parole come ordine del mondo, Editoriale Scientifica, Napoli.
De Mauro, T. (a cura di) 2000: Il dizionario della lingua italiana, Pariavia – Bruno Mondadori Editori, Torino –
Milano.
Elia, A. 1990: Chiaro e tondo. Lessico-grammatica degli avverbi composti in italiano, Segno
Associati, Salerno.
Elia, A., Martinelli, M., D’Agostino, E. 1981: Lessico e strutture sintattiche, Liguori, Napoli.
Elia, A., Monteleone, M., di Maio, F., 2007: “Parole composte e modalità di recupero automatico delle informazioni”, in AION –
Sezione Linguistica, vol. 29, ISSN: 1720-1721, Istituto Universitario L’Orientale, Napoli.
51
Firenze, A.1987: Présentation des noms composés de l’italien, recherche d’un traitement formel,
Mémoires du D.E.A. d’Informatique Fondamentale, Université Paris 7, Paris.1992: L’invenzione della scrittura, Einaudi, Torino.
Grishman,.R. 1988: Linguistica computazionale, Tecniche Nuove, Milano.
Gross, M. 1968: Grammaire transformationnelle du français. 1- Syntaxe du verbe, Cantilène, Paris.1975: Méthodes en syntaxe, régime des constructions complétives, Hermann, Paris.1977: Grammaire transformationnelle du français. 2- Syntaxe du nom, Cantilène, Paris.1991: Grammaire transformationnelle du français. 3 - Syntaxe de l’adverbe, Maurice Gross
et Asstril, Paris.
Harris, Z. S. 1970: Papers in Structural and Transformational Linguistics, Dordrecht, Reidel.1988: Language and Information, Columbia University Press, New York (trad. it. a cura di
M. Martinelli, Linguaggio e informazione, Adelphi, Milano, 1995).
Malkiel, Y.
1959 : “Studies in Irreversible Binomials”, in Lingua, VIII, pp. 113-160
Monteleone, M.1989 : “Les expressions figées de l’italien: l’utilisation du verbe fare” in AA. VV.,
Mémoires du D.E.A d’informatique fondamentale 1989-1990, Ceril-Université Paris 7, Paris.
2002 : Lessicografia e dizionari elettronici. Dagli usi linguistici alle basi di dati lessicali, Fiorentino & New Technology, Napoli.
Morvan, P. 1989: Dizionario di informatica, Gremese-Larousse, Roma.
Silberztein, M. 1993: Dictionnaires électroniques et analyse automatique de textes. Le système INTEX,
Masson, Paris.2004: Intex, Université de Franche Comté, Besançon, disponibile su http://mshe.univ-
fcomte.fr/intex/downloads/Manuel.pdf. 2008: Nooj V2, Université de Franche Comté, Besançon, disponibile su
http://www.nooj4nlp.net/NooJ%20Manual.pdf.
Tollemache, F. S. J.1945: Le parole composte nella lingua italiana, Edizioni Rores di Nicola Ruffolo, Roma.
Vietri, S. 1985: Lessico e sintassi delle espressioni idiomatiche, Liguori, Napoli.2004: Lessico-grammatica dell’italiano, UTET, Torino.
52