linguisticacomputazionale.files.wordpress.com · Web view, che in ogni caso esula degli scopi di...

LE POLIREMATICHE DELL’ITALIANO

Annibale Elia, Mario Monteleone, Giustino De Bueriis, Franco Di Maio

Dipartimento di Scienze della ComunicazioneUniversità degli Studi di Salerno

0. Premessa............................................................................................................................................2

1. MONOREMATICHE E POLIREMATICHE NELLA LINGUISTICA CONTEMPORANEA.....2

1.1 DEFINIZIONI DI MONOREMATICA, POLIREMATICA, PAROLA SEMPLICE E PAROLA COMPOSTA....21.2 PRIMI STUDI ITALIANI SULLA COMPOSIZIONE DELLE PAROLE....................................................21.3 MORPHEME SEQUENCES E PHRASES.............................................................................................2

2. Le parole composte polirematiche nel lessico-grammatica......................................................................2

2.1 IL CONCETTO DI CONTINUUM......................................................................................................22.2 NOMI COMPOSTI E GRUPPI LIBERI DI PAROLE.............................................................................2

2.2.1 Strutture formali..................................................................................................................22.2.2 Analisi morfologica, lessicografica, semantica e sintattica delle parole composte polirematiche.....2

2.3 LE PAROLE COMPOSTE POLIREMATICHE NELL’ANALISI TESTUALE AUTOMATICA......................22.3.1 I software per l’analisi testuale automatica........................................................................2

2.3.1.1 Automi a stati finiti, grafi ed espressioni regolari........................................................22.3.2 Dizionari elettronici............................................................................................................2

2.3.2.1 La strutturazione del DELAS-DELAF.........................................................................22.3.2.2 La strutturazione del DELAC-DELACF......................................................................2

2.3.3 Parole composte polirematiche e terminologia..................................................................2

3. Conclusioni.........................................................................................................................................2

4. Appendice...........................................................................................................................................2

4.1 UN ESEMPIO DI UTILIZZO DEI DATI SUL WEB..............................................................................24.2 ESTRATTO DAL DELACF DELL'ECONOMIA................................................................................2

5. Bibliografia.........................................................................................................................................2

2

0. Premessa

In questo saggio1, ci occuperemo principalmente della parole composte polirematiche

dell’italiano, ovvero di quelle unità di significato formate da più di una parola e che hanno valore di

entrata di dizionario, in quanto lessicalizzate. Nell’analisi di queste forme, faremo riferimento al

quadro teorico e metodologico lessico-grammaticale individuato da Maurice Gross2 per il francese

ed applicato all’italiano da Annibale Elia, Emilio D’Agostino e Maurizio Martinelli3. Inoltre,

faremo ampio riferimento alla teoria della formazione dei gruppi di parole elaborata da Zelig S.

Harris4, come antecedente effettivo a quella dei sintagmi nominali elaborata da N. Chomsky5,

nonché come impostazione metodologica più vicina all’approccio analitico che intendiamo

utilizzare in queste pagine.

Sebbene appaia superfluo, specifichiamo infine che la nostra analisi mira ad essere uno

studio di carattere strutturalista, ovvero un’indagine sulle forma delle polirematiche; di carattere

lessicologico e lessicografico, ovvero un’indagine sulle necessità di lemmatizzazione delle

polirematiche, e di carattere semantico, in virtù del rapporto stretto che esiste tra polirematiche e

terminologia, nonché tra polirematiche, recupero automatico delle informazioni e strutturazione del

Web Semantico.

1 Il contenuto di questo articolo è stato elaborato da: Annibale Elia per quanto riguarda la Premessa, il capitolo 1 (inclusi tutti i relativi paragrafi e sottoparagrafi) e le Conclusioni; da Giustino De Bueriis, per quanto riguarda il capitolo 2 e fino al paragrafo 2.2.2; da Mario Monteleone per quanto riguarda i paragrafi e sottoparagrafi da 2.3 a 2.3.3 e l’Appendice, salvo il paragrafo 4.1, che è stato realizzato da Franco Di Maio.2 Cfr. Gross, M. (1968), (1975), (1977) e (1991).3 Cfr. Elia, A., Martinelli, M., D’Agostino, E. (1981).4 Cfr. Harris, Z. S. (1970).5 Cfr. Chomsky, N. A. (1965).

3

1. Monorematiche e polirematiche nella linguistica contemporanea

1.1 Definizioni di monorematica, polirematica, parola semplice e parola composta

Il termina polirematica si compone del prefisso poli- (molti) anteposto all’aggettivo

rematico, di uso prettamente linguistico e derivato dal sostantivo rema (greco rhêma "parola,

verbo"). È attestato in italiano a partire dal 1995, e come indicato da De Mauro (2000), si usa in

riferimento ad un gruppo di parole che ha un significato unitario, non desumibile da quello delle

parole che lo compongono, sia nell'uso corrente sia in linguaggi tecnico-specialistici, come in

italiano vedere rosso "adirarsi" o scala mobile "crescita dei salari al crescere dell'inflazione", ecc.

In tempi recenti, rispetto alla sua originaria definizione, questo termine ha tuttavia visto modificarsi

la rilevanza della non-composizionalità (in relazione al significato unitario non desumibile da

quello delle parole che lo compongono). Oggi infatti, con il termine polirematiche si indicano anche

sequenze a carattere composizionale, o comunque non fortemente idiomatiche, soprattutto per ciò

che riguarda i linguaggi settoriali e terminologici. In base alla precedente definizione, saranno

quindi parole composte polirematiche termini come capo stazione o anche capo-stazione, capi

stazioni o anche capi-stazione, case di cura, corto circuito, ben pensanti, dopo scuola o anche

dopo-scuola, madre lingua e sordo-muto.

Un passaggio tuttavia complesso della stessa definizione è di certo quello relativo al

concetto di “parola”, che non viene definito, e di conseguenza a quello di “gruppo di parole” che

compone una polirematica. Ricordiamo che definire con precisione cosa sia una parola è

un’operazione complessa1, che in ogni caso esula degli scopi di questo articolo. Tuttavia, pur non

potendo qui approfondire ulteriormente questo aspetto, appare necessario fornire delle indicazioni

di massima sul concetto di “parola”, al solo scopo di offrire elementi non ambigui sia per

l’interpretazione di quanto stiamo definendo, sia come ausilio alla lettura delle prossime pagine. A

tale proposito, notiamo che il lessico-grammatica, come vedremo in seguito, ha applicato una netta

divisione tra parole semplici, da una parte, e parole composte dall’altra, opponendo le une alle altre

principalmente su base formale e lessicale. Le parole semplici del lessico-grammatica sono infatti

delle sequenze alfabetiche o alfanumeriche che vengono trascritte senza interruzioni di sorta, e che

possono essere sia unità di significato, qualora abbiano al loro interno almeno un morfema lessicale

corredato da pertinenti informazioni grammaticali e flessive, come avviene per i sostantivi sedia o

cavalli, sia meri elementi funzionali morfosintattici e grammaticali, come ad esempio la

preposizione per o la congiunzione o. Il lessico-grammatica definisce invece come parole composte

tutte quelle sequenze di due o più parole semplici, separate da spazi bianchi o caratteri non 1 Cfr. De Bueriis, G. (2003).

4

parole semplici parole composte

opposte a

parole composte monorematicheparole composte polirematiche

alfanumerici, e che possono essere sia unità di significato lessicalizzate, come ad esempio carta di

credito, sia elementi funzionali morfosintattici e grammaticali, come ad esempio a cavallo di, usato

come preposizione nell’espressione essere a cavallo di una motocicletta.

Riguardo quest’ultima definizione, è possibile tuttavia affermare che essa è più generale di

quella indicata in precedenza per le polirematiche, e che per certi versi la racchiuda, poiché come

abbiamo già potuto notare, all’interno delle definizione di polirematica rientrano gruppi di parole

che hanno un valore esclusivamente lessicale, mentre non vengono presi in considerazione quei

gruppi di parole che hanno funzione morfosintattica e grammaticale, quali ad esempio i

determinanti composti o le preposizioni composte. In tal senso, le parole composte polirematiche

rappresentano un sottoinsieme specifico delle parole composte del lessico-grammatica. Inoltre,

proprio a causa delle specifiche caratteristiche lessicali e semantiche di cui dispongono, le

polirematiche si oppongono a loro volta per definizione alle parole composte monorematiche,

ovvero a quelle unità di significato in cui due parole semplici si realizzano in una parola unica,

come ad esempio capostazione, capistazione, pomodoro, pomidori, bagnasciuga, cortocircuito,

benpensanti, doposcuola, madrelingua e sordomuto. Sempre in un’ottica di agglutinazione di

morfemi lessicali, saranno invece considerate monorematiche parole semplici come sedia, il o

contemporaneamente, in cui non c’è fusione di due parole diverse, ma solo di morfemi diversi

(lessicali, grammaticali, o derivazionali). Su tali basi, è perciò anche possibile affermare che le

parole composte monorematiche siano un sottoinsieme specifico delle parole semplici del lessico-

grammatica, in virtù di una definizione che non è solo formale e lessicale, ma che si basa anche su

restrizioni più specificamente morfologiche e morfemiche.

L’immagine riportata qui di seguito servirà, in termini di insiemi e sottoinsiemi, da supporto

grafico alle schematizzazioni fornite in precedenza:

5

Figura 1.

1.2 Primi studi italiani sulla composizione delle parole

Allo stato attuale, da un punto di vista formale e morfologico-composizionale, risultano

quindi chiaramente delineate sia le definizioni che le opposizioni formali tra parole semplici e

composte, nonché tra monorematiche e polirematiche. Tuttavia, come già accennato, si tratta di

definizioni ed opposizioni che appartengono all’analisi linguistica a noi contemporanea, poiché

sono frutto di studi e ricerche nate a partire dagli anni ’60 del secolo scorso. Al contrario, è

possibile notare che nella descrizione linguistica precedente a quel periodo, il trattamento di queste

espressioni era stato impostato in termini diversi da quelli che qui abbiamo cominciato a definire.

Ad esempio, spesso all’interno dell’analisi dei composti si faceva rientrare anche quella di

argomenti come la suffissazione e la prefissazione, in cui come è noto un morfema lessicale e le sue

pertinenti informazioni flessive e grammaticali vengono modificati dall’aggiunta di morfemi

derivazionali, notoriamente privi di significato autonomo. La scelta di abbinare lo studio della

derivazione e quello della composizione ha quindi portato in alcuni casi a classificare come

composti anche termini quali indurire o pretendere, in cui c’è effettivamente presenza di morfemi

diversi, di cui solo uno è tuttavia lessicale – e nel caso di indurire, è per altro obsoleto. Oggi,

invece, prefissazione e suffissazione, sebbene restino argomenti trattati specificamente dalla

morfologia della composizione, hanno una collocazione analitica diversa rispetto allo studio

formale, lessicale e semantico che qui intendiamo esporre.

Per ciò che riguarda le principali funzionalità metodologiche della nostra analisi, nelle

prossime pagine ci occuperemo principalmente di parole composte polirematiche, così come esse

sono state precedentemente definite. Infatti, vedremo che queste unità di significato rivestono oggi

una grande importanza sia nell’analisi automatica delle forme testuali, sia nella terminologia, quindi

in modo piuttosto diretto, anche nella strutturazione del Web Semantico.

Tuttavia, per dare alcuni esempi di come generalmente si è svolto in passato l’analisi sui

composti dell’italiano, qui di seguito citiamo un breve passaggio in cui Tollemache (1945), che

riprende l’analisi e l’impostazione di Darmsteter (1894) per il francese e altre lingue romanze,

imposta metodologicamente il suo studio:

6

… per ogni composto occorre esaminare la natura dei componenti,

quella dei rapporti che intercorrono fra di essi e quella della

risultante. Che si debba tener conto della natura dei singoli elementi è

evidente, tanto più che il lavoro del Bologna ha sufficientemente

dimostrato l’impossibilità del sistema contrario. Questo tuttavia non

basta, giacché ci sono parole uguali esternamente, ma essenzialmente

diverse o per la diversa natura dei rapporti logici fra i componenti, o

perché appartengono a categorie grammaticali differenti. Così, ad

esempio, i composti “linguamadre” e “madreperla” vanno distinti,

giacché nel primo caso il determinante ha funzione di apposizione: la

lingua è madre; in “madreperla” invece, che è la madre della perla, i

rapporti fra i due membri sono di subordinazione.1

Il libro di Tollemache è il primo testo post-saussuriano in cui si tratta dei composti

dell’italiano, sia monorematici che polirematici2. Il metodo di analisi utilizzato è allo stesso tempo

basato su criteri morfologici, etimologici ed anche (blandamente) formali e strutturalisti, e la

fusione di tutti questi approcci produce risultati in alcuni casi – e con il senno di poi – piuttosto

eterogenei e poco metodici.

Tuttavia, quest’opera ha degli indubbi pregi, quali ad esempio:

aver ricercato per la prima volta in modo moderno, all’interno di specifiche parole

dell’italiano, la presenza di più morfemi diversi, quindi anche di più morfemi

lessicali;

aver investigato le modalità con cui i morfemi arrivano a comporre parole uniche;

aver tentato una prima classificazione delle parole composte in base ai criteri di

formazione e struttura interna.

Aggiungiamo che in alcuni passaggi specifici, l’autore sembra inoltre tentare un’operazione

di difficile compimento, ovvero quella di voler coniugare i canoni strutturalisti di valutazione con

un semanticismo (anche) etimologico, necessario alla stesura del saggio, perciò non autonomo, ma

funzionale all’analisi stessa.

1 Tollemache, F. S. J. (1945), pagg. 8-9.2 Tollemache non usa mai il termine “monorematica” e “polirematica” per fare riferimento alla parole composte di cui tratta.

7

Ma al di là dell’articolazione dei contenuti, la cui finalità è di fatto fortemente diversa da

quella di queste nostre pagine, ci sembra tuttavia opportuno sottolineare che i pregi individuati in

precedenza costituiscono contemporaneamente anche il limite principale di quest’opera: nonostante

la molteplicità di approcci analitici, che teoricamente avrebbero potuto garantire risultati più solidi,

Tollemache arriva ad analizzare in modo piuttosto omogeneo solo le parole composte

monorematiche dell’italiano, tracciando per esse delle precise linee di sviluppo possibile per gli

studi a lui posteriori. Riguardo le parole composte polirematiche, e per motivi oggi difficilmente

individuabili, il testo appare invece molto povero1. Aggiungiamo infine che nell’individuazione

delle parole composte monorematiche, Tollemache non fa distinzione tra le procedure di

prefissazione e la giustapposizione (o l’agglutinazione) di termini diversi, anche derivanti dal latino.

Quindi, risultano catalogati come monorematici termini quali accomunare, rimaledire, rimescolare

o addirittura uccidere, nonché termini come guardacoste e guastafeste.

Di maggior caratura analitica ed interesse scientifico si presenta invece Dardano (1978),

opera di taglio più moderno nonché maggiormente esaustiva per quanto riguarda l’analisi dei

fenomeni relativi alla formazione delle polirematiche e della loro catalogazione. In questo testo, che

è fortemente debitore verso le impostazioni metodologiche di Zellig S. Harris – del quale ci

occuperemo in seguito – e dello strutturalismo, viene mantenuto l’impianto analitico di Tollemache

– studio di suffissazione, prefissazione e composizione, sia per le parole composte monorematiche

che per quelle polirematiche. Tuttavia, per quanto riguarda suffissazione e prefissazione, Dardano

applica in modo sistematico l’analisi delle trasformazioni categoriali, ovvero di quelle creazioni in

cui l’aggiunta di un suffisso porta una parola a mutare di categoria grammaticale2. Quindi,

contrariamente a quanto visto in Tollemache, rispetto a suffissazione e prefissazione l’analisi delle

parole composte monorematiche ha una collocazione autonoma e distinta all’interno dell’opera.

Inoltre, probabilmente mutuandola dalla grammatica sintagmatica di Chomsky, Dardano applica in

modo esaustivo un’analisi strutturale dei composti, che vengono perciò suddivisi in base alla

categoria grammaticale degli elementi costitutivi interni. Ciò porta l’autore ad individuare sequenze

del tipo:

N + di + N (cavallo di razza);

N + a + N (motore a gas);

N + da + N (carta da disegno);1 Le parole composte polirematiche riconosciute e catalogate da Tollemache sono di numero molto esiguo; alcuni avverbi, come a fortiori, a posteriori, a priori, di fronte (ma non la preposizione di fronte a), alcune preposizioni oggi poco utilizzate come a cagione di (ma è assente a causa di) e di là da; infine, qualche sporadico sostantivo come arco buttante, lacrime di Giobbe, lachryma Christi, padre di famiglia e palla a volo.2 In tal caso, parliamo di verbalizzazione, nominalizzazione, aggettivizzazione tramite l’applicazione di specifici suffissi a morfemi lessicali.

8

N + PREP + N (furto con scasso);

N + N (uccello mosca);

N + A (campagna presidenziale).

Sebbene l’opera si presenti comunque lievemente sbilanciata verso lo studio delle parole

composte monorematiche, l’impianto metodologico ed analitico complessivo è estremamente

moderno, tanto da risultare ancora valido a distanza di trent’anni dalla sua pubblicazione.

Aggiungiamo che rifacendosi ai sintagmi chomskiani, Dardano basa indirettamente la sua analisi

anche sui presupposti harrisiani, che come detto sono antecedenti alla grammatica sintagmatica.

1.3 Morpheme sequences e phrases

Abbiamo evidenziato come la peculiarità delle parole composte polirematiche sia sfuggita a

Tollemache. Tuttavia, nello stesso periodo in cui fu pubblicato il testo dello studioso italiano, e per

la precisione nel 1946, il linguista americano di origine ucraina Zellig S. Harris impostava per la

prima volta, in termini strutturalisti ed in relazione all’inglese, lo studio della composizione di

morfemi diversi in unità linguistiche più complesse1, quindi anche dei gruppi di parole o sintagmi.

Le formulazioni di Harris hanno un valore fondamentale per lo studio contemporaneo delle parole

composte polirematiche, poiché tracciano in modo quasi definitivo le modalità formali e funzionali

di analisi dei composti, costruendo quindi un metodo universale che si focalizza inizialmente sui

composti dell’inglese ed interessa in seguito anche altre lingue. Inoltre, nell’ambito degli sviluppi

dell’analisi formale del linguaggio naturale, i metodi individuati da Harris sono risultati basilari per

lo studio tassonomico sulle parole composte impostato e realizzato del lessico-grammatica in

francese, italiano e molte altre lingue.

L’articolo in cui Harris fonda tale metodo analitico si intitola From Morpheme to

Utterances. Originariamente pubblicato nella rivista Language (22, n. 3 del 1946), si apre come

segue:

This paper presents a formalized procedure for describing utterances

directly in terms of sequences of morphemes rather than of single

morphemes. It thus covers an important part of what is usually

included under syntax. When applied in a particular language, the

procedure yields a compact statement of what sequences of

1 Cfr. Harris (1970), in particolare l’articolo del 1946 intitolato “From Morphemes to Utterances” e a seguire, “Componential Analysis of a Paradigm” e “Immediate-Constituent Formulation of English Syntax”.

9

morphemes occur in the language, i.e. a formula for each utterance

(sentence) structure in the language.

At present, morpheme classes are formed by placing in one class all

morphemes which are substitutable for each other in utterances, as

“man” replaces “child” in “The child disappeared”. The procedure

outlined below consists, essentially, in extending the technique of

substitution from single morphemes (e.g. “man”) to sequences of

morphemes (e.g. “intense young man”). In so far as it deals with

sequences, it parallels the type of analysis frequently used in syntax,

so that the chief usefulness of this procedure is probably its

explicitness rather than any novel of method or result. 1

In questa rapida introduzione, ed in maniera semplice ma immediata, Harris menziona per la

prima volta nella linguistica contemporanea il concetto di sequenza libera di parole semplici2 con un

unico significato complessivo. Inoltre, poche pagine dopo, fornisce la classificazione di ogni

sequenza di parole in base alla funzione grammaticale svolta all’interno di contesti frastici,

individuando un gruppo per ogni categoria grammaticale, ovvero:

i gruppi nominali3, come il cane bianco o il cane della pistola;

1 “Questo articolo presenta una procedura formale per descrivere le proposizioni direttamente in termini di sequenze di morfemi piuttosto che di morfemi semplici. Perciò, prende in esame una parte importante di ciò che normalmente viene studiato dalla sintassi. Quando viene applicata ad una specifica lingua, questa procedura permette di definire in modo preciso quali siano le sequenze di morfemi che occorrono in quella lingua, i.e. quale sia la formula per ogni struttura proposizionale (frastica) di quella lingua.Allo stato attuale, le classi di morfemi vengono formate inserendo in una specifica classe tutti i morfemi in grado di sostituirsi l’uno all’altro all’interno di proposizioni, come ad esempio “uomo” sostituisce “bambino” in “Il bambino è scomparso”. La procedura delineata nelle pagine che seguono consiste essenzialmente nell’estendere la tecnica di sostituzione dai morfemi semplici (ad esempio, “uomo”) alle sequenze di morfemi (ad esempio “giovane uomo vigoroso”). Considerando che essa esamina delle sequenze, si associa al tipo di analisi spesso usata nella sintassi, quindi la maggiore utilità di questa procedura è probabilmente nella esplicitezza piuttosto che nella innovazione metodologica o risultativa.” Harris, Z. S. (1970), pag. 100, traduzione dei redattori.2 Va tuttavia sottolineato che in questo articolo, con il termine morpheme Harris vuole indicare ogni tipo di morfema, che sia lessicale, grammaticale o flessivo. Ancora, va sottolineato che a causa della particolare struttura morfologica dell’inglese, spesso c’è perfetta coincidenza formale tra morfemi lessicali e parole lemmatizzate nei dizionari. Ad esempio, man è sia morfema lessicale che lemma, caratteristiche assenti nel suo traducente italiano “uomo”, che è un’entrata di dizionario composta dal morfema lessicale “uom-” e da quello grammaticale/flessivo “-o”. 3 Elemento principe di questa tipologia, il gruppo nominale o sintagma nominale è una sequenza di parole semplici che in genere comprende un nome. Questo gruppo viene detto nominale in quanto all’interno di frasi e discorsi assume le funzioni grammaticali di un elemento nominale. All’interno del gruppo, il nome è generalmente preceduto o seguito da parole, dette premodificatori e postmodificatori, che in qualche modo lo caratterizzano. Da un punto di vista compositivo, il vincolo della presenza di un elemento testa all’interno dei gruppi viene conservato anche per tutte le altre categorie, perciò si è soliti dire che un gruppo aggettivale contiene generalmente un aggettivo, anche se come vedremo più che di una regola, in questo caso, si deve parlare di una tendenza statistica, che a volte viene elusa da restrizione di carattere sintatto-semantico.

10

i gruppi verbali, come mettere in moto o tirare le cuoia;

i gruppi aggettivali, come rosso vivo e rosso d’India;

i gruppi avverbiali, come per le scale e a quattro palmenti;

i gruppi preposizionali, come in mezzo a e in direzione di;

i gruppi congiuntivi, come e ancora, o anche se;

i gruppi esclamativi, come alla salute o santi numi;

i gruppi di determinanti, come qualche tipo di o un sacco di;

i gruppi pronominali, come suo di lei, o i nostri tre.

Ancora, sempre nello stesso articolo, Harris effettua una lunga e dettagliata classificazione

delle classi di morfemi dell’inglese, introducendola con una analisi dei rapporti di equivalenza

distribuzionale possibili tra parole semplici e gruppi di parole:

For the purposes of the English examples, we shall set up the

following classes of morphemes, on the criterion that for each class

there are particular sentence positions which can be filled by any

member of that class and by these alone. (…) Sequences of morpheme

classes which are found to be substitutable in virtually all

environments for some single morpheme classes, will be equated to

that morpheme class: AN = N means that “good boy”, for example,

can be substituted for “man” anywhere. If we write DA = A (“quite

old” for “old”) then DA can substitute for A wherever A appears, e.g.

in AN = N (“old fellow” for “man”, where we can substitute “quite

old” for “old”, and obtain “quite old fellow” DAN = AN = N). There

is nothing to prevent us from substituting DA for A even in the

equation DA =A. We would then obtain DDA = A: “really quite old”

for “old”. 1

1 “Per supportare gli esempi in lingua inglese, utilizzeremo le seguenti classi di morfemi, basandole sulla considerazione che per ogni classe, all’interno di ogni frase, ci sono particolari posizioni che possono essere ricoperte da qualsiasi membro di quella classe, e solo dagli elementi di quella classe. (…) Le sequenze di classi di morfemi per cui si arriva a definire che possono sostituire alcune classi di singoli morfemi in quasi ogni contesto, verranno equiparate a quella classe: AN = N significa che good boy [bravo ragazzo], ad esempio, può sostituire ovunque man [uomo]. Se scriviamo DA =A (quite old [molto vecchio] per old [vecchio], allora DA potrà sostituire A ogni volta che A appare, ad esempio in AN = N (old fellow [vecchio amico] per man [uomo], in cui possiamo sostiure old [vecchio] con quite old [piuttosto vecchio], ed ottenere quite old fellow [amico piuttosto vecchio] DAN = AN = N). Nulla ci impedisce di sostituire A con DA persino nell’equazione DA = A. Otterremmo così DDA = A: really quite old [davvero piuttosto vecchio] per old [vecchio].”, Harris, Z. S. (1970), pagg. 105-108, traduzione dei redattori.

11

Le classi di morfemi dell’italiano, le loro capacità di formare gruppi di parole nonché i

rapporti di equivalenza distribuzionale che tali gruppi stabiliscono con le parole semplici all’interno

di contesti frastici non differiscono di molto da quelli evidenziati da Harris per l’inglese. Le uniche

eccezioni sostanziali si devono al fatto che l’italiano è una lingua con una morfologia flessiva molto

più sviluppata di quella dell’inglese. Perciò, nel nostro caso, oltre a quello sulle strutture interne dei

gruppi di parole, si impone anche uno studio morfologico dei singoli componenti, allo scopo di

valutare in quale misura la loro morfologia influisca sulla flessione del gruppo intero, laddove

richiesta, o venga addirittura bloccata da caratteristiche specifiche di alcuni gruppi. Sarà questo un

aspetto di cui ci occuperemo ampiamente nelle prossime pagine di questo articolo.

Sempre in relazione ai gruppi di parole, un ulteriore spunto di analisi di cui Harris si è fatto

promotore è di tipo sintatto-semantico, ovvero trasformazionale, con cui ad esempio si esaminano le

modalità in cui una frase, tramite nominalizzazione, dà origine ad un gruppo nominale. In

trasformazioni simili, all’interno del gruppo nominale trasformato vengono trasportati i rapporti di

co-occorrenza e restrizione di selezione già esistenti fra i componenti della frase di partenza,

soprattutto quelli tra premodificatori, postmodificatori e il componente principale, o anche quelli

dell’operatore nominalizzato verso i suoi argomenti. Su tali basi, sembra quindi possibile applicare

anche ai gruppo di parole un concetto analitico tipicamente harrisiano, detto di verosimiglianza di

occorrenza e principalmente utilizzato per lo studio di frasi e discorsi. Come vedremo, tale

applicazione permette di evidenziare risultati cruciali nella classificazione tassonomica non solo dei

gruppi di parole impostati da Harris, ma anche delle parole composte polirematiche nel lessico-

grammatica, soprattutto per quanto riguarda le relazioni fra i singoli elementi nonché l’analisi

combinatoria effettuabile su di essi.

Per definire il concetto di verosimiglianza di occorrenza, Harris scrive:

We speak here of likelihood under an operator (or over an argument),

in the sense of estimated frequency or probability per fixed number of

occurrences of that operator (or argument); no one has actually

counted the frequencies of various words in argument position under

another word. Nevertheless it should be noted that counting such

frequencies over a small sample of the language is not as impossibly

vast a task as it might seem to be, and this because we are not

speaking of frequency in respect to other words in arbitrary sentences

but only in the word pairs or triples in operator-argument relation,

which is the elementary sentential structure and the sentential

12

component of all sentences, and which constitutes the great bulk of

meaning-characterizing, roughly stable relative frequencies.

Each word has a somewhat fuzzy selection of other words that are

more likely than average to occur in the position for its argument –

that is, more likely than would be expected if the occurrences were

random or equal in frequency. Under “sleep”, this hold for hundreds

of words such as “man” and event “tree”, in contrast with “earth”

rarely, “stone” or “universe” even more so. The set of words having

this higher-than-average likelihood is called selection, in this case

under “sleep”. The central meaning of a word is given by (the

meaning of) the selection arguments under it or of operators over it.1

Se la verosimiglianza di occorrenza, come desumibile dalla precedente citazione, per Harris

riguarda maggiormente il rapporto tra operatori ed argomenti all’interno di frasi e discorsi, gli

esempi che diamo qui di seguito dimostrano come sia possibile in una certa misura utilizzare gli

stessi parametri analitici anche per gruppi di parole e soprattutto, come già detto, per i gruppi

nominali ottenuti tramite nominalizzazioni di frasi. Se analizziamo infatti la seguente equivalenza:

1) Max spinge Luca = la spinta di Max a Luca

2) L’impresa di Max fallisce = il fallimento dell’impresa di Max

notiamo come nei due gruppi nominali derivati vengano riprodotte sia le regole di co-occorrenza

(quindi anche quella di verosimiglianza di occorrenza) che quelle di restrizione di selezione.

Questa rapida analisi assume un’importanza maggiore in relazione a quelle polirematiche che di

fatto non possono essere derivate tramite nominalizzazione di frasi semplici, quali ad esempio:

1 “Intendiamo qui, per verosimiglianza di una parola sotto un operatore (o per un argomento), una stima della probabilità o della frequenza di quella parola rispetto a un fissato numero di occorrenze di quell’operatore (o argomento). Nessuno ha finora valutato le frequenze delle varie parole in posizione argomento rispetto a un’altra parola. Nonostante ciò si deve osservare che valutare tali frequenze in un piccolo campione della lingua non è un lavoro così immenso come potrebbe sembrare, perché non stiamo parlando di frequenza rispetto ad altre parole in frasi arbitrarie, ma solo rispetto a coppie o terne di parole in relazione operatore-argomento. Queste costituiscono la struttura frasale elementare e il componente frasale di tutte le frasi e forniscono il contributo maggiore alle frequenze approssimativamente stabili che caratterizzano il significato.Ogni parola esercita una selezione alquanto sfumata sulle altre parole che occorrono nella posizione dei suoi argomenti – vale a dire una selezione che rende la distribuzione diversa da quanto ci si aspetterebbe se le occorrenze fossero casuali o con pari frequenza. Sotto sleep [dormire], questo vale per centinaia di parole come man [uomo], e persino tree [albero], in contrasto con earth [terra], raro, oppure stone [pietra] o universe [universo], ancora più rari. L’insieme delle parole che hanno frequenza più alta della media è chiamato la selezione, in questo caso sotto sleep. Il significato principale di una parola è dato dal significato della selezione degli argomenti su cui opera o della selezione degli operatori di cui è argomento.” Harris, Z. S. (1988), pagg. 16-20, trad. it. Martinelli (a cura di, 1995).

13

3) Max ha il cappello sulle ventitré ≠ il cappello sulle ventitré di Max

4) ?*Max spinge la barzelletta ≠ la barzelletta spinta di Max

5) Max ha un cavallo che (è di + viene da) Troia ≠ il cavallo di Troia di Max

Notiamo che nell’esempio (3), e diversamente da quelli in (1) e (2), non si assiste a nessuna

nominalizzazione del tipo spingere – spinta o fallimento – fallire; nell’esempio (4), il tentativo di

ricondurre il gruppo nominale barzelletta spinta all’operatore spingere sull’argomento barzelletta,

produce una frase di dubbia accettabilità. Infine, nell’esempio (5), la preposizione di posta in mezzo

a cavallo e Troia non segnala né origine, né provenienza, e ciò dimostra l’assenza di contiguità

semantica tra il gruppo nominale e la frase cui è posto in equivalenza. Notiamo inoltre che se negli

esempi (1) e (2) la nominalizzazione di fatto produce i due gruppi nominali, lo stesso non può

essere detto per l’esempio (3), in cui cappello sulle ventitré è presente sia nella frase che nel gruppo

nominale.

Negli esempi da (3) a (5) notiamo inoltre che i premodificatori e/o i postmodificatori

dell’elemento principale hanno un livello di verosimiglianza di occorrenza basso, ovvero la loro co-

occorrenza con l’elemento principale è statisticamente meno predicibile. È questa una caratteristica

tipica delle polirematiche che non possono essere derivate tramite nominalizzazioni di frasi, e che

proprio grazie a questo vengono definite semanticamente non composizionali. Su questo e altri

argomenti correlati torneremo ampiamente nelle prossime pagine.

In realtà, questa breve serie di esempi, e le rapide considerazioni su di essi, dimostrano che i

gruppi di parole dell’italiano hanno caratteristiche di coesione variabili, dovute alle loro diverse

modalità di formazione, di distribuzione degli elementi interni, nonché a fenomeni di

cristallizzazione del significato originati da fattori evoluitivi specifici della nostra lingua. Tutti

questo aspetti, come vedremo qui di seguito, sono risultati cruciali per l’analisi lessico-

grammaticale delle parole composte polirematiche dell’italiano.

14

2. Le parole composte polirematiche nel lessico-grammatica

Come detto, in quanto metodo di formalizzazione del linguaggio naturale, il lessico-

grammatica elaborato da Maurice Gross si basa principalmente sulle conclusioni strutturaliste,

trasformazionali e distribuzionali di Harris. Da quest’ultimo, Gross riprende soprattutto i concetti

di trasformazione linguistica e di frase nucleare1 (che diviene frase semplice nel lessico-

grammatica), riportandoli all’interno del quadro di una grammatica formale delle lingue naturali

secondo cui il lessico è solo l’insieme di valori terminali da associare a sequenze ordinate in base a

regole e principi combinatori autonomi. Quindi, il concetto basilare della metodologia analitica di

Gross è che il lessico non è separabile dalla sintassi, ovvero che ogni elemento lessicale, occorrendo

all’interno di un contesto frastico, porta con sé una parte di grammatica che gli è inalienabile e che

va a combinarsi con le proprietà grammaticali di altri elementi lessicali, in base alle regole di co-

occorrenza e restrizione di selezione.

Tuttavia, come vedremo in seguito, rispetto alla definizione di gruppi di parole data da

Harris, nonché a quella di sintagmi di Chomsky, Gross si fa protagonista di un approfondimento

analitico che gli permette di andare oltre i gruppi nominali liberi, e di individuare e formalizzare

l’esistenza delle parole composte, ovvero di gruppi di parole legati al loro interno da diversi gradi di

variabilità e coesione – da meno coeso a più coeso – e che di fatto, da un punto di vista tipologico e

tassonomico, si racchiudono tra due estremi di un continuum2 avente come limite da una parte

sequenze del tipo acqua minerale o vino rosso, e dall’altra sequenze del tipo chi va al mulino si

infarina, ovvero i proverbi. A proposito di questa varia e contigua tipologia, si può affermare che ad

una minore coesione interna di un gruppo di parole corrispondono un elevato livello di

composizionalità ed un basso livello di idiomaticità; invece, ad una maggiore coesione interna di un

gruppo di parole corrispondono un basso livello di composizionalità ed un elevato livello di

idiomaticità.

Questa impostazione metodologica del lessico-grammatica è stata nel tempo empiricamente

consolidata anche grazie a nuove modalità di validazione ed aggiornamento, rese possibile dal

continuo svilupparsi degli strumenti informatici analitici e dalla nascita della linguistica

computazionale. Ciò ha inoltre ristretto l’analisi tassonomica delle parole composte polirematiche,

che vengono oggi naturalmente accostate alla nozione di parole composte impostata da Gross.1 Per la definizione di frase semplice, cfr. Gross (1968).2 La teoria del continuum, che ha avuto origine nelle scienze matematiche e fisiche, fa riferimento ad un insieme in cui, ordinando i singoli elementi, è possibile evidenziare la presenza di una transizione graduale, da una condizione ad un’altra di tipo diverso, che si sviluppa senza salti o discontinuità. Si può quindi affermare che in un continuum, due elementi attigui abbiano caratteristiche non eccessivamente dissimili, contrariamente a quelle di due elementi distanti fra loro. In un continuum, i singoli elementi possono essere anche costituiti da sottoinsiemi specifici. I due estremi del continuum avranno fra loro caratteristiche più dissimili.

15

2.1 Il concetto di continuum

Citando Elia e D’Agostino1, riguardo i gruppi di parole, quindi alle polirematiche, alla luce

delle ricerche condotte finora, è possibile affermare che le combinazioni in sintagmi o frasi possono

essere di quattro tipi:

a) con un grado elevato di variabilità di co-occorrenza fra le parole, per cui è possibile parlare

di combinazioni a distribuzione libera;

b) con un grado ridotto di variabilità di co-occorrenza fra le parole, per cui è possibile parlare

di combinazioni a distribuzione ristretta;

c) con un grado nullo o quasi nullo di variabilità di co-occorrenza fra le parole, per cui è

possibile parlare di combinazioni a distribuzione fissa;

d) senza alcuna variabilità di co-occorrenza fra le parole, per cui si parla di proverbi.

Le relazioni tra le classi in questione possono essere interpretate, non come relazioni tra classi

discrete, ma come relazioni tra polarità di un continuum. Gli esempi di tali classi di combinazioni

possono essere i seguenti:

a)

- strutture verbali: (Max, Ugo, tuo nipote,...) guarda (un libro, il fiume, Eva,...)

- strutture nominali: acqua (sporca, pulita,...)

- strutture avverbiali: con (eleganza, amore, devozione,...)

b)

- strutture verbali: (Max, Ugo, tuo nipote,...) stende (i panni, il bucato)

- strutture nominali: acqua (minerale, gassata, naturale,...)

- strutture avverbiali: da un (momento, giorno, anno,...) all'altro

c)

- strutture verbali: (Max, Ugo, tuo nipote,...) alza il gomito

- strutture nominali: acqua pesante, acqua tofana

- strutture avverbiali: chiaro e tondo

1 Cfr. D’Agostino, E., Elia, A. (2006)

16

d)

- proverbi: Chi rompe paga e i cocci sono suoi

Da un punto di vista semantico-comunicativo si può osservare che i tipi (c) e (d) possono

subire delle interpretazioni "idiomatiche", cioè delle interpretazioni che in modo chiaro non sono

frutto di un calcolo composizionale del significato dei singoli elementi. Una certa parte di queste

combinazioni fisse e idiomatiche è molto probabilmente il residuo operazioni metaforico-

metonimico ormai cristallizzate, morte. È per questo, tra l'altro, che possiamo arguire che l'uso dei

tipi in questione è legato più ad esigenze di rapidità che non di ricchezza comunicativa. Mentre le

metafore e le metonimie vive, come d'altronde qualsiasi "figura", necessitano di un lavoro

supplementare di decodifica e di interpretazione, le combinazioni fisse e idiomatiche, che vengono

apprese in blocco, rappresentano invece delle scorciatoie semantiche, per le quali non è neanche

necessario "conoscere" il valore dei singoli elementi componenti della stringa.

Il concetto di continuum precedentemente esposto viene ulteriormente rafforzato

dall’applicazione di alcuni possibili aggiustamenti formali e combinatori su specifiche

polirematiche, a seguito dei quali spesso si produce una violazione della nota regola aritmetica che

dice: cambiando l’ordine degli addendi, il risultato non cambia.

Consideriamo ad esempio le seguenti coppie di parole composte polirematiche:

1. amministrazione ordinaria ordinaria amministrazione

2. amico vecchio vecchio amico

3. amore grande grande amore

4. biblioteca normale normale biblioteca

5. biblioteca perfetta perfetta biblioteca

6. buco nero nero buco

7. casa vecchia vecchia casa

8. casa nuova nuova casa

9. circolo vizioso vizioso circolo

10. circuito corto corto circuito

11. dominio pubblico pubblico dominio

12. fuoco rosso rosso fuoco

13. oro giallo giallo oro

14. idea vecchia vecchia idea

15. isolamento splendido splendido isolamento

16. mano lunga lunga mano

17. misura giusta giusta misura

18. uomo grande grande uomo

17

19. pezzo grosso grosso pezzo

20. pallino vecchio vecchio pallino

Tabella 1.

In questa tabella, la seconda delle tre colonne contiene una serie di gruppi nominali del tipo

N (nome) A (aggettivo); la terza colonna, invece, contiene la stessa sequenza di gruppi nominali,

ma con l’ordine delle parole invertito. Come è possibile verificare, per ogni esempio prodotto il

cambiamento di posizione degli “addendi” produce un cambiamento di significato, che è minimo in

alcuni casi ma che si presenta molto marcato in (1), (2), (6), (9), (10), (11), (12), (13), (15), (17),

(18) , (19) e (20).

Si è soliti attribuire un simile cambiamento di significato alla posizione dell’aggettivo, che

se preposto al nome sembra conferire una maggiore “soggettività” di significato (normale

biblioteca) in opposizione ad una maggiore “oggettività” (biblioteca normale); o anche, un valore

descrittivo generico (nuova casa, in cui l’aggettivo non serve ad identificare materialmente la casa), rispetto ad uno più restrittivo (casa nuova, in opposizione ad una casa vecchia); o infine un senso traslato (vecchia idea), rispetto ad un valore fattuale e fisico (idea vecchia).

Queste valutazioni, tuttavia, sembrano troppo incentrate sul significato dei singoli elementi del composto, mentre ciò che andrebbe valutato attentamente è la coesione interna dei composti, nonché il loro significato complessivo, che può essere marcatamente composizionale (amore grande), blandamente composizionale (grande amore), oppure per nulla composizionale (lunga mano), come già descritto per il concetto di continuum. È evidente che in termini statistici l’occorrenza di gruppi liberi di parole sia maggiore rispetto a quella dei gruppi non composizionali, ma quanto abbiamo evidenziato cambiando l’ordine degli “addendi”1, va di fatto visto come un punto di contatto fra i due tipi di formazione, ovvero una ulteriore dimostrazione dell’esistenza del continuum, nonché della stretta relazione tra forma (ovvero combinazione degli elementi) e contenuto (ovvero il significato finale dei composti, che è in molti casi indipendente dal significato dei singoli elementi nei composti).

1 Si veda Malkiel 1959 per lo studio di binomi cosiddetti irreversibili quali l’inglese gas and oil.

18

Notiamo inoltre che delle tre ipotetiche coppie di analisi individuate precedentemente (soggettività – oggettività, descrizione generica – descrizione specifica, senso traslato – valore fattuale e fisico), nessuna può essere applicata con successo a binomi (alla Malkiel) quali amministrazione ordinaria – ordinaria amministrazione, buco nero – nero buco, uomo grande – grande uomo o pallino vecchio – vecchio pallino. Ciò si verifica perché uno dei due elementi è un cliché linguistico, o in alcuni casi una parola composta idiomatica o cristallizzata, le cui creazione e occorrenza non si basano sulla semplice anteposizione/posposizione dell’aggettivo rispetto al nome, ma sono autonome, ed in certi casi piuttosto antiche come usi linguistici. Da un punto di vista sintattico, una ulteriore dimostrazione di quanto stiamo dicendo ci viene dalle frasi seguenti:

1) L’amministrazione di questo comune è ordinaria

ovvero:

1a) Questo comune è in amministrazione ordinaria

in opposizione a:

2) Questo comune è in amministrazione (commissariale + straordinaria)

difficilmente collegabile a frasi come:

2a) ?L’amministrazione di questo comune è (commissariale + straordinaria)

Nel passaggio da (1) ad (1a), notiamo la formazione del gruppo nominale amministrazione ordinaria. Tuttavia, abbiamo:

3) Vincere la partita di domenica sarà (E + di) ordinaria amministrazione

19

che non può in nessun modo essere ricondotta a frasi del tipo:

4) L’amministrazione della vittoria della partita di domenica sarà ordinaria

Ancora, abbiamo:

5) Un buco nero rischia di inghiottire l’intero pianeta

ma non:

6) ?Un nero buco rischia di inghiottire l’intero pianeta

e abbiamo anche:

7) Questo buco (è + sembra + appare) nero ≠ Questo (è + sembra + appare) un buco nero

in cui il secondo elemento della disequazione può avere un doppio significato, uno in riferimento

all’oggetto astronomico ed uno ad un foro oscuro variamente classificabile.

Simili verifiche possono essere applicate anche alle altre coppie della precedente lista,

nonché ad altri gruppi nominali dell’italiano, ottenendo risultati analoghi a quelli da noi evidenziati.

2.2 Nomi composti e gruppi liberi di parole

Come già accennato, le parole composte includono elementi legati da un livello di

verosimiglianza di occorrenza più basso ed una composizionalità meno evidente rispetto ai gruppi

nominali liberi. Ad esempio, un gruppo nominale libero è composto da un nome di base, detto

“nome testa”, e da una serie di termini che lo qualificano. Si dice quindi che la formazione del

gruppo nominale avviene per espansione a partire dal nome testa, come nell’esempio che segue:

a) camicia

b) la camicia

c) la camicia rossa

d) la camicia rossa di Max

20

e) la camicia rossa di Max sulla sedia1

Tuttavia in base all'analisi degli usi linguistici, è possibile dire che le parole composte,

rispetto ai gruppi nominali liberi, hanno all’interno delle frasi un valore essenzialmente funzionale,

che a volte è svincolato dall’elemento testa del composto stesso. Ciò implica che le parole composte

possono essere etichettate grammaticalmente solo in funzione del ruolo morfosintattico che

svolgono. Questo assunto, pur contrario all'endocentrismo sintagmatico chomskiano, è ad esempio

verificabile con i composti simili all'aggettivo nonché nome composto rosso fuoco.

Analizziamo la seguente frase

1) Max compra una Ferrari rosso fuoco

Se venisse riscritta in base alle regole standard della grammatica sintagmatica, questa frase

genererebbe il seguente albero:

F

SN SV

N V SN

Max compra DET SN

una N SA

Ferrari N N

rosso fuoco

1 È per altro evidente che questo gruppo nominale libero può anche essere ottenuto attraverso la nominalizzazione di una frase ad operatore a legame come:

Max ha la camicia rossa sulla sedia

o anche di una frase a verbo ordinario come:

La camicia rossa di Max è sulla sedia

21

Come è possibile verificare nell’ultima notazione dell’albero precedente, il sintagma

aggettivale rosso fuoco non contiene nessun aggettivo, ovvero è un sintagma aggettivale che ha

come elemento testa il nome rosso. Ciò è verificabile nella frase seguente:

2) *Max compra una Ferrari rossa fuoco

in cui accordando la parola onomastica femminile Ferrari a rosso, ovvero ipotizzando che rosso sia

un aggettivo e non un nome, si ottiene una gruppo nominale, nonché una frase, non accettabili e non

grammaticali. Per cui, è possibile affermare che il sintagma aggettivale rosso fuoco sia esocentrico1,

ovvero che abbia una testa nominale ma funzioni come un aggettivo. Anche in questo caso, è

possibile giustificare questa apparente anomalia attraverso la nominalizzazione di una frase

semplice, preceduta da una riduzione di un gruppo nominale più ampio:

3) Questa Ferrari è di un colore rosso come il fuoco

ovvero

3a) Questa Ferrari è (E + di) color rosso fuoco

e infine

3b) Questa Ferrari è rosso fuoco

Su queste basi, è possibile affermare che una parola composta anche con un livello medio di

coesione intera, qualora venga inserita in un gruppo nominale libero, può modificare la sua funzione

grammaticale, ma non subisce variazioni interne di tipo morfologico, dovute al genere o al numero

del nome testa del gruppo nominale esteso. Ciò è dimostrato anche dalle frasi che seguono:

4) Max compra una Ferrari giallo oro

4a) *Max compra una Ferrari gialla oro

1 L’esocentrismo di alcuni tipi di sintagmi è ancora più evidente con i gruppi esclamativi del tipo santi numi, per bacco, o alla salute, in cui nessuno dei componenti interni è un’esclamazione. In tal caso, la funzione grammaticale e la coesione interna del sintagma sono indipendenti l’una dall’altra, e trovano un punto di incontro nell’idiomaticità dei composti.

22

Esempi simili dimostrano che nelle parole composte polirematiche, non sempre è possibile

reperire una relazione consequenziale tra l’elemento testa all’interno e il valore distribuzionale (o

funzionale) nelle occorrenze frastiche. Ciò conferma quindi che l’analisi delle parole composte

polirematiche deve lasciare separato ed autonomo lo studio formale, con cui si classificano i

componenti interni in base al loro valore lessicale di parole singole, da quello morfo-sintattico, in

cui le polirematiche vengono analizzate in base al loro valore distribuzionale ed alla loro funzione

grammaticale.

2.2.1 Strutture formali

La struttura formale di una polirematica composta è data dalla descrizione categoriale delle

singole parole che la compongono. Ciò significa che una parola composta come la seguente:

carta da zucchero

avrà la seguente struttura formale:

NPREPN

in cui il primo N indicherà il nome carta, PREP la preposizione da ed il secondo N indicherà il

nome zucchero. Ancora, il composto:

rosso cadmio

verrà etichettato come NN, in virtù della presenza al suo interno dei due nomi rosso e cadmio.

Questa metodologia descrittiva fu inaugurata da Harris nell’articolo descritto in 1.21, ed

usata dal linguista americano non solo per descrivere formalmente i gruppi di parole, ma anche per

indicare rapporti morfosintattici di predicazione all’interno di frasi nucleari, nonché paratattici e

ipotattici all’interno di discorsi.

Questo tipo di formalizzazione fu usata in seguito da Chomsky per la descrizione tipologica

dei sintagmi, nonché da Gross per tutte le indicazioni formali morfo-sintattiche utilizzate dal

lessico-grammatica del francese.

Per quanto riguarda invece l’italiano, le etichette utilizzate nella descrizione formale delle

polirematiche sono le seguenti, in ordine alfabetico:

1 Cfr. Harris (1970), pagg. 105-114.

23

A per gli aggettivi;

AVV per gli avverbi;

C per i complementi fissi nelle frasi idiomatiche1;

CONG per le congiunzioni

D2 per la sola preposizione di;

DET per i determinanti;

ESC per le interiezioni e le esclamazioni;

N per i nomi;

PREP per le preposizioni semplici diverse da di;

PRON per i pronomi

V per i verbi.

Queste etichette consentono di applicare descrizioni formali omogenee ad ogni polirematica,

anche se di varia o più complessa struttura interna. Esse possono anche essere utilizzate per indicare

la funzione grammaticale di ogni singola polirematica, fatta eccezione per “C”, che come detto

viene utilizzata solo all’interno delle frasi idiomatiche. Per cui, il precedente composto:

rosso cadmio

verrà etichettato come:

- N+NN

- A+NN

ad indicare che la sua funzione grammaticale può essere sia quella di nome, come in:

1) Il rosso cadmio è un bel colore

1 Va sottolineato inoltre che per le espressioni idiomatiche, il lessico-grammatica ha individuato etichette specifiche sia per i verbi che per i complementi fissi di questo tipo di polirematiche. Ad esempio, la frase idiomatica fare il diavolo a quattro è classificata come FC1, dove F sta per fare e C1 indica l’unico complemento fisso, ovvero diavolo a quattro. Ancora, la frase idiomatica utilizzata in Max ha fatto la pelle a Paolo verrà invece classificata come FC1PN2, poiché ha un solo complemento fisso, ovvero pelle, ed un secondo complemento variabile (in questo caso, Paolo). Per una più completa classificazione delle idiomatiche, si veda Vietri (2004), pag. 151, e Monteleone (1989) per quanto riguarda le idiomatiche con il verbo fare.2 La scelta di un’etichetta formale singola per la preposizione di è giustificata su basi statistiche. Infatti, nelle parole composte polirematiche dell’italiano, la presenza di questa preposizione risulta essere più elevata rispetto a quella di tutte le altre preposizioni.

24

o quella di aggettivo, come in:

2) Max indossa una camicia rosso cadmio

2.2.2 Analisi morfologica, lessicografica, semantica e sintattica delle parole composte polirematiche

Come già specificato in 2.1, le parole composte hanno gradi variabili di coesione interna,

con un intervallo che va dai composti con un elevato livello di verosimiglianza di occorrenza –

ovvero, sono poco o per nulla idiomatici, quindi semanticamente composizionali – ai composti che

ne hanno uno molto basso – ovvero sono molto più idiomatici, quindi semanticamente non

composizionali.

Ribadiamo inoltre che da un punto di vista formale, più precisamente in termini di

morfologia della composizione, le parole composte si definiscono in opposizione alle parole

semplici1: mentre queste ultime contengono essenzialmente un solo morfema lessicale, le prime ne

includono e combinano almeno due, con i relativi morfemi grammaticali necessari al loro corretto

uso. All'analisi morfologica è possibile associarne una lessicografica, in base alla quale hanno

dignità di lessicalizzazione nei dizionari cartacei le polirematiche corredate da una specifica

funzione grammaticale e da un significato condiviso ed autonomo. Tuttavia, tale lemmatizzazione

non sembra avvenire in modo sistematico, poiché all'interno dei maggiori dizionari cartacei non

specialistici della lingua italiana, le polirematiche sono spesse volte inserite come esempi d'uso,

all'interno delle glosse dei loro elementi testa. Ad esempio, in De Mauro (2000), il lemma capo,

all'accezione 2b, recita come segue:

"TS mar. nella marina militare, sottufficiale: capo di prima, di seconda, di terza

classe."

Sempre da un punto di vista lessicografico, come è noto, un diverso trattamento è invece

riservato alle parole composte polirematiche terminologiche, per le quali esistono dei dizionari

cartacei dedicati, detti dizionari settoriali o di specialità, e che nelle prossime pagine verranno

trattati in modo approfondito, vista la loro importanza nell’ambito dell’analisi testuale automatica e

della strutturazione del Web Semantico.

1 Ricordiamo che in ambito lessico-grammaticale, la definizione formale di parola semplice è quella di sequenza non interrotta di caratteri alfabetici, delimitata fra due spazi bianchi.

25

Ed è proprio nell’ambito di una seppur rapida analisi semantica che è opportuno evidenziare

le evidenti differenze esistenti tra gruppi nominali liberi e parole composte polirematiche,

soprattutto in virtù della necessità già delineata per di lemmatizzare i secondi, ma non i primi.

L'individuazione del limite che separa parole composte polirematiche e gruppi nominali liberi è

infatti uno dei problemi più rilevanti per la descrizione approfondita delle lingue naturali. Appare

evidente che le differenze esistenti, ad esempio, tra colletto bianco e colletto rosso portino alla

lemmatizzazione della prima espressione, ma non della seconda. Infatti, non lemmatizzando

autonomamente colletto bianco, non si darà giusto conto del suo significato specifico di "lavoratore

di concetto" o "impiegato", né si potrà dare conto delle proprietà morfo-grammaticali e lessicali ad

esso associate, quali quelle di nome umano, di genere maschile, di numero singolare, con una forma

flessa maschile in colletti bianchi1.

È tuttavia evidente che nell'analisi della specifiche caratteristiche delle polirematiche

italiane, colletto rosso e colletto bianco rappresentino due estremi opposti facilmente gestibili, e che

ci siano polirematiche più complesse da classificare e descrivere, come ad esempio alcuni

neologismi del linguaggio politico quali editto bulgaro ed elezione bulgara, che sembrerebbero al

limite fra lo status di parole composte e quello di gruppi nominali liberi, e più vicine a questi ultimi.

A tale scopo, Silberztein2 adotta i seguenti criteri di distinzione per individuare e lemmatizzare

correttamente una parola composta:

- atomicità semantica: se il significato preciso di un gruppo di parole non può essere dedotto

dal significato dei suoi componenti, allora tale gruppo di parole è una parola composta e va

quindi lemmatizzata; è questo il caso di composti quali berretto verde, teste di cuoio, casa

chiusa, guerra fredda, che rispetto al loro nomi testa aggiungono elementi che non ne

modificano il significato, ma che partecipano alla costruzione del significato completo e non

letterale del composto;

- restrizione di distribuzione: si è in presenza di questa caratteristica nei casi in cui i

costituenti del gruppo di parole non possono essere liberamente sostituiti, in quanto

appartenenti ad alcune classi distribuzionali specifiche. In questi casi, il gruppo di parole

sarà trattato come una parola composta. È questo il caso dell'opposizione già descritta fra

colletto bianco e colletto rosso, ma anche di altre opposizioni quali tra cintura nera e

cintura cremisi, porta scorrevole e porta chiusa, berretto verde e berretto rosso, e così via;

1 Aggiungiamo che in ambiti quali il trattamento automatico dei dati, la mancata lemmatizzazione delle parole composte minerebbe in modo sostanzioso i risultati di alcune specifiche attività quali, ad esempio, l'information retrieval, l'analisi testuale automatica e la traduzione assistita da computer.2 Cfr. Silberztein (1997), pag. 117.

26

- uso condiviso e istituzionalizzato: alcuni gruppi di parole, anche fra quelli semanticamente e

distribuzionalmente liberi, vengono usati in forma quasi obbligatoria ed in opposizione

teorica con altre costruzioni sintattiche potenziali che sarebbero altrettanto valide, ma che

non vengono quasi mai utilizzate. È questo ad esempio il caso del calco dall'inglese in tempo

reale, il cui uso in italiano sembrerebbe immotivato1 ma che è ormai molto diffuso. In casi

simili, sarà necessario lemmatizzare tali parole composte.

Questi tre criteri consentono di individuare un numero di parole composte ben più elevato di

quello che normalmente si assume esista in una data lingua. Come vedremo in seguito, e soprattutto

in relazione alle parole composte terminologiche, l'impostazione analitica qui evidenziata consente

una copertura lessicale ampia e di grande rilevanza per tutte le attività di analisi lessicale, nonché

per quelle basate sul recupero delle informazioni e sul trattamento automatico del linguaggio

naturale.

Un'ulteriore possibile livello di analisi delle parole composte è quello morfosintattico,

effettuabile all'interno di frasi semplici e su base distribuzionale. È infatti possibile evidenziare per

le parole composte la medesima funzione di complemento di verbo che hanno le parole semplici e i

gruppi nominali liberi, come dimostrano gli esempi seguenti, in cui tutte le sequenze sottolineate

hanno in relazione al verbo consegnare uguale valore e funzione distribuzionale:

1) L'impiegato ha consegnato il plico a Max

2) Il padre di Lia ha consegnato il plico di Paolo al fratello di Max

3) Il capo stazione ha consegnato l'ordine di servizio all'assistente di direzione

Questo livello di analisi, formalmente definito dal lessico-grammatica e strettamente connesso a

quello lessicografico evidenziato in precedenza, giustifica ulteriormente, qualora fosse necessario,

l'importanza della lemmatizzazione e della classificazione morfosintattica delle parole composte.

2.3 Le parole composte polirematiche nell’analisi testuale automatica

L’analisi testuale automatica è una disciplina relativamente moderna che si è sviluppata

all’interno della linguistica computazionale, in particolare nel momento in cui quest’ultima si è

staccata dall’ambito delle ricerche di intelligenza artificiale ed ha cominciato ad utilizzare software

1 Analizzando questa parola composta in termini di opposti, non infatti è possibile attestare l'uso di *in tempo irreale, mentre è possibile reperire un quasi sinonimo nella parola composta in diretta, tuttavia di uso meno comune.

27

dedicati, creati dall’informatica, per impostare e portare a termine specifici procedimenti analitici

quali la lettura automatica dei corpora ed il relativo recupero delle informazioni. La linguistica

computazionale è una disciplina che si colloca a cavallo tra scienze umane e scienze esatte, e che si

occupa dello “studio dei sistemi di elaborazione dedicati alla comprensione ed alla generazione del

linguaggio“1. Va comunque detto che storicamente l’informatica si è sempre occupata del

linguaggio naturale, in particolare allo scopo di costruire e perfezionare i meccanismi e le interfacce

che consentono agli esseri umani di dialogare interattivamente con un computer, usando appunto il

linguaggio naturale invece di quello binario.

Dal canto suo, la linguistica ha invece trovato nell’informatica diversi e potenti supporti per

sviluppare le simulazioni di operazioni cognitive complesse, per sperimentare gli impianti teorici

descrittivi che essa stessa ha elaborato o anche, più semplicemente, per analizzare

contemporaneamente e automaticamente corpora di vasta portata, attività queste che in passato

richiedevano lo spoglio manuale di voluminosi documenti. In quest’ultimo caso, e soprattutto in

tempi recenti, di grande importanza si sono rivelate le capacità di memorizzazione dei supporti

magnetici e ottici come gli hard disk di nuova generazione, i CD-Rom e i DVD-Rom scrivibili e

riscrivibili, che permettono di registrare e riutilizzare facilmente grandi quantità di dati, agevolando

classificazione, analisi e gestione automatica.

Nel corso degli anni, la linguistica computazionale ha portato avanti vari tipi di

sperimentazioni che simulano tramite computer attività in linguaggio naturale anche complesse, tra

cui ricordiamo essenzialmente la traduzione automatica e assistita, l’analisi testuale automatica, il

parsing2, il riconoscimento e la generazione automatica dei testi. Con l’andar del tempo, le attività e

1 Cfr. Grishman, R. (1988).2 All’interno del trattamento automatico del linguaggio naturale, il parsing può essere definito come il procedimento di assegnazione di descrizioni strutturali alle sequenze di parole prodotte dalle lingue naturali (o alle sequenze di simboli derivate da sequenze di parole). Il tipo di descrizione strutturale da assegnare e le modalità di assegnazione dipendono dalla grammatica – ovvero da un linguaggio descrittivo e da un insieme di restrizioni strutturali – in base alla quale il parser cerca di analizzare le sequenze di simboli che gli vengono presentate. In altre parole, un parser prende in input una sequenza di parole (o un loro surrogato) di una data lingua ed una descrizione astratta delle possibili relazioni strutturali che possono intercorrere tra le parole o le sequenze di parole di quella lingua, e produce in output zero o più descrizioni strutturali dell’input in base a quanto prevede l’insieme di regole strutturali. Ci saranno zero descrizioni sia se la sequenza di input non può essere analizzata dalla grammatica (ovvero se non è grammaticale, o se il parser è incompleto, cioè se non riesce a trovare tutte le strutture rese possibili dalla grammatica. Ci sarà invece più di una descrizione se l’input è ambiguo nei confronti della grammatica, ovvero se la grammatica prevede più di un’analisi corretta dell’input. Per un parser, la sequenza di simboli dell’input può anche non essere formato solo da parole di una lingua naturale. Non considerando il parsing di linguaggi artificiali (come quelli di programmazione o logici), di documenti etichettati (ad esempio in SGML) o di sequenze non linguistiche come quelle dei codici genetici, il parsing nel trattamento del linguaggio naturale può essere effettuato su sequenze di parole, sequenze di etichette di parti del discorso, o su sequenze di simboli complessi quali i corredi di caratteristiche (ovvero laddove una parola può essere stata sostituita da un insieme di caratteristiche, incluse la sua forma ortografica, la parte del discorso, la classe flessiva, e così via).In genere, si effettua un parsing perché si ritiene che le strutture grammaticali contribuiscano al significato e che individuare la struttura grammaticale di una sequenza di parole in una lingua naturale sia un passo necessario nella individuazione del significato di quella sequenza. In alcuni parser, la costruzione di una rappresentazione del significato viene effettuata contemporaneamente alla derivazione di un’analisi strutturale in base alla grammatica.

28

le applicazioni della linguistica computazionale si sono ulteriormente ampliate e moltiplicate, ed

hanno quindi contribuito a ridefinirne scopi e funzioni, come è possibile leggere nella citazione che

segue:

linguistica computazionale

Lo studio del linguaggio con l’ausilio del calcolatore. Anche se di

fatto le ricerche di linguistica computazionale sono spesso intrecciate

con quelle di intelligenza artificiale, si usa distinguere tra linguistica

computazionale ed elaborazione (automatica) del linguaggio naturale

(ELN) perché la prima non persegue anzitutto la realizzazione di

sistemi artificiali capaci di prestazioni intelligenti in rapporto al

linguaggio, ma invece la conoscenza del linguaggio stesso, e usa

spesso il calcolatore come strumento di verifica di teorie linguistiche

indipendenti. Inoltre, fanno parte della linguistica computazionale

(ma non dell’ELN) ricerche che usano tecniche informatiche “non

intelligenti”, come quelle di stilistica computazionale e in generale

quelle basate sull’elaborazione (anche con strumenti statistici) di

corpora lessicali, in vista della realizzazione di vocabolari,

concordanze, ecc. La linguistica computazionale è peraltro impegnata

in tutti i settori della ricerca linguistica teorica, dalla sintassi alla

pragmatica e all’analisi del discorso, attraverso la costruzione di

sistemi che realizzino teorie o frammenti di teorie linguistiche.1

Anche il lessico-grammatica, come metodo di formalizzazione del linguaggio naturale, ha

trovato nella linguistica computazionale un ambito in cui riadattare, rielaborare ed applicare

automaticamente tutti i dati raccolti in un lungo periodo di tempo – circa venticinque anni – in cui le

ricerche linguistiche non potevano ancora usufruire del supporto informatico. Perciò, in tempi

recenti, grazie all’apporto della linguistica computazionale, il lessico grammatica ha potuto

ulteriormente validare il suo l’impianto metodologico empirico, nonché verificare l’eventualità di

rivedere e ricalibrare alcune delle sue impostazioni di ricerca.

Uno dei risultati più evidenti dell’incontro tra lessico-grammatica e linguistica

computazionale è la creazione di specifici software per l’analisi testuale automatica, strutturati Le operazioni di parsing vanno dal semplice isolamento sintagmatico, ad esempio con lo scopo di riconoscere i nomi propri, alla completa analisi semantica di un testo, per il l’estrazione delle informazioni o la traduzione assistita da computer.

1 Cfr. Beccaria G. L. (a cura di, 1994), pag. 446.

29

intorno a strumenti applicativi quali i dizionari elettronici, i trasduttori e gli automi a stati finiti.

Saranno questi gli argomenti di cui tratteremo nei prossimi paragrafi.

2.3.1 I software per l’analisi testuale automatica

L’analisi testuale automatica del lessico-grammatica, inaugurata da Maurice Gross per il

francese ed in seguito sviluppata ed applicata all’italiano da Annibale Elia al Dipartimento di

Scienze della Comunicazione dell’Università di Salerno, è soprattutto di tipo morfosintattico, e si

basa sull’uso di motori linguistici (i.e. dizionari elettronici detti anche basi di dati lessicali)

incorporati all’interno di una shell pacchettizzata e composta da software modulari.

Allo stato attuale, esistono quattro pacchetti software che sfruttano questa modalità di

strutturazione, ovvero:

INTEX1, che si basa sull’uso di dizionari elettronici, grammatiche locali ed automi a stati

finiti (che descriviamo dettagliatamente in 2.3.1.1) e la cui prima versione è stata realizzata

agli inizi degli anni novanta da Max Silberztein sotto la guida di Maurice Gross. Questo

software è stato implementato fino al 2004, ed oggi è considerato non più implementabile;

UNITEX2, versione speculare di INTEX, tuttora implementata per quanto riguarda il

lingware;

NOOJ3, che è la naturale continuazione di INTEX, del quale migliora alcuni aspetti relativi

alla gestione della segmentazione delle parole in lettere o gruppi di lettere, nonché del

rapporto tra parole semplici e parole composte;

CATALOGA, realizzato da Alberto Postiglione (per la costruzione e la strutturazione della

shell) e Mario Monteleone (per la gestione del lingware) del Dipartimento di Scienze della

Comunicazione dell’Università di Salerno.

Le modalità di analisi di INTEX, UNITEX e NOOJ sono molto simili tra loro e possono

essere suddivise in tre fasi principali. In una prima fase, il modulo iniziale effettua la lettura

automatica di un testo, completandone sia l’indicizzazione che la tokenizzazione, per poi eseguire il

matching tra le parole contenute dal testo e le entrate catalogate e classificate nei dizionari

elettronici. Il risultato del matching è la creazione di dizionari elettronici del testo analizzato; in

questi dizionari, le entrate sono elencate in ordine alfabetico, corredate da informazioni di tipo

morfo-grammaticale e suddivise in base alla loro caratteristica di unità di significato autonome. 1 Per ulteriori informazioni su Intex, cfr. http://intex.univ-fcomte.fr/.2 Per ulteriori informazioni su Unitex, cfr. http://igm.univ-mlv.fr/%7Eunitex/3 Per ulteriori informazioni su Nooj, cfr. http://www.nooj4nlp.net/.

30

http://www.nooj4nlp.net/

http://igm.univ-mlv.fr/~unitex/

http://intex.univ-fcomte.fr/

Una seconda fase dell’analisi consente di leggere all’interno del testo, effettuando specifiche

ricerche visualizzabili sotto forma di concordanze, nonché di effettuare la localizzazione di pattern

sintattici, la disambiguazione ed il parsing del testo. Queste operazioni sono possibili grazie all’uso

di automi e trasduttori a stati finiti, realizzati sotto forma di grafi ed applicati come elementi di

lettura ed analisi del testo. Tali automi vengono anche chiamati “grammatiche locali”, in quanto in

ognuno di essi vengono analizzate e descritte isolate caratteristiche morfosintattiche di una lingua,

come ad esempio – per l’italiano – l’uso dei participi passati, l’accordo grammaticale o la forma

passiva di specifici verbi. È inoltre da sottolineare che ad un testo possono essere applicati

contemporaneamente più automi a stati finiti, ovvero è possibile effettuare analisi usando

contemporaneamente più grammatiche locali, o anche potenzialmente tutte le grammatiche locali

realizzabili per la lingua italiana.

Una terza ed ultima fase dell’analisi consente di importare specifici file realizzati in forma di

tabella con Microsoft® Office Excel (soprattutto in INTEX e UNITEX) e che contengono

informazioni di carattere morfo-sintattico formalizzate in base alle proprietà distribuzionali e

trasformazionali di ogni singolo elemento – in particolar modo, i predicati di una data lingua. Ogni

singola tabella importata diventa una grammatica locale pronta per essere applicata durante l’analisi

testuale automatica.

CATALOGA invece ha funzionalità e scopi diversi dagli atri tre software. Mutua da INTEX

il matching fra testi e dizionari elettronici, ma si concentra sull’analisi terminologica del corpus,

basata sulla localizzazione delle parole composte di tipo tecnico-scientifico. Questo software ha

quindi fasi di analisi diverse dai tre precedenti, riassumibili schematicamente come segue:

1. lettura automatica dei testi;

2. computo delle entrate composte terminologiche contenute nei testi;

3. catalogazione automatica dei testi sulla base delle parole composte terminologiche da

essi estratte, del loro numero, del settore della conoscenza più ricorrente, e tramite il

computo statistico del rapporto rilevato tra parole terminologiche e non

terminologiche incluse;

4. restituzione a video delle statistiche di occorrenza terminologica di ogni singolo

testo, in ordine decrescente e suddivise in base al relativo settore della conoscenza.

Questo tipo di analisi è possibile poiché, come vedremo, nei dizionari elettronici di parole

composte le entrate sono corredate da specifiche etichette che indicano il settore o i settori della

31

conoscenza in cui vengono utilizzate1. Ad esempio, il composto acconto dividendo è corredato

dall’etichetta ECON, poiché è utilizzato specificamente nel settore di conoscenza dell’economia. A

sua volta il composto martello pneumatico è corredato da due etichette: ING MEC per ingegneria

meccanica e UTIL per utensili, in virtù del fatto che il composto viene utilizzato con identico

significato all’interno di due settori diversi della conoscenza.

L’utilità di questo tipo di analisi è rilevante se si considera che in ogni testo di carattere

tecnico-scientifico, la presenza dei composti può anche raggiungere il 20% delle occorrenze totali, e

che i composti terminologici, seppure in numero inferiore rispetto alle parole semplici, sono in

grado di concentrare fino all’80% del significato globale di un dato testo.

2.3.1.1 Automi a stati finiti, grafi ed espressioni regolari

Come accennato, nell’analisi testuale automatica lessico-grammaticale hanno grande

importanza i grafi e gli automi a stati finiti. In tal senso, è utile specificare che un automa a stati

finiti (FSA), detto anche meccanismo a stati finiti (FSM) o più semplicemente meccanismo a stati, è

un algoritmo o modello di comportamento composto da un numero finito di stati, delle transizioni

tra stati, e delle azioni. Inoltre, un automa a stati finiti è anche definito come modello astratto di

meccanismo con una memoria interna di tipo primitivo.

Infatti, all’interno di un automa, uno stato immagazzina informazioni solo sul suo

antecedente immediato, ovvero riflette i cambiamenti di input che vanno dallo start del sistema al

momento immediatamente precedente. Una transizione, invece, comporta il passaggio di

informazioni da uno stato ad un altro; in una transizione, l’informazione contenuta ad esempio da

uno stato “A”, passando ad uno stato B successivo, crea un input finale “AB”. Un’azione è infine la

descrizione dell’attività che deve essere compiuta in un dato momento. Le azioni effettuabili sono

di diverso tipo:

- ingresso, effettuata nel momento in cui si accede allo stato;

- uscita, effettuata la momento in cui si esce dallo stato;

- input, effettuata in base allo stato corrente ed alle condizioni di input;

- transizione, effettuata in fase di passaggio da uno stato ad un altro.

Un automa a stati finite può essere rappresentato tramite un grafo, come quello della figura

seguente, in cui viene composta la parola porta tramite l’applicazione di cinque stati e sei

transizioni:

1 Per gli approfondimenti sul rapporto tra polirematiche e terminologia si veda il paragrafo 2.2.3.

32

Figura 2.

In genere gli automi sono di due tipi: di riconoscimento e trasduttori1. L’automa della figura

1 è un automa di riconoscimento in quanto, stato dopo stato, compone la parola porta e la riconosce

in quanto tale. Gli automi di riconoscimento (detti anche accettori o riconoscitori di sequenze)

producono un output binario, rispondendo affermativamente o negativamente sull’informazione

composta, stato dopo stato, da parte dell’automatismo. Tutti gli stati degli automi di riconoscimento

sono detti stati di accettazione o di non accettazione. Nel momento in cui l’input viene processato,

se lo stato in questione è di accettazione, allora l’input viene riconosciuto; in caso contrario, viene

respinto. Come norma, l’input è composto da simboli (caratteri); non vengono invece applicate

azioni.

Un automa di riconoscimento può anche essere descritto come un elemento che definisce un

linguaggio in cui è inclusa ogni parola accettata dall’automatismo stesso, mentre sono escluse tutte

le parole respinte. In tal senso, si è soliti dire che il linguaggio è accettato dall’automatismo. Per

definizione, sono accettati dagli automi tutti i linguaggi regolari, ovvero ogni linguaggio formale

composto da un insieme di parole (nel senso di stringhe finite di lettere), o da simboli.

I trasduttori, invece, producono output che provengono da specifici input o da stati sottoposti

ad azioni. In genere vengono usati per applicazioni di carattere linguistico-computazionale.

Esistono due tipo di trasduttori: deterministici e non-deterministici. I trasduttori

deterministici, permettono di riconoscere una sola sequenza. Al contrario, si dicono non

deterministici quegli automi che consentono di riconoscere più di una sequenza. Ad esempio,

l’automa descritto di seguito: 1 Le immagini qui prodotte raffigurano degli automi di tipo morfologico, ovvero incentrati sulla descrizione della formazione delle parole. Esistono nondimeno automi di tipo sintattico, in grado di riconoscere e disambiguare pattern testuali, il cui trattamento esula tuttavia dagli scopi di questo articolo. Per un accurato approfondimento di questo tipo di automi, si rimanda pertanto ai già citati siti Web di Intex, Unitext e Nooj, nonché a Silberztein (2004) e (2008).

33

Figura 3.

consente di riconoscere tre parole diverse, ovvero porto, portare e portata. Da notare che le tre

parole hanno tutte lo stessa morfema lessicale port-.

In INTEX, UNITEX e NOOJ, gli automi a stati finiti sono concepiti come esempi specifici

di trasduttori a stati finiti che non producono nessuna informazione (ovvero non dànno nessun

output) se non quello relativo alle informazioni binarie “la sequenza è riconosciuta” oppure “la

sequenza non è riconosciuta”. In genere, questi automi a stati finiti vengono utilizzati per estrarre

(ricercare, indicizzare, contare, localizzare, e così via) specifiche sequenze di interesse nel testo.

Inoltre, nei tre software all’uso di trasduttori e automi a stati finiti si affianca quello delle

espressioni regolari, ovvero di sequenze di comandi governate da sintassi predefinite1 attraverso le

quali, all’interno di un testo, si possono localizzare pattern aventi caratteristiche morfosintattiche

simili. Nei tre software trattati, le espressioni regolari rappresentano perciò un mezzo rapido per

produrre dei semplici automi a stati finiti (in genere di tipo booleano, per il riconoscimento di

macrosequenze di tipo lineare) che non necessitano dell’adozione di un grafo. Ad esempio, quando

la sequenza da riconoscere è composta da una, due o tre parole, risulta più efficace ricercarla

direttamente con un’espressione regolare. Tuttavia, se la struttura da localizzare risulta più

complessa, sarà necessario usare un grafo.

Sempre in questi software, una delle caratteristiche essenziali dell’uso di trasduttori a stati

finiti, o di varianti di essi, è che in determinate fasi dell’analisi testuale possono descrivere la gran

parte degli oggetti processati (siano essi testi, dizionari, o grammatiche). Un trasduttore a stati finiti

è di fatto un grafo che rappresenta un gruppo di sequenze riconosciute (ovvero esistenti) all’esterno

1 Cfr. Silberztein, M. (1993), (2004) e (2008).

34

del grafo ed associa ad esse ad un gruppo di sequenze prodotte in uscita dal grafo stesso. In genere,

una grammatica descritta all’interno di un trasduttore a stati finiti rappresenta sequenze di parole

presenti in un testo da analizzare, e produce informazioni di carattere linguistico, ad esempio sulla

struttura sintattica delle sequenze di parole. Per un dizionario, invece, rappresenta sequenze di

lettere che compongono singole entrate, e produce informazioni lessicali, come ad esempio quelle

relative alle parti del discorso, ai codici di flessione, e via di seguito. Infine, il trasduttore di un testo

rappresenta sequenze di parole così come esse occorrono in ogni singola frase del testo, ed assegna

ad esse informazioni lessicali e/o sintattiche basate su tutte le analisi possibili.

Nei tre software creati dal lessico-grammatica per l’analisi automatica dei testi, la

rappresentazione univoca sotto forma di trasduttori/grafi di questi tre oggetti (testi, dizionari e

grammatiche) presenta vantaggi notevoli, soprattutto in termini di rapidità di esecuzione. Tutte le

operazioni eseguite con i tre software possono infatti essere effettuate attraverso un numero limitato

di step, basati sull’uso di trasduttori a stati finiti. Ad esempio, la lettura di un testo tramite dizionari

consisterà nell’unire i trasduttori realizzati per ciascun dizionario, operazione che produrrà un

singolo trasduttore, a sua volta applicabile al trasduttore creato per descrive il testo. Inoltre, in

INTEX un trasduttore può essere utilizzato per controllare il formato o la consistenza di un

dizionario.

Un ulteriore elemento di analisi offerto da questi software sono le reti a transizione ricorsiva,

composte da grafi che a loro volta inglobano altri grafi inclusi in stati specifici detti metanodi. I

grafi inglobati possono a loro volta contenere riferimenti ad altri grafi. Questa struttura a cascata

crea una rete a transizione ricorsiva, ovvero librerie di grafi del tipo bottum-up, in cui i grafi più

semplici sono alla base della rete e vengono inglobati in grafi più complessi. In questo modo, una

rete a transizione ricorsiva è in grado di analizzare un testo applicando più grammatiche

contemporaneamente, anche in numero molto elevato. A loro volta, più reti a transizione ricorsiva

possono essere collegate fra loro, creando di fatto delle grammatiche indipendenti dal contesto,

ovvero applicabili ad ogni testo in quanto includono al loro interno la gran parte delle grammatiche

locali realizzabili nello studio formale di una data lingua. In pratica, tali grammatiche indipendenti

dal contesto possono essere formate da un numero illimitato di grammatiche dipendenti dal

contesto.

2.3.2 Dizionari elettronici

In base alla descrizione fatta precedentemente sui software di analisi testuale automatica,

risulta evidente che nessuno di essi potrebbe funzionare correttamente se fosse privo di dizionari

elettronici. Ma cosa sono esattamente i dizionari elettronici del lessico-grammatica, e soprattutto,

35

quali caratteristiche strutturali hanno? Per fornirne una definizione chiara ed esaustiva, converrà

rifarsi al concetto di base di dati, ovvero chiedersi cosa sia una base di dati e quando un file da noi

elaborato può essere definito tale.

L’informatica stabilisce che una base di dati è un “insieme di informazioni esaurienti e non

ridondanti necessarie a una serie di applicazioni automatizzate e conosciute da un insieme logico

che ne garantisce la gestione. (...) La formulazione di una base di dati (...) è un processo che

partendo dall’osservazione di una situazione reale giunge alla definizione della base di dati

corrispondente.”1 Una base di dati è inoltre un “insieme, anche molto esteso, di informazioni di

diverso tipo che fanno riferimento ad uno specifico settore di conoscenza o ad una determinata

organizzazione. Questi dati sono organizzati secondo precisi criteri e mediante precise strutture

informative, per poter essere consultati, aggiornati ed eventualmente ristrutturati per mezzo di

procedure organizzate in modo unitario”2.

In termini algebrici, le basi di dati sono quindi degli insiemi finiti, poiché includono

elementi con caratteristiche comuni tali da poter essere descritti congiuntamente, secondo un unico

metodo. La realizzazione di una base di dati è governata da rigorosi criteri di organizzazione

formale, che impongono la catalogazione dei contenuti in base a campi ed etichette univoci e non

ambigui, da applicare a tutti gli elementi dell’insieme da descrivere. È questo tipo di impostazione

che consente il trattamento delle basi di dati tramite computer, con la creazione e l’applicazione di

mirati Data Base Management System (DBMS) che permettono di effettuare rapidamente operazioni

di consultazione, information retrieval, importazione e esportazione verso altre basi di dati,

aggiornamento e copia. Partendo da dei dati cartacei, un esempio di base di dati sarebbe il

riversaggio su supporto ottico o magnetico del contenuto dei vecchi fascicoli anagrafici di un

comune, ordinato alfabeticamente e suddiviso in base a campi diversi per cognomi, nomi, giorni e

mesi nascita indirizzi e così via. In tal caso, avremo creato una base di dati anagrafica.

Una identica rigorosità formale di strutturazione è applicata per la creazione dei dizionari

elettronici, che vengono realizzati:

in riferimento ad un settore specifico della conoscenza, nel nostro caso il linguaggio naturale

e più specificamente il lessico di una lingua;

con una strutturazione empirica basata su specifiche osservazioni di aspetti e fenomeni reali,

ovvero quelli relativi all’uso del lessico;

1 Cfr. Morvan, P. (1989), pag. 36.2 Cfr. Barcellona, N., Marini, A., Monti, P., Vercesi, M. (1988), pag. 106.

36

con criteri di strutturazione omogenei, in quanto gli elementi che include sono le unità

lessicali di una stessa lingua ed hanno quindi per definizione delle caratteristiche in comune;

in funzione di un uso esclusivamente informatico, e con un rigoroso formalismo descrittivo,

che ne rendono necessario lo stoccaggio su supporti magnetici al fine di essere impiegato

solo in sistemi logici di gestione, ovvero da software di analisi linguistica.

I dizionari elettronici possono perciò a pieno titolo essere definite delle basi di dati lessicali.

che all’interno di software di analisi testuale svolgono il ruolo di motori linguistici con cui

effettuare tutte le applicazioni di matching e parsing sui testi. Inoltre, riprendendo le definizioni date

in precedenza riguardo la linguistica computazionale, possiamo affermare che un dizionario

elettronico faccia parte di quelle applicazioni informatiche “non intelligenti”, adottate nello studio

del linguaggio naturale e nella verifica di teorie linguistiche indipendenti.

I dizionari elettronici dell'italiano1, elaborati su base lessico-grammaticale, sono

essenzialmente di due tipi, suddivisibili in base all’aspetto formale e semantico del loro contenuto.

Avremo perciò dei:

- dizionari elettronici di parole semplici (denominati DELAS-DELAF) che includono tutte le

parole semplici dell’italiano, sia monorematiche che polirematiche;

- dizionari elettronici di parole composte (denominati DELAC-DELACF), qui anche definite

parole composte polirematiche, ovvero come già indicato tutte quelle sequenze formate da

due o più parole e che costruiscono congiuntamente singole unità di significato.

Tale suddivisione è necessaria sia dal punto di vista formale e morfologico, sia da quello

semantico2. Infatti, in fase di compilazione di un software di query, recupero informazioni o analisi

testuale automatica, come ad esempio i già citati INTEX, UNITEX e CATALOGA, l'assenza di

separatori all'interno delle parole semplici, e la presenza di questi all'interno delle parole composte,

1 Questi dizionari, insieme a tutto il lingware utilizzato nei vari software di analisi testuale automatica citati più avanti in questo articolo sono stati realizzati da e sono visionabili presso il dipartimento di Scienze della Comunicazione dell’Università di Salerno, che vanta una decennale collaborazione prima con il L.A.D.L. di Maurice Gross, già all’Université Paris 7 ma attualmente inserito nelle strutture dell’Université de Marne-la-Vallé, nonché con Max Silberstein, attualmente docente di linguistica computazionale presso l’Université de Franche-Comté di Besançon. 2 Aggiungiamo che le parole semplici hanno sempre un tasso di polisemia (leggi ambiguità) più elevato di quelle composte, che ne hanno uno molto prossimo allo zero. Per quanto riguarda il recupero informazioni e l'analisi testuale automatica, ciò implica indirettamente la necessità di prevedere ed impostare modalità analitiche diverse per i due tipi di parole.

37

saranno fattori discriminanti e comporteranno impostazioni e scelte differenti per quanto riguarda

gli automatismi nel trattamento dei dati. Nel caso delle parole semplici, sarà infatti necessario

prevedere e trattare solo dati alfabetici o numerici; con le parole composte, la presenza di separatori

inserirà un livello aggiuntivo di dati, ai quali si dovranno assegnare funzioni univoche, non

ambigue, e di valore diverso da quelli alfabetici e numerici.

Diverso è invece il caso di NOOJ, il più recente dei software precedentemente citati,

compilato in modo da gestire congiuntamente basi di dati di struttura diversa; in NOOJ, infatti, è

possibile realizzare un unico dizionario elettronico contenente sia parole semplici che composte.

Per quanto stiamo esponendo, una descrizione esaustiva del DELAC-DELACF, in termini di

analisi strutturale di una basi di dati di parole composte dell’italiano, sarebbe forse sufficiente al

corretto trattamento degli argomenti prefissati. Tuttavia, poiché alcune modalità di realizzazione di

questo dizionario dipendono fortemente da quelle DELAS-DELAF, li descriveremo entrambi, per

fornire un quadro omogeneo non solo sulla loro concretizzazione, ma anche sulle relative modalità

di formalizzazione del linguaggio naturale adottate dal lessico-grammatica.

2.3.2.1 La strutturazione del DELAS-DELAF

Il dizionario elettronico DELAS, o delle parole semplici, si compone di tre parti essenziali:

1. un lemmario;

2. dei codici alfanumerici, formati da un'etichetta morfologica e da una numerica, ed

assegnabili alle entrate per riassumerne le caratteristiche morfo-grammaticali e di

flessione;

3. dei trasduttori a stati finiti, ognuno dei quali è associato univocamente ad un codice

alfanumerico, in base alle modalità flessive che formalizza al suo interno. Tali trasduttori

vanno infine a far parte di moduli specifici di INTEX, UNITEX E NOOJ, e sono

utilizzati per la flessione automatica delle entrate.

I codici alfanumerici servono quindi a collegare le entrate ai trasduttori a stati finiti che ne

formalizzano le modalità flessive. Ad esempio, il codice N41 verrà applicato a tutte le parole

semplici che sono dei nomi (N) femminili singolari aventi -a come morfema grammaticale finale e

una forma plurale in -e. Quindi, il codice N41 sarà applicato a parole quali casa, lista, pietra, e così

via, mentre il trasduttore a stati finiti corrispondente avrà la seguente struttura grafica:

38

Figura 4.

Nella figura 1, l’istruzione “L” inserita nello stato iniziale del trasduttore indica che è

necessario cancellare l’ultimo carattere della parola da flettere. Un numero maggiore di istruzioni

“L” nello stato iniziale corrisponde ad un numero equivalente di caratteri da cancellare: l'istruzione

“LL” cancella quindi due caratteri, “LLL” ne cancella tre, e così via. Tramite queste cancellazioni

otteniamo delle sequenze che possono essere sia dei morfemi lessicali canonici, quali cas-, sia delle

forme non morfemiche alle quali il trasduttore potrà associare desinenze specifiche per effettuare la

flessione di entrate date. Negli altri stati del grafo della figura 3, troviamo invece i morfemi

grammaticali da aggiungere per ricostruire la forma singolare ed ottenere le forma plurale di ogni

specifica entrata cui il trasduttore è applicabile. Il grafo della figura 3 assocerà quindi a cas-, list- e

pietr- la -a per il singolare e la -e per il plurale.

Simili procedimenti di formalizzazione morfo-grammaticale sono utilizzati per tutte le

categorie flessive, mentre per le categorie non flessive vengono adottate solo delle etichette

alfabetiche. La lista delle etichette categoriali del DELAS è la stessa descritta in 2.2, cui qui

aggiungiamo:

PAA per le preposizioni composte formate da un determinante e la preposizione semplice a,

come al;

PAC per le preposizioni composte formate da un determinante e la preposizione semplice

con, come col;

PADA per le preposizioni formate da un determinante e la preposizione semplice da, come

dal;

PADI per le preposizioni formate da un determinante e la preposizione semplice di, come

del;

PAN per le preposizioni formate da un determinante e la preposizione semplice in, come

nel;

PAS per le preposizioni formate da un determinante e la preposizione semplice su, come sul;

39

PREP per le preposizioni semplici

In base a quanto descritto, le stringhe del DELAS saranno strutturate come segue:

amare,V3

andare,V5

casa,N41

finestra,N41

lestofante,A79

lestofante,N79

In questa breve lista, si noti come che la virgola “,” sia utilizzata come un separatore di

campo di una base di dati, per dividere i lemmi dai rispettivi codici alfanumerici di flessione.

La flessione automatica del DELAS, che attualmente contiene oltre 120.000 entrate, produce

il DELAF, ne contiene invece oltre 800.000. La piccola lista della pagina precedente, invece, viene

flessa automaticamente in quella che segue. Come è possibile verificare, durante il passaggio da

DELAS in DELAF, i codici alfanumerici di flessione vengono sostituiti da altre etichette, anche

queste codificate in modo univoco e non ambiguo: ama,amare.V:Q2sama,amare.V:X3samai,amare.V:J1samammo,amare.V:J1pamando,amare.V:Gamano,amare.V:X3pamante,amante.A:fsamante,amante.A:msamante,amante.N:fsamante,amante.N:msamante,amare.V:Zms:Zfsamanti,amante.A:fpamanti,amante.A:mpamanti,amante.N:fpamanti,amante.N:mpamanti,amare.V:Zmp:Zfpamar,amare.V:Lamare,amare.V:Iamarono,amare.V:J3pamasse,amare.V:H3samassero,amare.V:H3pamassi,amare.V:H1samassi,amare.V:H2samassimo,amare.V:H1pamaste,amare.V:H2pamaste,amare.V:J2pamasti,amare.V:J2samata,amare.V:Ufsamate,amare.V:Q2p

amate,amare.V:Ufpamate,amare.V:X2pamati,amare.V:Umpamato,amare.V:Umsamava,amare.V:Y3samavamo,amare.V:Y1pamavano,amare.V:Y3pamavate,amare.V:Y2pamavi,amare.V:Y2samavo,amare.V:Y1samerai,amare.V:K2sameranno,amare.V:K3pamerebbe,amare.V:F3samerebbero,amare.V:F3pamerei,amare.V:F1sameremmo,amare.V:F1pameremo,amare.V:K1pamereste,amare.V:F2pameresti,amare.V:F2samerete,amare.V:K2pamerà,amare.V:K3samerò,amare.V:K1sami,amare.V:Q3sami,amare.V:W1sami,amare.V:W2sami,amare.V:W3sami,amare.V:X2samiamo,amare.V:Q1pamiamo,amare.V:W1p

40

amiamo,amare.V:X1pamiate,amare.V:W2pamino,amare.V:Q3pamino,amare.V:W3pamo,amare.V:X1samò,amare.V:J3scasa,casa.N:fscase,casa.N:fpfinestra,finestra.N:fsfinestre,finestra.N:fplestofante,lestofante.A:fslestofante,lestofante.A:mslestofante,lestofante.N:fslestofante,lestofante.N:mslestofanti,lestofante.A:fplestofanti,lestofante.A:mp

lestofanti,lestofante.N:fplestofanti,lestofante.N:mpva',andare.V:Q2sva,andare.V:Q2sva,andare.V:X3svada,andare.V:Q3svada,andare.V:W1svada,andare.V:W2svada,andare.V:W3svadano,andare.V:Q3pvadano,andare.V:W3pvado,andare.V:X1svai,andare.V:Q2svai,andare.V:X2svanno,andare.V:X3pvo,andare.V:X1s

Come possiamo vedere, le stringhe del DELAF presentano un formalismo descrittivo

diverso da quello del DELAS. Notiamo infatti che le morfologia flessiva viene sempre indicata,

laddove necessario, dalle etichette m (maschile), f (femminile), s (singolare) p (plurale). In aggiunta,

per le voci verbali vengono utilizzate le seguenti etichette:

F = condizionale presenteG = gerundio presenteH = congiuntivo imperfetto I = infinito presenteJ = indicativo passato remotoK = indicativo futuro presenteL = infinito elisoQ = imperativo presenteU = participio passatoW = congiuntivo presente X = indicativo presenteY = indicativo imperfettoZ = participio presente

Quindi, l’etichetta:

V:Q2p

applicata ad una voce verbale di mangiare indicherà che si tratta della seconda persona plurale (2p)

dell’imperativo presente (Q). Inoltre, poiché il DELAF è un dizionario di sole parole semplici, non

sono previste etichette per i tempi verbali composti.

Inoltre, le stringhe del DELAF sono strutturate diversamente da quelle del DELAS;

leggendo da sinistra a destra, includono i seguenti elementi:

- la parola nella sua forma flessa;

- un primo separatore di campo, ovvero la virgola “,”;

41

- la parola nella sua forma canonica, ovvero non flessa;

- un secondo separatore, ovvero il punto “.”;

- l’etichetta grammaticale;

- un terzo separatore, ovvero il punto e virgola “;”;

- le informazioni grammaticali relative alla forma flessa.

2.3.2.2 La strutturazione del DELAC-DELACF

Il dizionario elettronico DELAC, o delle parole composte in forma canonica, è formato

anch'esso delle stesse tre parti essenziali viste per il DELAS. Una differenza sostanziale è tuttavia

costituita dalla presenza dei traducenti inglesi per le stringhe italiane. Diverso rispetto al DELAS è

anche il formalismo descrittivo per la flessione e le proprietà morfo-grammaticali delle entrate.

Infatti, in fase di elaborazione del DELAC, i codici alfanumerici già individuati per il

DELAS vengono inseriti all'interno delle parole composte, in corrispondenza delle singole unità

lessicali che fletteranno nelle forme plurali.1 Una identica operazione viene svolta per i componenti

dei traducenti inglesi, ai quali verranno applicati codici flessivi appositamente elaborati e basati

sulla morfologia flessiva dell'inglese. Le etichette inserite verranno in seguito lette a mezzo di

automi a stati finiti, che fletteranno automaticamente il DELAC, in DELACF, o dizionario delle

parole composte flesse. L'esempio seguente mostra un'entrata del DELAC etichettata da codici di

flessione sia per la parte italiana che per quella inglese:

accertamento(N7)/di/valore/.NPN:ms-+,ECON /=assessment(N1)/N/N:s+

I codici di flessione, indicano che la forma flessa della parola composta precedente, ovvero la

corrispondente entrata DELACF, sarà così strutturata:

accertamenti/di/valore,accertamento/di/valore.NPN:mp-+,ECON / =assessments,assessemt.N/N:p+

1 Ricordiamo che la tipologia flessiva delle parole composte è molto varia, non sempre prevede la pluralizzazione di tutti gli elementi costituenti ed è spesso legata alle proprietà categoriali degli stessi costituenti. Lo dimostra ad esempio il composto casa di cura, del tipo nome-preposizione-nome, che ha una forma plurale in case di cura, mentre risulta non accettabile la forma *case di cure. Ancora, il composto già citato paura morbosa degli spazi aperti , del tipo nome-aggettivo-nome-preposizione-nome-aggettivo, non ha nessuna forma plurale, vista l'inaccettabilità di *paure morbose degli spazi aperti; non risulta inoltre attestata una forma in paura morbosa dello spazio aperto. Invece, i composti del tipo nome-aggettivo, come ad esempio berretto verde, pluralizzano entrambe le unità lessicali costituenti, come dimostra la forma berretti verdi.

42

Da un punto di vista del formalismo descrittivo applicabile ad una base di dati, è possibile

evidenziare una formalizzazione che prevede:

1. la parola flessa, i cui componenti interni sono indicati dal separatore di campo "/";

2. il separatore di campo”,”;

3. la parola composta canonica, i cui componenti interni sono indicati dal separatore di

campo "/";

4. il separatore di campo ".";

5. un'etichetta grammaticale che indica la struttura interna della parola composta;

6. il separatore di campo “:”;

7. le informazioni morfologiche relative alla parola composta (come detto, m per maschile,

f per femminile, s per singolare, p per plurale) seguite dalle indicazioni relative alle

possibile presenza di altre forme;

8. il separatore di campo “;”;

9. le informazioni relative agli specifici settori della conoscenza in cui l'uso della parola

composta è attestato, insieme a quelle relative alla fonte di reperimento del composto;

10. il separatore di campo "/" seguito da uno spazio bianco e dal separatore di campo "=";

11. la traduzione inglese del composto italiano, che viene formalizzata allo stesso modo

della stringa italiana, come indicato dai punti 1-7;

12. in ultimo, la notazione della funzione grammaticale del composto inglese preceduta dal

separatore di campo "/" e seguita dalle informazioni di tipo morfologico e flessivo. Tale

notazione non è utilizzata per i composti italiani, qualora, come nell’esempio, un

dizionario contenga solo entrate con funzione nominale.

Sottolineiamo inoltre che nel DELAC e nel DELACF la descrizione morfo-grammaticale

delle entrate viene effettuata con una matrice binaria, in cui si alternano la lettera m per indicare una

forma maschile, la f una femminile, la s una singolare e la p una plurale. A queste lettere si

aggiunge l'uso dei segni + e - che forniscono ulteriori informazioni sulle possibili forme flesse, nel

DELAC, e sulle forma canoniche di derivazione, nel DELACF. Quindi, un’etichetta del tipo fs-+

indicherà che la parola composta è femminile singolare, che non ha una forma maschile

corrispondente (come indicato dal segno -) e che può invece avere una forma femminile plurale

(come indicato dal segno +). Allo stesso modo, un'etichetta del tipo mp-- indicherà che la parola è

maschile plurale, e che non ha nessun'altra forma flessa, né maschile né femminile.

43

In 4, diamo alcuni esempi bilingui di entrate del DELACF estratte dal linguaggio

specialistico dell'economia.

2.3.3 Parole composte polirematiche e terminologia

In tutte le lingue del mondo esiste una stretta relazione di necessità tra terminologia1 e parole

composte polirematiche: di fatto, la terminologia ha bisogno delle parole composte, soprattutto di

quelle polirematiche, e ciò è testimoniato dalla presenza nei lessici di specialità2 di un numero

molto elevato di composti, in alcuni casi superiore al 90% di tutto l'insieme lessicale repertoriato.

Non va tuttavia dimenticato che l'uso di parole composte è ampiamente attestato anche nei registri

non marcati terminologicamente, sebbene in essi le parole semplici e le composte monorematiche

siano più diffuse. Tuttavia, per quanto riguarda i domini semantici specialistici e terminologici, di

grande funzionalità si dimostrano le modalità di strutturazione e composizione sintagmatica delle

polirematiche, che hanno dàto in passato e dànno ancora vita – nel caso di neologismi – ad unità di

significato molto pregnanti e mai ambigue, tali da riassumere in toto il significato di un testo in cui

occorrono, e di indirizzarne, come abbiamo visto, la catalogazione automatica tramite computer

effettuata in base al dominio semantico di appartenenza più ricorrente.

Ciò è possibile anche perché, come ha per altro evidenziato il lessico-grammatica, le parole

composte terminologiche3, contrariamente alle parole semplici di uso generico, non sono

polisemiche e sono etichettabili in modo univoco – ovvero, pur appartenendo a campi semantici

diversi, in ognuno di essi assumono uno ed un solo significato. Tale caratteristica riveste grande

valore per il linguaggio terminologico, che nell'abbinamento dei suoi significati e significanti ha la

necessità di essere il più preciso possibile. Le principali finalità della terminologia riguardano infatti

la classificazione non ambigua di oggetti e concetti, e quindi in seconda analisi il raggiungimento di

1 Per una rapida definizione di terminologia, citiamo (a cura di Beccaria 1994: 719):

"Insieme dei termini che si riferiscono ai concetti e agli oggetti appartenenti a un particolare settore del sapere o a una qualsiasi attività umana. Il materiale lessicale di una terminologia è costituito da parole comuni a cui si attribuisce un significato specifico, da prestiti[...] da calchi [...] e più raramente da veri e propri neologismi [...] I termini che costituiscono una terminologia debbono essere univoci, cioè avere un solo significato preciso per tutti gli specialisti del settore: in realtà questo non è sempre possibile, in particolare nelle scienze umane. Periodicamente le associazioni che raggruppano gli esperti di ogni settore rivedono la terminologia del settore per aggiornarla, per eliminare insorgenze di polisemia, per redigere dizionari specialistici che svolgano un'azione uniformatrice."

2 Si definiscono lessici di specialità tutti quei sottoinsiemi lessicali omogenei che contengono termini usati specificamente ed in modo semanticamente univoco all'interno dei vari domini della conoscenza. In tal senso, il dominio della conoscenza - o campo semantico - dell'economia avrà un suo lessico di specialità, e lo stesso varrà per la fisica, la biochimica, la geodesia, e via discorrendo. Questi sottoinsiemi lessicali, inoltre, vengono in genere catalogati e descritti all'interno di opere cartacee specifiche, dette anche dizionari di specialità. 3 Per una valutazione di questo tipo di parole semplici e della loro polisemia, cfr. Gross (1989).

44

una comunicazione tecnico-scientifica non disfunzionale. Il linguaggio terminologico, per

definizione, non può essere ambiguo, e trova quindi nelle parole composte polirematiche la forma

più adeguata ed adatta di formulazione linguistica.

Da ricordare inoltre che sempre grazie alla sintagmaticità dei composti, in ambito

terminologico è possibile non solo definire specificamente un concetto, ma anche istituire relazioni

logico-inclusive con altri concetti simili, fino a creare reti cognitive terminologiche in cui i diversi

nodi sono rappresentati da parole composte aventi specifici elementi in comune. È questo il caso di

una serie aperta di composti appartenenti al lessico specialistico della psicologia, formata da

cinquantanove entrate che hanno in comune, come elemento testa, il gruppo nominale paura

morbosa:paura morbosa degli spazi apertipaura morbosa dei bambinipaura morbosa dei canipaura morbosa dei coloripaura morbosa dei fioripaura morbosa dei gattipaura morbosa dei pescipaura morbosa dei precipizipaura morbosa dei pulcinipaura morbosa dei ragnipaura morbosa dei serpentipaura morbosa dei suonipaura morbosa dei vermipaura morbosa del buiopaura morbosa del calorepaura morbosa del colorepaura morbosa del denaropaura morbosa del disordinepaura morbosa del dolorepaura morbosa del freddopaura morbosa del fuocopaura morbosa del marepaura morbosa del matrimoniopaura morbosa del peccatopaura morbosa del piacerepaura morbosa del ridicolopaura morbosa del sessopaura morbosa del sonnopaura morbosa del tuonopaura morbosa del veleno

paura morbosa del ventopaura morbosa del vetropaura morbosa dell'amorepaura morbosa dell'errorepaura morbosa dell'idrofobiapaura morbosa dell'infinitopaura morbosa della crescitapaura morbosa della divinitàpaura morbosa della faticapaura morbosa della felicitàpaura morbosa della follapaura morbosa della gentepaura morbosa della gravitàpaura morbosa della lebbrapaura morbosa della lucepaura morbosa della nebbiapaura morbosa della nevepaura morbosa della pioggiapaura morbosa della polverepaura morbosa della profonditàpaura morbosa della responsabilitàpaura morbosa delle apipaura morbosa delle deformitàpaura morbosa delle fecipaura morbosa delle forestepaura morbosa delle infezionipaura morbosa delle malattiepaura morbosa delle scalepaura morbosa di tutto

Tuttavia, essendo un dizionario essenzialmente terminologico, nel DELAC-DELACF ad

ogni singola entrata vengono assegnate una o più etichette terminologiche, in base ai settori della

conoscenza in cui uno specifico composto è stato attestato. Allo stato i settori della conoscenza

inseriti nel DELAC-DELACF sono 173, come è evidenziato dalla tabella che segue:

45

ETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZAABB ABBIGLIAMENTOACC ACCESSORIACUS ACUSTICAAGR AGRICOLTURAALIM ALIMENTAZIONEANAT ANATOMIAANTROP ANTROPOLOGIAARALD ARALDICAARCH ARCHITETTURAARCH NAV ARCHITETTURA NAVALEARCHEOL ARCHEOLOGIAASTROFIS ASTROFISICAASTROL ASTROLOGIAASTRON ASTRONOMIAAUT AUTOMATISMIAUT IND AUTOMATISMI INDUSTRIALIAUT INT AUTOMATISMI INTELLIGENTIAUT UFF AUTMATISMI PER UFFICIOBASI DATI BASI DI DATIBIOCHIM BIOCHIMICABIOFIS BIOFISICABIOL BIOLOGIABIOL MOL BIOLOGIA MOLECOLAREBOT BOTANICACARTOGR CARTOGRAFIACHIM CHIMICACHIM ANAL CHIMICA ANALITICACHIM FIS CHIMICA FISICACHIM INORG CHIMICA INORGANICACHIM ORG CHIMICA ORGANICACITOL CITOLOGIACLIMATOL CLIMATOLOGIACOMUN COMUNICAZIONICOSM COSMOLOGIACOSTR AER COSTRUZIONI AERONAUTICHECOSTR NAV COSTRUZIONI NAVALICRIOGEN CRIOGENIACRISTAL CRISTALLOGRAFIACRONOM CRONOMETRIADANZA DANZADIGE DIZIONARIO GENERICODIR DIRITTODISP DISPOSITIVIDISP ELAB DISPOSITIVI ELABORAZIONE DATIECOL ECOLOGIAECON ECONOMIAEDIL EDILIZIAETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZA

46

EDIT EDITORIAELAB ELABORAZIONE DATIELAB DISTR ELABORAZIONE DATI DISTRIBUITAELETTR ELETTRICITA'ELETTROMAG ELETTROMAGNETICAELETTRON ELETTORNICAEMBRIOL EMBRIOLOGIAENOL ENOLOGIAEVOL EVOLUZIONISMOFANT FANTASTICOFARM FARMACOLOGIAFERR FERROVIAFIG FIGURATOFIS FISICAFIS ATOM FISICA ATOMICAFIS NUCL FISICA NUCLEAREFIS PLASMA FISICA DEL PLASMAFIS SOL FISICA DEI SOLIDIFIS SUBNUCL FISICA SUBNUCLEAREFISC FISCOFISIOL FISIOLOGIAGASTR GASTROLOGIAGEMMOL GEMMOLOGIAGEN GENERAZIONE DATIGENET GENETICAGEOCHIM GEOCHIMICAGEOD GEODINAMICAGEOFIS GEOFISICAGEOGR GEOGRAFIAGEOL GEOLOGIAGIOCO GIOCOGRAF GRAFICAIDROL IDROLOGIAINF INFORMATICAING INGEGNERIAING ACUS INGEGNERIA ACUSTICAING AER INGEGNERIA AERONAUTICA E AEROSPAZIALEING CHIM INGEGNERIA CHIMICAING CIV INGEGNERIA CIVILEING MECC INGEGNERIA MECCANICAING MIN INGEGNERIA MINERARIAING NAV INGEGNERIA NAVALEING NUCL INGEGNERIA NUCLEAREING PETROL INGENGERIA PETROLIFERAING SIS INGEGNERIA DEI SISTEMIINT ART INTELLIGENZA ARTIFICIALEINTERAZ INTERAZIONEISTOL ISTOLOGIAETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZA

47

LETTER LETTERATURALING LINGUISTICAMAR DIZIONARIO MARITTIMOMAT MATEMATICAMATER MATERIAMECC MECCANICAMECC FL MECCANICA DEI FLUIDIMECC QUANT MECCANICA QUANTISTICAMECC STAT MECCANICA STATICAMED MEDICINAMEMOR DISPOSITIVI DI MEMORIEMEST NOMI DI MESTIEREMETALL METALLURGIAMETEOR METEOROLOGIAMICOL MICOLOGIAMICROBIOL MICROBIOLOGIAMIL MILITAREMINERAL MINERALOGIAMUS MUSICANAVIG NAVIGAZIONINOTAZ NOTAZIONINUMER NUMERAZIONIOCEANOGR OCEANOGRAFIAORG ORGANIZZAZIONEORG AZ ORGANIZZAZIONE AZIENDALEORG DATI ORGANIZZAZIONE DATIORG IND ORGANIZZAZIONE INDUSTRIALEOTTICA OTTICAPALEOBOT PALEOBOTANICAPALEONT PALEONTOLOGIAPATOL PATOLOGIAPATOL VEG PATOLOGIA VEGETALEPELL PELLAMEPERIF PERIFERICHEPETROGR PETROGRAFIAPITT PITTURAPOL POLITICAPROG MECC PROGRAMMAZIONE MECCANICAPROGR PROGRAMMAZIONEPSIC PSICOLOGIA, PSICANALISI E PSICHIATRIAPT POSTE E TELECOMUNICAZIONIRAP ART RAPPRESENTAZIONI ARTISTICHERELAT RELATIVITA'RELIG RELIGIONIRETI RETISART SARTORIASCI TEC SCIENZA E TECNICASCOL SCUOLAETICHETTA TERMINOLOGICA SETTORE DELLA CONOSCENZA

48

SCULT SCULTURESICUR SICUREZZASILVIC SILVICOLTURASIS CONTR SISTEMI DI CONTROLLOSIST SISTEMISIST ELAB SISTEMI DI ELABORAZIONE DATISPETTR SPETTROGRAFIASPORT SPORTST STORIASTAT STATISTICASVIL SVILUPPOSVIL SIST SVILUPPO SISTEMITASSON TASSONOMIATEAT TEATROTECN TECNICHETECN ELAB TECNICHE DI ELABORAZIONE DATITECNOL TECNOLOGIATELECOM TELECOMUNICAZIONITEOR TEORIETERMOD TERMODINAMICATESS TERMINI TESSILITRATT TRATTAMENTOTRATT DATI TRATTAMENTO DATITRATT TESTI TRATTAMENTO TESTITUR TURISMOVETER VETERINARIAVIROL VIROLOGIAZOOL ZOOLOGIAZOOL INVERT ZOOLOGIA DEGLI INVERTEBRATIZOOL VERT ZOOLOGIA DEI VERTEBRATI

Tabella 2.

Come già accennato, le entrate di ogni settore della conoscenza trattato formano nel loro

insieme il lessico di specialità o terminologico di quello specifico settore. Allo stato attuale, i lessici

terminologici più ampi sono quello della medicina (etichetta MED, con circa 63.000 forme flesse),

dell'economia (etichetta ECON, con circa 58.000 forme flesse), dell'informatica (etichetta INF, con

circa 38.000 entrate flesse), del diritto (etichetta DIR, con 14.000 forme flesse), e dell'ingegneria

(etichetta ING, con circa 5.000 forme flesse).

49

3. Conclusioni

Quali sono le prospettive applicative ipotizzabili per un simile approccio analitico, e in subordine,

per un uso ampio di composti e polirematiche? Gli scenari possibili sono principalmente due:

1. l’inserimento di simili base di dati lessicali all’interno di sistemi di interrogazione

automatica, che possono essere utilizzati per scopi informativi diversi, come ad esempio

quelli previsti dall’e-government e dalla cittadinanza elettronica;

2. l’applicazione e l’uso dei concetti di “unità lessicale e semantica” delle polirematiche

all’interno dei vari settori di ricerca legati alla strutturazione del Web Semantico, in

particolare quelli che prevedono la creazione di ontologie non ambigue, quindi

univocamente legate al materiale lessicale che definiscono. In tal senso, e sempre

nell’ambito della costruzione di ontologie possibili, i campi semantici delle

polirematiche possono essere facilmente interpretati come delle macroetichette in cui

inserire ulteriori e più dettagliate specificazioni.

In breve i composti e le polirematiche, così come li abbiamo descritti in queste pagine, possono

rivelarsi uno strumento utilissimo per avvicinare varie tipologie di utenti all’uso degli automatismi

offerti oggi dalla linguistica computazionale, soprattutto di quegli automatismi che hanno una

ricaduta essenziale sulle attività informative e consultative più frequenti e rilevanti.

50

5. Bibliografia

Barabási, L. A. 2004: Link. La scienza delle reti, Einaudi, Torino.

Barcellona, N., Marini, A., Monti, P., Vercesi, M. 1988: 5000 termini dell’informatica, Gruppo Editoriale Jackson, Milano.

Beccaria, G. L. 1984: (a cura di) Dizionario di linguistica, Einaudi, Torino.

Berners-Lee, T., 1999: L'architettura del nuovo web, Feltrinelli, Milano.

Chomsky, N. A. 1965: Aspects of the Theory of Syntax, MIT Press, Cambridge, Mass (trad. fr. Aspécts de la

théorie syntaxique, Le Seuil, Paris, 1971).1995: The Minimalist Program, MIT Press, Cambridge, Mass.

D’Agostino, E., Elia, A.2006: “Il significato delle frasi: un continuum dalle frasi semplici alle forme polirematiche”,

appunti del corso di Informatica per le Applicazioni su Web, Università degli Studi di Salerno, Salerno (disponibile su: http://www.scienzecom.unisa.it/appunti%20elia%20specialistica.htm .

Dardano, M.1978: La formazione delle parole nell’italiano d’oggi, Bulzoni, Roma.

Darmsteter A. 1894, Traité de la formation des mots composés dans la langue française comparée aux autres langues romanes et au latin, Paris, Emile Bouillon.

De Bueriis G. 2003: Le parole come ordine del mondo, Editoriale Scientifica, Napoli.

De Mauro, T. (a cura di) 2000: Il dizionario della lingua italiana, Pariavia – Bruno Mondadori Editori, Torino –

Milano.

Elia, A. 1990: Chiaro e tondo. Lessico-grammatica degli avverbi composti in italiano, Segno

Associati, Salerno.

Elia, A., Martinelli, M., D’Agostino, E. 1981: Lessico e strutture sintattiche, Liguori, Napoli.

Elia, A., Monteleone, M., di Maio, F., 2007: “Parole composte e modalità di recupero automatico delle informazioni”, in AION –

Sezione Linguistica, vol. 29, ISSN: 1720-1721, Istituto Universitario L’Orientale, Napoli.

51

http://www.scienzecom.unisa.it/appunti%20elia%20specialistica.htm

Firenze, A.1987: Présentation des noms composés de l’italien, recherche d’un traitement formel,

Mémoires du D.E.A. d’Informatique Fondamentale, Université Paris 7, Paris.1992: L’invenzione della scrittura, Einaudi, Torino.

Grishman,.R. 1988: Linguistica computazionale, Tecniche Nuove, Milano.

Gross, M. 1968: Grammaire transformationnelle du français. 1- Syntaxe du verbe, Cantilène, Paris.1975: Méthodes en syntaxe, régime des constructions complétives, Hermann, Paris.1977: Grammaire transformationnelle du français. 2- Syntaxe du nom, Cantilène, Paris.1991: Grammaire transformationnelle du français. 3 - Syntaxe de l’adverbe, Maurice Gross

et Asstril, Paris.

Harris, Z. S. 1970: Papers in Structural and Transformational Linguistics, Dordrecht, Reidel.1988: Language and Information, Columbia University Press, New York (trad. it. a cura di

M. Martinelli, Linguaggio e informazione, Adelphi, Milano, 1995).

Malkiel, Y.

1959 : “Studies in Irreversible Binomials”, in Lingua, VIII, pp. 113-160

Monteleone, M.1989 : “Les expressions figées de l’italien: l’utilisation du verbe fare” in AA. VV.,

Mémoires du D.E.A d’informatique fondamentale 1989-1990, Ceril-Université Paris 7, Paris.

2002 : Lessicografia e dizionari elettronici. Dagli usi linguistici alle basi di dati lessicali, Fiorentino & New Technology, Napoli.

Morvan, P. 1989: Dizionario di informatica, Gremese-Larousse, Roma.

Silberztein, M. 1993: Dictionnaires électroniques et analyse automatique de textes. Le système INTEX,

Masson, Paris.2004: Intex, Université de Franche Comté, Besançon, disponibile su http://mshe.univ-

fcomte.fr/intex/downloads/Manuel.pdf. 2008: Nooj V2, Université de Franche Comté, Besançon, disponibile su

http://www.nooj4nlp.net/NooJ%20Manual.pdf.

Tollemache, F. S. J.1945: Le parole composte nella lingua italiana, Edizioni Rores di Nicola Ruffolo, Roma.

Vietri, S. 1985: Lessico e sintassi delle espressioni idiomatiche, Liguori, Napoli.2004: Lessico-grammatica dell’italiano, UTET, Torino.

52

http://www.nooj4nlp.net/NooJ%20Manual.pdf

http://mshe.univ-fcomte.fr/intex/downloads/Manuel.pdf

http://mshe.univ-fcomte.fr/intex/downloads/Manuel.pdf

linguisticacomputazionale.files.wordpress.com · Web view, che in ogni caso esula degli scopi di...

Documents

Transcript of linguisticacomputazionale.files.wordpress.com · Web view, che in ogni caso esula degli scopi di...