ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O ... · Etiquetaxe e desambiguación...
Transcript of ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O ... · Etiquetaxe e desambiguación...
-
UNIVERSIDADE DE SANTIAGO DE COMPOSTELA FACULTADE DE FILOLOXÍA
DEPARTAMENTO DE LINGUA ESPAÑOLA
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO:
O SISTEMA XIADA
Tese de doutoramento
EVA MARÍA DOMÍNGUEZ NOYA
2013
-
Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA
Tese de doutoramento presentada no Departamento de Lingua Española, da Facultade de Filoloxía, da Universidade de Santiago de Compostela, por Eva María Domínguez Noya e dirixida polos profesores Guillermo Rojo e Mª Sol López Martínez. V. e Pr. do Director V. e Pr. da Directora Guillermo Rojo Mª Sol López Martínez Eva María Domínguez Noya
-
Para Josefa e Sebastián
A meus pais
-
Agradecementos
Quero expresar o meu agradecemento a todas aquelas persoas que dun xeito ou
outro contribuíron a que este traballo chegase a porto, e moi especialmente a
Guillermo Rojo, por terme introducido no mundo da lingüística computacional,
pola súa acertada guía e, sobre todo, por estar sempre aí;
Marisol López, pola súa constante presenza e polo seu inestimable apoio e guía;
Mario Barcala, compañeiro laboral de alegrías e tribulacións, por ter sempre
unha solución para os múltiples requisitos que lle solicitaba para o sistema, mais tamén
porque sen o seu traballo a maior parte dos recursos aquí descritos non poderían
realizarse nin estar a disposición pública;
O Centro Ramón Piñeiro para a Investigación en Humanidades, por facilitarme o
acceso aos datos necesarios para poder realizar este traballo e por confiar en min para o
desenvolvemento lingüístico dos recursos aquí descritos;
Os numerosos bolseiros das salas de Lingüística e Termigal, por soportar
estoicamente nestes anos que durou a elaboración da tese as miñas diatribas, en
especial, Susana, Paula, Laura, Inés, Chus, Sandra, Irene...
Xesús Ferro e Manolo González, pola súa axuda e infinita paciencia comigo;
Paula Santalla, polas moitas horas de discusións enriquecedoras e estimulantes;
A miña familia, toda ela, pero principalmente meus pais, porque co seu esforzo
abríronme a porta ao mundo da lingua; miñas dúas nais, miña nai e miña madriña, pola
confianza e apoio que sempre me demostraron, por esixirme máis e, como non, por
facer que viva coma unha raíña; meus irmáns –Rosa, Manu, Antonia, Julián–, pais en
segunda instancia, sempre pendentes e dispostos para o que faga falta; Manuela,
surtidora de lectura desde a infancia e niñeira consentidora;
A todos, citados polo nome ou implicitamente, grazas.
-
ÍNDICE
9
Índice:
Introdución.................................................................................................15
Capítulo 1. Determinación dun etiquetario ............................................23 1.1 Introdución............................................................................................................23
1.2. A proposta de EAGLES ......................................................................................24
1.2.1. Clases de palabras.........................................................................................26 1.2.2. Lexicóns e corpus: etiquetarios distintos? ....................................................27 1.2.3. Atributos .......................................................................................................29
1.2.3.1. Nome ..................................................................................................... 29 1.2.3.2. Verbo ..................................................................................................... 30 1.2.3.3. Adxectivo .............................................................................................. 31 1.2.3.4. Pronome e Determinante ....................................................................... 33 1.2.3.5. Artigo..................................................................................................... 36 1.2.3.6. Adverbio ................................................................................................ 36 1.2.3.7. Adposición............................................................................................. 37 1.2.3.8. Conxunción............................................................................................ 38 1.2.3.9. Numeral ................................................................................................. 38 1.2.3.10. Única.................................................................................................... 39 1.2.3.11. Residual ............................................................................................... 40
1.3. O etiquetario de XIADA......................................................................................41
1.3.1. Clases de palabras.........................................................................................41 1.3.2. Atributos .......................................................................................................47
1.3.2.1. Substantivo (S) ...................................................................................... 47 1.3.2.2. Verbo (V)............................................................................................... 49 1.3.2.3. Adxectivo (A) ........................................................................................ 55 1.3.2.4. Artigo (D) .............................................................................................. 58 1.3.2.5. Demostrativo (E) ................................................................................... 59 1.3.2.6. Posesivo (M).......................................................................................... 60 1.3.2.7. Numeral (N)........................................................................................... 62 1.3.2.8. Interrogativo-exclamativo (G)............................................................... 68 1.3.2.9. Relativo (T)............................................................................................ 70 1.3.2.10. Indefinido (I) ....................................................................................... 71 1.3.2.11. Pronome (R) ........................................................................................ 75 1.3.2.12. Adverbio (W)....................................................................................... 88 1.3.2.13. Conxunción (C) ................................................................................... 91 1.3.2.14. Locución (L) ........................................................................................ 93 1.3.2.15. Preposición (P) .................................................................................... 95 1.3.2.16. Interxección (Y)................................................................................... 99 1.3.2.17. Sinais de puntuación (Q) ................................................................... 100
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
10
1.3.2.18. Categoría periférica (Z) ..................................................................... 101
1.4. Datos..................................................................................................................106
1.5. Outros etiquetarios para o galego ......................................................................108
1.6. Conclusións .......................................................................................................133
Capítulo 2. Elaboración da gramática formal do galego actual e a súa implementación nun lexicón...................................................................137
2.1. Introdución.........................................................................................................137
2.2. O lexicón de XIADA.........................................................................................139
2.2.1. Estrutura xeral ............................................................................................139 2.2.2. Implementación do vocabulario no lexicón................................................144
2.2.2.1. Categorías invariables.......................................................................... 145 2.2.2.2. Categorías variables: modelos formais................................................ 148
2.2.2.2.1. A flexión de xénero e número ......................................................148 2.2.2.2.2. A flexión de número ....................................................................170 2.2.2.2.3. O verbo. Grupos formais ..............................................................175 2.2.2.2.4. O verbo: a conxugación regular con enclíticos. Grupos formais .186 2.2.2.2.5. Verbos irregulares: modelos e raíces............................................193
2.2.3. Cambios na normativa oficial do 2003: repercusións no lexicón...............206
2.3. Elementos problemáticos para un sistema computacional: as unidades multipalabra e as contraccións..........................................................................212
2.3.1. Introdución .................................................................................................212 2.3.2. Unidades multipalabra e contraccións na proposta de EAGLES ...............215 2.3.3. Unidades multipalabra e contraccións noutros etiquetarios do galego.......220 2.3.4. Unidades multipalabra e contraccións en XIADA .....................................226
2.3.4.1. Unidades multipalabra......................................................................... 226 2.3.4.2. Contraccións ........................................................................................ 228
2.4. Un caso especial de unidades gramaticais complexas: formas verbais con enclíticos...........................................................................................................247
2.4.1. EAGLES e sistemas do SLI-TECTRA e SLI-CTAG.................................247 2.4.2. Tratamento no sistema de XIADA .............................................................250
2.4.2.1. Xeneralidades ...................................................................................... 250 2.4.2.2. Lexicóns verbais: sublexicón principal e sublexicón clíticos ............. 254 2.4.2.3. Secuencias de enclíticos válidas .......................................................... 257 2.4.2.4. Secuencias clíticas monosilábicas ....................................................... 259 2.4.2.5. Regras lingüísticas............................................................................... 263
2.4.2.5.1. Regras de clíticos..........................................................................264 2.4.2.5.2. Regras de verbos con enclíticos....................................................268
2.5. Os numerais multipalabra..................................................................................273
2.6. Datos xerais .......................................................................................................275
2.7. Datos verbais .....................................................................................................278
-
ÍNDICE
11
2.8. Conclusións .......................................................................................................284
Capítulo 3. A etiquetaxe automática .....................................................287 3.1. Introdución.........................................................................................................287
3.2. O Etiquetador.....................................................................................................289
3.2.1. Características.............................................................................................289 3.2.2. Rendemento e precisión .............................................................................291
3.2.2.1.Tamaño do etiquetario .......................................................................... 292 3.2.2.2. O corpus de adestramento ................................................................... 294
3.2.2.2.1. O núcleo de Xiada ........................................................................295 3.2.2.2.2. O subcorpus xornalístico de ámbito temático específico .............300 3.2.2.2.3. O subcorpus xornalístico xeral .....................................................310
3.2.2.3. O tratamento das palabras descoñecidas ............................................. 313 3.2.2.4. O corpus de aplicación vs. o corpus de adestramento e o lexicón....... 314
3.3. A ambigüidade en galego: as anfiboloxías formais no corpus de adestramento.....................................................................................................315
3.3.1. Tipos de ambigüidade.................................................................................318 3.3.1.1. Homonimia intercategorial ou ambigüidade entre categorías. ............ 318 3.3.1.2. Homonimia intracategorial ou ambigüidade nos atributos.................. 319 3.3.1.3. Homonimia categorial e atributiva plena............................................. 322 3.3.1.4. Homonimia segmental ou ambigüidade na identificación do token.... 327
3.3.2. Datos sobre a ambigüidade no corpus de adestramento .............................332
3.4. A ferramenta de desambiguación manual .........................................................334
3.5. Conclusións .......................................................................................................354
Capítulo 4. A etiquetaxe manual............................................................357 4.1. Introdución.........................................................................................................357
4.2. O contexto na desambiguación manual .............................................................358
4.3. Características dos textos: erratas, variacións, dialectalismos, hipergaleguismos, castelanismos, etc. ..............................................................360
4.3.1. O tratamento das erratas na etiquetaxe manual ..........................................362 4.3.2. O tratamento das desviacións da norma .....................................................369
4.3.2.1. Vacilacións ~ variacións no vocalismo ............................................... 372 4.3.2.2. Vacilacións ~ variacións no consonantismo........................................ 380
4.3.2.2.1. Flutuacións B / V..........................................................................380 4.3.2.2.2. Adverbios en -mentes ...................................................................382 4.3.2.2.3. Simplificación de grupos consonánticos cultos............................384 4.3.2.2.4. Flutuacións X / S ..........................................................................386
4.3.2.3. Vacilacións ~ variacións na acentuación............................................. 388 4.3.2.3.1. Acento diacrítico...........................................................................388 4.3.2.3.2. Adverbios en -mente.....................................................................392 4.3.2.3.3. Acentuación nas voces graves rematadas en ditongo crecente.....394
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
12
4.3.2.3.4. Acentuación nas voces agudas rematadas en ditongo decrecente 396 4.3.2.3.5. Acentuación nos hiatos.................................................................399 4.3.2.3.6. Acentuación esdrúxula na P4 e P5 do copretérito, pospretérito e
antepretérito de indicativo e mais o pretérito de subxuntivo ........403 4.3.2.4. Vacilacións ~ variacións na adscrición xenérica ou numérica ............ 405 4.3.2.5. Vacilacións ~ variacións no caso acusativo e dativo........................... 410 4.3.2.6. Vacilacións ~ variacións na adscrición categorial............................... 420
4.4. Peculiaridades na etiquetaxe e lematización manuais de... ...............................422
4.4.1. O pronome persoal tónico...........................................................................422 4.4.2. Un, unha, uns, unhas ..................................................................................442 4.4.3. Como...........................................................................................................445 4.4.4. Que .............................................................................................................466 4.4.5. Categoría Verbo..........................................................................................487
4.4.5.1. Participio vs. adxectivo ....................................................................... 487 4.4.5.2. Infinitivo vs. substantivo ..................................................................... 493 4.4.5.3. Infinitivo vs. infinitivo conxugado ...................................................... 497 4.4.5.4. Verbos poñer e pór e derivados........................................................... 498
4.4.6. Claro, claro que...: interxección? ...............................................................499 4.4.7. Agrupacións con outro: ambigüidade no valor ..........................................500 4.4.8. Propio: indefinido ou adxectivo? ...............................................................506 4.4.9. Combinacións tipo boca arriba ..................................................................509 4.4.10. Combinacións tipo anos despois ..............................................................512 4.4.11. Enderezos web, números de teléfono, identificadores, etc.......................513 4.4.12. Acurtamentos............................................................................................515 4.4.13. Soletreos e suspensións ............................................................................518 4.4.14. Locucións .................................................................................................521
4.4.14.1. Nivel oracional vs. nivel supraoracional ........................................... 521 4.4.14.2. Locucións conxuntivas ...................................................................... 524
4.4.14.2.1. Preposición/locución prepositiva + que, locución conxuntiva? Ata que, a pesar de que, para que, ó que......................................524
4.4.14.2.2. Adverbio + de = locución prepositiva? + que, locución conxuntiva? Antes de (que), despois de (que), logo de (que) .......528
4.4.14.2.3. Antes que/ca, despois que/ca, logo que ......................................530 4.4.14.2.4. Sempre que .................................................................................532 4.4.14.2.5. Agora que, agora ben, ora que, ora ben ....................................535 4.4.14.2.6. Cada vez que, unha vez que........................................................560 4.4.14.2.7. Nin que, aínda que, mesmo que, por moito que, por máis que,
por+adx+que.................................................................................572 4.4.14.3. Locucións adverbiais ......................................................................... 588
4.4.14.3.1. Pode que, poida que, pode ser que, poida ser que .....................588 4.4.14.3.2. Non obstante, sen embargo, con todo, así e todo, así a todo, en
troques ..........................................................................................590 4.4.14.3.3. Aínda así .....................................................................................593 4.4.14.3.4. Nada máis ...................................................................................599
4.4.14.4. Locucións prepositivas ...................................................................... 602 4.4.14.4.1. Dentro de ....................................................................................602 4.4.14.4.2. Arredor de, ó redor de ................................................................609
-
ÍNDICE
13
4.4.14.4.3. Ademais de ~amais de, aparte de ~ á parte de ..........................610 4.4.14.4.4. Debido a .....................................................................................613 4.4.14.4.5. Fóra de .......................................................................................615
4.4.15. Excepto, menos, quitado, quitando, sacado, sacando, salvo, senón: problemas de categorización e tratamento en XIADA.............................616
4.4.15.1. Clasificación nos principais manuais actuais do galego.................... 616 4.4.15.2. Breve revisión sobre os problemas para a delimitación categorial ... 618 4.4.15.3. O seu tratamento en XIADA ............................................................. 620
4.4.15.3.1. Excepto, menos, salvo.................................................................620 4.4.15.3.2. Senón, senón que ........................................................................623 4.4.15.3.3. Quitado/quitando, sacado/sacando ............................................632
4.5. Conclusións .......................................................................................................639
Conclusións ..............................................................................................641
APÉNDICES............................................................................................647 Apéndice A. Etiquetario de XIADA.........................................................................649
Apéndice B. Listaxe de etiquetas empregadas no CORGAetq ................................651
Apéndice C. Listaxe de etiquetas recollidas no kernel pero non documentadas na versión 2.1 do CORGAetq...........................................................................671
Apéndice D. Listaxe de etiquetas usadas só no lexicón de Xiada............................677
Apéndice E. Secuencias válidas de pronomes enclíticos en XIADA.......................681
Apéndice F. Ocorrencias dos verbos informar e instar na súa construción con complemento de réxime no CORGA ...............................................................684
1) INFORMAR (A) ALGUÉN DE / SOBRE ALGO ..........................................685 a) no corpus de adestramento xornalístico ....................................................... 685 b) no corpus de adestramento de ficción .......................................................... 686 c) nas revistas do CORGA................................................................................ 686 d) nos xornais do CORGA ............................................................................... 687 e) na ficción do CORGA .................................................................................. 693
2) INSTAR (A) ALGUÉN A / PARA ALGO......................................................703 a) no corpus de adestramento xornalístico ....................................................... 703 b) no corpus de adestramento de ficción .......................................................... 704 c) nas revistas do CORGA................................................................................ 704 d) nos xornais do CORGA ............................................................................... 705 e) na ficción do CORGA .................................................................................. 710
Referencias dos exemplos de prensa......................................................713
Bibliografía...............................................................................................715
Referencias web .......................................................................................727
-
INTRODUCIÓN
15
Introdución
A construción de recursos lingüísticos, entre os que se encontran os corpus ou
bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu
coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural.
Nos últimos anos, as novas tecnoloxías xorden como un parámetro máis de
clasificación das linguas en función da súa presenza ou ausencia nelas e o galego non é
alleo a esta corrente. Así, o Plan xeral de normalización da lingua galega1 establece no
último dos seus cinco obxectivos
Dotar o galego dos recursos lingüísticos e técnicos necesarios que o capaciten para vehicular
a lingua moderna. [Xunta de Galicia, 2005: 39]
Ademais, as novas tecnoloxías destacan no PXNLG en forma de sector
transversal sobre o que se estenden os obxectivos xerais:
Fomentar a presenza da lingua galega nas novas tecnoloxías.
Lograr unha oferta ampla e competitiva de produtos e recursos informáticos en galego.
Potenciar a presenza da lingua galega en internet.
Potenciar a investigación da tradución automática, o recoñecemento e a síntese de voz, e
outras novas técnicas que faciliten a opción positiva no mercado da información e da
comunicación, e que aseguren a libre circulación do galego nos sistemas avanzados da vida
moderna. [Xunta de Galicia, 2005: 51]
Non obstante, o PXNLG non fai máis ca reflectir unhas necesidades das que xa
eran conscientes os sectores implicados na defensa da lingua e sobre as que distintos
grupos de investigación das tres universidades galegas, así como centros dependentes da
Xunta de Galicia, levan anos traballando2. Tanto é así, que a Secretaría Xeral de Política
Lingüística, órgano superior da Administración autonómica en materia de promoción e
ensino da lingua galega, a quen lle corresponde, entre outras, a función de programar e
1 Xunta de Galicia (2005): Plan xeral de normalización da lingua galega (Santiago de Compostela). 2 Os máis destacados, polo menos en resultados, localízanse no Instituto da Lingua Galega, no Seminario de Lingüística Computacional da Universidade de Vigo, no grupo COLE das Universidades da Coruña e Vigo e no Centro Ramón Piñeiro para a Investigación en Humanidades.
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
16
desenvolver medidas para o fomento do uso do idioma galego nos diferentes eidos
sociais e económicos co fin de incrementar a dispoñibilidade de produtos e servizos en
galego, sufraga e promove, a través do Centro Ramón Piñeiro para a Investigación en
Humanidades –centro que inclúe entre os seus obxectivos fundacionais o deseño e
desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega
ao mundo das novas tecnoloxías da información–, dous proxectos de investigación
centrados en lingüística computacional aplicada ao galego. Son os denominados,
respectivamente, Corpus de Referencia do Galego Actual (CORGA)3 e
Etiquetador/Lematizador do Galego Actual (XIADA)4.
O primeiro deles persegue poñer accesible a través de internet un corpus
documental representativo da lingua galega actual escrita que posibilite a obtención de
datos para o estudo de aspectos morfolóxicos, sintácticos e léxicos da historia recente da
nosa lingua.
Neste sentido, a forma máis rápida de dispoñer dunha grande cantidade de texto
en formato electrónico á que se lle poidan aplicar técnicas de recuperación de
información é con texto plano, sen ningún tipo de etiquetaxe; é dicir, sen que ás formas
ortográficas contidas no corpus se lles asigne etiqueta ningunha. Constitúen mostras
deste tipo o Corpus de Referencia do Galego Actual (CORGA), o Corpus de Referencia
del Español Actual (CREA)5, o Corpus de Referência do Português Contemporáneo
(CRPC)6 ou o Corpus Técnico do Galego (CTG)7, por citar só algúns. Este tipo de
corpus, representativos da lingua común os tres primeiros e de carácter técnico o último,
malia que sen etiquetaxe de ningún tipo, permiten xa entre outras posibilidades:
• documentar a vitalidade dunha palabra;
• coñecer cal é a forma máis frecuente nunha serie de sinónimos;
• achegarse ao significado dunha palabra grazas ao contexto;
• comprobar a presenza na lingua escrita de formas desaconselladas pola norma;
• comprobar a presenza de neoloxismos;
3 http://corpus.cirp.es/corga 4 http://corpus.cirp.es/xiada 5 http://corpus.rae.es/creanet.html 6 http://alfclul.clul.ul.pt/CQPweb/crpc/index.php 7 http://sli.uvigo.es/CTG/
-
INTRODUCIÓN
17
• estudar o grao de asentamento da normativa oficial;
• achegarse á vitalidade e funcionamento de sufixos e prefixos;
• estudar o influxo (interferencias, préstamos...) doutras linguas.
Agora ben, todos eles presentan limitacións por canto non é posible abstraerse á
rica morfoloxía que caracteriza as tres linguas peninsulares exemplificadas. É verdade
que algunhas desas limitacións poden emendarse cun bo sistema de consultas no que
sexa posible empregar comodíns –substitúen un ou máis caracteres– e mais operadores
booleanos e de posición (and, not, or, near...) –permiten xogar con máis dunha forma
gráfica na mesma consulta, favorecendo que afinemos máis a busca e, polo tanto, con
menos ruído nos resultados–. Non obstante, en moitos casos, sobre todo ante grandes
irregularidades léxicas, precisamos recorrer aos lemas e incluso á súa combinación
cunha ou máis etiquetas morfosintácticas. É o caso, por exemplo, das consultas que
abranguen algunha forma gráfica fortemente irregular ou combinacións categoriais fixas
nas que varía un dos lemas, como pode ser o uso da perífrase ir + infinitivo, ou daquelas
outras nas que por ambigüidade necesitamos poder contar con etiquetas que delimiten
morfolóxica e categorialmente as distintas ocorrencias dunha forma gráfica, coma a
preposición fronte a a artigo.
Conscientes das limitacións que impoñen as consultas por forma ortográfica,
dende o Centro Ramón Piñeiro para a Investigación en Humanidades traballamos
paralelamente na construción dun etiquetador e lematizador co fin de que se poidan
facer consultas moito máis avanzadas e dar un salto cualitativo nas posibilidades de
busca. É o fin último do segundo dos proxectos centrados en lingüística computacional
que citamos anteriormente: a construción do Etiquetador/Lematizador do Galego Actual
(XIADA), que pretende o desenvolvemento de ferramentas que permitan o
recoñecemento e a análise automática do galego escrito actual. En especial, o
desenvolvemento dun etiquetador e lematizador de alta precisión que permita etiquetar e
lematizar automaticamente os documentos contidos no CORGA, de xeito que no
sistema de consultas se poida empregar información referida non só a formas
ortográficas senón tamén a lemas, formas gramaticais e/ou etiquetas morfosintácticas.
O punto de encontro natural de ambos os dous proxectos é a etiquetaxe
automática de todos os documentos do CORGA, almacenados nun corpus análogo, só
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
18
que etiquetado, o Corpus de Referencia do Galego Actual etiquetado automaticamente
(CORGAetqa), que gradualmente irá acollendo os documentos do CORGA para cuxo
estilo se teña completado o adestramento do etiquetador. Naturalmente, este corpus será
accesible mediante a consulta en liña a través dunha aplicación de recuperación e
extracción de información que, cunha interface amigable, toma a consulta dun usuario
sobre a grande base de datos textuais que, á fin e ao cabo, é calquera corpus, escolle
entre todos os datos aqueles que responden ás condicións da busca realizada, e extrae os
resultados trasladándoos a un formato predefinido para que a información resultante
poida ser tratada con comodidade polo usuario8.
Eu, primeiramente como bolseira –dende 1995 ata 1999– e máis tarde en
calidade de persoal contratado –dende o 2000 ata a actualidade–, formo parte de ambos
os proxectos dende o seu inicio. Salvo a definición do etiquetario que, malia ser
modificado lixeiramente en anos posteriores, foi obra de todo o equipo lingüístico que
por volta do ano 1998 traballaba no proxecto9, a construción e mantemento da base de
datos léxica e mais do corpus de adestramento que emprega o etiquetador XIADA, así
como a elaboración de calquera outro recurso de tipo lingüístico que empregue o
Etiquetador ou mellore a súa precisión, quero crer que con máis acertos ca erros, son
responsabilidade miña.
Moitos son, xa que logo, os anos que levo traballando en lingüística de corpus,
na recuperación e extracción de información e no recoñecemento e análise automática
do galego. Froito desa experiencia nace o desexo de compendiar nun traballo global os
distintos aspectos e recursos que, dende o punto de vista lingüístico, se precisan para
construír un etiquetador e lematizador estatístico específico para o galego. É
determinante tamén na decisión de describir o sistema XIADA o feito de que o galego
sexa orfo neste ámbito, dado que na bibliografía da lingüística galega non existen máis
ca un par de traballos moi breves que describen o etiquetario empregado nos corpus de
galego que posúen algún tipo de anotación10.
Así mesmo, outros dous factores influíron de xeito determinante na consecución
deste traballo. Por unha banda, o desexo de axudar a que o galego, lingua na que me 8 Proximamente estará dispoñible no enderezo http://corpus.cirp.es/corgaetqa 9 Mª Teresa Araújo García, Mª Ines Diz Gamallo, Eva Mª Domínguez Noya, Susana Mª García Rodríguez, Mª Teresa Monteagudo Cabaleiro, Mª Pilar Vázquez Grandes e Francisco García Gondar. 10 Véxase o Capítulo 1.
-
INTRODUCIÓN
19
criei e na que vivo, figure entre as linguas que gozan de bos recursos computacionais;
por outra, pensando no usuario que consulta o noso corpus etiquetado, dar a coñecer
polo miúdo os múltiples problemas que crea traballar con lingua real e explicar as
solucións que se adoptaron e mais os criterios que subxacen na etiquetaxe practicada.
Neste traballo descríbense os recursos lingüísticos que emprega o
Etiquedor/Lematizador do Galego Actual, XIADA e desmiúzase a etiquetación
realizada sobre o corpus de adestramento ou Corpus de Referencia do Galego Actual
etiquetado (CORGAetq)11.
Así, o Capítulo 1 dá conta da determinación do etiquetario que se utiliza no
sistema XIADA. Partindo das recomendacións do grupo EAGLES, explícase o
establecemento de cada categoría gramatical e dos diferentes atributos que se
consideran pertinentes para cada unha delas. Achéganse exemplos prácticos de
etiquetaxe para as distintas clases gramaticais establecidas e, así mesmo, sempre en
relación cos atributos, explícanse xa as peculiaridades que afectan á caracterización
morfolóxica dalgúns ou de todos os elementos que se inclúen nunha categoría dada.
Finalmente, realízase un estudo comparativo-contrastivo entre tres etiquetarios de
galego: o empregado no Corpus literario TECTRA inglés-galego12, orientado cara á
tradución; o usado no Corpus Técnico Anotado do Galego (CTAG)13 de orientación
terminolóxica especializada e, finalmente, o de XIADA, empregado no Corpus de
Referencia do Galego Actual etiquetado (CORGAetq), de marcada orientación cara á
etiquetaxe de corpus e cara á recuperación de información para un amplo abano de
usuarios potenciais.
No Capítulo 2 descríbese a formalización e implementación do dicionario léxico
que lle serve ao etiquetador de recurso principal para identificar as formas ortográficas
presentes nun texto e caracterizalas morfosintacticamente. Por unha banda, ao traballar
cunha lingua con morfoloxía moi rica como é o galego, non é factible introducir nunha
base de datos todas as formas flexionadas que se subsumen baixo un paradigma. Aquí
explícase o método empregado para, sen reducir a variación flexiva, introducir no
lexicón as 100.000 formas máis frecuentes do CORGA e as cerca de 50.000 entradas
11 http://corpus.cirp.es/corgaetq 12 http://sli.uvigo.es/CLUVI/#tectraig 13 http://sli.uvigo.es/CTAG/index.html
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
20
que posúe o Vocabulario Ortográfico da Lingua Galega (VOLGa) (González e
Santamarina, 2004). Por outra banda, explícase tamén o novidoso tratamento aplicado
sobre a grande cantidade de contraccións e as inxentes combinacións de forma verbal
con segundas formas de artigo e/ou pronomes enclíticos que posúe o galego e que
permite o recoñecemento e caracterización diferenciados de tantos constituíntes como
conforman a unidade amalgamada. Por último, descríbese o sistema de regras
lingüísticas que serven para axudarlle ao etiquetador tanto na segmentación e
etiquetación de pronomes enclíticos como na segmentación e etiquetación das formas
verbais cando van acompañadas de enclíticos.
No Capítulo 3 descríbese o etiquetador de XIADA e xustifícase a escolla do modelo
estatístico. Logo, dáse conta, así mesmo, dos requisitos que esixe o tipo estatístico,
ocupando un lugar destacado entre eles a construción e caracterización do corpus de
adestramento ou gold standard que lle serve ao etiquetador de modelo para inferir a
gramática da lingua coa que traballa. Finalmente, descríbese a actuación do etiquetador ante
as palabras descoñecidas e inclúese unha breve tipoloxía das ambigüidades que
potencialmente minguan a súa capacidade de acerto, mais ás que se ten que enfrontar.
O Capítulo 4 constitúe o groso deste traballo. Nel demóstranse as dificultades de
traballar con lingua real, dificultades que se incrementan máis aínda por traballar cunha
lingua coma o galego, cuxo proceso de normalización bate co castelán, lingua irmá, para
o que aquí tratamos, en numerosas interferencias de tipo léxico e morfosintáctico.
Nestas, céntrase a primeira parte do capítulo, onde se analizan as peculiaridades
lingüísticas que caracterizan os textos sobre os que se executa o etiquetador e se expón
o tratamento que reciben as erratas, as variacións gráficas, os castelanismos,
hiperenxebrismos, etc. A segunda parte do capítulo constitúe, en termos xerais, unha
descrición gramatical parcial do galego, pois nela refírense os criterios que guían a
etiquetaxe realizada no CORGAetq. Ante a imposibilidade de dar conta neste traballo
de absolutamente todos os detalles, preferiuse optar por tratar aqueles aspectos referidos
á etiquetaxe e lematización de:
• elementos que en xeral non se inclúen nos manuais de consulta: enderezos,
acurtamentos, identificadores, etc.;
• unidades nas que a ambigüidade é moi alta: que, como;
-
INTRODUCIÓN
21
• elementos pertencentes a categorías moi próximas: adxectivo fronte a participio
ou substantivo fronte a infinitivo;
• formas comúns a dous lemas distintos: pór vs. poñer e derivados;
• combinacións que reciben unha caracterización ad hoc para facilitar a
recuperación de información: tipo boca arriba ou tipo anos despois.
Ocupa gran parte deste último capítulo a delimitación e caracterización dos
distintos tipos de locucións recoñecidos no sistema: as conxuntivas, as preposicionais e
as adverbiais, para as que se asentan os criterios xerais empregados no seu
recoñecemento. En cada un dos tres apartados recóllese, ademais, a análise aplicada a
aquelas que, tendo unha frecuencia de uso importante, consideramos merecentes dunha
explicación, ben porque serven de exemplo para o establecemento da súa subclase, ben
porque reciben unha análise que en principio non esperan os usuarios.
Finalmente, a análise que se realiza ao final do capítulo das partículas exceptivas
salvo, incluso, menos e senón exemplifica como a lingüística de corpus pode inverter a
metodoloxía utilizada ata hai pouco nas descricións lingüísticas, proporcionando unha
casuística real e completa que axude a profundar no coñecemento da lingua para,
partindo dos exemplos, chegar á teoría.
Así pois, e a modo de resumo, este traballo dá conta da determinación do
conxunto de etiquetas que se empregan no sistema XIADA para anotar
morfoloxicamente un documento escrito en galego (Capítulo 1); describe a estrutura
interna do lexicón onde se almacena, basicamente, a información de etiqueta e lema que
lle corresponde a cada unidade léxica (Capítulo 2) e recolle a construción dun corpus de
adestramento como requisito imprescindible para a aplicación dun etiquetador
estatístico-probabilístico (Capítulo 3) e mais os criterios de lematización e etiquetaxe
que, a grandes trazos, caracterizan a gramática que subxace nos documentos etiquetados
e que vai ser inferida polo etiquetador de XIADA (Capítulo 4).
Cada capítulo inclúe como última epígrafe as conclusións máis destacadas que
se derivan da reflexión sobre a súa lectura ou elaboración, mentres que na conclusión
final realízase unha valoración sobre o conxunto do traballo, destacando os logros
obtidos e enumerando as parcelas que requiren máis atención para incrementar a taxa de
acerto da etiquetaxe final.
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
23
Capítulo 1 Determinación dun etiquetario
Antes de proceder a anotar morfoloxicamente un documento hai diversos
aspectos que considerar. En primeiro lugar débese determinar o conxunto de etiquetas
que se van aplicar. En segundo lugar, é preciso deseñar e construír o lexicón onde se
almacenará, como mínimo, a información de etiqueta e lema para cada unidade léxica e,
en terceiro lugar, débense especificar os criterios que determinarán que etiqueta se lle
debe aplicar a cada elemento gramatical.
Neste capítulo imos tratar a determinación do conxunto de etiquetas para o
galego destinadas a codificar o lexicón e a etiquetar, posteriormente, corpus.
1.1 Introdución A relación de etiquetas empregadas para anotar morfoloxicamente un texto
denomínase etiquetario ou tag-set. En relación coa profundidade de análise que se
pretenda alcanzar, este conterá un número maior ou menor de etiquetas. É primordial,
polo tanto, antes de determinar o sistema de etiquetación, decidir que obxectivo se
persegue coa anotación e, en consecuencia, a que nivel de análise se quere chegar. Debe
terse en conta tamén o modo en que se vai realizar a anotación, pois se esta vai ser
semiautomática ou automática hai que ver de conxugar os intereses lingüísticos cos
límites que impón un etiquetador automático.
O noso obxectivo é analizar morfoloxicamente e dun xeito automático calquera
texto do galego actual coa finalidade de lles proporcionar aos usuarios do Corpus de
Referencia do Galego Actual (CORGA)14 a posibilidade de acceder a material
lingüístico real, de forma rápida e eficiente, realizando consultas, entre outras moitas
opcións de busca, por etiqueta e lema. Por este motivo, na construción do tag-set
decidimos primar a descrición morfolóxica e prescindir, case, da sintáctica.
14 Véxase http://corpus.cirp.es/corga
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
24
O etiquetario para o galego foi desenvolvido no marco do proxecto Construción,
etiquetación e lematización do Corpus de Referencia do Galego Actual15 como unha
ferramenta para a análise computacional e a anotación automática dos textos do
CORGA.
Para a elaboración desta etiquetaxe seguimos as directrices de EAGLES (Expert
Advisory Group on Language Engineering Standars)16 e os textos básicos da lingüística
galega existentes na última década do século XX. A Gramática Galega (Álvarez,
Regueira e Monteagudo, 1986) serviunos de soporte teórico principal, mais tamén nos
apoiamos na Nova Gramática para a aprendizaxe da língua (Costa Casas et al., 1988).
A escaseza de traballos gramaticais xerais para o galego foi suplida con estudos,
sobre todo, do castelán e, en menor medida, do portugués: a Gramática de la lengua
española (Alarcos, 1994), o Esbozo de una nueva gramática de la lengua española
(RAE, 1973), o estudo Las categorías gramaticales. Relaciones y diferencias (Bosque,
1991) ou a Nova Gramática do Português Contemporâneo (Cunha e Cintra, 1984)
axudaron na delimitación do etiquetario e na clasificación posterior do léxico
constitutivo.
Tivemos tamén en consideración o camiño xa percorrido na etiquetación de
corpus por linguas coma o castelán (Sánchez, 1997), catalán (Morel et al., 1998) ou
portugués (Reis e Dias, 1998).
1.2. A proposta de EAGLES O grupo EAGLES encargouse de avaliar recursos lingüísticos existentes para
diferentes linguas europeas17 co fin de acadar unha estandarización na codificación do
léxico e a etiquetación de corpus. Neste sentido, EAGLES non propón un etiquetario
concreto senón que máis ben apunta as directrices que se han de ter en conta á hora de
elaborar un. Destacan nas súas recomendacións os principios de flexibilidade,
harmonización e exportabilidade.
15 Véxase http://corpus.cirp.es/xiada 16 Leech e Wilson, 1994 e 1996 e Monachini e Calzolari, 1996. 17 Compararon os sistemas de codificación dos lexicóns de MULTILEX e GENELEX, a aplicación AlethDic de GENELEX, as especificacións do proxecto NERC relativas a corpus e mais as propostas de Leech e Wilson.
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
25
A proposta de EAGLES presenta unha estrutura xerárquica na que se distribúe a
información lingüística en tres niveis. Isto permítelle ao usuario escoller o nivel de
análise e proporciónalle flexibilidade á proposta. Na súa descrición, EAGLES asocia
cada nivel cun grao de profundación de análise ou obrigatoriedade. Distingue deste
xeito entre nivel obrigatorio (L0), nivel recomendable (L1) e nivel opcional (L2).
O primeiro nivel de análise, o denominado L0, é considerado imprescindible e
nel as unidades léxicas deben ser clasificadas nas principais clases de palabras ou
categorías morfolóxicas:
Only one attribute is considered obligatory: that of the major word categories, or parts of
speech. [Leech e Wilson, 1996]
No segundo nivel do estándar de EAGLES (L1) recoméndase a aplicación de
atributos gramaticais que permitan o recoñecemento morfolóxico pleno de calquera
unidade léxica:
Level 1 (EAG-L1) presents the grammatical features, i.e. the agreement features such as
Gender, Number, Person, etc., which are usually encoded in lexicons and corpora: these are
considered as recommended features (in Leech & Wilson these are defined as optional)
constituting the minimal common core set of features for the PoS. [Monachini e Calzolari,
1996]
Finalmente, o terceiro nivel de análise proposto por EAGLES é totalmente
opcional e nel poden codificarse:
1) (L2a) atributos ou valores xenéricos, aplicables á maioría das linguas estudadas,
os cales normalmente non se codifican nun corpus por proporcionar información
que excede o nivel morfosintáctico. A información semántica que achega a
calidade de contable ou non contable proposta para a categoría Nome constitúe un
exemplo de atributo opcional xenérico.
2) (L2b) atributos ou valores específicos dunha lingua ou de varias, pero non
aplicables á maioría de linguas europeas.
Dado o obxectivo que nos propuxemos e a súa finalidade, consideramos que
debiamos obter a caracterización morfolóxica completa de calquera unidade léxica,
razón pola que incorporamos os tres niveis no noso etiquetario. Prescindimos en xeral,
iso si, das distincións semánticas incluídas no L2a e non establecemos diferenciacións
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
26
de ningún tipo entre o L1 e o L2 no deseño do tag-set, onde os distintos valores
atributivos figuran ao mesmo nivel. Por exemplo, na etiqueta Scma correspondente á
análise dunha unidade léxica coma paraugas:
“S” representa a clase de palabra, substantivo;
“c” proporciona información sobre o tipo, común;
“m” indícanos que o seu xénero é masculino e
“a” sinala que pode ser singular ou plural; é dicir, apunta a imposibilidade de
decantarnos por un dos valores do atributo número a non ser que a
concordancia con algún elemento do contexto nolo aclare.
1.2.1. Clases de palabras
As grandes clases de palabras que propoñen Leech e Wilson18 (1996) son as
seguintes:
1. N [noun] 2. V [verb] 3. AJ [adjective] 4. PD [pronoun/determiner] 5. AT [article] 6. AV [adverb] 7. AP [adposition] 8. C [conjunction] 9. NU [numeral] 10. Y [interjection] 11. U [unique/unassigned] 12. R [residual] 13. PU [punctuation]
Meses máis tarde, Monachini e Calzolari19 cuestiónanse a agrupación de
Pronomes e Determinantes nunha única categoría, por estar esta demasiado orientada a
facilitar a anotación de corpus, e deciden delimitalas como clases independentes:
(...) the previous merging of the two categories (at least at L1, with the possibility of splitting
the two categories at a more fine-grained level) seemed, in the first instance, to be the best
solution to cope with the requirements of many corpus practices, that keep the two categories
undistinguished, and the best attempt to reconcile lexicon specifications and corpus tagsets.
This choice, however, was eventually felt to be too corpus-oriented and the MULTEXT
partners expressed their opinion in favour of having, at the lexicon level, two different
categories for Pronouns and Determiners. [Monachini e Calzolari, 1996]
18 Marzo de 1996: Recommendations for the Morphosyntactic Annotation of Corpora. Dispoñible en http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html 19 Agosto de 1996: Synopsis and Comparison of Morphosyntactic Phenomena Encoded in Lexicons end Corpora. A common Proposal and Applications to European Lenguages. Dispoñible en http://www.ilc.cnr.it/EAGLES96/morphsyn/morphsyn.html
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
27
Así, na nova proposta figuran as seguintes categorías:
1. Noun 2. Verb 3. Adjective 4. Pronoun 5. Determiner 6. Article 7. Adverb 8. Adposition 9. Conjunction10. Numeral 11. Interjection 12. Unique 13. Residual
Se nos fixamos nos números, esta táboa contén a mesma cifra de clases
gramaticais delimitadas ca na proposta primaria. A diferenza estriba en que nesta última
clasificación non inclúen os signos de puntuación, aínda que si recoñecen a súa
necesidade na etiquetación de corpus:
Sometimes tag classes are in reality different from lexical descriptions. For example, classes
for punctuation are needed and certain types of semantic or pragmatic or lexical information
can be present in the tags (e.g. the days of the week). [Monachini e Calzolari, 1996]
1.2.2. Lexicóns e corpus: etiquetarios distintos?
A causa que motiva a división da clase Pronome/Determinante en dúas clases
diferenciadas lévanos a cuestionar teoricamente a adopción de dous conxuntos de
etiquetas distintos, un destinado a codificar o léxico e outro reservado para etiquetar o
corpus.
EAGLES, na súa proposta, recomenda aplicar a distinción entre Pronomes e
Determinantes só ao etiquetario do lexicón e non ao etiquetario que se empregue para
anotar e desambiguar corpus, porque os obxectivos que se poden acadar con un e con
outro son diferentes. Así, co lexicón aspírase a describir pormenorizamente a
morfosintaxe xeral dunha lingua mentres que co tag-set de corpus búscase a elaboración
dun corpus etiquetado morfoloxicamente por medio de desambiguación automática:
Lexical descriptions, it was recognised, should aim, indeed, at a general and fine-grained
description of the language which is independent of particular applications, while, given a set
of practical reasons -- state-of-the-art tagging techniques and computability (see Bel et al.
(1995)) -- broader categories are to be preferred for the tagsets where collapsing decisions are
to be made. [Monachini e Calzolari, 1996]
Segundo se desprende da súa proposta, aínda que o ideal sería poder aplicar a
codificación do lexicón á anotación de corpus, resultaría moi difícil conseguir unha alta
taxa de precisión cun etiquetador automático e, ademais, o corpus de adestramento
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
28
destinado a capacitar o etiquetador tería que ser de gran tamaño para poder documentar
co-ocorrencias infrecuentes.
No seu favor esgrimen as prácticas levadas a cabo cos etiquetarios do francés no
proxecto MULTEXT e a experiencia, entre outros, do Penn Treebank20 para o inglés,
como argumento definitivo da amálgama e consecuente redución de etiquetas
empregadas para anotar corpus:
For example, in the proposal for French presented in the MULTEXT document (Bel et al.,
1995), there are 249 different lexical descriptions, but only 74 collapsed corpus tags.
Experience (Church, UPenn Treebank, IBM France, etc.) shows that the tagset should be under
100 tags. In fact, the Penn Treebank project collapsed many tags compared to the original
Brown tagset, and got better results. [Monachini e Calzolari, 1996]
Evidentemente, ante un etiquetario reducido, as probabilidades de éxito dun
etiquetador automático increméntanse de xeito notable, pero iso non implica que
empregando un tag-set amplo non poidan lograrse uns resultados máis que aceptables.
Nós propuxémonos, na etapa inicial, non tomar como referencia este propósito
de manter etiquetarios separados para o lexicón e para a etiquetación de corpus.
Decidimos que a todas as entradas do lexicón se lles proporcionase a información
morfolóxica plena que as caracterizase, con todos os atributos e valores pertinentes para
esta función. Posteriormente, cando chegase o momento de etiquetar corpus, se os
resultados conseguidos estivesen moi lonxe dos desexados, poderiamos anular algúns
atributos ou incluso algunhas distincións categoriais. O importante era crear un tag-set
pormenorizado, sinxelo na súa estrutura, manexable e adaptable a outros sistemas ou
aplicacións. Co paso do tempo e o avance no proxecto das tarefas de lematización e
etiquetación confirmouse a nosa visión.
Actualmente, as porcentaxes de acerto que presentan os etiquetadores existentes
para unha lingua como o castelán ou o inglés son do 95%/97% (Graña, 2000: 137-165)
e, segundo Jurafsky (Jurafsky, 2000: 296-297), os etiquetarios máis usados para o inglés
son o Penn Treebank que consta de 45 etiquetas e é o que se usou no corpus Brown21; o
C5 de 61 etiquetas empregado polo programa CLAWS22 para etiquetar o British
20 Véxase http://www.cis.upenn.edu/~treebank 21 http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html 22 http://ucrel.lancs.ac.uk/claws/
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
29
Nacional Corpus (BNC)23 e o C7, de 146 etiquetas, utilizado para etiquetar un
subconxunto do BNC.
Nós demostramos que cun etiquetario bastante máis grande ca o empregado pola
maior parte de etiquetadores –arredor de 400 etiquetas distintas– acadamos un acerto do
95,99%24, situándonos en niveis semellantes aos existentes para o inglés ou o castelán.
1.2.3. Atributos
Neste apartado reproducimos a proposta de EAGLES no concernente aos
atributos e valores pertinentes para cada unha das clases de palabras por eles
delimitadas. A maiores, daremos conta do modelo seguido polo castelán e polo
portugués nas aplicacións de EUROTRA e GENELEX, cando este non coincida coa
proposta presentada. Se non se realiza ningunha aclaración sobre a lingua a que
corresponde entenderase que son atributos e/ou valores comúns ás dúas.
1.2.3.1. Nome
Para o Substantivo propoñen os seguintes atributos:
L0 Substantivo
Tipo: común, propio
L1 Xénero: masculino, feminino
Número: singular, plural
L2 Xénero: común
Número: invariable
Dende EAGLES, aínda que nas aplicacións dos proxectos castelán e portugués
por eles estudados non se levou á práctica, recomendan incluír na caracterización do
substantivo a calidade de contable ou non contable, posto que consideran que este
criterio semántico é pertinente para a clasificación do Nome nas dúas linguas.
Na aplicación EUROTRA para o castelán, a maiores, empregan no xénero un
novo valor (transart) para, nos substantivos femininos que comecen por “a” tónico,
discriminar o alomorfo do artigo feminino (el área) do artigo masculino (el niño).
Desmárcanse, con todo, da proposta de EAGLES e das demais aplicacións recollidas
23 http://www.natcorp.ox.ac.uk 24 Domínguez et al., 2009.
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
30
para outras linguas ao integrar os pronomes na categoría Nome. Así, para distinguir os
substantivos dos pronomes recorren ao atributo nform que ten os seguintes valores:
Atributo Valor Exemplo Etiquetanform normal casa norm clítico le cli pronome él pro
A introdución dos pronomes na mesma clase ca os substantivos obrígaos a
incluír atributos específicos dos distintos tipos de pronomes considerados como son a
persoa ou o caso, pertinentes por exemplo para o pronome persoal, ou exclusivos dun
subtipo como é o número do posuidor para o posesivo, ao que, como veremos cando
cheguemos á categoría Pronome, tamén consideran un pronome.
1.2.3.2. Verbo
EAGLES propón os atributos seguintes para caracterizar o Verbo:
L0 Verbo
Tipo: principal, auxiliar, modal
Forma verbal: finita, non finita
Modo: indicativo, subxuntivo, imperativo, condicional, infinitivo, participio, xerundio
L1 Tempo: presente, imperfecto, futuro, pasado
Persoa: 1, 2, 3
Número: singular, plural
Xénero: masculino, feminino
Tipo: copulativo, semiauxiliar
Aspecto: perfectivo, imperfectivo
L2 Voz: activa, pasiva
Reflexividade: reflexivo, non reflexivo
Tipo de verbo principal: transitivo, intransitivo, impersoal
Clíticos: clíticos, non clíticos
Á hora de aplicar este conxunto de atributos ás linguas específicas máis
próximas á nosa, atopámonos con que, tanto no modelo EUROTRA, para o castelán,
como no GENELEX, para o portugués, se prescindiu de calquera delimitación sintáctica
ou semántica, limitándose a realizar unha caracterización estritamente morfolóxica.
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
31
Nas táboas que seguen recollemos os atributos verbais aplicados ás dúas linguas:
Forma verbal
Modo Tempo Persoa Número Xénero
finita indicativo presente primeira singular masculino non finita subxuntivo pasado segunda plural feminino Castelán imperativo futuro terceira infinitivo condicional xerundio imperativo25 participio
Modo Tempo Persoa deíctica
Persoa concordancia
Xénero Número
indicativo presente 1 1 masculino singular subxuntivo imperfecto 2 2 feminino plural Portugués imperativo perfecto 3 3 condicional futuro infinitivo pasado participio pluscuamperfecto xerundio
1.2.3.3. Adxectivo
Os atributos propostos para caracterizar os adxectivos son:
L0 Adxectivo
Tipo: cualificativo, posesivo, indefinido, cardinal, ordinal
Grao: positivo, comparativo, superlativo
Xénero: masculino, feminino
Número: singular, plural
Número do posuidor: singular, plural
L1
Persoa: 1, 2, 3
Uso: atributivo, predicativo
Tipo de modificación: premodificador, posmodificador
Xénero: común
L2
Número: invariable 25 Aparece recollido tamén como valor temporal pero cremos que se trata dun erro porque non se explica en ningún momento a súa inclusión dentro dos distintos tempos verbais, explicación que si aparece para o condicional.
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
32
Na proposta inicial de EAGLES (Leech e Wilson, 1996), curiosamente, non
aparece o atributo tipo para a categoría Adxectivo; este xorde en Monachini e Calzolari
(1996) para facer posible a marcación das tres funcións ou posicións que os
tradicionalmente denominados adxectivos determinativos poden desempeñar ou ocupar,
seguindo o modelo xa establecido por GENELEX:
Moreover, the GENELEX model distinguishes 3 possible functions, namely:
1 Adjective: "Le chien est nôtre.''
2 Determiner: "nôtre chien.''
3 Pronoun: "le nôtre.'' [Monachini e Calzolari, 1996]
O establecemento do atributo tipo en Monachini e Calzolari parece, cando
menos, contraditorio. Si é certo que:
The GENELEX and AlethDic models reflect a distinction which is also made in traditional
grammars of other Romance languages (e.g. Italian), i.e. a first disjunction between qualificatif
and indicatif Adjectives. The latter are those Adjectives which also have pronominal function,
and in different grammatical traditions are called Determiners in their adjectival function. The
former are all the other Adjectives.
Indicative Adjectives are further divided into possessives, demonstratives, relatives, indefinites,
numerals (ordinals and cardinals), interrogatives and exclamatories. [Monachini e Calzolari,
1996]
pero os demostrativos, exclamativos, interrogativos e relativos brillan pola súa ausencia
como subtipos do Adxectivo. Non estamos, pois, ante a distinción tradicional strictu
sensu entre adxectivos cualificativos e determinativos. Logo, como se verá no Numeral,
a pesar de preconizar a súa independencia como categoría, inclúen na súa propia
proposta os dous subtipos de numerais: cardinais e ordinais. Finalmente, recoñecen a
inclusión dos posesivos, indefinidos e os dous tipos de numerais polo desiderátum da
majority of the partners.
Na aplicación ao castelán, na nosa opinión acertadamente, non se segue a
proposta de EAGLES e os atributos considerados son os pertinentes para os chamados
adxectivos cualificativos:
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
33
Grao Xénero Número Posición positivo masculino singular premodificadorcomparativo feminino plural posmodificadorsuperlativo común invariante indiferente
O portugués prescinde dos atributos uso e tipo de modificación de EAGLES e,
igual que fixera na categoría verbal, introduce, a maiores, a diferenciación entre a
persoa semántica e a que marca a concordancia:
Tipo Grao Xénero Número Persoa deíctica
Persoa concordancia
Número posuidor
cualificativo positivo masculino singular 1 1 singular posesivo comparativo feminino plural 2 2 plural indefinido superlativo 3 3 cardinal ordinal
1.2.3.4. Pronome e Determinante
Imos tratar na mesma epígrafe a caracterización das clases Pronome e
Determinante, recollida en Monachini e Calzolari (1996), para que se advirtan máis
facilmente as similitudes e diferenzas existentes entre elas.
Na proposta de EAGLES, na categoría Pronome intégrase o persoal e os
denominados determinativos en función pronominal; a categoría Determinante, pola súa
banda, acolle os tradicionalmente chamados determinativos en función adxectival26:
26 Tomamos literalmente de EAGLES os termos “función pronominal” e “función adxectival” sendo conscientes de que dende o punto de vista da sintaxe funcional, en realidade, mesturan función e unidade, pois pronome e adxectivo son unidades que poden desempeñar diferentes funcións sintácticas e, sintacticamente, non existe ningunha “función pronominal” nin “función adxectival”. Non obstante, o valor que aquí se lle outorga é dun xeito claro, respectivamente, o do seu funcionamento como NÚCLEO e como DETERMINANTE.
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
34
L0 Pronome L0 Determinante
Tipo: demostrativo, indefinido, posesivo, interrogativo, relativo, persoal, reflexivo, recíproco
Tipo: demostrativo, indefinido, posesivo, interrogativo, relativo
Persoa: 1, 2, 3 Persoa: 1, 2, 3
Xénero: masculino, feminino, neutro Xénero: masculino, feminino, neutro
Número: singular, plural Número: singular, plural
Número do posuidor: singular, plural Número do posuidor: singular, plural
L1
Caso: nominativo, xenitivo, dativo, acusativo, oblicuo, obxecto
L1
Xénero: común Xénero: común
Número: invariable Número: invariable
Cortesía: cortés, non cortés
L2
Tonicidade: átono, tónico
L2
Deixando a un lado a conveniencia, ou non, de discriminar entre pronomes
persoais por unha banda e reflexivos e recíprocos por outra, se extraemos da táboa os
atributos específicos do subtipo persoal, isto é, caso, cortesía e tonicidade27,
atopámonos con que os atributos e os valores establecidos para a clase Pronome
coinciden exactamente cos propostos para a clase Determinante. Reflíctese deste xeito a
categorización dos chamados determinativos priorizando a súa función e non a súa
clase. A pregunta que xorde e cuxa resposta sería interesante coñecer é por que non se
adoptou a mesma solución ca a proposta para a clase Numeral: un atributo co que se
especifica a función do elemento? Porén, non atopamos ningunha explicación ao
respecto en Monachini e Calzolari (1996).
A aplicación ao portugués presenta no Pronome dúas diferenzas de vulto con
respecto á proposta de EAGLES. A primeira dáse na caracterización da cortesía. Como
xa vén sendo habitual cando está presente o atributo persoa, o portugués distingue entre
a persoa que esixe a concordancia e a que lle corresponde deicticamente. Non podemos,
polo tanto, negar o recoñecemento das formas corteses na aplicación portuguesa, só que
esta non emprega o atributo cortesía nin o fai unicamente no pronome persoal, senón
sempre que estea implicada a persoa: verbo, posesivo e pronome persoal. A segunda
27 Permitímonos a licenza de modificar a orde destes tres atributos para que a comparación entre as dúas categorías resulte máis cómoda. No orixinal aparece o caso antes do número do posuidor (L1) e a cortesía e a tonicidade como primeiros atributos xenéricos opcionais (L2).
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
35
diferenza xorde porque non se organizan as formas do pronome persoal nas súas dúas
series características: tónica e átona.
Na clase Determinante as diferenzas acentúanse. A aplicación portuguesa
engade no tipo os valores definido e indefinido, destinados a identificar o artigo que
para EAGLES constitúe unha categoría propia, e o cardinal. Logo, ademais de non ter
en conta os valores específicos opcionais para o xénero e o número, prescinden
inexplicablemente dos atributos persoa28 e número do posuidor.
Na aplicación EUROTRA para o castelán, como xa explicamos na clase Nome,
os pronomes integráronse cos substantivos sendo o atributo nform o que os clasifica en
normal, pronome e clítico. A maiores, para axudar na caracterización dos pronomes,
empregaron dous atributos máis:
Dtype, which helps to distinguish between possessive (poss) and non-possessive (non-poss)
pronouns.
Whmor, used to distinguish relative pronouns (valued as rel) and interrogative pronouns
(valued as int) from the rest of the nominals (valued none). [Monachini e Calzolari, 1996]
En resumo, na clase Nome na aplicación de EUROTRA, con estes tres atributos
distinguen entre (Monachini e Calzolari, 1996):
Sp. example Nform Dtype Whmor Class casa normal non-poss none normal noun yo pro non-poss none personal pro
este pro non-poss none demonstrative pro algún pro non-poss none indefinite pro
mi pro poss none possessive pro mío pro poss none possessive pro cuyo pro poss rel relative pro quien pro non-poss rel relative pro quién pro non-poss int interrogative pro
me cli non-poss none clitic
Na delimitación que se leva a cabo entre os distintos tipos de pronome e de
determinantes na aplicación ao castelán non está claro se é a que se realiza en
EUROTRA ou se se trata da que realiza EAGLES para esta lingua. Os datos inducen a 28 A pesar de haber posesivos implicados, na clase Determinante non se teñen en conta os atributos persoa e número do posuidor.
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
36
pensar que se trata da adaptación ao castelán de EAGLES. Con todo,
independentemente da súa autoría, os subtipos de Pronome e Determinante, así como os
atributos e valores aplicados nas dúas clases, son coincidentes na súa totalidade coa
proposta de EAGLES, salvo nos trazos específicos do castelán, como poden ser:
1) ausencia do atributo xénero e do valor invariable no número no pronome
relativo (que, quien) fronte á presenza dos valores masculino e feminino e
singular e plural no determinante relativo (cuyo/s, cuya/s);
2) presenza unicamente do valor xenérico neutro no pronome demostrativo;
3) discriminación no caso dos valores nominativo, acusativo, dativo e oblicuo.
1.2.3.5. Artigo
Os atributos pertinentes para describir a clase Artigo, segundo EAGLES, son os
seguintes:
L0 Artigo
Tipo: definido, indefinido
L1 Xénero: masculino, feminino, neutro
Número: singular, plural
Na aplicación ao portugués, fronte á castelá, non se recoñece unha clase Artigo,
senón que os valores definido e indefinido figuran como dous tipos diferentes da clase
Determinante, ao lado de demostrativo, posesivo, cuantificador, etc.
1.2.3.6. Adverbio
Admitindo que son numerosas as posibles subclasificacións dos adverbios
fundamentándoas en criterios semánticos e sintácticos, a proposta de EAGLES para
caracterizalos é a seguinte:
L0 Adverbio
L1 Tipo: xeral, partícula
Grao: positivo, comparativo, superlativo
L2 Polaridade: interrogativo/relativo, non interrogativo/relativo
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
37
Chama a atención nesta clase que en Leech e Wilson (1996) o valor partícula do
atributo tipo, aplicado especialmente no inglés para adverbios coma out, off ou up,
figure entre os opcionais, mentres que se establece entre os recomendados en Monachini
e Calzolari:
Another interesting fact is the inclusion of Particles among the values of the feature Type by
the Leech & Wilson proposal. The treatment of Particles appears to be somewhat complicated:
NERC suggests their inclusion in the preposition category; in GENELEX and MULTILEX
they form a separate category without any attribute.
In the present EAGLES proposal, the values proposed for the feature Type at Level 1
(recommended) reflect a first distinction between general adverbs and particles. [Monachini e
Calzolari, 1996]
Co atributo polaridade distínguense no adverbio as formas interrogativas-
exclamativas ou relativas (en inglés when, where, how, why) das demais; os valores
comparativo ou superlativo do atributo grao permiten diferenciar as formas sintéticas,
comparativas ou superlativas, características dun número reducido de elementos
adverbiais fronte ao valor positivo que se aplica por defecto para o resto dos casos.
Na aplicación ao portugués non diferencian tipo e no grao caracterizan só os
adverbios mais, menos e tão como indicadores da comparación de superioridade,
inferioridade e igualdade, respectivamente.
No modelo EUROTRA para o castelán empregan o atributo whmor para
discriminar entre os adverbios interrogativos, relativos e os demais. A maiores, no nivel
sintáctico, realizan unha clasificación semántica do adverbio (tempo, modo, lugar, etc.)
para tratar fenómenos relacionados coa adición e aglomeración de adverbios.
1.2.3.7. Adposición
Os atributos propostos para caracterizar esta clase son:
L0 Adposición
Tipo: preposición, posposición, circumposición
L1 Formación: simple, contracción
Xénero: masculino, feminino, neutro
Número: singular, plural
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
38
O portugués non recoñece no tipo máis ca a preposición e, seguindo o modelo
multilingüe de GENELEX, as contraccións de preposición e artigo trátanas como unha
clase especial de unidade morfolóxica.
Na aplicación ao castelán, no nivel morfolóxico, non se considera ningún
atributo e as contraccións al e del clasifícanas nunha categoría creada ad hoc.
1.2.3.8. Conxunción
A proposta de EAGLES para a clase Conxunción é a seguinte:
L0 Conxunción
L1 Tipo: coordinante, subordinante
Subtipo coordinante: simple, correlativa, inicial, non inicial
L2 Subtipo subordinante: con forma verbal finita, con forma verbal non finita, introduce comparación
En Monachini e Calzolari destácase o consenso multilingüe acadado para a
Conxunción, pero este limítase ao recoñecemento da categoría e do atributo tipo:
A large core of agreement emerges as regards Conjunctions. All the analysed systems agree as
to the distinction between coordinating and subordinating Conjunctions. The only difference is
the MULTILEX position which splits the two types of Conjunctions into two different
categories, coordinators and subordinators: however, no mapping problems arise. The same
choice was made by the TEI. [Monachini e Calzolari, 1996]
Na aplicación ás distintas linguas, os atributos opcionais xenéricos propostos só
se empregan en inglés, alemán, danés ou sueco mentres que non se aplican en italiano,
catalán, francés ou portugués; en castelán non se usan no nivel morfolóxico senón na
identificación de constituíntes no nivel de análise sintáctica.
1.2.3.9. Numeral
En Leech e Wilson (1996) admítese que os numerais, polo seu comportamento,
poden integrarse no interior doutras clases de palabras; así, no modelo portugués, os
cardinais inclúense nas categorías Pronome/Determinante e os ordinais na clase
Adxectivo. Con todo, deixan clara a súa postura ao afirmar que na categoría Numeral é
posible especificar a función dos distintos elementos cun atributo.
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
39
En Monachini e Calzolari (1996) recoñécese o tratamento diverxente que
presentan os numerais nos sistemas analizados pero, pese a permitir incluílos como
subtipos das clases Pronome, Determinante e Adxectivo, a proposta para a clase
Numeral non difire da realizada con anterioridade en Leech e Wilson (1996), que é
como segue:
L0 Numeral
Tipo: cardinal, ordinal
L1 Xénero: masculino, feminino, neutro
Número: singular, plural
L2 Función: pronome, determinante, adxectivo
En Monachini e Calzolari (1996) a aplicación ao castelán non aparece recollida
baixo a clase Numeral e tampouco a atopamos como subtipo do Adxectivo, Pronome ou
Determinante. O portugués considera os ordinais adxectivos, mentres que os cardinais
determinantes remíteos á clase Determinante e os pronominais van á de Adxectivo.
1.2.3.10. Única
A proposta de EAGLES recomenda incorporar os mínimos elementos posibles a
esta clase, a cal, ademais, só debe conter fenómenos lingüísticos específicos da lingua
en cuestión. Estamos, polo tanto, ante a única categoría para a que non existe ningún
atributo recomendado no nivel L1; nela pásase do nivel obrigatorio (delimitación da
categoría: L0) ao nivel opcional específico (trazos morfosintácticos específicos de non
máis de tres linguas: L2b).
Os valores que propoñen caracterizar nesta clase son os seguintes (Leech e
Wilson, 1996):
Unique-type: 1. Infinitive marker [German zu, Danish at, Dutch, English]
2. Negative particle [English not, n't] 3. Existential marker [English there, Danish der] 4. Second negative particle [French pas] 5. Anticipatory er [Dutch] 6. Mediopassive voice marker se [Portuguese] 7. Preverbal particle [Greek]
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
40
As aplicacións castelá e portuguesa non están recollidas en Monachini e
Calzolari (1996) e en Leech e Wilson (1996), como se observa na táboa, achégase para
o portugués a posibilidade de identificar se como marcador de voz, opción que tamén
sería válida para o castelán malia que non o fagan constar.
1.2.3.11. Residual
Igual que sucedía coa clase Única, dende EAGLES recoméndase remitir á
categoría Residual os menos elementos posibles e, sempre que sexa factible, aconséllase
incorporalos a algunha das outras categorías. Por exemplo, os caracteres alfabéticos
varían no número, comportándose deste xeito como os substantivos comúns, motivo
polo que poderían remitirse á clase Substantivo.
Reproducimos co mesmo formato a proposta de EAGLES para a clase Residual
realizada en Leech e Wilson (1996) e a defendida en Monachini e Calzolari (1996) para
que, a simple vista, se poidan apreciar as diferenzas:
(Leech e Wilson, 1996) EAG-L0 RESIDUAL EAG-L1 foreign word m sg
formula f pl
symbol n
acronym
abbreviation
unclassified
(Monachini e Calzolari, 1996) EAG-L0 RESIDUAL EAG-L1 foreign words m sg
alphabetic symbols f pl formulae n acronyms abbreviations unclassified affixes shortcuts fused forms trunc.forms comp. forms
EAG-L2b c n
Segundo Leech e Wilson (1996), o tipo Inclasificado aplícase a segmentos
textuais que non encaixan nos valores anteriores como, por exemplo, palabras
incompletas, retrousos como er, erm nas transcricións de texto oral ou representacións
escritas de onomatopeas como dum-de-dum.
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
41
Monachini e Calzolari (1996) non ofrecen datos sobre os diferentes valores
establecidos nin recollen a aplicación para o castelán nin para o portugués; entre as
linguas máis próximas á nosa figura o catalán, que acolle nesta clase os acrónimos (SIG)
e as unidades caracterizadas con non codificado (NC), e o italiano que distingue aquí
estranxeirismos, abreviaturas e siglas.
1.3. O etiquetario de XIADA 1.3.1. Clases de palabras
As categorías que delimitamos no sistema de etiquetaxe de XIADA para o
galego son:
1 S [substantivo] 2 V [verbo] 3 A [adxectivo] 4 D [artigo] 5 E [demostrativo] 6 M [posesivo] 7 N [numeral] 8 G [interrogativo- exclamativo] 9 T [relativo] 10 I [indefinido] 11 R [pronome] 12 W [adverbio] 13 C [conxunción] 14 L [locución] 15 P [preposición] 16 Y [interxección] 17 Q [sinal de puntuación] 18 Z [periférica]
É evidente que o número de categorías establecidas por EAGLES (13) e por nós
(18) non coincide, así como tampouco a tipoloxía de categorías na súa totalidade. A
diverxencia orixínase, sobre todo, na distinta consideración de dúas das clases de
palabras propostas por EAGLES: as clases P [pronome] e D [determinante].
Os motivos que nos levaron a non seguir fielmente a súa proposta esixen unha
explicación.
En primeiro lugar, no referente ás categorías Pronome e Determinante,
obsérvase que na proposta do estándar europeo empregan criterios morfolóxicos para a
delimitación das principais clases de palabras (substantivos, verbos, adxectivos, etc.) e
sintácticos para a categorización de demostrativos, indefinidos, numerais, posesivos,
relativos e interrogativos. Consideran que nestes últimos é máis importante o seu
funcionamento como pronomes, determinantes ou adxectivos que a clase de palabra á
que tradicionalmente se remiten, información esta que secundariamente incorporan na
etiqueta cun atributo que sinala o tipo de especificador, adxectivo ou pronome.
-
ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA
42
En XIADA respectamos o criterio morfolóxico, e só secundariamente coa
caracterización dun atributo “Valor” clasificamos nalgunhas clases de palabras o
funcionamento como nucleares ou adxacentes dos seus elementos constituíntes. Para
esta decisión apoiámonos, sobre todo, en Álvarez, Regueira e Monteagudo (1986: 157-
293) quen, a pesar de recoñecer que “dentro dos pronomes distínguese entre pronomes
persoais, demostrativos, posesivos, indefinidos, numerais, relativos e interrogativo-
exclamativos”, á hora de tratar cada un destes grandes grupos faino en capítulos
independentes e como clases morfolóxicas distintas.
Na nosa decisión pesaron tamén outros factores importantes:
1) Exportabilidade. Se fose necesario, poderiamos converter facilmente as
categorías Demostrativo, Posesivo, Indefinido, Numeral, Relativo e Interrogativo-
exclamativo en subtipos da clase Pronome e Adxectivo. Como veremos máis adiante,
todos os elementos integrados nalgunha destas clases inclúen información sintáctica
sobre o tipo de función que poden realizar, e así caracterízanse mediante o atributo
“Valor” como formas determinantes ou non determinantes. Para proceder á conversión
no etiquetario destas categorías, entre outras accións, teriamos que inverter a orde dos
dous primeiros atributos da cadea de etiquetaxe en cada unha destas clases, excepto no
Numeral onde sería o primeiro e o terceiro (a segunda posición está reservada para
indicar o tipo de numeral).
Para que se perciba con máis claridade esta hipotética conversión, imos
exemplificar coa clase Demostrativo. Así, os neutros isto, iso e aquilo e as súas
variantes non normativas na actualidade, esto, eso e aquelo etiquétanse como Enns
(Demostrativo, non determinante, neutro, singular). Trataríase, daquela, de extraer do
paradigma dos demostrativos os elementos marcados como Enns e categorizalos na
clase Pronome co subtipo demostrativo: Rd00ns (Pronome, demostrativo, caso non
aplica, persoa non aplica, neutro, singular). Isto provocaría, por unha banda, a
ampliación dos valores do atributo tipo para darlle cabida, neste caso, aos demostrativos
e, por outra, a non pertinencia dos atributos caso e persoa para todos os integrantes do
paradigma do Pronome.
Para os demostrativos caracterizados como determinante/non determinante (o
resto do paradigma, fóra o neutro) cuxa etiqueta comezaría por Ea (Demostrativo,
-
CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO
43
determinante/non determinante) teriamos que reduplicar a súa análise e categorizalos
respectivamente na clase Adxectivo, ou crear a de Determinante ex profeso, e na de
Pronome. Deste xeito, o elemento este sería caracterizado respectivamente como
Rd00ms (Pronome, demostrativo, caso non aplica, persoa non aplica, masculino,
singular) e como Ad0ms (Adxectivo, demostrativo, grao non aplica, masculino,
singular).
Esta posible homoxeneización con outros etiquetarios provocaría, en primeiro
lugar, un incremento do número de etiquetas posibles debido ás caracterizacións
categoriais duplas dos determinativos que poden funcionar como núcleos e como
adxacentes; en segundo lugar, a reorganización dos atributos descritivos existentes (a
persoa ou o caso non son pertinentes para o Demostrativo, Indefinido, Numeral, etc.) e
a adición doutros non pertinentes para os elementos orixinais pero imprescindibles para
clasificar morfoloxicamente os novos membros das clases Pronome e