Estudio preliminar para la creación de Euskal PropBank

23
Estudio preliminar Estudio preliminar para la creación de para la creación de Euskal PropBank Euskal PropBank Izaskun Aldezabal Roteta Izaskun Aldezabal Roteta Grupo Ixa, UPV-EHU Grupo Ixa, UPV-EHU SERES. Octubre, 2006 SERES. Octubre, 2006

description

Estudio preliminar para la creación de Euskal PropBank. Izaskun Aldezabal Roteta Grupo Ixa, UPV-EHU SERES. Octubre, 2006. Esquema. Finalidad Recursos Metodología Conclusiones. Finalidad. Comprobar la validez del modelo de etiquetado de PropBank para el euskera Motivación: - PowerPoint PPT Presentation

Transcript of Estudio preliminar para la creación de Euskal PropBank

Page 1: Estudio preliminar  para la creación de Euskal PropBank

Estudio preliminar Estudio preliminar para la creación depara la creación de

Euskal PropBankEuskal PropBankIzaskun Aldezabal RotetaIzaskun Aldezabal Roteta

Grupo Ixa, UPV-EHUGrupo Ixa, UPV-EHUSERES. Octubre, 2006SERES. Octubre, 2006

Page 2: Estudio preliminar  para la creación de Euskal PropBank

EsquemaEsquema FinalidadFinalidad

Recursos Recursos

MetodologíaMetodología

Conclusiones Conclusiones

Page 3: Estudio preliminar  para la creación de Euskal PropBank

FinalidadFinalidad Comprobar la validez del modelo Comprobar la validez del modelo

de etiquetado de PropBank para el de etiquetado de PropBank para el euskeraeuskera

Motivación:Motivación: Parten de un corpus etiquetado sintácticamenteParten de un corpus etiquetado sintácticamente Decisiones importantes tomadas: distinción Decisiones importantes tomadas: distinción

argumentos/adjuntos, sentidos...argumentos/adjuntos, sentidos... Se está trabajando con más lenguas: chino, Se está trabajando con más lenguas: chino,

español, catalán, euskera (español-catalán-español, catalán, euskera (español-catalán-euskera, en la acción complementaria CESS-euskera, en la acción complementaria CESS-ECE). Comparación multilingüe.ECE). Comparación multilingüe.

Page 4: Estudio preliminar  para la creación de Euskal PropBank

RecursosRecursos Corpus Eus3LBCorpus Eus3LB: Corpus del euskera : Corpus del euskera

etiquetado sintácticamente, basándose en etiquetado sintácticamente, basándose en dependencias (50.000 palabras).dependencias (50.000 palabras).

Base de datos creada con la información Base de datos creada con la información obtenida de PropBank y Verbnet. (Grupo Ixa + obtenida de PropBank y Verbnet. (Grupo Ixa + base de datos (de pago) PropBank).base de datos (de pago) PropBank).

Diccionarios monolingües y bilingüesDiccionarios monolingües y bilingües (euskera-castellano inglés)(euskera-castellano inglés)

Tesis de Aldezabal (2004)Tesis de Aldezabal (2004) Estudio de la Estudio de la subcategorización verbal. Análisis detallado de subcategorización verbal. Análisis detallado de 100 verbos en euskera, basándose en Levin 100 verbos en euskera, basándose en Levin (1993) y utilizando métodos automáticos(1993) y utilizando métodos automáticos..

Page 5: Estudio preliminar  para la creación de Euskal PropBank

MetodologíaMetodología Preparar la entrada léxica del verboPreparar la entrada léxica del verbo

Elegir el verbo en euskeraElegir el verbo en euskera Obtener la visión general de los sentidos del verbo en Obtener la visión general de los sentidos del verbo en

euskera y buscar sus equivalentes léxicos en ingléseuskera y buscar sus equivalentes léxicos en inglés Analizar los equivalentes sintácticos en inglésAnalizar los equivalentes sintácticos en inglés Aplicar las entradas equivalentes deAplicar las entradas equivalentes de VerbNet VerbNet y y PropBank PropBank al al

euskeraeuskera Etiquetar el corpus con los roles temáticosEtiquetar el corpus con los roles temáticos

Etiquetar el corpus Etiquetar el corpus Criterios generalesCriterios generales

Agrupar las dudas y completar la tabla de Agrupar las dudas y completar la tabla de comentarioscomentarios

Revisar/modificar la entradaRevisar/modificar la entrada

Page 6: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verbo (I)Preparar la entrada léxica del verbo (I)

Elegir el verbo en euskera:Elegir el verbo en euskera: Eus3lb Eus3lb

622 verbos diferentes622 verbos diferentes 40 verbos de más de 20 apariciones40 verbos de más de 20 apariciones 482 verbos de menos de 5 apariciones482 verbos de menos de 5 apariciones

Criterios: facilidad y frecuenciaCriterios: facilidad y frecuencia242 %38.0242 %38.0 eginegin236 %37.0236 %37.0 izanizan185 %29.0185 %29.0 esanesan104 %16.0104 %16.0 adieraziadierazi 94 %15.094 %15.0 eskatueskatu 76 %12.076 %12.0 emaneman 67 %10.067 %10.0 azalduazaldu 62 %9.062 %9.0 hartuhartu 61 %9.061 %9.0 jojo 61 %9.061 %9.0 salatusalatu

Page 7: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verbo (II)Preparar la entrada léxica del verbo (II)

Obtener la visión general de los sentidos del Obtener la visión general de los sentidos del verbo en euskeraverbo en euskera

Diccionarios monolingüesDiccionarios monolingües ‘‘Expresar algo mediante palabras’ / ‘prometer’ / ‘llamarse’ Expresar algo mediante palabras’ / ‘prometer’ / ‘llamarse’

Tesis Aldezabal (2004)Tesis Aldezabal (2004) Dos sentidos: Dos sentidos:

esan-DU-1 y esan-DU-2: actividad (de expresión) de una entidad esan-DU-1 y esan-DU-2: actividad (de expresión) de una entidad esan-DIO-3: asignación de un atributo o característica a una esan-DIO-3: asignación de un atributo o característica a una

entidadentidad ConclusionesConclusiones

Dos acepcionesDos acepciones alguien dice (a alguien) algo alguien dice (a alguien) algo alguien llama a algo de una maneraalguien llama a algo de una manera

Page 8: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verbo Preparar la entrada léxica del verbo

(III)(III)

Analizar los equivalentes léxicos en inglés para Analizar los equivalentes léxicos en inglés para esos sentidosesos sentidos

Diccionarios bilingüesDiccionarios bilingües alguien dice (a alguien) algo : alguien dice (a alguien) algo : saysay eta eta telltell alguien llama a algo de una madera: alguien llama a algo de una madera: callcall

Page 9: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verbo Preparar la entrada léxica del verbo

(IV)(IV) Analizar los equivalentes sintácticos en Analizar los equivalentes sintácticos en

PropBank y en Verbnet. Para ello:PropBank y en Verbnet. Para ello: Enterder la filosofía general de PropBankEnterder la filosofía general de PropBank Entender la filosofía general de Verbnet Entender la filosofía general de Verbnet

Page 10: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verboPreparar la entrada léxica del verbo (V) (V)

Filosofía general de PropBankFilosofía general de PropBank Dos niveles independientes:Dos niveles independientes:

Argumentos y adjuntosArgumentos y adjuntos Argumentos [0-4] (Arg0, Arg1, …, Arg4)Argumentos [0-4] (Arg0, Arg1, …, Arg4) Adjuntos (ArgM)Adjuntos (ArgM)

Roles semánticos específicos:Roles semánticos específicos:buyer, thing bought, speaker…buyer, thing bought, speaker…

Cada verbo tiene sus rolsets (sentidos) y cada rolset Cada verbo tiene sus rolsets (sentidos) y cada rolset tiene sus frames (realizaciones sintácticas: tiene sus frames (realizaciones sintácticas: frameset)frameset)

Page 11: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verboPreparar la entrada léxica del verbo (VI) (VI)

Ejemplo: Ejemplo: telltellEl El rolesetroleset de de tell.01 tell.01 es:es: arg 0 speakerarg 0 speakerarg 1 utterancearg 1 utterancearg 2 hearerarg 2 hearerLos frames asociados con el rolset tell.01 se expresan de la siguiente manera:

ditransitive (-) The score tell you what the characters are thinking and feeling.

Arg0: The scoreREL: tellArg2: youArg1: what the characters are thinking

and feeling

odd ditransitive (-) prepositional arg2 (-)fronted (-)

Page 12: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verboPreparar la entrada léxica del verbo

(VII)(VII)

Filosofía general de Verbnet: Filosofía general de Verbnet: http://http://wwwwww..ciscis..upennupenn.edu/.edu/groupgroup//verbnetverbnet//

Clasificación basada en Levin (1993):Clasificación basada en Levin (1993): Número de la clase: 9.1, 9.2, 10.1…Número de la clase: 9.1, 9.2, 10.1… Roles semánticos generales:Roles semánticos generales:

agent, theme, topic, beneficiary…agent, theme, topic, beneficiary… Propiedades semánticas:Propiedades semánticas:

±±animate, animate, ±±organization, organization, ±±communication, communication, ±±concrete, concrete, ±±location, location, ±±region, region, ±±animal …animal …

Page 13: Estudio preliminar  para la creación de Euskal PropBank

Metodologia IMetodologia I Preparar la entrada léxica del verboPreparar la entrada léxica del verbo

(VIII)(VIII)Consultar los verbos (Consultar los verbos (saysay, , telltell y y call)call) en la base de datos en la base de datos

Verbnet/PropBank Ej.:Verbnet/PropBank Ej.:

say.01 (LEVIN say 37.7)say.01 (LEVIN say 37.7)ARG0-null Sayer (VN Agent 37.7) = ARG0-null Sayer (VN Agent 37.7) = 1044910449 (by = 1)(by = 1)ARG1-null Utterance (VN Topic 37.7) = ARG1-null Utterance (VN Topic 37.7) = 1049110491 (by = 1)(by = 1)1050310503 ARG2-null Hearer (VN Recipient 37.7)ARG2-null Hearer (VN Recipient 37.7) = = 1212 (to = 10)(to = 10)ARG3-null Attributive (VN ) = ARG3-null Attributive (VN ) = 37 37 (null = 2, about = 10, ADV = 1, for = 2, (null = 2, about = 10, ADV = 1, for = 2, For = 3, in = 1, of = 16, Of = 2)For = 3, in = 1, of = 16, Of = 2)

tell.01 (LEVIN pass along information 37.1-1 37.2)tell.01 (LEVIN pass along information 37.1-1 37.2)ARG0-null Speaker (VN Agent 37.1-1:Agent 37.2) = 323ARG0-null Speaker (VN Agent 37.1-1:Agent 37.2) = 323 (by = 4) (by = 4)356356 ARG1-null Utterance (VN Topic 37.1-1:Topic 37.2) = 340 (about = ARG1-null Utterance (VN Topic 37.1-1:Topic 37.2) = 340 (about = 8, of =5)8, of =5)ARG2-null Hearer (VN Recipient 37.1-1:Recipient 37.)=310 (to=2, ARG2-null Hearer (VN Recipient 37.1-1:Recipient 37.)=310 (to=2, REC=1)REC=1)

Page 14: Estudio preliminar  para la creación de Euskal PropBank

Metodología IMetodología IPreparar la entrada léxica del verbo (IX)Preparar la entrada léxica del verbo (IX)

Tener en cuenta lo propuesto en la tesis de Tener en cuenta lo propuesto en la tesis de Aldezabal (2004)Aldezabal (2004) ( (esanesan))

3 frames sintáctico-semánticos (fss), correspondientes a dos 3 frames sintáctico-semánticos (fss), correspondientes a dos sentidos:sentidos:

1. alguien dice algo: 2 argumentos con 2 variantes sintácticas:1. alguien dice algo: 2 argumentos con 2 variantes sintácticas:esan-DU-1: experimentador (erg); tema (abs)esan-DU-1: experimentador (erg); tema (abs)esan-DU-2: experimentador (erg); tema (compl.)esan-DU-2: experimentador (erg); tema (compl.)

2. alguien a algo/alguien dice de un forma: 3 argumentos, sin 2. alguien a algo/alguien dice de un forma: 3 argumentos, sin variantes sintácticas:variantes sintácticas:

esan-DU-3: origen (erg); destino (dat); característica (abs)esan-DU-3: origen (erg); destino (dat); característica (abs)

Page 15: Estudio preliminar  para la creación de Euskal PropBank

Metodologia IMetodologia I Preparar la entrada léxica del verboPreparar la entrada léxica del verbo (X) (X)

Proponer la entrada léxica del verbo Proponer la entrada léxica del verbo esan esan al estilo PropBank, al estilo PropBank, manteniendo la información de los casos:manteniendo la información de los casos:esan.01esan.01(alguien dice algo a alguien sobre algo)(alguien dice algo a alguien sobre algo)Arg0Arg0 el que dice sayerel que dice sayer agent agent ERGERGArg1Arg1 lo dicholo dicho utteranceutterance topictopic ABS/COMPLABS/COMPLArg2Arg2 oyenteoyente hearerhearer recipientrecipient DATDATArg3Arg3 atributoatributo attributive???attributive??? INS / -i buruzINS / -i buruz

esan.02esan.02(alguien dice a algo/alguien de una manera)(alguien dice a algo/alguien de una manera)Arg0Arg0 el que dice el que dice callercaller agentagent ERGERGArg1Arg1 el calificado item being labelledel calificado item being labelled themetheme DATDATArg2Arg2 la calificaciónla calificación attribute of arg1 attribute of arg1 predicatepredicate ABSABS

Page 16: Estudio preliminar  para la creación de Euskal PropBank

Metodología IIMetodología IIEtiquetar el corpus con roles temáticos (I)Etiquetar el corpus con roles temáticos (I)

Etiquetar el corpus EPEC (corpus de referencia Etiquetar el corpus EPEC (corpus de referencia para el tratamiento del euskera). 300.000 palabras.para el tratamiento del euskera). 300.000 palabras.

Euskal gatazka ez dela armen bidez konponduko esan digu, politikoki baizik, Euskal gatazka ez dela armen bidez konponduko esan digu, politikoki baizik, borroka armatua eta errepresio itsua gaitzetsirik borroka armatua eta errepresio itsua gaitzetsirik (‘Nos ha dicho que el (‘Nos ha dicho que el conflicto vasco no se arreglará mediante las armas…’)conflicto vasco no se arreglará mediante las armas…’)

ccomp_obj (konp, esan, aditz_aurk, dela) ccomp_obj (konp, esan, aditz_aurk, dela) Arg1 Arg1 utterance/topicutterance/topicncsubj (erg, esan, pro2.1, pro2.1, subj)ncsubj (erg, esan, pro2.1, pro2.1, subj) nczobj (dat, esan, pro3.1, pro3.1, zobj)nczobj (dat, esan, pro3.1, pro3.1, zobj)auxmod (-, esan, digu)auxmod (-, esan, digu)

Gurreak ekintza salatu eta familiari elkartasuna adierazi zion, Gobernuaren Gurreak ekintza salatu eta familiari elkartasuna adierazi zion, Gobernuaren izenean izenean (‘Gurrea ha denunciado lo sucedido y le ha expresado su solidaridad a (‘Gurrea ha denunciado lo sucedido y le ha expresado su solidaridad a la familia…’)la familia…’)

ncsubj (erg, adierazi, pro1.1, pro1.1, subj)ncsubj (erg, adierazi, pro1.1, pro1.1, subj)nczobj (dat, adierazi, familiari, familiari, zobj) nczobj (dat, adierazi, familiari, familiari, zobj) Arg2 Arg2 entzulea/hearer/recipiententzulea/hearer/recipientncobj (abs, adierazi, elkartasuna, elkartasuna, obj) ncobj (abs, adierazi, elkartasuna, elkartasuna, obj) Arg1 Arg1 utterance/topicutterance/topic auxmod (-, adierazi, zion)auxmod (-, adierazi, zion)

Page 17: Estudio preliminar  para la creación de Euskal PropBank

Metodología IIMetodología IIEtiquetar el corpus con roles temáticos Etiquetar el corpus con roles temáticos

(II)(II)

Teniendo en cuenta los criterios generalesTeniendo en cuenta los criterios generales Los más importantesLos más importantes

Semántica superficialSemántica superficial (sólo los argumentos/adjuntos (sólo los argumentos/adjuntos que aparecen en el corpus)que aparecen en el corpus)

La unidad es la oración de cada verbo a tratar La unidad es la oración de cada verbo a tratar Dejar a un lado las oraciones dudosasDejar a un lado las oraciones dudosas

Page 18: Estudio preliminar  para la creación de Euskal PropBank

Metodología IIIMetodología IIIAgrupar las dudas. Revisar/modificar la Agrupar las dudas. Revisar/modificar la

entradaentrada

Agrupar dudas y completar la tabla de Agrupar dudas y completar la tabla de comentarioscomentariosProblemas con los argumentosProblemas con los argumentos::--Arg3Arg3 attributive attributive: : -ren kasuan-ren kasuan , , –ren aurrean–ren aurrean , , -ren gainean-ren gainean, , -ri -ri buruzburuz... Son attributive?. Comparar si con otros verbos estos casos ... Son attributive?. Comparar si con otros verbos estos casos complejos tienen el mismo valor. complejos tienen el mismo valor. Ejemplos dudososEjemplos dudosos::- Ambigüedad de los modificadores: ¿pertenecen a un verbo u otro?- Ambigüedad de los modificadores: ¿pertenecen a un verbo u otro?

Revisar/modificar la entrada, si hace falta: Revisar/modificar la entrada, si hace falta: añadir/quitarañadir/quitar

argumentosargumentos sentidossentidos realizaciones sintácticas realizaciones sintácticas

Page 19: Estudio preliminar  para la creación de Euskal PropBank

Conclusiones IConclusiones I

La adecuación al euskera de las entradas y el La adecuación al euskera de las entradas y el etiquetado del modelo PropBank no ha acarreado etiquetado del modelo PropBank no ha acarreado mayores problemas. Hemos trabajado con tres mayores problemas. Hemos trabajado con tres verbos (verbos (esan, adierazi, eskatuesan, adierazi, eskatu). Quizás hay que ). Quizás hay que probar con verbos más difíciles (ambiguos) probar con verbos más difíciles (ambiguos)

Con todo, el estudio preliminar ha demostrado Con todo, el estudio preliminar ha demostrado que el modelo PropBank es válido para el que el modelo PropBank es válido para el euskeraeuskera

Prevemos realizar el etiquetado de forma Prevemos realizar el etiquetado de forma semiautómatica. De la siguiente manera:semiautómatica. De la siguiente manera:

Page 20: Estudio preliminar  para la creación de Euskal PropBank

Conclusiones IIConclusiones IIEtiquetado semiautomáticoEtiquetado semiautomático

Etiquetado semiautómático:Etiquetado semiautómático: Se pueden utilizar heurísticos que Se pueden utilizar heurísticos que

garantizan un etiquetado autómatico garantizan un etiquetado autómatico correcto:correcto: Pueden ser generales:Pueden ser generales:

Caso de declinación ERG => Arg0Caso de declinación ERG => Arg0 Pueden ser específicos (para cada verbo)Pueden ser específicos (para cada verbo)

Page 21: Estudio preliminar  para la creación de Euskal PropBank

Conclusiones IIIConclusiones IIIEtiquetado semiautomáticoEtiquetado semiautomático Por ejemplo, con el verbo Por ejemplo, con el verbo esanesan, las ambigüedades , las ambigüedades

de los casos según los sentidos son las siguientes:de los casos según los sentidos son las siguientes:

Casos de Casos de declinacióndeclinación

RolesRoles Sentidos de Sentidos de esanesan

ERGERG Arg0: AgentArg0: Agent 01/0201/02

ABSABS Arg1: Topic / Arg2: PredicateArg1: Topic / Arg2: Predicate 01/0201/02

COMPCOMP Arg1: TopicArg1: Topic 0101

DATDAT Arg2: Recipient / Arg1: Arg2: Recipient / Arg1: ThemeTheme

01/0201/02

INS/INS/-I BURUZ…-I BURUZ… Arg3: AttributiveArg3: Attributive 0101

Page 22: Estudio preliminar  para la creación de Euskal PropBank

Conclusiones IIIConclusiones IIIEtiquetado semiautomáticoEtiquetado semiautomático Así:Así:

Los casos COMP, INS e -I BURUZ, Los casos COMP, INS e -I BURUZ, desambiguarían los sentidos y roles desambiguarían los sentidos y roles sin ningún error.sin ningún error.

En el corpus, el COMP aparece en un En el corpus, el COMP aparece en un 82 %, y el INS en un 3 %82 %, y el INS en un 3 %

Eso significa que sólo un 18 % Eso significa que sólo un 18 % quedaría ambíguo, para tratarlo quedaría ambíguo, para tratarlo manualmente.manualmente.

Page 23: Estudio preliminar  para la creación de Euskal PropBank

Conclusiones IIIConclusiones IIIEtiquetado semiautomáticoEtiquetado semiautomático

Los adjuntos hay que etiquetarlos manualmente.

Hace falta una revisión manual final

La tarea principal consiste en definir La tarea principal consiste en definir bien las entradas verbales. A partir de bien las entradas verbales. A partir de ahí, se pueden proponer métodos ahí, se pueden proponer métodos semiautomáticos que faciliten y semiautomáticos que faciliten y agilicen la tarea de etiquetado.agilicen la tarea de etiquetado.