Post on 11-Jul-2015
Fuentes para la actualización de macro-tesauros: Noticias de divulgación científica
María José Baños MorenoMaster en Gestión de Información en las Organizaciones
Facultad de Comunicación y Documentación
Universidad de Murcia
Julio, 2013
Introducción
• Contexto: ritmo exponencial del crecimiento de la información y la dispersión de datos
• Productos que tratan de solucionar el problema: los tesauros. Fines:
o Describir la informacióno Recuperar la informacióno Servir de fuente para elaborar otras herramientas que respondan
a necesidades específicas
• Tesauros analizados: Unesco y Unión Europea, fundamentales para la construcción de otros productos
Diapositiva 2
Tunesco TeurovocEntidad UNESCO Unión EuropeaCreación 1977 1984
Objeto Análisis temático y búsqueda de documento
Tratamiento de información generada
internamenteCampos Multidisplinar MultidisplinarJerarquía Monojerárquico Polijerárquico
Idiomas Español, inglés, francés y ruso
22 lenguas UE + Croata + Serbio
Actualización 2008 2012
Características de los Tesauros de la Unesco (Tunesco) y Unión Europea (Teurovoc). FUENTE: Elaboración propia a partir de la información que consta en las webs de las respectivas
instituciones
Diapositiva 3
Objetivos
• Analizar el grado de actualización de Tunesco y Teurovoc. Consideración: indicador de calidad extrínseca
• Conocer si las noticias de divulgación científica pueden ser utilizadas como fuente de renovación
• Determinar si estos vocabularios resultan adecuados para describir noticias de divulgación científica
Diapositiva 4
MetodologíaMuestra: corpus de 1599 noticias de divulgación científica, obtenidas a partir de la selección sucesiva de países, diarios, secciones y titulares durante 4 meses (del 9 de marzo al 9 de julio de 2012)
Dos submuestras: M1: 159 noticias (10%) M2: 320 noticias (20%)
País MedioAlemania Süddeutsche ZeitungCanadá The Global and Mail
ChinaChina DailyThe China Post
Corea The Korea TimesEspaña El Mundo
EE.UUThe New York TimesThe Washington Post
Francia Le MondeItalia La ReppublicaJapón Yomiuri ShimbunReino Unido The Daily TelegraphRusia* Pravda
Selección de países y medios y conformación de las sub-muestras M1 y M2. FUENTE: Elaboración propia
Diapositiva 5
Metodología• Indización manual y en
lenguaje natural de titulares• Traducción a español, inglés y
francés• Búsqueda automática de
equivalencias con N-gramas y Apache Solr
• Clasificación de resultados según equivalencias
• Cálculo de estadísticas• Cálculo de precisión exacta,
cercana y total
Código Relación
TC Equivalencia exacta
TS Sinonimia
TE Específica
TG Genérica
TR Asociativa
TN* Nueva
TFE Falsa equivalencia
Códigos de clasificación de resultados para cada par de términos. FUENTE: Elaboración
propia
Diapositiva 6
Método N-gramasSUB-MUESTRA M1, 10% NOTICIAS
1.Identificación de los bi-gramas únicos solapados:
•Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos (titular y tesauro) y de la media (Msi) de los tres idiomas
•Selección del término con Msi más elevada, entre posibles candidatos
•Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6), [0,6 – 0,8) y [0,8 – 1]
Diapositiva 7
Método N-gramas, resultados
≈ 55% de términos correctos (TC)
≈ 6% de relaciones de tipo jerárquico (TE + TG)
≈ 10% de términos relacionados (TR)
+ 22% de falsos equivalentes (TFE)
Tunesco Teurovoc Total % Total %
TC 161 53,49 176 58,47TS 7 2,33 4 1,33TG 7 2,33 9 2,99TE 15 4,98 11 3,65TR 28 9,30 30 9,97
TFE 83 27,57 69 22,92Clasificación de términos de acuerdo a resultados obtenidos con N-gramas. FUENTE: Elaboración
propia
Diapositiva 8
Un par de ejemplos de falsos equivalentes
“dinosaurio” y “tesauro” Grado de equivalencia: 0,40
“evacuación” y “devaluación” Grado de equivalencia: 0,75
Diapositiva 9
Método Apache SolrSUB-MUESTRA M2, 20% NOTICIAS
•Construcción de una colección de documentos (términos del tesauro)
Campo Descripciónid Identificador del conceptotype Tesauro (Tunesco ó Teurovoc)des_es Término descriptor en Españoldes_fr Término descriptor en Francésdes_en Término descriptor en Inglésnd_es Término no-descriptor en Españolnd_fr Término no-descriptor en Francésnd_en Término no-descriptor en Inglés
Estructura de campos para la indización de términos como documentos en Apache Solr. FUENTE: Elaboración propia
Diapositiva 10
Método Apache Solr• Ecuación de búsqueda (términos extraídos) compuesta por 7
procesos para hallar la mejor correspondencia entre términos:
• Apache Solr proporciona una medida de similitud o score entre pares de términos
Diapositiva 11
Consulta Descripción Boost
Q1 Palabras, en índice general 2,5Q2 Literal, en el campo descriptor 5Q3 Literal, en el campo no-descriptor 3Q4 Expresión lematizada, en el campo descriptor 0Q5 Expresión lematizada, en el campo no-descriptor 0Q6 Palabras lematizadas, en campo descriptor 0Q7 Palabras lematizadas en campo no-descriptor 0
Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia
Método Apache Solr, resultados
- 50% de términos extraídos tenían similitud exacta
≈ 15% mantienen una relación de jerarquía
≈ 12% guardan una relación de tipo asociativo (TR)
Para ≈ 25% no se halló ninguna relación (términos nuevos, TN) o ésta fue mal asignada (falsos equivalentes, TFE).
Tunesco Teurovoc Total % Total %
TC 264 44,07 290 48,41TS 14 2,34 10 1,67TG 25 4,17 43 7,18TE 69 11,52 42 7,01TR 75 12,52 70 11,69
TFE 69 11,52 83 13,86TN 83 13,86 61 10,18
Clasificación de términos de acuerdo a resultados obtenidos con Apache Solr.
FUENTE: Elaboración propia
Diapositiva 12
Resultados (TFE y TN)
Diapositiva 13
Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para
Tunesco. FUENTE: Elaboración propia
Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para
Teurovoc. FUENTE: Elaboración propia
Un ejemplo de falso equivalente
“virus animal” y “virus informático” (Teurovoc) –> TFE“virus animal” y “virus” (Tunesco) -> TG
Diapositiva 14
Resultados de precisión
• Para evaluar la eficacia de cada método, se calculó su precisión (P) con cada macro-tesauro:
• Se realizaron varios cálculos:
Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)
Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)
Precisión total (PTOTAL): incluye cualquier tipo de relación entre términos (TC+TS+TE+TG+TR)
Diapositiva 15
Pre
cisi
ón t
otal
Pre
cisi
ón c
erca
na
Diapositiva 16
Pre
cisi
ón e
xact
aResultados• Método N-gramas aporta mejores
resultados• Teurovoc, ligeramente más
actualizado
Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia
Discusión• Influencia de la especialización de los campos
elegidos
• Subjetividad de la indización humana
• Ausencia de relación semántica entre pares de términos: las técnicas empleadas se basan en el cálculo de similitud morfológica
• No se ha profundizado en las relaciones entre términos presentes en los tesauros. Se aprecia la necesidad de revisión, para la redefinición de categorías y relaciones
Diapositiva 17
Conclusiones: los macro-tesauros
En cuanto a los OBJETIVOS 1 y 3:
•Es necesaria una mayor frecuencia de revisión de Tunesco y Teurovoc para incrementar su grado de actualización
•Por tanto, ninguno debe ser utilizado para describir noticias de divulgación
•Sin embargo, sí que se pueden utilizar como base para la construcción de otras herramientas. En este sentido, un trabajo posterior podría analizar el uso concreto de Tunesco y Teurovoc como punto de partida de otros vocabularios
Diapositiva 18
Conclusiones: las noticias
En cuanto al OBJETIVO 2:
•Las noticias de divulgación científica son una fuente adecuada para la actualización de estos macro-tesauros. Incluyen muchos términos no contemplados por éstos, que son reflejo de la evolución en ciencia y tecnología
•En el futuro, un estudio podría centrarse en la utilidad de la información periodística para la construcción y/o actualización de otros tesauros o herramientas de organización del conocimiento distintas
Diapositiva 19
Conclusiones: las técnicas
• Los lenguajes pivote permiten resolver casos de homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas
• La lematización es necesaria. No se ha utilizado en N-gramas, provocando errores en los resultados. Un estudio posterior podría trabajar en esta cuestión
• La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política” y “coalición política”. Es otra línea futura para mejorar el método N-gramas
• Las precisiones exacta y cerca son aproximadamente un 10% mejores para la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los que no existe equivalencia. Otra línea de investigación podría centrarse en el análisis concreto de los datos obtenidos para cada palabra clave extraída y técnica, analizando las diferencias
Diapositiva 20
GRACIAS POR VUESTRAATENCIÓN