Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí-...

Fuentes para la actualización de macro-tesauros: Noticias de divulgación científica

María José Baños MorenoMaster en Gestión de Información en las Organizaciones

Facultad de Comunicación y Documentación

Universidad de Murcia

Julio, 2013

Introducción

• Contexto: ritmo exponencial del crecimiento de la información y la dispersión de datos

• Productos que tratan de solucionar el problema: los tesauros. Fines:

o Describir la informacióno Recuperar la informacióno Servir de fuente para elaborar otras herramientas que respondan

a necesidades específicas

• Tesauros analizados: Unesco y Unión Europea, fundamentales para la construcción de otros productos

Diapositiva 2

Tunesco TeurovocEntidad UNESCO Unión EuropeaCreación 1977 1984

Objeto Análisis temático y búsqueda de documento

Tratamiento de información generada

internamenteCampos Multidisplinar MultidisplinarJerarquía Monojerárquico Polijerárquico

Idiomas Español, inglés, francés y ruso

22 lenguas UE + Croata + Serbio

Actualización 2008 2012

Características de los Tesauros de la Unesco (Tunesco) y Unión Europea (Teurovoc). FUENTE: Elaboración propia a partir de la información que consta en las webs de las respectivas

instituciones

Diapositiva 3

Objetivos

• Analizar el grado de actualización de Tunesco y Teurovoc. Consideración: indicador de calidad extrínseca

• Conocer si las noticias de divulgación científica pueden ser utilizadas como fuente de renovación

• Determinar si estos vocabularios resultan adecuados para describir noticias de divulgación científica

Diapositiva 4

MetodologíaMuestra: corpus de 1599 noticias de divulgación científica, obtenidas a partir de la selección sucesiva de países, diarios, secciones y titulares durante 4 meses (del 9 de marzo al 9 de julio de 2012)

Dos submuestras: M1: 159 noticias (10%) M2: 320 noticias (20%)

País MedioAlemania Süddeutsche ZeitungCanadá The Global and Mail

ChinaChina DailyThe China Post

Corea The Korea TimesEspaña El Mundo

EE.UUThe New York TimesThe Washington Post

Francia Le MondeItalia La ReppublicaJapón Yomiuri ShimbunReino Unido The Daily TelegraphRusia* Pravda

Selección de países y medios y conformación de las sub-muestras M1 y M2. FUENTE: Elaboración propia

Diapositiva 5

Metodología• Indización manual y en

lenguaje natural de titulares• Traducción a español, inglés y

francés• Búsqueda automática de

equivalencias con N-gramas y Apache Solr

• Clasificación de resultados según equivalencias

• Cálculo de estadísticas• Cálculo de precisión exacta,

cercana y total

Código Relación

TC Equivalencia exacta

TS Sinonimia

TE Específica

TG Genérica

TR Asociativa

TN* Nueva

TFE Falsa equivalencia

Códigos de clasificación de resultados para cada par de términos. FUENTE: Elaboración

propia

Diapositiva 6

Método N-gramasSUB-MUESTRA M1, 10% NOTICIAS

1.Identificación de los bi-gramas únicos solapados:

•Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos (titular y tesauro) y de la media (Msi) de los tres idiomas

•Selección del término con Msi más elevada, entre posibles candidatos

•Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6), [0,6 – 0,8) y [0,8 – 1]

Diapositiva 7

Método N-gramas, resultados

≈ 55% de términos correctos (TC)

≈ 6% de relaciones de tipo jerárquico (TE + TG)

≈ 10% de términos relacionados (TR)

+ 22% de falsos equivalentes (TFE)

Tunesco Teurovoc Total % Total %

TC 161 53,49 176 58,47TS 7 2,33 4 1,33TG 7 2,33 9 2,99TE 15 4,98 11 3,65TR 28 9,30 30 9,97

TFE 83 27,57 69 22,92Clasificación de términos de acuerdo a resultados obtenidos con N-gramas. FUENTE: Elaboración

propia

Diapositiva 8

Un par de ejemplos de falsos equivalentes

“dinosaurio” y “tesauro” Grado de equivalencia: 0,40

“evacuación” y “devaluación” Grado de equivalencia: 0,75

Diapositiva 9

Método Apache SolrSUB-MUESTRA M2, 20% NOTICIAS

•Construcción de una colección de documentos (términos del tesauro)

Campo Descripciónid Identificador del conceptotype Tesauro (Tunesco ó Teurovoc)des_es Término descriptor en Españoldes_fr Término descriptor en Francésdes_en Término descriptor en Inglésnd_es Término no-descriptor en Españolnd_fr Término no-descriptor en Francésnd_en Término no-descriptor en Inglés

Estructura de campos para la indización de términos como documentos en Apache Solr. FUENTE: Elaboración propia

Diapositiva 10

Método Apache Solr• Ecuación de búsqueda (términos extraídos) compuesta por 7

procesos para hallar la mejor correspondencia entre términos:

• Apache Solr proporciona una medida de similitud o score entre pares de términos

Diapositiva 11

Consulta Descripción Boost

Q1 Palabras, en índice general 2,5Q2 Literal, en el campo descriptor 5Q3 Literal, en el campo no-descriptor 3Q4 Expresión lematizada, en el campo descriptor 0Q5 Expresión lematizada, en el campo no-descriptor 0Q6 Palabras lematizadas, en campo descriptor 0Q7 Palabras lematizadas en campo no-descriptor 0

Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia

Método Apache Solr, resultados

- 50% de términos extraídos tenían similitud exacta

≈ 15% mantienen una relación de jerarquía

≈ 12% guardan una relación de tipo asociativo (TR)

Para ≈ 25% no se halló ninguna relación (términos nuevos, TN) o ésta fue mal asignada (falsos equivalentes, TFE).

Tunesco Teurovoc Total % Total %

TC 264 44,07 290 48,41TS 14 2,34 10 1,67TG 25 4,17 43 7,18TE 69 11,52 42 7,01TR 75 12,52 70 11,69

TFE 69 11,52 83 13,86TN 83 13,86 61 10,18

Clasificación de términos de acuerdo a resultados obtenidos con Apache Solr.

FUENTE: Elaboración propia

Diapositiva 12

Resultados (TFE y TN)

Diapositiva 13

Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para

Tunesco. FUENTE: Elaboración propia

Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para

Teurovoc. FUENTE: Elaboración propia

Un ejemplo de falso equivalente

“virus animal” y “virus informático” (Teurovoc) –> TFE“virus animal” y “virus” (Tunesco) -> TG

Diapositiva 14

Resultados de precisión

• Para evaluar la eficacia de cada método, se calculó su precisión (P) con cada macro-tesauro:

• Se realizaron varios cálculos:

Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)

Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)

Precisión total (PTOTAL): incluye cualquier tipo de relación entre términos (TC+TS+TE+TG+TR)

Diapositiva 15

Diapositiva 16

aResultados• Método N-gramas aporta mejores

resultados• Teurovoc, ligeramente más

actualizado

Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia

Discusión• Influencia de la especialización de los campos

elegidos

• Subjetividad de la indización humana

• Ausencia de relación semántica entre pares de términos: las técnicas empleadas se basan en el cálculo de similitud morfológica

• No se ha profundizado en las relaciones entre términos presentes en los tesauros. Se aprecia la necesidad de revisión, para la redefinición de categorías y relaciones

Diapositiva 17

Conclusiones: los macro-tesauros

En cuanto a los OBJETIVOS 1 y 3:

•Es necesaria una mayor frecuencia de revisión de Tunesco y Teurovoc para incrementar su grado de actualización

•Por tanto, ninguno debe ser utilizado para describir noticias de divulgación

•Sin embargo, sí que se pueden utilizar como base para la construcción de otras herramientas. En este sentido, un trabajo posterior podría analizar el uso concreto de Tunesco y Teurovoc como punto de partida de otros vocabularios

Diapositiva 18

Conclusiones: las noticias

En cuanto al OBJETIVO 2:

•Las noticias de divulgación científica son una fuente adecuada para la actualización de estos macro-tesauros. Incluyen muchos términos no contemplados por éstos, que son reflejo de la evolución en ciencia y tecnología

•En el futuro, un estudio podría centrarse en la utilidad de la información periodística para la construcción y/o actualización de otros tesauros o herramientas de organización del conocimiento distintas

Diapositiva 19

Conclusiones: las técnicas

• Los lenguajes pivote permiten resolver casos de homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas

• La lematización es necesaria. No se ha utilizado en N-gramas, provocando errores en los resultados. Un estudio posterior podría trabajar en esta cuestión

• La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política” y “coalición política”. Es otra línea futura para mejorar el método N-gramas

• Las precisiones exacta y cerca son aproximadamente un 10% mejores para la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los que no existe equivalencia. Otra línea de investigación podría centrarse en el análisis concreto de los datos obtenidos para cada palabra clave extraída y técnica, analizando las diferencias

Diapositiva 20

GRACIAS POR VUESTRAATENCIÓN

Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí-...

Technology

Transcript of Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí-...

Exposiciòn FICO

TEORÍA DE LA ADMINISTRACIÓN PÚBLICA · a la Teoría de la Administración Pública con el rango de conocimiento cientí fico, es decir; como ciencia, con un objeto,fin y métodos

PRO GRAMAS PARA - UAI

Fico Predictive

09. Interação entre Didática · Didática que se constrói o ser e se produz o conhecimento docente. Ou seja, a apropriação do conhecimento cientí-fico – do conteúdo das

DEL GRUPO HOSPITAL DE MADRIDfiles.sld.cu/anestesiologiacardiovascular/files/2010/11/...Los vicios y defectos del estilo cientí-fico constituyen serios obstáculos para la investigación

Fico Destilacion

Prólogo CIENTÍ FICO . DEL SOCIALISMO UTÓ PICO AL ...archivo.juventudes.org/textos/Friedrich Engels/Del... · DEL SOCIALISMO UTÓ PICO AL SOCIALISMO CIENTÍ FICO . Prólogo De las

EMPREENDEDORISMO: Transformando Ideias em … · O GEN | Grupo Editorial Nacional, a maior plataforma editorial no segmento CTP (cientí fico, técnico e profissional), publica nas

SAN LUIS POTOSI...huitz, hoy Ciudad Santos, y la preparatoria y hasta el 20. año de Leyes en el Instituto Cientí fico y Literario de San Luis Potosí, hoy Universidad. Desempeñó

III - archivo.juventudes.orgarchivo.juventudes.org/textos/Friedrich Engels/Del Socialismo Utopic… · DEL SOCIALISMO UTÓ PICO AL SOCIALISMO CIENTÍ FICO . III De las OBRAS ESCOGIDAS

PADEIRO · Ingredientes: Farinha de trigo - 1 Kg Sal - 20 gramas Reforçador - 50 gramas Ovos – 2 unidades Margarina – 60 gramas Açúcar – 120 gramas ... cachorro quente, sonho,

Susana Santamarina Montila, directora de Atención …...Susana Santamarina Montila es la Presidenta del Comité Cientí - fico de las Jornadas de Atención Pri - mara del Principado

Fico Sylabus

fcm.unah.edu.hn · — Desarrollar ex— celencia cientí— fico—técnica en el manejo de la SECUENCIA DE ACTIVIDADES — Detección y captación de grupos de r.n. en UPS v comu—

Fico Intvi

Relatório Anual da Directora - ecdc.europa.eu · suas actividades nas áreas da vigilância, apoio cientí-fico, preparação e resposta, formação e comunicação em saúde. Vigilância

Gramas Esmeralda

CTUALIZACIONES Principales medidas en epidemiología · Concepto de medición, variables y escalas Una vez que se ha identificado un problema cientí-fico y se ha aventurado una explicación

Diretora Cientí - ECA