Propuesta de actualización de macro-tesauros a partir de noticias de divulgación
-
Upload
maria-jose-banos-moreno -
Category
Technology
-
view
245 -
download
0
Transcript of Propuesta de actualización de macro-tesauros a partir de noticias de divulgación
![Page 1: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/1.jpg)
Actualización de tesauros a partir de
noticias de divulgaciónMaría-José Baños-Moreno, Juan Antonio Pastor-Sánchez,
Rodrigo Martínez-Béjar
I Congreso ISKO España y Portugal / XI Congreso ISKO España – Oporto, 7/9 de noviembre de 2013
![Page 2: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/2.jpg)
INTRODUCCIÓN● Contexto: crecimiento exponencial de
información en Internet● Herramientas de control: tesauros, para 1)
la descripción de documentos; 2) la recuperación de información; 3) construir otros productos documentales
● Destacan: Unesco y Eurovoc.● Requisito fundamental: actualización
frecuente
![Page 3: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/3.jpg)
OBJETIVOS
● Analizar el grado de actualización de los Tesauros de la UNESCO y de la Unión Europea (Teurovoc);
● Conocer si los Tesauros de la UNESCO y Eurovoc pueden ser utilizados para indizar noticias;
![Page 4: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/4.jpg)
METODOLOGÍA
● Obtención de muestra mediante:
○ Selección de países punteros en ciencia y tecnología;○ Selección del periódico más leído por país;
○ Selección de una noticia diaria de la sección de ciencia y tecnología;
○ Extracción de entre 1 y 6 palabras clave mediante indización en lenguaje natural;
○ Traducción a español, francés e inglés
--> Corpus de 320 noticias y 599 términos.
![Page 5: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/5.jpg)
METODOLOGÍA● Construcción de una colección de términos de
tesauro, a la que se interroga posteriormente:
● Búsqueda de equivalencias, mediante Apache Solr, entre pares de términos según score proporcionado
![Page 6: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/6.jpg)
METODOLOGÍA● Búsqueda de equivalencias, mediante Apache Solr:
○ Por palabras en índice general (Q1).○ Literal en el campo descriptor (Q2).○ Literal en el campo no-descriptor (Q3).○ Lematizada de expresión en el campo descriptor (Q4).○ Lematizada de expresión en el campo no-descriptor
(Q5).○ Lematizada por palabras en campo descriptor (Q6).○ Lematizada por palabras en campo no-descriptor (Q7)
![Page 7: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/7.jpg)
METODOLOGÍA● Apache Solr proporciona una medida de similitud
(score) que clasifica los resultados:
○ A las consultas Q2 y Q3 se les aplicó un factor de potenciación del score de 5 y 3.
○ Experimentalmente se comprobó la necesidad de potenciar los resultados de la consulta Q1, aplicando en este caso un boost de 2,5.
○ Los primeros datos obtenidos aconsejaron establecer un umbral mínimo de score por debajo del cual debían desecharse dichos resultados: 0,4 para el Tesauro de la UNESCO y 0,5 para EUROVOC
![Page 8: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/8.jpg)
METODOLOGÍA● Resultados obtenidos con Solr para los términos de
los tesauros:
![Page 9: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/9.jpg)
METODOLOGÍA
● Clasificación en función de la relación entre los pares de términos en:
○ Correctos (TC)○ Sinónimos (TS)○ Específicos (TE)○ Genéricos (TG)○ Término relacionado (TR);○ Término nuevo (TN);○ Falso equivalente (TFE)
![Page 10: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/10.jpg)
RESULTADOS● Varios cálculos de precisión:
○ Precisión exacta (TC) y precisión cercana (TC+TS): Casi 50% de términos indizados aparecían en el tesauro;
○ Precisión total (TC+TS+TG+TE): Cerca de 75% de palabras clave extraídas mantienen alguna relación con los términos de tesauros, aunque no implica una recuperación satisfactoria
![Page 11: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/11.jpg)
CONCLUSIONES● Casi la mitad de los términos extraídos, son recogidos por los dos
tesauros. Se puede estimar que existe cierta preocupación por su renovación;
● De las equivalencias halladas, más de un 25% son de tipo jerárquico (TE, TG) o asociativo (TR). Una búsqueda eventual por dichas palabras clave no aportaría el resultado más adecuado.
● Para casi un 25% de los términos extraídos no se halló ninguna equivalencia (TN) o era falsa (TFE).
● Tanto el tesauro de la Unesco como Eurovoc necesitan incrementar su frecuencia de actualización;
● En su estado actual, estos tesauros no pueden ser utilizados para indizar noticias;
![Page 12: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/12.jpg)
LÍNEAS FUTURAS● Los lenguajes pivote resuelven casos de
homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir otras lenguas al estudio
● Apache Solr, a diferencia de otras técnicas, como N-gramas, detecta automáticamente términos nuevos. Otra línea podría centrarse en el análisis de las búsquedas para mejorar los resultados
![Page 13: Propuesta de actualización de macro-tesauros a partir de noticias de divulgación](https://reader033.fdocument.pub/reader033/viewer/2022060204/55a037e71a28ab645a8b472b/html5/thumbnails/13.jpg)
GRACIAS POR VUESTRA ATENCIÓN