Sra. Jeanette Delgado Nazario Escuela Gerardo Sellés Solá Caguas II.
INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.
-
Upload
alejo-cervera -
Category
Documents
-
view
2 -
download
0
Transcript of INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.
INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS
Felipe José Sellés Tur
¿Y esto cómo se hace?
Cada día se coge la prensa escrita.
Cada día se coge la prensa escrita.
Se lee cuidadosamente buscando noticias relacionadas con la salud.
¿Y esto cómo se hace?
Cada día se coge la prensa escrita.
Se lee cuidadosamente buscando noticias relacionadas con la salud.
Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes
¿Y esto cómo se hace?
Cada día se coge la prensa escrita.
Se lee cuidadosamente buscando noticias relacionadas con la salud.
Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes
¿Y esto cómo se hace?
¿Y el texto de la noticia?
¿Productividad?
Cada día se coge la prensa escrita.
Se lee cuidadosamente buscando noticias relacionadas con la salud.
Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes
¿Y esto cómo se hace?
¿Y el texto de la noticia?
¿Productividad?
Inquire
Proyecto para la extracción de información de artículos médicos sobre los periódicos: El País, El Mundo, ABC, La Vanguardia y El Periódico y sus suplementos.
Ampliación con extracción de noticias publicadas en la red: Crawler especializado
Aplicación web para mostrar y gestionar las noticias descargadas
Repositorio de artículos y diarios en pdf
¿Cómo funciona?
Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante
¿Cómo funciona?
Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante
Crawler especializado
Utiliza webUtils, una librería que facilita las tareas de navegación y descarga web. Implementada por Javier Fernández
Descarga a diario los pdf de los periódicos Accede a la web privada con login y password Navega hasta la sección de descargas
Obtención de noticias Recorre las secciones de los portales online
obteniendo ÚNICAMENTE los enlaces a las noticias
Descarga las noticias
¿Cómo funciona?
Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante
Extracción de los artículos
Obtención de las diferentes partes de una noticia (titular, subtitular, autor, texto…) Desde el pdf
PDF2HTML herramienta que convierte el pdf a html
Parseado del html para “montar” los artículos Desde la web
Accediendo al DOM del documento descargado Filtrado del texto que buscamos con HTMLParser
Titulares: <div class=“titular”>…
Extracción de noticias con PDF2HTML
Extracción de noticias con PDF2HTML
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Extracción de noticias con PDF2HTML
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Extracción de noticias con PDF2HTML
¿Cómo extraemos las diferentes noticias y sus partes?
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Clasificación de las líneas de texto
¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto
en función de su estilo.
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Clasificación de las líneas de texto
¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto
en función de su estilo. Titulares: negrita, tamaño
grande… Subtitulares: color menos
oscuro, tamaño mediano… Texto: tamaño pequeño…
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Clasificación de las líneas de texto
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto
en función de su estilo. Titulares: negrita, tamaño
grande… Subtitulares: color menos
oscuro, tamaño mediano… Texto: tamaño pequeño…
Clasificación de las líneas de texto
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto
en función de su estilo. Titulares: negrita, tamaño
grande… Subtitulares: color menos
oscuro, tamaño mediano… Texto: tamaño pequeño…
Clasificación de las líneas de texto
¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto
en función de su estilo. Titulares: negrita, tamaño
grande… Subtitulares: color menos
oscuro, tamaño mediano… Texto: tamaño pequeño…
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Clasificación de las líneas de texto
Montando el puzle
¿Y ahora cómo se a que noticia pertenece cada línea de texto?
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Montando el puzle
¿Y ahora cómo se a que noticia pertenece cada línea de texto? Cada titular obtenido es un
artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto …
<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
Montando el puzle<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
¿Y ahora cómo se a que noticia pertenece cada línea de texto? Cada titular obtenido es un
artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto …
Obtengo la posición de la línea
Montando el puzle<html>
.
.
.
<body>
.
.
.
<div style=“position:absolute;top:850;left:41>
<span font-weight:bold; font-size:45px;>
Vilagarcía combina erotismo, rock y gastronomía en el Salón del
Atlántico
</span>
</div>
.
.
.
</body>
</html>
¿Y ahora cómo se a que noticia pertenece cada línea de texto? Cada titular obtenido es un
artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto …
Obtengo la posición de la línea
Asigno a cada línea el titular al que pertenece Por proximidad Tipo de línea …
¿Cómo funciona?
Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante
Clasificación de las noticias
Se clasifica el texto utilizando Infomap Utiliza una variante de LSA
Aprende los vectores que representan los significados de las palabras
Indexa los documentos en un corpus y puede realizar recuperación de información
Implementación de un wrapper en java
Obtiene los artículos médicos y los clasifica Tipo: Artículo, Opinión… Especialidad: Enfermedades infecciosas, Oncología… Tópico: VIH, pediatría…
Corpus construido por Sonia Vázquez A partir de los datos históricos que se introducían a mano
Errores por la introducción del texto manual Falta del cuerpo de la noticia, lo que supone la mayoría de la
información
¿Cómo funciona?
Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información
relevante
Extracción de la información relevante
Se trata de recuperar las personas, asociaciones, empresas, o medios de información que aparecen en las noticias Utiliza Freeling para obtener las diferentes entidades
nombradas. Implementación de un Wrapper para lanzar Freeling en java
Clasificación de las diferentes entidades Sociedad-Civil Científico-Sanitaria Industrial
Uso de diccionarios para diferenciar las distintas entidades Expertos Empresas, Instituciones o asociaciones Revistas …
Se guarda la información en una BD “almacén”.
La aplicación web
La página de inicio muestra los periódicos sobre los que existen artículos médicos, obtenidos del PDF o de las hemerotecas on-line de los distintos periódicos.Se pueden consultar por fecha y periódico.Facilita enlaces a los pdfs descargados de cada periódico.
En la imagen siguiente se muestra uno de los pdfs que se obtienen automáticamente a diario, en concreto el del ABC. Además nos da la opción de descargarlo.
Repositorio pdfs
Al seleccionar los artículos de un periódico, en este ejemplo El País, se muestra la extracción de la información (izquierda) junto a su fuente (derecha). En este caso se trata de un artículo pendiente de revisar extraído de la hemeroteca on-line de El País. Los datos del artículo se pueden modificar y editar, pudiendo guardar dichos cambios que quedarán almacenados en la base de datos.
Información obtenida
A continuación se muestran más datos de los que se extraen de los artículos. En este caso se aprecia el titular, subtitular, el texto o el autor del artículo, entre otros datos. Como se ha comentado antes todos estos datos pueden ser modificados por el usuario.
Información obtenida
En esta imagen se muestran los expertos extraídos del artículo. Estos pueden ser modificados, borrados o se pueden añadir nuevos; como mucho habrán 8 expertos.
Información obtenida
Una vez revisado el artículo, guardamos los cambios, el artículo pasa de pendiente a revisado y se inserta una fila nueva en la BD.
Finalidad: Base de datos
Ejemplo de cómo aprovechar la tecnología desarrollada para nuevos proyectos
DOSSIER GPLSI
Dossier
¿Y si aprovechamos los módulos desarrollados para la obtención de noticias de cualquier género?
Dossier
¿Y si aprovechamos los módulos desarrollados para la obtención de noticias de cualquier género?
Dossier
Dossier de prensa automatizado Información de los medios sobre tu empresa u
organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e
internacionales
Dossier
Dossier de prensa automatizado Información de los medios sobre tu empresa u
organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e
internacionales Vigilancia competitiva
Vigila cientos de fuentes cada día Extrae información de boletines oficiales Filtra información irrelevante Envía avisos programables Almacena la información ya procesada
Dossier
Dossier de prensa automatizado Información de los medios sobre tu empresa u
organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e
internacionales Vigilancia competitiva
Vigila cientos de fuentes cada día Extrae información de boletines oficiales Filtra información irrelevante Envía avisos programables Almacena la información ya procesada
Gestión Documental
Módulos principales
Newsdowloader Es el núcleo de la aplicación, se compone
principalmente de un crawler, un clasificador y un motor de búsqueda. Se encarga de descargar, clasificar las noticias y distribuirlas en los diferentes dossiers según esta clasificación.
Dossier Se trata del portal del dossier. Es una aplicación
web que permite administrar usuarios, gestionar las noticias que queremos publicar, generar el dossier en pdf o enviarlo por correo.
Dossearch El buscador del dossier, permite realizar búsquedas
en toda la hemeroteca con la posibilidad de filtrar entre fechas o periódicos en concreto.
¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para
descargar y obtener noticias Implementación de nuevos módulos para
acelerar la incorporación de nuevos periódicos Dapper XPATH RSS
Nuevas fuentes Boletines oficiales
¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para
descargar y obtener noticias Arranque y clasificación sin necesidad de
un corpus. Uso de bolsa de palabras para clasificación
inicial de noticias. La bolsa de palabras la define cada usuario
según sus necesidades
¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para
descargar y obtener noticias Arranque y clasificación sin necesidad de
un corpus. Creación de dossier en pdf
Posibilidad de envío por correo Edición del mensaje Configuración de lista de destinatarios
¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para
descargar y obtener noticias Arranque y clasificación sin necesidad de
un corpus. Creación de dossier en pdf Vigilancia y gestión documental
Accede al portal y comparte la información obtenida rápidamente
¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para
descargar y obtener noticias Arranque y clasificación sin necesidad de
un corpus. Creación de dossier en pdf Vigilancia y gestión documental Buscador de noticias
Indexación de las noticias Aplicación web buscador
Filtrado por fecha Clustering de periódicos
La aplicación dossier
Menú de gestión del Dossier
Gestión de las noticias
Opciones del menú
Dossearch: El buscador
Muchas gracias por la atención
¿Preguntas, sugerencias?