Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá...
-
Upload
adelaida-infante -
Category
Documents
-
view
9 -
download
3
Transcript of Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá...
Seminario de Extracción de Información
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos
2
INDICE
1. Problemática2. ¿ Qué es DAPPER3. ¿ Cómo crear un Dapp?4. ¿ Cómo usar un Dapp?5. Dos ejemplos prácticos6. Características Interesantes7. Algunos problemas de DAPPER
3
Problemática
En 2008, alrededor de 160 millones de webs
Estructura heterogénea y dinámica
Datos semi-estructurados
Desarrollo manual de wrappers◦ Especializado por web◦ Muy costoso de desarrollar◦ Todavía más de mantener
4
¿Qué es DAPPER?
Herramienta de Extracción de Información desde Internet
5
¿Qué es DAPPER?
Servicio web, gratuito (registro)No es necesario programar (entorno
visual)Fases:
◦1 desarrollo del Dapp para una web◦∞ usos del Dapp sobre diferentes webs
Nos permitirá:◦Extraer la información requerida de una web◦Utilizarla de diferentes modos
6
¿Cómo crear un DAPP?
1. Varias muestras de webs con la misma estructura
7
¿Cómo crear un DAPP?
8
¿Cómo crear un DAPP?
1. Varias muestras de webs con la misma estructura
2. Definir información que queremos
9
¿Cómo funciona DAPPER?TITULA
RSUBTITULAR
CUERPO
10
¿Cómo crear un DAPP?
1. Varias muestras de webs con la misma estructura
2. Definir información que queremos
3. DAPPER aprende y propone automáticamente• Información estática / dinámica• Estructura y etiquetas HTML (XPATH)
4. Refinamos el Dapp5. Guardamos el Dapp
11
¿Cómo usar un DAPP?
Suscribirnos mediante un lector◦ RSS Feed (formato de redifusión de fuentes
web)
◦ Atom Feed
Ponerlo en nuestra página web◦ Gadget Google◦ Módulo Netvibes◦ Widget en flash
12
¿Cómo usar un DAPP?
Usarlo desde un lenguaje de programación
◦ XML◦ JSON◦ YAML, XSL, CSV …
Otros◦ iCal◦ Google Map
13
Ejemplo Práctico IExtraer información de noticias
del diario MARCA◦Titular◦Subtitular◦Cuerpo
Crear un widget para mi página web
14
Ejemplo Práctico IICrear un buscador que use yahoo
Crear un gadget para iGoogle
15
Características Interesantes
Uso de variables de entrada◦ Query para un buscador
Creación de alertas◦ Email cuando en cuerpo de noticia aparezca
“Rubén Izquierdo”
Enlazar varios Dapp◦ Dapp buscador inglés Dapp traductor
Explotación de Dapp’s◦ API JAVA◦ Python…
16
Algunos problemas de DAPPER
No funciona con flash
Algunas web bloquean al robot de DAPPER
Limitación hits/segundo
Se ejecuta en el servidor de Yahoo◦Dependencia de Yahoo◦Dependencia de la carga de la red
¿Sugerencias? ¿Preguntas?
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos