Extraccion Automatica de Metadatos con Athento

9
Extracción de Información con Athento Enero/2014

Transcript of Extraccion Automatica de Metadatos con Athento

Page 1: Extraccion Automatica de Metadatos con Athento

Extracción de Información con Athento

Enero/2014

Page 2: Extraccion Automatica de Metadatos con Athento

Índice!Buenas Prácticas !Método 1: Análisis de Imágenes !Método 2: Expresiones Regulares !Ejemplo práctico !!!

Page 3: Extraccion Automatica de Metadatos con Athento

Buenas Prácticas!!!Calidad de la imagen: mínimo 300 DPI (puntos por pulgada !!!!!

Page 4: Extraccion Automatica de Metadatos con Athento

Buenas Prácticas!!!Calidad de los documentos (manchas, dobleces, mal escaneo) !!!!!!

Page 5: Extraccion Automatica de Metadatos con Athento

Buenas Prácticas!!!Formatos estándares de Imagen PDF, TIFF, PNG24, JPEG etc. !!!!!!

Page 6: Extraccion Automatica de Metadatos con Athento

Análisis de los datos

Tenemos que saber que datos son relevantes para el usuario !No solo es relevantes el texto (imágenes, códigos de Barra)

Page 7: Extraccion Automatica de Metadatos con Athento

Trabajar con Datos

Obtener datos y aplicarle reglas !Apoyarse en el ciclo de vida de Athento para agilizar el trabajo

Page 8: Extraccion Automatica de Metadatos con Athento

Tipos de Datos a Extraer

Tipo de Dato Técnica Método de Extracción

Texto OCR Extracción por Expresiones regulares

Imágen Recorte de Imágenes Localización de los datos

Código de Barras Búsqueda de patrones Autodetección

Page 9: Extraccion Automatica de Metadatos con Athento

Why?

There is a better way to do document management”