Taller ETL

18
Los informes son la capa visible Integración Datos no sólo en entornos analíticos Importancia de la Calidad Extracción Limpieza de Datos Servidores Red Herramientas de OLAP / Business Intelligence / Cuadro de Mando Transformación Carga de Datos Bases de Datos Middleware

description

Herramientas de OLAP / Business Intelligence / Cuadro de Mando

Transcript of Taller ETL

Page 1: Taller ETL

Los informes son la capa visible …• Integración Datos no sólo en entornos

analíticos• Importancia de la Calidad

Extracción

Limpieza de Datos

Servidores

Red

Herramientas de OLAP / Business Intelligence / Cuadro de Mando

Transformación

Carga de Datos

Bases de Datos

Middleware

Page 2: Taller ETL

Data Marts Estructurados: Visión Completa

Aplicaciones: ERP,...

BBDD

Tiempo Real, WS, Http

Legacy

Ficheros: FF, XML

Integración + Calidad de

Datos

DWH

DM Compras

DM Financiero

DM Ventas

Diseño MapeosPerfilado de

Datos

ETL, Estandarización, Desduplicación

Almacenamiento:Agregación,

Indexación,...

ReplicaciónDistribución

AnálisisReporting

Cuadros Mando

Metadatos: Análisis Impacto, Linaje de datos, Auditoría, Monitorización, etc

Page 3: Taller ETL

Técnicas de Optimización Estructural y Física

Data Marts Staging Area

Data Warehouse Relacional Dimensional

Actualidad de Datos Agrupaciones basadas en tiempo

Tiem

po

Retención de Histórico Seguridad

EST

RU

CT

UR

AL

Posi

ción

Distribución

Acceso Navegación

Uso

Herramientas Rendimiento

Tamaño

Disponibilidad

Recuperación

FÍSI

CO

Impl

emen

taci

ón

DBMS

¿Cómo debe optimizarse cada almacén de datos en la

Implementación?

Page 4: Taller ETL

Mapeo de Datos Mapeo LÓGICO -

describe cómo ir desde donde se encuentra hasta donde quiere ir

Mapeo FÍSICO - Indica las rutas, baches, desvíos atajos de la

carretera TRANSPORTE -

Decida si está conduciendo un coche deportivo o un camión de recogida de chatarra

PLANIFICACIÓN - Indica cuándo saldrá y cuánto espera que le

lleve llegar al destino

Procesos y Estrategias de Carga del DWH

Page 5: Taller ETL

Soluciones de Extracción, Transformación y Carga de Datos (ETL)

Aproximación de primera generación (o crecimiento ‘casero’)

Mapean origen a destino con capacidades variables de transformación y limpieza

Generan código o directamente deben programarse

Suelen controlar metadatos limitados

FUENTE: Doug Hackney, 1998

Page 6: Taller ETL

Plataformas de Integración de Datos

Soluciones integradas Capacidad de implantación a nivel corporativo Metadatos completos, abiertos y extensibles Abanico de transformaciones y reglas de negocio Análisis, entrega y planificación integradas Gestión Ad-hoc de agregaciones Monitorización y Auditoría integradas Funciones avanzadas de Calidad de Datos Versionados, despliegues inteligentes

Page 7: Taller ETL

Def Origen

2. IMPORTACIÓN DE DEFICIONES DE ORÍGENES

Def Destino3. CREACIÓN DE ESQUEMADESTINO

Mapeo

4. CREACIÓN DE MAPPINGS

Proceso de Diseño

1. CREACIÓN DE REPOSITORIO

Page 8: Taller ETL

Transformaciones Más Comunes Creación de valores por defecto para los nulos Gestión de fechas Selección o filtrado de datos origen Unión de orígenes heterogéneos

(SAP+Ficheros+Tablas+…) Normalización de los ficheros de datos Generación de esquemas en estrella Creación de estrategias de actualización Creación y actualización de agregaciones Creación de dimensiones ‘slowly-changing’

Page 9: Taller ETL

Algunas TransformacionesSelección de datos del Origen representa la consulta o primer filtrado/ordenación de los datos origen

Normalización convierte registros de orígenes relacionales o VSAM a registros normalizados (cláusulas OCCURS, REDEFINES)

Cálculo de Expresiones/Nuevos Campos realiza cálculos a nivel de campoFiltro funciona como un filtro condicional de los registros procesadosAgregación realiza cálculos agregados (totales o incrementales)Rango limita los registros a los primeros o últimos de un rangoEstrategia de Actualización para marcar cada registro como inserción, actualización, borrado, o registro rechazadoLookup busca valores complementarios y los pasa a otros objetosProcedimientos Externos/Almacenados llama a programas desarrollados en otros lenguajes o en la base de datosGenerador de Secuencia genera nuevos identificadores únicos

Page 10: Taller ETL

Trabajo con Transformaciones

DESTINOESTRATEGIA DE ACTUALIZACIÓNBasado en la coincidencia de Job_IDs,

LOOKUPBusca Job_IDs en el destinoT_JOBS

ORIGENEXTRACCIÓNDEL ORIGEN

Ejemplo: Estrategia de Actualización

Page 11: Taller ETL

Diseño de Cargas

Ordene los datos por secuencias específicas de carga

Fuerce a reglas limitadas de integridad de datos Busque la carga correcta de cada paso Construya estadísticas de carga y mensajes de

error Cree el plan para cargas fallidas – qué debe ocurrir Produzca la notificación inmediata y automática

en caso de fallos (y/o éxitos) en las cargas

FUENTE: O’Neil, 1997

Page 12: Taller ETL

Consejos sobre Planificación de Cargas Orden de carga – cargue primero las tablas independientes Determine la ventana necesaria de carga – use las horas de

inicio y final para determinar el tiempo necesario para las cargas

Ejecute cargas en paralelo Ejecución concurrente Uso de threads, desarrollos multiproceso, paralelización de

base de datos No sobrecargue los sistemas origen o destino

Carque en paralelo un mismo destino Datos de sistemas independientes que van al mismo destino

Cargue múltiples destinos en paralelo Datos del mismo origen que vayan a diferentes destinos –

ahorre accesos de lectura

Page 13: Taller ETL

Plan de Carga de Destinos

Primero, tablas independientes Después, tablas que no contienen claves foráneas

a otras tablas Por último, las tablas que contienen claves

foráneas a otras tablas Tenga cuidado con transacciones de base de

datos e intervalos de commit: los datos pueden estar cargados pero no validados

Page 14: Taller ETL

Timing

Ejecución manual Ejecución periódica

cada n minutos/horas/días un máximo de veces/ para siempre

Ejecución concreta En un momento determinado Cada primer martes de mes a las

21:43 Ejecución basada en eventos

Disponibilidad del fichero origen Sólo si la carga anterior acabó

bien/mal

Planificación de Cargas

Planificación Planificación propio de la herramienta

Planificador genérico Control^M, Tareas Programadas de Windows

Scripts de carga (.bat, .sh, JCL)

Page 15: Taller ETL

El mantenimiento de un data mart es una revisión constante de los procesos para optimizar valores de datos, pasos, tiempos, recursos utilizados, accesos a sistemas origen o destino … debido a los constantes requerimientos nuevos de los usuarios finales y el crecimiento en funcionalidad y volumen de datos que eso conlleva

Monitorización de Cargas

Page 16: Taller ETL

La Creación de un Data Warehouse Sostenible y sus Data Marts

Incrementales Requiere la Automatización

de los Procesos de Carga

Page 17: Taller ETL

Integración de Datos, más allá del BI

El ETL se ha quedado relegado a entornos analíticos

Aparecen necesidades de Integración de datos para otro tipo de proyectos Externalización Migraciones Integración de Aplicaciones, BBDD Sincronización etc

Page 18: Taller ETL

¿Un proceso simple?

ETL