Modelo Arquitectura ETL

5
Modelo Arquitectura ETL – Datawarehouse Introducción Objetivo Presentar una arquitectura modular para el manejo del ETL y acoplar este a un modelo mas detallado de explotación de información y técnicas de BI para implementación de un Datawarehouse de negocio. Procesos ETL: 1. Procesos de extracción de Datos. 2. Procesos de Transferencia. 3. Procesos de Filtración y Estandarización 4. Procesos de Validación y Limpieza 5. Procesos de Transformación y Consolidación 6. Procesos de Carga. 7. Procesos de Control de Calidad. Reglas de calidad a aplicarse para la carga de datos en los repositorios finales (Archivos planos o tablas de B.D.) 1. Reglas de Filtración. 2. Reglas de Estandarización. 3. Reglas de Integración. 4. Reglas de Validación. 5. Reglas de Limpieza. 6. Reglas de Transformación. 7. Reglas de Consolidación. Procesos de Extracción de Datos Inputs Fuentes de Datos por cada operación. Outputs Archivos Planos de Datos Reportes Log’s del Proceso Registros de Auditoria y de Control Diccionario de Datos 1. Descripción del Proceso.

Transcript of Modelo Arquitectura ETL

Page 1: Modelo Arquitectura ETL

Modelo Arquitectura ETL – Datawarehouse

Introducción

ObjetivoPresentar una arquitectura modular para el manejo del ETL y acoplar este a un modelo mas detallado de explotación de información y técnicas de BI para implementación de un Datawarehouse de negocio.

Procesos ETL:1. Procesos de extracción de Datos.2. Procesos de Transferencia.3. Procesos de Filtración y Estandarización4. Procesos de Validación y Limpieza5. Procesos de Transformación y Consolidación6. Procesos de Carga.7. Procesos de Control de Calidad.

Reglas de calidad a aplicarse para la carga de datos en los repositorios finales (Archivos planos o tablas de B.D.)

1. Reglas de Filtración.2. Reglas de Estandarización.3. Reglas de Integración.4. Reglas de Validación.5. Reglas de Limpieza.6. Reglas de Transformación.7. Reglas de Consolidación.

Procesos de Extracción de Datos

InputsFuentes de Datos por cada operación. OutputsArchivos Planos de DatosReportes Log’s del ProcesoRegistros de Auditoria y de ControlDiccionario de Datos

1. Descripción del Proceso.El método de extracción depende de la plataforma de origen.Los archivos planos de datos son en su mayoría una copia de las fuentes de origen.

2. Reportes de auditoria y de Control.Debe de contener mínimamente la siguiente información:- Fecha y hora de la extracción.- Totales de control, cualitativos y cuantitativos para la información extraida.- Conciliación de los totales de control.

Page 2: Modelo Arquitectura ETL

Extracción

1

1

1

1

FUENTES

PLANOS

PLATAFORMAS ARCHIVOS PLANOS GENERADOS POR PLATAFORMA

MEDIACION, INTERCONEXION,RICE, RED, ETC

TTFILE, ASCCI_CALL, ASCCI_CONF, ETC,

SERVIDOR DWH

2

2

2

2

Transferencia

Proceso de Transferencia

InputsFuentes de Datos extraídos de cada plataforma de Origen. OutputsArchivos Planos de Datos a la plataforma destino (DWH).Reportes Log’s del Proceso

1. Descripción del Proceso.Las fuentes son leídas o depositadas en batch o en línea, dependiendo del volumen de datos y de la velocidad de transmisión de la red utilizada.Los archivos planos son transferidos a la plataforma destino (DWH) utilizando el protocolo de transferencia de archivos (ftp) o utilizando procedimientos que brinda la herramienta ETL para su extracción en línea o en batch.

Procesos de Filtración y Estandarización

Procesos de Filtración InputsFuentes de Datos autorizados por grupo de información (TI, RED, COMERCIAL, etc)Fuentes de Datos pertenecientes a DWH.Diccionario de Datos OutputsArchivos de Datos a estandarizar.Archivos de Datos filtrados que no requieren estandarización.Reportes de Log’s del Proceso.

Page 3: Modelo Arquitectura ETL

Registros de Auditoria y de Control.Diccionario de Datos

1. Descripción del Proceso.La filtración es el proceso en el cual se eliminan los datos que no necesitan ser incluidos en las tablas de destino. Los campos de los archivos que no tienen cruce con los datos de destino, o los registros que cumplan ciertas condiciones, son excluidos. Los que deben ser incluidos se separan entre aquellos que requieren estandarización y los que no la requiran.Las fuentes de datos redundantes o comunes son las requeridas para mantener la integridad referencial de los registros eliminados durante el proceso de filtración.El reporte de auditoría y de control de la filtración debe contener al menos la siguiente información:- Conteo de Registros filtrados por el sistema.- Conteo de Registros filtrados por el usuario.Para los registros filtrados y no filtrados, o totales de control, de tipo cualitativo y cuantitativo para los campos seleccionados deben:- Conciliar con los totales de control.

2. Reglas de Filtración.Remoción de los campos individuales de un archivo. La regla es la indicación del campo a ser excluido. La regla se aplica al campo.Remoción de una fila o más filas, o registros completos de un archivo. Las reglas especifican las condiciones por las cuales el registro será borrado. La regla se aplica al archivo.

Procesos de Estandarización

InputsArchivos de Datos a estandarizar.Archivos de Estándares.Archivos Externos para la comparación. OutputsArchivos de Datos Estandarizados.Reporte de log’s del proceso.Registros de Auditoria y de control.

1. Descripción del Proceso.El objetivo del proceso es estandarizar los datos en valores atómicos, sus formatos, sus valores, de manera que un formato consistente sirva para identificar registros duplicados, validarlos y consolidar fuentes comunes o redundantes. El proceso aplica las reglas de estandarización de los datos.El reporte de auditoria y de control de estandarización debería tener mínimamente lo siguiente:- Conteo de registros estandarizados.- Conteo de registros no estandarizados.- Conciliación de registros totales de control.- Conteo de perfil de los campos estandarizados en el registro.

2. Reglas de Estandarización.

Page 4: Modelo Arquitectura ETL

Estas reglas convierten los campos no estandarizados en formatos estandarizados para valores estándares. Los campos no estandarizados son aquellos en los cuales dos valores diferentes significan lo mismo o están en formato inconsistente, creando problemas para su utilización.- Redundancia de Valor en el Dominio.- Inconsistencia de formatos.- Valores no atómicos en los datos.- Valores con significado embebido.

Actividades para el proceso de estandarización

Procesos de Integración