Pentaho ETL
-
Upload
axel-morisson -
Category
Documents
-
view
241 -
download
0
description
Transcript of Pentaho ETL
1ERA PARTE
SOBRE LA HERRAMIENTA
PENTAHO ANTECEDENTES
Pentaho se define a sí mismo como una plataforma de BI “orientada a la
solución” y “centrada en procesos” que incluye todos los principales
componentes requeridos para implementar soluciones basados en procesos y ha
sido concebido desde el principio para estar basada en procesos. Las soluciones
que Pentaho pretende ofrecer se componen fundamentalmente de una
infraestructura de herramientas de análisis e informes integrados con un motor
de workflow de procesos de negocio. La plataforma será capaz de ejecutar las
reglas de negocio necesarias, expresadas en forma de procesos y actividades y de
presentar y entregar la información adecuada en el momento adecuado.
Su modelo de ingresos parece estar orientado a los servicios (soporte, formación,
consultoría y soporte a ISVs y distribuciones OEM) aunque en alguno de los
documentos y páginas que hemos examinado aparece mencionado algunas
funcionalidades “Premium” que hacen pensar en ingresos por futuras versiones
o funcionalidades de pago.
En su web presenta una organización por productos: Reporting, Analysis,
Dahsboards y Data Mining, acompañado por dos introducciones: a la plataforma
y a los productos. En dichas introducciones se hace mención específica al
workflow como una de las capacidades BI claves de la plataforma.
Productos
Pentaho Reporting:
Las características generales son:
Proporciona funcionalidad crítica para usuarios finales como:
Acceso vía web
Informes parametrizados
Scheduling
Suscripciones
Distribución (bursting)
Proporciona claras ventajas a especialistas en informes:
Acceso a fuentes de datos heterogéneos: relacional (vía jdbc), OLAP, XML,
transformaciones de Pentaho Data Integration.
Capacidad de integración en aplicaciones o portales: jsp, portlet, web
service.
Definición modular de informes (distinción entre presentación y
consulta)
Diseño de informes flexible
Entorno de diseño gráfico
Capacidad de uso de templates
Acceso a datos relacionados, OLAP y XML
Desarrollado para:
Ser entendible
Ser fácil de extender
No consumir muchos recursos
100% Java: portabilidad, escalabilidad e integración
Multiplataforma (tanto a nivel de cliente como servidor): MAC, Linux/Unix y
Windows
Pentaho Analysis:
Sus características generales son:
Vista dimensional de datos (por ventas, por periodo)
Navegar y explorar
o Análisis Ad Hoc
o Drill-down
o Seleccionar un especifico miembro para el análisis
Interactuar con alto rendimiento
o Tecnología optimizada para rápida respuesta interactiva
Data Mining:
Sus características son:
Descubrir patrones ocultos y correlaciónales en los datos
Prevenir eventos futuros basados en patrones históricos
Contar con la tecnología de:
o Poderoso motor de Data Mining
1
o Herramientas de Diseño Grafico
o Seguridad y conformidad
o Servicios Web, Repositorios y definiciones basadas en XML
o Rendimiento y escalabilidad.
Versiones6.0 2015-10-125.4 2015-06-155.3 2015-02-175.2 2014-10-065.1 2014-06-245.0 2013-11-194.8.0-stable 2012-11-294.5.0-stable 2012-05-073.10.0-stable 2011-10-283.9.0-stable 2011-09-153.8.0-stable 2011-04-043.7.0-stable 2010-12-053.6.0-stable 2010-06-213.5.2-stable 2010-02-253.5.0-stable 2009-10-193.0.0-stable 2009-05-212.0.0-stable 2009-01-061.7.1-stable 2008-08-221.7.0-stable 2008-07-171.6.0-stable 2007-11-121.2.0-stable 2007-02-21
REQUISITOS PREVIOS DE INSTALACIÓN
Para instalar Pentaho se debe cumplir con unos requisitos minimos :
Tener instalado JDK y configurado la variable de entorno JAVA_HOME con
la ruta donde se instaló.
Poseer memoria suficiente en memoria RAM mínimo 8gb
Espacio en Disco Duro 80GB Minimo
2
PASOS DE LA INSTALACIÓN
Descargar Pentaho de la suite oficial suite (Pentaho Business Analytics)
Descomprimir el fichero.
Ejecutar el instalador
3
2DA PARTE
IMPLEMENTACIÓN DE ETL EMPRESA DE TRABAJO PRÁCTICO ANTERIOR
Extracción de los datos de la fuente del trabajo practico anterior.
Primeramente para extraer los datos ingreso al CRM antes implementado en STEAK
HOUSE
Se exporta el fichero de los cantos creados.
4
Creación de los datos de entrada de las diferentes fuentes de datos
Para los datos de entrada definiré de ORO CRM
Tabla: Cuentas Clientes
Datos del Clientes
Fecha del ingreso cliente
5
Definición de tablas de dimensiones
La tabla dimensión se define de la siguiente manera
Definición de tablas de hechos
Filtrado de los datos: limpieza, consolidación, etc.
Ingresa a data integración para proceder a limpiar los datos que estén mal.
6
Cuenta Clientes
Nombres
Apellidos
Teléfono
Dirección
Registro Clientes
Datos
Fecha
Se escoge entrada CSV
Para la limpiar los valores que estén mal se utiliza Mapear valores que lo utilizare para
agregar información en un campo nulo.
7
Carga inicial del almacén: ordenación, agregaciones, etc.
8
9
Ejecutar
Correcto se comprueba en gestor de base de datos con la trasformación efectuada en
este caso el campo nulo se lo puso nuevo cliente
10
11