Oficina Pentaho
-
Upload
wesley-seidel -
Category
Technology
-
view
6.244 -
download
4
description
Transcript of Oficina Pentaho
Wesley Seidel [email protected]/~wesleys
Oficina de Pentaho
O que é BI?
● São muitos os conceitos.
● Vamos falar da idéia: ● A idéia é que um sistema de BI possua, dentre
outras as seguintes características [Caiçara Júnior]:● Fornecer informações relevantes para auxiliar na
tomada de decisão; ● Disponíveis a qualquer momento;● Fácil utilização.
BI possui muitos nomes:
● Para empresários: ● busca de mercado;● Inteligência competitiva;
● Para outros:● relatório;● análises;● análise do negócio;● suporte a decisão.
OLTP
● On-Line Transactional Processing
Ué? Mas eu não consigo gerar esses dados e análises direto de um sistema transacional?
Sim, só que...
● As organizações geralmente possuem:● Mais de um sistema;● Sistemas armazenam em fontes distintas;
– MySql, SQL Server, Texto, XML ...● Existencia de planilhas;● Diferença entre representações de um mesma
informação;– M/F, 0/1, H/M ...
● Etc...
E agora? Quem poderá me Salvar?
Opssss... Bem... Que tal:
● Sistemas de apoio à decisão (SAD)
ou
● Sistemas OLAP (On-Line Analytical Processing);
O que é OLAP ?
● Sistema de informação utilizado para viabilizar a análise da empresa e auxiliar na tomada de decisão. [Segundo Machado (2004)]
OLTP vs OLAPOLTP OLAP
Origem dos dados
Dados operacionais Dados consolidadosVários Sistemas OLTP's
Propósito dos dados
Controlar e executar tarefas fundamentais do negócio
Auxiliar o planejamento, resolução de problemas e suporte a decisão
Organização dos dados
Entidade Relacionamento;Normalizado
Modelagem Multi-dimensional;De-normalizado
Idade dos dados
Presente Histórico, Atual e Projetado
Velocidade de processamento
Geralmente muito rápido; Depende da quantidade de dados; cargas podem levar horas
Consultas Relativamente simples;Retorna “poucos” registros;
Mais complexas;Envolvem agregações;
...
Mais sobre OLAP:
● Sistemas OLAP oferecem:● Diferentes perspectivas, n-dimensões;
– visão multidimensional das informações● De forma rápida;● Consistente;● Normalmente na forma de CUBOS OLAP's.
CUBOS OLAP's ?
CUBOS OLAP's ?
● Cubos é uma forma de representação dos dados em um formato Multi-dimensional.
CUBOS OLAP's ?
http://msdn.microsoft.com/pt-br/library/ms175449.aspx
CUBOS OLAP's
● Cada face representa um aspecto do assunto que se deseja analisar ● ( Dimensão );
● Cada célula é representada por uma medida; ● (Campo da tabela de Fatos );
● É possível observar várias visões do dado que está sendo apresentado.
Composição de um CUBO
ou
composição modelo multidimensional:
Composição de um CUBO
● Fatos ou Tabela Fato: ● Eventos que nos interessam avaliar;
● Dimensões:● São os elementos que compõe um fato;
– Ex:● Produtos, períodos ( dia, mês, trimestre, ano ... ), segmento de clientes,
fornecedores, ...;
● Hierarquias da dimensão: – Período: Ano → Mês → Dia
– Localização: País → Estados → Cidades → Bairros
Composição de um CUBO
● Métricas: ● São os valores que estamos interessados em
medir.
– Ex: ● Qnt de produtos vendidos;● Lucro obtido (R$);● Quantidade de votos;
Representação lógica de um CUBO:
● Baseada no modelo relacional;● Esquemas:
● Estrela (star schema)– A Tabela Fato no centro e as Dimensões ao seu redor;
● Floco de Neve (snowflake)– Parecido o esquema estrela, porém normaliza as
hierarquias das dimensões;
Esquema Estrela
Esquema Estrela
Snowflake
Snowflake
Operações Básica de um sistema OLAP:
● Dril-Down: ● Nível mais detalhados;
● Dril-Up ou Roll-up: ● Nível mais agregados;
● Slice: ● Redução de escopo e mantendo a mesma perspectiva;
● Dice: ● Mudança de perspectiva;
● Pivoting: ● Alterar eixos de visualização.
E o Datawarehouse? O que é ?
● Um conjunto de dados para apoio a decisão e possui as características [Inmon]: ● -Orientado a assuntos
– Ao invés de aplicações;● -Integrado
– Adaptação e padronização dos dados vindos de diferentes sistemas;
● -Não volátil:– Sem atualizações, e sim carga inicial ou incremental e
modo de acesso apenas leitura ;● -Variável em relação ao tempo.
ETL
● É a etapa do processo de construção de um DW que consiste em:
● Extract:● Dados dos OLTP's
● Transformation:● Limpeza e Transformação ( padronização )
● Load:● “Alimentar” o DW.
Como tudo isso funciona junto ?
ETL
Data Warehouse
DM1DM2 DM3
SistemaBI
A Pentaho BI Suite.
O que é?
A Pentaho BI Suite.
● Pentaho BI Suite é uma plataforma Open Source para desenvolvimento de Soluções em Business Intelligence.
● Mantida pela Empresa Pentaho ela é suportada por comunidades de usuários e desenvolvedores ao redor do mundo
A Pentaho BI Suite.
● Composta por diversas ferramentas:● Para analistas e Gestores:
● Para a equipe de desenvolvimento do projeto de BI
Arquitetura
Servidor BI
Responsável pelo gerenciamento dos indicadores, compartilhamento entre os usuários, controle de acesso, origem dos dados, entre outras coisas.
Servidor BI
PAC( Pentaho Administrator Console)
PRD (Pentaho Report Designer)
PDI (Pentaho Data Integration)
PSW (Pentaho Schema Workbench)
PME (Pentaho Metadata Editor)
Weka
ETL
Data Warehouse
DM1DM2 DM3
SistemaBI
PSW
PME(Ad-Hoc)
PRD
PDI
Weka
???????
???????
Nossa Oficina!
Efetuar um pequeno ETL
● Origem:● extras/dados/candidatos_2008.csv
can_id;ano;turno;codmun;codibge6;codcargo;codcand;codpart;siglapart;nomepart;
nomecand;nomeurna;data_nasc;codnasc;sexo;estciv;inst;ocup;cpf;leg;sit_pos;
PDI (Pentaho Data Integration)
Esquema Estrela.
FATO_Candidatos
DIM_Cargos
DIM_Municipios
DIM_Partidos
DIM_Pessoas
PSW (Pentaho Schema Workbench)
Mãos à Obra.
Referências
● INMON. W. H., Como construir um Data warehouse (tradução da segunda edição), editora campus, 1997.
● KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: O guia completo para modelagem dimensional.
● LIMA, Thalles da Silva, CARVALHO, Wesley Seidel, Montando um cubo Olap com o MS Analisys Services, 2007.
● SOUZA, Caio Moreno, Integração de ferramentas de código aberto (java, pentaho e android) e mapas, aplicada a projetos de inteligência de negócios, 2010 (Monografia).
● BOBSIN, Juliana Bitello, Uma solução bi utilizando ferramentas open source, 2010 (Monografia).
● CARNIEL, Anderson, BJIN OLAP: Uma ferramenta OLAP baseada no índice bitmap de junção, 2012 (TCC).
● Suíte Pentaho. <http://www.pentaho.com>.
Obrigado !