เลเลอกไมถือกไม่ถกูก เลือก SET50 DW · โครงสร้างราคาของ DW. Time Value 10 บาท ราคา DW
Mineração de Dados - Contextualização -...
Transcript of Mineração de Dados - Contextualização -...
![Page 1: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/1.jpg)
![Page 2: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/2.jpg)
Mineração de Dados - Contextualização
Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/
![Page 3: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/3.jpg)
Mineração de Dados - Contextualização
Uso da informação Síntese do conhecimento;
Manter, disseminar, organizar, criar conhecimento e tomar decisões mais assertivas com base nos dados;
Sistemas de informação, sistemas especialistas, ...
![Page 4: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/4.jpg)
Mineração de Dados - Contextualização
Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/
![Page 5: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/5.jpg)
Mineração de Dados - Contextualização
![Page 6: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/6.jpg)
Mineração de Dados - Contextualização
Mudança de cenário
Ficou mais complexo devido as características dos dados, da forma como eles são gerados e das novas necessidades dos usuários.
O volume de dados gerados é muito alto.
A velocidade com que eles são gerados e perdem a validade é muito rápida.
A variedade das fontes é bem diversificada (estruturada + não estruturada)
![Page 7: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/7.jpg)
Mineração de Dados - Contextualização
Sistemas de informação, sistemas especialistas, ...
Foco no registro das transações (passado).
Usuário deseja informações do estado atual (presente) e dos próximos estados (futuro).
![Page 8: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/8.jpg)
Exemplos
Fonte: http://www.predpol.com/
![Page 9: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/9.jpg)
Exemplos
Fonte: U.S. Geological Survey - https://www.usgs.gov/
![Page 10: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/10.jpg)
Exemplos
Fonte: Amazon- https://www.amazon.com/
![Page 11: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/11.jpg)
Exemplos
Entradas: fontes de dados da internet, incluindo redes sociais e blogs Saídas: identificação em tempo real de surtos com alto índice de confiabilidade (85%) Fonte: http://www.observatorio.inweb.org.br
![Page 12: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/12.jpg)
Exemplos
Entradas: Opiniões sobre o mercado de ações nos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações
Fonte: https://stocktwits.com/
![Page 13: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/13.jpg)
Exemplos
Entradas: Milhares de previsões simultâneas do mercado de ações dos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações
Fonte: numer.ai/
![Page 14: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/14.jpg)
Mineração de Dados - Contextualização
Características dos exemplos mostrados
Manipulam grandes volumes de informação;
Recebem dados de diversas fontes simultaneamente.
![Page 15: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/15.jpg)
Knowledge Discovery in Databases (KDD)
Descoberta de conhecimento em bancos
de dados - Knowledge Discovery in Databases
(KDD)
Processo que envolve desde a preparação da
base de dados até a apresentação do
conhecimento.
Extração do conhecimento através de técnicas de mineração de dados.
![Page 16: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/16.jpg)
Knowledge Discovery in Databases (KDD)
Exemplo
Pergunta:
É possível classificar espécies do gênero Iris levando em consideração apenas o tamanho das plantas?
![Page 17: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/17.jpg)
Knowledge Discovery in Databases (KDD)
Aquisição e pré-processamento dos dados
Exemplo com a linguagem R
![Page 18: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/18.jpg)
Knowledge Discovery in Databases (KDD)
Análise exploratória
Visualização dos dados
![Page 19: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/19.jpg)
Knowledge Discovery in Databases (KDD)
Modelagem dos dados
Classificação da espécie em função das características da planta
![Page 20: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/20.jpg)
Knowledge Discovery in Databases (KDD)
Avaliação do modelo
Classificação das plantas
Quantos falsos positivos?
Quantos falsos negativos?
Qual a acurácia do modelo?
Acertou 95% das previsões!
![Page 21: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/21.jpg)
Knowledge Discovery in Databases (KDD)
![Page 22: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/22.jpg)
Knowledge Discovery in Databases (KDD)
Problema multidisciplinar
• Integração, consolidação e remodelagem de dados para processamento analítico
• Análise exploratória de dados
• Pré-processamento dos dados
• Aprendizagem computacional
• Inferência
• Avaliação de desempenho
• Ambientes de consulta (OLAP e OLAM)
![Page 23: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/23.jpg)
Knowledge Discovery in Databases (KDD)
Tudo começa com uma (boa) pergunta Que acontecerá com as vendas do produto A se faltar
o produto B nas prateleiras da loja?
Quanto valerão as ações da empresa X daqui a 15 dias?
Quantas equipes de manutenção devo deixar de sobreaviso no carnaval ?
Quantas peças sobressalentes devo disponibilizar para poder atender às necessidades em 95% dos casos ?
Se só temos capacidade para fiscalizar 10% das empresas por ano, quais deveríamos fiscalizar?
Que acontecerá com a arrecadação se for concedido um benefício fiscal de 20% de redução?
...
![Page 24: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/24.jpg)
Knowledge Discovery in Databases (KDD)
• Data WareHouse (DW): oferece os dados com a visão histórica adequada tanto à extração de conhecimento quanto à apresentação de resultados
• Data Mining (DM): agrupa os dados, otimiza classificações, estimativas e previsões faz associações e extrai o conhecimento implícito nos dados (regras do negócio)
• On-Line Analytical Processing (OLAP) / Mining (OLAM): Ambientes de consulta que apresentam os resultados tanto das consultas diretas ao Data WareHouse quanto das respostas da mineração dos dados contidos no Data WareHouse.
KDD é uma atividade
multidisciplinar que se baseia em 3 áreas da computação:
![Page 25: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/25.jpg)
Knowledge Discovery in Databases (KDD)
Adaptado de [Pappa, G. L.,2009]
![Page 26: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/26.jpg)
![Page 27: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/27.jpg)
Mineração de Dados
Extração de conhecimento de grandes volumes de dados
Identificação de padrões úteis
Suporte à decisão
Gerência de negócios
Controle de produção
Análise de mercado
Exploração científica
...
![Page 28: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/28.jpg)
Processo para Mineração de Dados
Processo de KDD com mineração de dados
Análise sistemática dos dados
Metodologias para documentação de processos de KDD
Padrão CRISP-DM (Cross-Industry Standard Process for Data Mining)
Metodologia padrão não proprietária que identifica as diferentes fases na implantação de um projeto de data mining (DMP).
Última versão: http://www.crisp-dm.org/
![Page 29: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/29.jpg)
CRISP-DM
Visão Geral
![Page 30: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/30.jpg)
CRISP-DM
Seis fases cíclicas
Business Understanding
Data Understanding
Data Preparation
Modeling Evaluation Deployment
![Page 31: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/31.jpg)
CRISP-DM
Business Understanding
Essa fase determina:
Os objetivos de negócio (as perguntas!);
Avaliação do modelo atual;
Os objetivos específicos da mineração dos dados;
O desenvolvimento de um plano de projeto.
![Page 32: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/32.jpg)
CRISP-DM
Data Understanding
Levantamento dos requisitos dos dados:
Coleta inicial dos dados;
Descrição dos dados;
Exploração dos dados;
Verificação da qualidade dos dados;
Identificação visual de padrões.
![Page 33: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/33.jpg)
CRISP-DM
Data Preparation
Seleção, limpeza e formatação dos dados:
Extração dos dados selecionados;
“Limpeza” dos ruídos existentes nos dados;
Transformação dos dados;
Identificação visual/estatística de padrões.
![Page 34: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/34.jpg)
CRISP-DM
Modeling Criação do modelo de mineração de dados:
Agrupamento: Identificação de grupos de indivíduos/registros que têm perfis semelhantes;
Regressão: Estimação de valores contínuos na resposta do sistema;
Classificação: Decisão do sistema categorizando cada indivíduo/registro em uma classe pré-definida;
Extração de regras de associação e de classificação: Apresentação de relações entre as variáveis de entrada e as respostas do sistema.
![Page 35: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/35.jpg)
CRISP-DM
Evaluation Avaliação dos resultados gerados a partir do modelo:
Visualização dos resultados em gráficos;
Análise estatística dos resultados;
Validação da generalização dos modelos;
Identificação dos padrões úteis ou inesperados e alinhamento com a Fase I (business understanding)
![Page 36: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/36.jpg)
CRISP-DM
Deployment Modelo incorporado aos processos de negócio:
Previsão de cenários;
Identificação de processos críticos;
Monitoramento dos resultados;
Avaliação de desempenho.
![Page 37: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/37.jpg)
CRISP-DM
Referências Guia da IBM para a plataforma SPSS
ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf
![Page 38: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;](https://reader034.fdocument.pub/reader034/viewer/2022042611/5a72789d7f8b9a98538d9a97/html5/thumbnails/38.jpg)
CRISP-DM
Exercício
Refazer o tutorial de mineração de dados do Titanic – Competição do Kaggle
https://www.kaggle.com/amp1996/an-interactive-data-science-tutorial/code/notebook