Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad...
-
Upload
guilherme-madureira-paixao -
Category
Documents
-
view
217 -
download
3
Transcript of Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad...
![Page 1: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/1.jpg)
Universidade Federal do Paraná
Mineração de Dadose Computação Evolutiva
Aurora Trinidad Ramírez Pozo
![Page 2: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/2.jpg)
Ementa A disciplina integra duas áreas da ciência da
computação: mineração de dados e algoritmos evolutivos.
Em geral mineração de dados consiste na extração de conhecimento de dados. Conhecimento que poderá ser potencialmente útil na tomada de decisões inteligentes.
A idéia de utilizar algoritmos evolutivos nesta atividade se justifica por eles serem métodos de busca robustos.
Na disciplina se apresentara o conceito básico de ambas áreas focando-se na sua integração.
![Page 3: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/3.jpg)
Descoberta de Conhecimento (KDD)
DadosInformaçãoConhec.
$
Volume Valor
O conhecimento descoberto poderá ser utilizado para melhorar o processo de tomada de decisão nas organizações.
![Page 4: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/4.jpg)
Motivação Que tipo de produto cada perfil do
usuário compra?? Que predispõe um paciente a uma
determinada doença ???
![Page 5: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/5.jpg)
![Page 6: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/6.jpg)
O que é mineração de dados
Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos de descobrimento que produzem uma enumeração de padrões (ou
modelos) particular sobre os dados.Usama Fayyad, Ai Magazine, 1996.
![Page 7: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/7.jpg)
Mineração de dados Extrair informações úteis de bilhões de bits
de dados. O processo não-trivial de identificar padrões
válidos, novos, potencialmente úteis e compreensíveis em dados.
Técnicas /ferramentas para apresentar e analisar dados.
![Page 8: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/8.jpg)
Mineração de dados
Descobre padrões, tendências, infere regras Suporta, revisa e examina decisões
![Page 9: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/9.jpg)
Exemplo de conhecimento extraído
Banco de dados de lojas de produtos eletrônicos OLAP
Quantos videogames do tipo XYZ foram vendidos para o cliente ABC na data dd/mm/aa?
Mineração Se (idade < 18) E (profissão = "estudante") Então
(compra= "videogame") (90%) Utilidade: estratégias de marketing.
![Page 10: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/10.jpg)
Áreas de pesquisa relacionadas Aprendizagem de máquina, reconhecimento
de padrões, bancos de dados, estatística e Visualização de dados.
![Page 11: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/11.jpg)
Aprendizado de Maquina Abordagens
Baseado em lógica Algoritmos genéticos Programação genética Redes neurais
Tarefas Associação Agrupamento (Clustering) Classificação
![Page 12: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/12.jpg)
Programa
![Page 13: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/13.jpg)
Aprendizado de Máquinas
![Page 14: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/14.jpg)
Objetivo A área de aprendizado de
máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência.
![Page 15: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/15.jpg)
Conceito AM estuda métodos
computacionais para adquirir novos conhecimentos, novas habilidades e novos meios de organizar o conhecimento já existentes.
![Page 16: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/16.jpg)
O que é aprendizado Ganhar conhecimento, habilidades
aprendendo, por instrução ou experiência
Modificação do comportamento pela experiência
Uma maquina aprende quando muda sua estrutura de programa ou dados de tal maneira que espera-se melhorarias de sua performance no futuro.
![Page 17: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/17.jpg)
Definição Um programa de computador
aprende da experiência E com referência a algum tipo de tarefa T e medida de performance P. Se sua performance na tarefa T, medida por P, melhora com a experiência E.
![Page 18: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/18.jpg)
Jose Augusto Baranauskas
![Page 19: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/19.jpg)
![Page 20: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/20.jpg)
![Page 21: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/21.jpg)
![Page 22: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/22.jpg)
![Page 23: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/23.jpg)
![Page 24: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/24.jpg)
![Page 25: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/25.jpg)
![Page 26: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/26.jpg)
![Page 27: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/27.jpg)
![Page 28: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/28.jpg)
![Page 29: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/29.jpg)
![Page 30: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/30.jpg)
![Page 31: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/31.jpg)
![Page 32: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/32.jpg)
![Page 33: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/33.jpg)
![Page 34: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/34.jpg)
![Page 35: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/35.jpg)
Tarefa de Classificação Cada exemplo pertence a uma
classe pré-definida Cada exemplo consiste de:
Um atributo classe Um conjunto de atributos preditores
O objetivo é predizer a classe do exemplo dado seus valores de atributos preditores.
![Page 36: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/36.jpg)
Exemplo: Extraído de Freitas & Lavington 98
Uma editora internacional publica o livro “Guia de Restaurantes Franceses na Inglaterra” em 3 países: Inglaterra, França e Alemanha.
A editora tem um banco de dados sobre clientes nesses 3 países, e deseja saber quais clientes são mais prováveis compradores do livro (para fins de mala direta direcionada). Atributo meta: comprar (sim/não)
Para coletar mais dados: enviar material de propaganda para uma amostra de clientes, registrando se cada cliente que recebeu a propaganda comprou ou não o livro.
![Page 37: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/37.jpg)
Exemplo de ClassificaçãoSexo País Idade CompraM França 25 SimM Inglaterra 21 SimF França 23 SimF Inglaterra 34 SimF França 30 NãoM Alemanha 21 NãoM Alemanha 20 NãoF Alemanha 18 NãoF França 34 NãoM França 55 Não
![Page 38: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/38.jpg)
Árvores de Decisão
Alemanha Inglaterra
França
País
Não Sim
Sim Não
Idade
> 25< 25
![Page 39: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/39.jpg)
Modelo de Dependências Descoberta de dependências entre
atributos Regras de Associação
![Page 40: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/40.jpg)
Descoberta de Regras de Associação
Definição original: tipo especial de dados, chamado “basket data” (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item.
![Page 41: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/41.jpg)
Exemplo: [Freitas & Lavington 98]
leite café cerveja pão manteiga arroz feijão
1 não sim não sim sim não não
2 sim não sim sim sim não não
3 não sim não sim sim não não
4 sim sim não sim sim não não
5 não não sim não não não não
6 não não não não sim não não
7 não não não sim não não não
8 não não não não não não sim
9 não não não não não sim sim
10 não não não não não sim não
![Page 42: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/42.jpg)
Descoberta de Regras de Associação Uma regra de associação é um relacionamento
SE (X) ENTÃO (Y), onde X e Y são conjuntos de itens, com interseção vazia.
A cada regra são atribuídos 2 fatores: Suporte (Sup.) = No. de registros com X e
Y /No. Total de registros Confiança (Conf.) = No. de registros com X e
Y/ No. de registros com X Tarefa: descobrir todas as regras de associação
com um mínimo Sup e um mínimo Conf.
![Page 43: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/43.jpg)
Conjunto de Items Frequente: café, pão. Sup. = 0,3
Regra: SE (café) ENTÃO (pão). Conf. = 1 Conjunto de Items Frequente: café, manteiga.
Sup. = 0,3 Regra: SE (café) ENTÃO (manteiga). Conf. = 1 Conjunto de Items Frequente: pão, manteiga.
Sup = 0,4 Regra: SE (pão) ENTÃO (manteiga). Conf. = 0,8
Sup. = No. de registros com X e Y /No. Total de registros,Conf = No. de registros com X e Y/ No. de registros com X
![Page 44: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/44.jpg)
Sup. = No. de registros com X e Y /No. Total de registros,Conf = No. de registros com X e Y/ No. de registros com X
Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,8
Conjunto de Items Frequente: café,pão,manteiga Sup.=0,3
Regra: SE (café E pão) ENTÃO (manteiga). Conf.=1
Regra: SE (café E manteiga) ENTÃO (pão). Conf.=1
Regra: SE (café) ENTÃO (manteiga E pão). Conf.=1
![Page 45: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/45.jpg)
Associação vs. Classificação [Freitas 2000]
Associação: problema é "simétrico": todos os items podem aparecer ou no antecedente ou no consequente de uma regra;
qualidade de uma regra é avaliada por fatores de Conf e Sup definidos pelo usuário;
definição do problema é determinística: o sistema tem de achar todas regras com Sup e Conf maior ou igual a limiares pré definidos;
Na maioria da literatura, o desafio é projetar algoritmos eficientes.
![Page 46: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/46.jpg)
Classificação: problema é assimétrico: um único atributo
meta a ser previsto, dados demais atributos; regras são avaliadas em dados de teste não
vistos durante treinamento (prever o futuro); qualidade de uma regra é muito mais difícil
de avaliar, logo não é muito claro quais regras deveriam ser descobertas pelo sistema;
eficiência ainda é importante, mas o desafio principal é projetar algoritmos eficazes.
problema é não determinístico (indução)
![Page 47: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/47.jpg)
“Clustering” (Agrupamento)
O sistema “inventa” classes, agrupando registros semelhantes (isto é, com valores de atributos semelhantes) em uma mesma classe.
![Page 48: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/48.jpg)
Clusters
Antes Depois
![Page 49: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/49.jpg)
Cluster Após clustering, pode se aplicar
métodos de classificação e sumarização para descobrir regras de classificação (que discriminem registros de diferentes classes) e regras de sumarização (que produzem descrições características de cada classe)
![Page 50: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/50.jpg)
Classificação versus clustering.
Classificação: há um único atributo meta, e os demais
atributos são previsores; parte do problema consiste em determinar
automaticamente a importância dos atributos previsores;
há medidas objetivas para medir a qualidade da classificação (ex. taxa de acerto);
classificação é usada principalmente para previsão.
![Page 51: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/51.jpg)
Classificação versus clustering Clustering: não há um atributo especial; a importância de cada atributo é
geralmente considerada equivalente à dos demais;
é difícil medir a qualidade de clustering; Clustering é usado principalmente para
exploração e sumarização de dados.
![Page 52: Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo.](https://reader036.fdocument.pub/reader036/viewer/2022062522/5706384c1a28abb8238f61c6/html5/thumbnails/52.jpg)
Weka Relatório com apresentação 10 min. Uma exploração do software nos
conceitos vistos. Explorar alguma aplicação
interessante Relatório
Introdução, objetivos, desenvolvimento (conceitos envolvidos, experimentos) e conclusão.