1 INTELIGÊNCIA ARTIFICIAL NOS NEGÓCIOS para a tomada de decisão.
Inteligência nos Negócios (Business Inteligente)Inteligência nos Negócios (Business Inteligente)...
Transcript of Inteligência nos Negócios (Business Inteligente)Inteligência nos Negócios (Business Inteligente)...
Inteligência nos Negócios (Business Inteligente)
Sistemas de Informação – Sistemas de Apoio a Decisão
Aran Bey Tcholakian Morales, Dr. Eng.
(Apostila 7)
2
BI
Dados ( OLTP e outras fontes)
Data Warehouse/ Data Marts
Ferramentas OLAP
Mineração de dados - KDD
Interpretação/
Avaliação
Decisões
Analise
de dados
Analises dos
tomadores de
decisão
Fundamentação da disciplina
Dados
Informação
Conhecimento
Análises Exploratória de Dados
3
Agrupamentos
4
Exemplo de Agrupamento
• Agrupar os alunos de uma escola
– Tarefa T: agrupar os alunos da escola em função das condições socioeconômicas dos alunos;
– Experiência de Treinamento E: uma base de dados com os dados socioeconômicos dos alunos;
– Medida de Desempenho P: distância média entre os alunos de cada grupo;
5
Agrupamentos
Introdução: Principais conceitos e dificuldades da técnica de
agrupamento;
Algoritmos por particionamentos: Medidas de Similaridade,
algoritmo k-means;
Conceitos
Conjunto de métodos usados para a construção de grupos de objetos
com base nas semelhanças e diferenças entre os objetos, de tal
maneira que os grupos obtidos são os mais homogêneos e bem separados
possíveis.
A Clusterização é uma tarefa prévia à classificação. Sem classes, não se
pode determinar a pertinência de um objeto em determinado contexto.
Conceitos
O problema de Clustering é descrito como:
Tendo um conjunto de dados, de objetos, tentar agrupá-los de forma que
os elementos que compõem cada grupo sejam mais parecidos entre si
do que parecidos com os elementos dos outros grupos.
Em resumo, é colocar os iguais (ou quase iguais) juntos num mesmo
grupo e os desiguais em grupos distintos.
8
• Como agrupar os animais seguintes?
Com bico
Sem bico
TerraÁgua
Ovíparo
Mamífero
9
Desafios Como medir a similaridade entre os itens? (como qualificar os itens)
Como formar os agrupamentos?
(que variáveis fazem parte da geração dos agrupamentos)
Quantos grupos devem ser formados?
(como definir o número de agrupamentos, ou o raio de abrangência do
agrupamento).
Trabalha com dados categóricos e numéricos e é de fácil aplicação;
Alta dependência na escolha da métrica de similaridade;
Sensibilidade aos parâmetros iniciais e tipos de dados;
Pode ser difícil interpretar os resultados alcançados;
Vantagens e desvantagens
13
Medidas de similaridade
Medidas de Similaridade
As medidas de similaridade fornecem valores numéricos que
expressam a “distância” (correlação ou associação) entre dois objetos.
Quanto menor o valor da “distancia”, mais semelhantes serão os
objetos e deverão estes ficarem no mesmo cluster.
Não há uma medida de similaridade que sirva para todos os tipos de
variáveis que podem existir numa base de dados.
A similaridade pode ser medida de diversas formas:
Medidas Correlacionais (e.g., correlação de Pearson);
Medidas de Distância (e.g., distância euclidiana);
Medidas de Associação (e.g., índice de Jaccard)
Variáveis numéricas:
As medidas que é normalmente usadas para computar as dissimilaridades
de objetos descritos por tais variáveis é a: Distancia Euclidiana
Medidas de Similaridade
22
22
2
11 )(...)()(),( pp yxyxyxyxd
17
Algoritmos por Particionamento
Observações
Item x1 x2
A 5 3
B -1 1
C 1 -2
D -3 -2
Dataset a ser agrupado
Variáveis
Algoritmo K-means
Coordenadas dos centros
Cluster x1 x2
(AB) (5 + (-1)) / 2 = 2 (3 + 1) / 2 = 2
(CD) (1 + (-3)) / 2 = -1 (-2 + (-2)) / 2 = -2
Passo 1
Particiona-se os itens em dois clusters (AB) e (CD) e calcula-se a
coordenada (x1,x2) do centróide do cluster.
Algoritmo K-means
Passo 2
Calcula-se a similaridade de cada item em relação ao centróide
e em relação a cada item no grupo mais próximo. Se um item é
movido o centróide do cluster dever ser atualizado.
Algoritmo K-means
d2(A, (AB)) = (5 - 2)2 + (3 - 2)2 = 10
d2(B, (AB)) = (-1 - 2)2 + (1 - 2)2 = 10
d2(C, (AB)) = (1 - 2)2 + (-2 - 2)2 = 17
d2(D, (AB)) = (-3 - 2)2 + (-2 - 2)2 = 41
d2(A, (CD)) = (5 + 1)2 + (3 + 2)2 = 61
d2(B, (CD)) = (-1 + 1)2 + (1 + 2)2 = 9
d2(C, (CD)) = (1 + 1)2 + (-2 + 2)2 = 4d2(D, (CD)) = (-3 + 1)2 + (-2 + 2)2 = 4
Ocorre o deslocamento do item (B) para o segundo cluster e
calcula-se novamente as coordenadas.
Coordenadas dos centros
Cluster x1 x2
A 5 3
(BCD) -1 -1
Algoritmo K-means
Calcula-se a distância dos itens em relação ao cluster, para verificar a
parada do algoritmo.
Distâncias dos centróides
Item
Cluster A B C D
A 0 40 41 89
(BCD) 52 4 5 5
0)33()55(),( 222 AAd
40)31()51(),( 222 ABd
52)13()15())(,( 222 BCDAd
Algoritmo K-means
4)11()11())(,( 222 BCDBd
25
Algoritmo K-means
Processo para resolver o exercício 1, item a da Folha 13.
Configuração do componente k-means
26
27
28
Algoritmo K-means
Processo para resolver o exercício 1, item b da Folha 13.
Configuração do componente normalize
29
30
Algoritmo K-means
1. Processo para resolver o exercício 2 da Folha 13, item a.
Configuração do componente Select Atributes
31
Algoritmo K-means
Configuração do componente K-means
32
Algoritmo K-means
Visualização dos resultados.
33
Algoritmo K-means
Visualização dos resultados
34
Algoritmo K-means
Processo para resolver o exercício 2, item b. Configuração do
componente Normalize
35
Algoritmo K-means
Processo para resolver o exercício 2, item c.
36
Algoritmo K-means
Processo para resolver o exercício 3 Folha 13.
Configuração do componente Set Role
37
Processo para resolver o exercício 3 , parte 2 da Folha 13.
Configuração do componente Set Role e Validation
38
39
Processo para resolver
o exercício 4, da folha 13.