Post on 15-Oct-2020
Inteligência nos Negócios (Business Inteligente)
Sistemas de Informação – Sistemas de Apoio a Decisão
Aran Bey Tcholakian Morales, Dr. Eng.
(Apostila 7)
2
BI
Dados ( OLTP e outras fontes)
Data Warehouse/ Data Marts
Ferramentas OLAP
Mineração de dados - KDD
Interpretação/
Avaliação
Decisões
Analise
de dados
Analises dos
tomadores de
decisão
Fundamentação da disciplina
Dados
Informação
Conhecimento
Análises Exploratória de Dados
3
Agrupamentos
4
Exemplo de Agrupamento
• Agrupar os alunos de uma escola
– Tarefa T: agrupar os alunos da escola em função das condições socioeconômicas dos alunos;
– Experiência de Treinamento E: uma base de dados com os dados socioeconômicos dos alunos;
– Medida de Desempenho P: distância média entre os alunos de cada grupo;
5
Agrupamentos
Introdução: Principais conceitos e dificuldades da técnica de
agrupamento;
Algoritmos por particionamentos: Medidas de Similaridade,
algoritmo k-means;
Conceitos
Conjunto de métodos usados para a construção de grupos de objetos
com base nas semelhanças e diferenças entre os objetos, de tal
maneira que os grupos obtidos são os mais homogêneos e bem separados
possíveis.
A Clusterização é uma tarefa prévia à classificação. Sem classes, não se
pode determinar a pertinência de um objeto em determinado contexto.
Conceitos
O problema de Clustering é descrito como:
Tendo um conjunto de dados, de objetos, tentar agrupá-los de forma que
os elementos que compõem cada grupo sejam mais parecidos entre si
do que parecidos com os elementos dos outros grupos.
Em resumo, é colocar os iguais (ou quase iguais) juntos num mesmo
grupo e os desiguais em grupos distintos.
8
• Como agrupar os animais seguintes?
Com bico
Sem bico
TerraÁgua
Ovíparo
Mamífero
9
Desafios Como medir a similaridade entre os itens? (como qualificar os itens)
Como formar os agrupamentos?
(que variáveis fazem parte da geração dos agrupamentos)
Quantos grupos devem ser formados?
(como definir o número de agrupamentos, ou o raio de abrangência do
agrupamento).
Trabalha com dados categóricos e numéricos e é de fácil aplicação;
Alta dependência na escolha da métrica de similaridade;
Sensibilidade aos parâmetros iniciais e tipos de dados;
Pode ser difícil interpretar os resultados alcançados;
Vantagens e desvantagens
13
Medidas de similaridade
Medidas de Similaridade
As medidas de similaridade fornecem valores numéricos que
expressam a “distância” (correlação ou associação) entre dois objetos.
Quanto menor o valor da “distancia”, mais semelhantes serão os
objetos e deverão estes ficarem no mesmo cluster.
Não há uma medida de similaridade que sirva para todos os tipos de
variáveis que podem existir numa base de dados.
A similaridade pode ser medida de diversas formas:
Medidas Correlacionais (e.g., correlação de Pearson);
Medidas de Distância (e.g., distância euclidiana);
Medidas de Associação (e.g., índice de Jaccard)
Variáveis numéricas:
As medidas que é normalmente usadas para computar as dissimilaridades
de objetos descritos por tais variáveis é a: Distancia Euclidiana
Medidas de Similaridade
22
22
2
11 )(...)()(),( pp yxyxyxyxd
17
Algoritmos por Particionamento
Observações
Item x1 x2
A 5 3
B -1 1
C 1 -2
D -3 -2
Dataset a ser agrupado
Variáveis
Algoritmo K-means
Coordenadas dos centros
Cluster x1 x2
(AB) (5 + (-1)) / 2 = 2 (3 + 1) / 2 = 2
(CD) (1 + (-3)) / 2 = -1 (-2 + (-2)) / 2 = -2
Passo 1
Particiona-se os itens em dois clusters (AB) e (CD) e calcula-se a
coordenada (x1,x2) do centróide do cluster.
Algoritmo K-means
Passo 2
Calcula-se a similaridade de cada item em relação ao centróide
e em relação a cada item no grupo mais próximo. Se um item é
movido o centróide do cluster dever ser atualizado.
Algoritmo K-means
d2(A, (AB)) = (5 - 2)2 + (3 - 2)2 = 10
d2(B, (AB)) = (-1 - 2)2 + (1 - 2)2 = 10
d2(C, (AB)) = (1 - 2)2 + (-2 - 2)2 = 17
d2(D, (AB)) = (-3 - 2)2 + (-2 - 2)2 = 41
d2(A, (CD)) = (5 + 1)2 + (3 + 2)2 = 61
d2(B, (CD)) = (-1 + 1)2 + (1 + 2)2 = 9
d2(C, (CD)) = (1 + 1)2 + (-2 + 2)2 = 4d2(D, (CD)) = (-3 + 1)2 + (-2 + 2)2 = 4
Ocorre o deslocamento do item (B) para o segundo cluster e
calcula-se novamente as coordenadas.
Coordenadas dos centros
Cluster x1 x2
A 5 3
(BCD) -1 -1
Algoritmo K-means
Calcula-se a distância dos itens em relação ao cluster, para verificar a
parada do algoritmo.
Distâncias dos centróides
Item
Cluster A B C D
A 0 40 41 89
(BCD) 52 4 5 5
0)33()55(),( 222 AAd
40)31()51(),( 222 ABd
52)13()15())(,( 222 BCDAd
Algoritmo K-means
4)11()11())(,( 222 BCDBd
25
Algoritmo K-means
Processo para resolver o exercício 1, item a da Folha 13.
Configuração do componente k-means
26
27
28
Algoritmo K-means
Processo para resolver o exercício 1, item b da Folha 13.
Configuração do componente normalize
29
30
Algoritmo K-means
1. Processo para resolver o exercício 2 da Folha 13, item a.
Configuração do componente Select Atributes
31
Algoritmo K-means
Configuração do componente K-means
32
Algoritmo K-means
Visualização dos resultados.
33
Algoritmo K-means
Visualização dos resultados
34
Algoritmo K-means
Processo para resolver o exercício 2, item b. Configuração do
componente Normalize
35
Algoritmo K-means
Processo para resolver o exercício 2, item c.
36
Algoritmo K-means
Processo para resolver o exercício 3 Folha 13.
Configuração do componente Set Role
37
Processo para resolver o exercício 3 , parte 2 da Folha 13.
Configuração do componente Set Role e Validation
38
39
Processo para resolver
o exercício 4, da folha 13.