Inteligência nos Negócios (Business Inteligente)Inteligência nos Negócios (Business Inteligente)...

Inteligência nos Negócios (Business Inteligente)

Sistemas de Informação – Sistemas de Apoio a Decisão

Aran Bey Tcholakian Morales, Dr. Eng.

(Apostila 7)

2

BI

Dados ( OLTP e outras fontes)

Data Warehouse/ Data Marts

Ferramentas OLAP

Mineração de dados - KDD

Interpretação/

Avaliação

Decisões

Analise

de dados

Analises dos

tomadores de

decisão

Fundamentação da disciplina

Dados

Informação

Conhecimento

Análises Exploratória de Dados

3

Agrupamentos

4

Exemplo de Agrupamento

• Agrupar os alunos de uma escola

– Tarefa T: agrupar os alunos da escola em função das condições socioeconômicas dos alunos;

– Experiência de Treinamento E: uma base de dados com os dados socioeconômicos dos alunos;

– Medida de Desempenho P: distância média entre os alunos de cada grupo;

5

Agrupamentos

Introdução: Principais conceitos e dificuldades da técnica de

agrupamento;

Algoritmos por particionamentos: Medidas de Similaridade,

algoritmo k-means;

Conceitos

Conjunto de métodos usados para a construção de grupos de objetos

com base nas semelhanças e diferenças entre os objetos, de tal

maneira que os grupos obtidos são os mais homogêneos e bem separados

possíveis.

A Clusterização é uma tarefa prévia à classificação. Sem classes, não se

pode determinar a pertinência de um objeto em determinado contexto.

Conceitos

O problema de Clustering é descrito como:

Tendo um conjunto de dados, de objetos, tentar agrupá-los de forma que

os elementos que compõem cada grupo sejam mais parecidos entre si

do que parecidos com os elementos dos outros grupos.

Em resumo, é colocar os iguais (ou quase iguais) juntos num mesmo

grupo e os desiguais em grupos distintos.

8

• Como agrupar os animais seguintes?

Com bico

Sem bico

TerraÁgua

Ovíparo

Mamífero

9

Desafios Como medir a similaridade entre os itens? (como qualificar os itens)

Como formar os agrupamentos?

(que variáveis fazem parte da geração dos agrupamentos)

Quantos grupos devem ser formados?

(como definir o número de agrupamentos, ou o raio de abrangência do

agrupamento).

Trabalha com dados categóricos e numéricos e é de fácil aplicação;

Alta dependência na escolha da métrica de similaridade;

Sensibilidade aos parâmetros iniciais e tipos de dados;

Pode ser difícil interpretar os resultados alcançados;

Vantagens e desvantagens

13

Medidas de similaridade

Medidas de Similaridade

As medidas de similaridade fornecem valores numéricos que

expressam a “distância” (correlação ou associação) entre dois objetos.

Quanto menor o valor da “distancia”, mais semelhantes serão os

objetos e deverão estes ficarem no mesmo cluster.

Não há uma medida de similaridade que sirva para todos os tipos de

variáveis que podem existir numa base de dados.

A similaridade pode ser medida de diversas formas:

Medidas Correlacionais (e.g., correlação de Pearson);

Medidas de Distância (e.g., distância euclidiana);

Medidas de Associação (e.g., índice de Jaccard)

Variáveis numéricas:

As medidas que é normalmente usadas para computar as dissimilaridades

de objetos descritos por tais variáveis é a: Distancia Euclidiana

Medidas de Similaridade

22

22

2

11 )(...)()(),( pp yxyxyxyxd

17

Algoritmos por Particionamento

Observações

Item x1 x2

A 5 3

B -1 1

C 1 -2

D -3 -2

Dataset a ser agrupado

Variáveis

Algoritmo K-means

Coordenadas dos centros

Cluster x1 x2

(AB) (5 + (-1)) / 2 = 2 (3 + 1) / 2 = 2

(CD) (1 + (-3)) / 2 = -1 (-2 + (-2)) / 2 = -2

Passo 1

Particiona-se os itens em dois clusters (AB) e (CD) e calcula-se a

coordenada (x1,x2) do centróide do cluster.

Algoritmo K-means

Passo 2

Calcula-se a similaridade de cada item em relação ao centróide

e em relação a cada item no grupo mais próximo. Se um item é

movido o centróide do cluster dever ser atualizado.

Algoritmo K-means

d2(A, (AB)) = (5 - 2)2 + (3 - 2)2 = 10

d2(B, (AB)) = (-1 - 2)2 + (1 - 2)2 = 10

d2(C, (AB)) = (1 - 2)2 + (-2 - 2)2 = 17

d2(D, (AB)) = (-3 - 2)2 + (-2 - 2)2 = 41

d2(A, (CD)) = (5 + 1)2 + (3 + 2)2 = 61

d2(B, (CD)) = (-1 + 1)2 + (1 + 2)2 = 9

d2(C, (CD)) = (1 + 1)2 + (-2 + 2)2 = 4d2(D, (CD)) = (-3 + 1)2 + (-2 + 2)2 = 4

Ocorre o deslocamento do item (B) para o segundo cluster e

calcula-se novamente as coordenadas.

Coordenadas dos centros

Cluster x1 x2

A 5 3

(BCD) -1 -1

Algoritmo K-means

Calcula-se a distância dos itens em relação ao cluster, para verificar a

parada do algoritmo.

Distâncias dos centróides

Item

Cluster A B C D

A 0 40 41 89

(BCD) 52 4 5 5

0)33()55(),( 222 AAd

40)31()51(),( 222 ABd

52)13()15())(,( 222 BCDAd

Algoritmo K-means

4)11()11())(,( 222 BCDBd

25

Algoritmo K-means

Processo para resolver o exercício 1, item a da Folha 13.

Configuração do componente k-means

28

Algoritmo K-means

Processo para resolver o exercício 1, item b da Folha 13.

Configuração do componente normalize

30

Algoritmo K-means

1. Processo para resolver o exercício 2 da Folha 13, item a.

Configuração do componente Select Atributes

31

Algoritmo K-means

Configuração do componente K-means

32

Algoritmo K-means

Visualização dos resultados.

33

Algoritmo K-means

Visualização dos resultados

34

Algoritmo K-means

Processo para resolver o exercício 2, item b. Configuração do

componente Normalize

35

Algoritmo K-means

Processo para resolver o exercício 2, item c.

36

Algoritmo K-means

Processo para resolver o exercício 3 Folha 13.

Configuração do componente Set Role

37

Processo para resolver o exercício 3 , parte 2 da Folha 13.

Configuração do componente Set Role e Validation

39

Processo para resolver

o exercício 4, da folha 13.

Inteligência nos Negócios (Business Inteligente)Inteligência nos Negócios (Business Inteligente)...

Documents

Transcript of Inteligência nos Negócios (Business Inteligente)Inteligência nos Negócios (Business Inteligente)...