Projeto e Treinamento de MLPs Prof. Júlio Cesar Nievola PPGIA - PUCPR.
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... ·...
Transcript of Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... ·...
![Page 1: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/1.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
������������� ����
![Page 2: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/2.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
���� ���� �
� Coleção de objetos de dados e seus atributos
� Um atributo é uma propriedade ou característica de um objeto
– Exemplos: cor dos olhos de uma pessoa, temperatura, etc.
– Atributo também é conhecido como variável, campo ou característica
� Uma coleção de atributos descreve um objeto
– Objeto também é conhecido como registro, ponto, caso, amostra, entidade, ou instância
Tid Refund Marital Status
Taxable Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
Atributos
Objetos
![Page 3: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/3.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
����� ���������
� Valores de atributos são números ou símbolos assinalados a um atributo
� Distinção entre atributos e valores de atributos– Um mesmo atributo pode ser mapeado em diferentes
valores de atributo� Exemplo: altura pode ser medida em pés ou metros
– Diferentes atributos podem ser mapeados no mesmo conjunto de valores� Exemplo: Valores de atributo para ID e idade são inteiros� Mas propriedades dos valores dos atributos podem ser diferentes
– ID não tem limite mas idade tem um valor máximo e um mínimo
![Page 4: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/4.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ���������
� Há diferentes tipos de atributos– Nominal
� Exemplos: números de ID, cor dos olhos, códigos de CEP
– Ordinal� Exemplos: ordem (e.g., gosto de batata frita em uma escala
entre 1-10), graus, altura em {alto, médio, baixo}
– Intervalar� Exemplos: datas de calendário, temperaturas em Celsius ou
Fahrenheit.
– Razão� Exemplos: temperatura em Kelvin, comprimento, tempo,
contagem
![Page 5: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/5.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
���������� � ����� � �������
� O tipo de um atributo depende de quais das seguintes propriedades ele possui:– Distinção: = ≠– Ordem: < > – Adição: + -– Multiplicação: * /
– Atributo Nominal: distinção– Atributo Ordinal: distinção & ordem– Atributo Intervalar: distinção, ordem & adição– Atributo Razão: todas as quatro propriedades
![Page 6: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/6.jpg)
Tipo de atributo
Descrição Exemplos Operações
Nominal Os valores de um atributo nominal são apenas nomes diferentes, i.e., atributos nominais fornecem sóinformação suficiente para distinguir um objeto de outro. (=, ≠)
Códigos CEP, números de ID de empregados, cor dos olhos, sexo: {masculino, feminino}
Moda, entropia, correlação de contingência, teste χ2
Ordinal Os valores de um atributo ordinal fornecem informação suficiente para ordenar objetos. (<, >)
Dureza de minerais, {bom, melhor, o melhor}, graus, número de ruas
Mediana, correlação de ordem, percentis, testes de execução, testes de sinal
Intervalar Para atributos intervalares, as diferenças entre valores tem sentido, i.e., existe uma unidade de medida. (+, - )
Datas de calendário, temperatura em Celsius ou Fahrenheit
Média, desvio padrão, correlação de Pearson, testes te F
Razão Para variáveis do tipo razão, tanto diferenças quanto razão (divisão) tem sentido. (*, /)
Temperatura em Kelvin, quantidades monetárias, contagem, idade, massa, comprimento, corrente elétrica
Média geométrica, média harmônica, variação percentual
![Page 7: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/7.jpg)
Nível do atributo
Transformação Comentários
Nominal Qualquer permutação de valores. Se todos os números de ID dos empregados fosse re-assinalada, isto faria alguma diferença?
Ordinal Uma alteração de valores que preserve a ordem, i.e., novo_valor = f(valor_antigo) em que f é uma função monotônica.
Um atributo abrangendo a noção de bom, melhor, o melhor pode ser igualmente representado pelos valores {1, 2, 3} ou { 0.5, 1, 10}.
Intervalar novo_valor =a * valor_antigo + b em que a e b são constantes
Escalas de temperaturas em Fahrenheit e Celsius diferem em termos de onde o valor zero está e do tamanho da unidade (grau).
Razão novo_valor = a * valor_antigo Comprimento pode ser medido em metros ou pés.
![Page 8: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/8.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
������� �� ���� �������
� Atributo Discreto– Tem um conjunto de valores finito ou contavelmente infinito– Exemplos: código CEP, contagens, ou o conjunto de palavras
em uma coleção de documentos– Freqüentemente representados como variáveis inteiras.– Nota: atributos binários são um caso especial de atributos
discretos.
� Atributos Contínuos– Tem números reais como atributos de valores– Exemplos: temperatura, altura, ou peso.– Na prática, valores reais somente podem ser medidos e
representados usando um número finito de dígitos.– Atributos Contínuos são representados tipicamente como
variáveis de ponto flutuante.
![Page 9: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/9.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� �������� �����
� Registro– Matriz de dados
– Dados de documentos
– Dados de transações
� Grafo– World Wide Web
– Estruturas Moleculares
� Ordenados– Dados espaciais
– Dados temporais
– Dados seqüenciais
– Dados de seqüências genéticas
![Page 10: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/10.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��������� ���� � ������� ����� ! ��������
– Dimensionalidade� Maldição da Dimensionalidade
– Esparsidade� Somente a presença importa
– Resolução� Padrões dependem da escala
![Page 11: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/11.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ��"�#� ��
� Dados que consistem de um coleção de registros, cada um dos quais consiste de um conjunto fixo de atributos
Tid Refund Marital Status
Taxable Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
![Page 12: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/12.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ���������
� Se os objetos de dados tem o mesmo conjunto fixo de atributos numéricos, então os objetos de dados podem ser vistos como pontos em um espaço multidimensional, em que cada dimensão representa um atributo distinto
� Tal conjunto de dados pode ser representado por uma matriz m por n, em que há m linhas, uma para cada objeto, e n colunas, uma para cada atributo
1.12.216.226.2512.65
1.22.715.225.2710.23
Thickness LoadDistanceProjection of y load
Projection of x Load
1.12.216.226.2512.65
1.22.715.225.2710.23
Thickness LoadDistanceProjection of y load
Projection of x Load
![Page 13: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/13.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ����� ���
� Cada documento torna-se um vetor de ‘termos’,– cada termo é um componente (atributo) do vetor,– O valor de cada componente é o número de vezes
que o termo correspondente ocorre no documento.
������
������
���
��
�
����
� ���
��
���
�� �
����
![Page 14: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/14.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ������ ��$�
� São dados de registro de um tipo especial, em que
– cada registro (transação) envolve um conjunto de itens.– Por exemplo, considere um supermercado. O conjunto de
produtos comprados por um cliente durante constitui uma transação, enquanto os produtos individuais comprados são os itens.
ID Itens
1 Pão, Refri, Leite
2 Cerveja, Pão
3 Cerveja, Refri, Fralda, Leite
4 Cerveja, Pão, Fralda, Leite
5 Refri, Fralda, Leite
![Page 15: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/15.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ��%��&
� Exemplos: Grafos genéricos e links HTML
5
2
1 2
5
<a href="papers/papers.html#bbbb">Data Mining </a><li><a href="papers/papers.html#aaaa">Graph Partitioning </a><li><a href="papers/papers.html#aaaa">Parallel Solution of Sparse Linear System of Equations </a><li><a href="papers/papers.html#ffff">N-Body Computation and Dense Linear System Solvers
![Page 16: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/16.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� '�� ��
� Molécula de Benzeno: C6H6
![Page 17: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/17.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� �������
� Seqüências de transações
Um elemento da seqüência
Itens / Eventos
![Page 18: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/18.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� �������
� Dados de seqüência genômica
GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG
![Page 19: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/19.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� �������
� Dados Espaço-Temporais
Temperatura Média Mensal das terras e oceanos
![Page 20: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/20.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
'��������� ���
� Que tipo de problemas de qualidade de dados?� Como se pode detectar problemas nos dados?� O que se pode fazer a respeito destes
problemas?
� Exemplos de problemas de qualidade nos dados:– Ruídos e outliers– Dados faltantes– Dados duplicados
![Page 21: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/21.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
"���
� Ruído refere-se à modificação de valores originais– Exemplos: distorção da voz de uma pessoa falando
em um fone inferior e “chuva” na tela da TV
Duas ondas senoidais Duas ondas senoidais + Ruído
![Page 22: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/22.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�������
� Outliers são objetos de dados com características que são consideravelmente diferentes da maioria dos outros objetos de dados no conjunto de dados
![Page 23: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/23.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
����� (�������
� Razões para valores faltantes– Informação não foi coletada
(e.g., pessoas não fornecem sua idade e peso)– Atributos podem não ser aplicáveis a todos os casos
(e.g., salário anual não é aplicável a crianças)
� Manipulando valores faltantes– Eliminar objetos de dados– Estimar valores faltantes– Ignorar valores faltantes durante análise– Substituir por todos os valores possíveis (ponderados
por suas probabilidades)
![Page 24: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/24.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ��������
� Conjunto de dados pode incluir objetos de dados que são duplicatas, ou quase duplicadas de outros– Grande problema quando unindo dados de fontes
heterogêneas
� Exemplos:– Mesma pessoa com múltiplos endereços de email
� Limpeza dos dados– Processo de trabalho com dados duplicados
![Page 25: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/25.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��)*���� � ��������
� Agregação� Amostragem� Redução de Dimensionalidade� Seleção de Subconjuntos de Características� Criação de Características� Discretização e Binarização� Transformação de Atributos
![Page 26: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/26.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�#��#���
� Combinar dois ou mais atributos (ou objetos) em um único atributo (ou objeto)
� Finalidade– Redução de dados
� Reduzir o número de atributos ou objetos
– Alteração de escala� Cidades agregadas em regiões, estados, países, etc
– Dados mais “estáveis”� Dados agregados tendem a ter menor variabilidade
![Page 27: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/27.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�#��#���
Desvio Padrão da Média Mensal de Precipitação
Desvio Padrão da Média Annualde Precipitação
Variação da Precipitação na Austrália
![Page 28: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/28.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
� ���#�
� Amostragem é a principal técnica empregada na seleção de dados
– Usada freqüentemente tanto para investigação preliminar dos dados quanto para análise final dos dados.
� Estatísticos amostram porque obter o conjunto completo dos dados de interesse é muito caro ou consome tempo demais.
� Amostragem é usada em mineração de dados porque o processamento do conjunto inteiro dos dados de interesse émuito caro ou consome tempo demasiado.
![Page 29: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/29.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
� ���#� +
� O princípio básico para amostragem efetiva é o seguinte:– usando uma amostra funcionará tão bem quanto
usando o conjunto completo de dados se a amostra érepresentativa
– uma amostra é representativa se ela tem aproximadamente as mesmas propriedades (de interesse) quanto o conjunto original de dados
![Page 30: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/30.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� ��� ���#�
� Amostragem simples aleatória– Há uma probabilidade igual de selecionar qualquer item
particular
� Amostragem sem reposição– À medida que cada item é selecionado, ele é removido da
população
� Amostragem com reposição– Objetos não são removidos da população quando são
selecionados para compor a amostra.� Na amostragem com reposição, o mesmo objeto pode ser escolhido mais de uma vez
� Amostragem estratificada– Divide os dados em várias partições; retira então amostras
aleatórias de cada uma das partições
![Page 31: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/31.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� ��,��� ���
8000 pontos 2000 pontos 500 pontos
![Page 32: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/32.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� ��,��� ���
� Que tamanho de amostra é necessário para obter pelo menos um objeto de cada um de 10 grupos?
![Page 33: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/33.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
����������� �� ���������
� Quando a dimensionalidade aumenta, os dados tornam-se muito esparsos no espaço que ocupam
� Definições de densidade e distância entre pontos, que são críticas para agrupamento e detecção de outliers, passam a ter menos significado
• Gerar aleatoriamente 500 pontos
• Calcular a diferença entre a distância máxima e mínima entre quaisquer pares de pontos
![Page 34: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/34.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
"��������� �� ���������
� Finalidade:– Reduzir a maldição da dimensionalidade– Reduzir a quantidade de tempo e memória necessárias pelos
algoritmos de mineração de dados– Permitir que os dados sejam mais facilmente visualizados– Ajudar a eliminar características irrelevantes ou a reduzir o ruído
� Técnicas– Análise de Componentes Principais – PCA– Singular Value Decomposition – SVD– Outros: técnicas supervisionadas e não-lineares
![Page 35: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/35.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
Dimensions = 10Dimensions = 40Dimensions = 80Dimensions = 120Dimensions = 160Dimensions = 206
"��������� �� �������������
![Page 36: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/36.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
-�������-�������� ����������� ����
� Outra forma de reduzir a dimensionalidade dos dados
� Características redundantes– Duplicam muita ou toda a informação contida em um ou mais
atributos– Exemplo: preço de venda de um produto e a quantidade de
taxas de venda pagas
� Características irrelevantes– Não contém informação que seja útil para a tarefa de mineração
de dados sendo executada– Exemplo: ID do estudante é freqüentemente irrelevante na tarefa
de prever o seu desempenho
![Page 37: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/37.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
-�������-�������� ����������� ����
� Técnicas:– Abordagem de força bruta:
�Tenta todos os subconjuntos possíveis de características como entrada para o algoritmo de mineração de dados
– Abordagem embutidas:� Seleção de características ocorre naturalmente como parte do algoritmo de mineração de dados
– Abordagem filtro:� Características são selecionadas antes que o algoritmo de mineração de dados seja executado
– Abordagem wrapper:� Uso o algoritmo de mineração de dados como uma caixa preta para encontrar o melhor subconjunto de atributos
![Page 38: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/38.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
����������������� ����
� Cria novos atributos que podem capturar informação importante em um conjunto de dados muito mais eficientemente que os atributos originais
� Três metodologias gerais:– Extração de características
� específicas do domínio
– Mapeamento de dados para novo espaço– Construção de características
� combinando características
![Page 39: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/39.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
���������� ����� ./! ���
Duas ondas senoidais Duas ondas senoidais + Ruído Freqüência
� Transformada de Fourier� Transformada Wavelet
![Page 40: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/40.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �����0��� 1 ���"2��� �� ��� �
� Abordagem baseada em Entropia
3 categorias tanto para x quanto y 5 categorias tanto para x quanto y
![Page 41: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/41.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �����0��� � 1 ��"2��� �� ��� �
Dados Intervalos de largura igual
Freqüência igual K-médio
![Page 42: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/42.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
-� ������������ � ���������
� Similaridade– Medida numérica de quão parecidos dois objetos são.– É maior quando objetos são mais parecidos.– Freqüentemente está na faixa [0,1]
� Dissimilaridade– Medida numérica de quão diferentes dois objetos são– Menor quando dois objetos são mais parecidos– Dissimilaridade mínima é freqüentemente 0– Limite superior varia
� Proximidade refere-se à similaridade ou dissimilaridade
![Page 43: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/43.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
-� ���������3�� � �������������������� -� ���
p e q são os valores dos atributos para dois objetos de dados.
![Page 44: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/44.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �4����!���������
� Distância euclidiana
em que n é o número de dimensões (atributos) e pk e qk são, respectivamente, os k-ésimos atributos (componentes) dos objetos de dados p e q.
� Padronização é necessária se as escalas diferem.
�=
−=n
kkk qpdist
1
2)(
![Page 45: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/45.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �4����!���������
0
1
2
3
0 1 2 3 4 5 6
p1
p2
p3 p4
point x yp1 0 2p2 2 0p3 3 1p4 5 1
Matriz de distâncias
p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
![Page 46: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/46.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �4���������56 5�
� Distância de Minkowski é uma generalização da distância Euclidiana
em que r é um parâmetro, n é o número de dimensões (atributos) e pk e qk são, respectivamente, os k-ésimos atributos (componentes) dos objetos de dados p e q.
rn
k
rkk qpdist
1
1)||( �
=−=
![Page 47: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/47.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �4���������56 5� �!7� ��
� r = 1. Distância City block (ou Manhattan, taxicab, norma L1).– Um exemplo comum é a distância de Hamming, que é simplesmente o
número de bits que diferem entre dois vetores binários
� r = 2. Distância Euclidiana
� r → ∞. Distância “supremum” (norma Lmax, norma L∞). – É a diferença máxima entre quaisquer componentes dos vetores
� Não confundir r com n, i.e., todas estas distâncias são definidas para todos os números de dimensões.
![Page 48: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/48.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �4���������56 5�
Matriz de distâncias
ponto x yp1 0 2p2 2 0p3 3 1p4 5 1
L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0
L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0
L∞∞∞∞ p1 p2 p3 p4p1 0 2 3 5p2 2 0 1 3p3 3 1 0 2p4 5 3 2 0
![Page 49: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/49.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �4��������,������
Tqpqpqpsmahalanobi )()(),( 1 −�−= −
Para os pontos vermelhos, a distância Euclidiana é 14.7, a distância de Mahalanobis é 6.
ΣΣΣΣ é a matriz de covariância dos dados de entrada X
�=
−−−
=Σn
i
kikjijkj XXXXn 1
, ))((1
1
![Page 50: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/50.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�� �4��������,������
Matriz de covariância:
��
���
�=Σ3.02.02.03.0
B
A
C
A: (0.5, 0.5)
B: (0, 1)
C: (1.5, 1.5)
Mahal(A,B) = 5
Mahal(A,C) = 4
![Page 51: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/51.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
���������� � �� ��� ��� �4����
� Distâncias, tais como a Euclidiana, tem algumas propriedades bem conhecidas.
1. d(p, q) ≥ 0 para todo p e q e d(p, q) = 0 somente se p = q. (Precisão positiva)
2. d(p, q) = d(q, p) para todo p e q. (Simetria)3. d(p, r) ≤ d(p, q) + d(q, r) para todos pontos p, q, e r.
(Desigualdade Triangular)
em que d(p, q) é a distância (dissimilaridade) entre pontos (objetos de dados), p e q.
� Uma distância que satisfaz estas propriedades é uma métrica
![Page 52: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/52.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
���������� � �� ��� �-� ���������
� Similaridades também tem algumas propriedades bem conhecidas.
1. s(p, q) = 1 (ou máxima similaridade) somente se p = q.
2. s(p, q) = s(q, p) para todo p e q. (Simetria)
em que s(p, q) é a similaridade entre pontos (objetos de dados), p e q.
![Page 53: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/53.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
-� ������������������� 8��9��
� Uma situação comum é que objetos, p e q, tem somente atributos binários
� Calcular similaridades usando as seguintes quantidadesM01 = número de atributos em que p é 0 e q é 1M10 = número de atributos em que p é 1 e q é 0M00 = número de atributos em que p é 0 e q é 0M11 = número de atributos em que p é 1 e q é 1
� Coeficientes Simple Matching e JaccardSMC = número de coincidências / número de atributos
= (M11 + M00) / (M01 + M10 + M11 + M00)
J = número de coincidências 1-1 / número de valores de atributos não ambos 0= (M11) / (M01 + M10 + M11)
![Page 54: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/54.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
-��/�� � :�������!7� ��
p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1
M01 = 2 (o número de atributos em que p é 0 e q é 1)M10 = 1 (o número de atributos em que p é 1 e q é 0)
M00 = 7 (o número de atributos em que p é 0 e q é 0)M11 = 0 (o número de atributos em que p é 1 e q é 1)
SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7
J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0
![Page 55: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/55.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
-� ���������� � ��
� Se d1 e d2 são dois vetores de documentos, entãocos( d1, d2 ) = (d1 • d2) / ||d1|| ||d2|| ,
em que • indica o produto interno vetorial e || d || é o comprimento do vetor d.
� Exemplo:
d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2
d1 • d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245
cos( d1, d2 ) = .3150
![Page 56: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/56.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��&�������! ��������:������;���� �<
� Variação de Jaccard para atributos contínuos ou contáveis– Reduz-se a Jaccard para atributos binários
![Page 57: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/57.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��������
� Correlação mede o relacionamento linear entre objetos
� Para calcular a correlação, padronizam-se os objetos de dados, p e q, e faz-se seu produto interno
)(/))(( pdesvpadpmédiapp kk −=′
)(/))(( qdesvpadqmédiaqq kk −=′
qpqpcorrelação ′•′=),(
![Page 58: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/58.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
�/�������� ��� �������������
Gráficos de dispersão mostrando a similaridade de –1 a 1.
![Page 59: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/59.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� �����
� Agrupamento baseado em densidade requer a noção de densidade
� Exemplos:– Densidade euclidiana
� Densidade euclidiana = número de pontos por unidade de área
– Densidade de Probabilidade
– Densidade baseada em Grafo
![Page 60: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/60.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� �����!���������= �� ����� �)����
� Abordagem mais simples é dividir a região em um número de células retangulares de igual área e definir densidade como número de pontos que a célula contém
![Page 61: Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPRfabricio/ftp/Aulas/Mestrado/IA/... · 2007-12-11 · e F Razão Para variáveis do tipo razão, ... em uma coleção de documentos](https://reader030.fdocument.pub/reader030/viewer/2022020416/5c60c73409d3f2036d8c0f56/html5/thumbnails/61.jpg)
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR
��� �����!���������= �� ����� �����
� Densidade euclidiana é o número de pontos dentro de um raio específico a partir do ponto