Uma Estratégia para Seleção de Atributos Relevantes no...
Transcript of Uma Estratégia para Seleção de Atributos Relevantes no...
![Page 1: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/1.jpg)
Gabrielle K. Canalle Bernadette Farias Lóscio
Ana Carolina Salgado
Universidade Federal de Pernambuco
Centro de Informática
Uma Estratégia para Seleção de
Atributos Relevantes no Processo de
Resolução de Entidades
![Page 2: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/2.jpg)
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
2
![Page 3: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/3.jpg)
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
3
![Page 4: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/4.jpg)
CIn.ufpe.br
Introdução
4
![Page 5: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/5.jpg)
CIn.ufpe.br
Integração de Dados
Diferentes fontes
de dadosDados Integrados
5
![Page 6: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/6.jpg)
CIn.ufpe.br
Etapas da Integração de Dados
Alinhamento de
Esquemas
Resolução de Entidades
Fusão de Dados
6
![Page 7: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/7.jpg)
CIn.ufpe.br
Etapas da Integração de Dados
Alinhamento de
Esquemas
Resolução de Entidades
Fusão de Dados
7
![Page 8: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/8.jpg)
CIn.ufpe.br
Resolução de Entidades
Blocagem
Correspondência de Pares
Classificação
8
![Page 9: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/9.jpg)
CIn.ufpe.br
Resolução de Entidades
Blocagem
Correspondência de Pares
Classificação
9
![Page 10: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/10.jpg)
CIn.ufpe.br
✔
✖
±
CORRESPONDENTES
NÃO CORRESPONDENTES
POTENCIALMENTE CORRESPONDENTES
Resolução de Entidades
Blocagem
Correspondência de Pares
Classificação
10
![Page 11: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/11.jpg)
CIn.ufpe.br
Cenário Motivacional
11
![Page 12: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/12.jpg)
CIn.ufpe.br
Cenário Motivacional
Não Duplicadas
12
![Page 13: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/13.jpg)
CIn.ufpe.br
Cenário Motivacional
Duplicadas
13
![Page 14: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/14.jpg)
CIn.ufpe.br
Cenário Motivacional
Não Duplicadas
14
![Page 15: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/15.jpg)
CIn.ufpe.br
Como selecionar os atributos mais relevantes
para serem utilizados na fase de correspondência
entre pares do processo de Resolução de
Entidades?
15
![Page 16: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/16.jpg)
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
16
![Page 17: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/17.jpg)
CIn.ufpe.br
Visão geral da Estratégia
Classificação ordenada
17
![Page 18: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/18.jpg)
CIn.ufpe.br
Visão geral da Estratégia
E1
E2 E3
a1
a2
a3
a4
a5
a6
a7
a5
Conjunto de Atributos
Comuns
18
![Page 19: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/19.jpg)
CIn.ufpe.br
Visão geral da Estratégia
Conjunto de EntidadesConjunto de Atributos Comuns
Classificação ordenada
19
![Page 20: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/20.jpg)
CIn.ufpe.br
Critérios de Avaliação
20
![Page 21: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/21.jpg)
CIn.ufpe.br
Repetição
Quantidade de vezes que um mesmo valor para um
atributo aparece no conjunto de dados
21
![Page 22: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/22.jpg)
CIn.ufpe.br
Densidade
Percentual de valores na o nulos contidos no conjunto
de valores que descreve um atributo
22
![Page 23: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/23.jpg)
CIn.ufpe.br
Dinamicidade
Grau de dinamicidade dos atributos, ou seja, seu ni vel
de alterac a o ao longo do tempo
23
![Page 24: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/24.jpg)
CIn.ufpe.br
Ruído
Quanto um atributo e suscetível a erros. O rui do e um
erro aleatorio ou variabilidade presente nos valores
de entrada de um atributo.
24
![Page 25: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/25.jpg)
CIn.ufpe.br
Confiabilidade
Grau em que os dados fornecidos por uma
fonte de dados sa o veri dicos e confia veis
– Estimado por meio de metadados de qualidade
associados as fontes de dados
25
![Page 26: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/26.jpg)
CIn.ufpe.br
Cobertura
Percentual de insta ncias que uma fonte de
dados fornece para o conjunto de dados
avaliado
26
![Page 27: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/27.jpg)
CIn.ufpe.br
Análise de Relevância Individual
• Neste trabalho, implementamos os critérios de Repetição e
Densidade
• Repetição –
• Densidade –
• Relevância Individual –
27
![Page 28: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/28.jpg)
CIn.ufpe.br
Análise de Relevância Global
– ponderar a relevancia de um atributo utilizando critérios de qualidade das fontes
– calculo da Relevância Individual, apenas os valores dos dados sao levados emconsiderac ao
• Cobertura
• Qualidade do Conjunto de Fontes de Dados
• Relevância Global
28
![Page 29: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/29.jpg)
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
29
![Page 30: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/30.jpg)
CIn.ufpe.br
Hipóteses
H1 - Considerar todos os atributos na fase de comparac ao ocasiona em um resultado com baixo
F-measure.
H2 - Considerar os atributos mais relevantes de acordo com a classificac ao realizada pela
estrategia proposta faz com que o resultado obtido tenha um alto F-measure.
H3 - A medida que atributos menos relevantes sao adicionados ao grupo de atributos
considerados, o numero de corresponde ncias erradas aumenta, diminuindo o F-measure do
resultado.
30
![Page 31: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/31.jpg)
CIn.ufpe.br
Avaliação Experimental
• Dominio de referencias bibliograficas de Ciencia da Computac ao– Base de dados Cora
• 1.879 instâncias
• 15 atributos
• Aproximadamente 90% de duplicação
• Gold Standard
• Particionada em diferentes cenários de duplicação
• Ferramenta para Resolução de Entidades– DuDe – Duplicate Detection
• Java
• Estrutura modular
• Medidas de Qualidade• Revocação(Recall)
• Precisão (Precision)
• Medida F (F-measure)
31
![Page 32: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/32.jpg)
CIn.ufpe.br
Cenário
32
![Page 33: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/33.jpg)
CIn.ufpe.br
Grupos de Atributos
Grupo 1 – dois atributos mais relevantes
Grupo 2 – três atributos mais relevantes
Grupo 3 – quatro atributos mais relevantes
Grupo 4 – oito atributos mais relevantes
33
![Page 34: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/34.jpg)
CIn.ufpe.br
Cenário 1
34
1
0,66 0,66
0
0
![Page 35: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/35.jpg)
CIn.ufpe.br
Cenário 2
35
0,82
0,46
0,33
0
![Page 36: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/36.jpg)
CIn.ufpe.br
Cenário 3
36
0,460,40
0,36
0
0
![Page 37: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/37.jpg)
CIn.ufpe.br
Cenário 4
37
0,98 0,98
0,85
0
![Page 38: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/38.jpg)
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
38
![Page 39: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/39.jpg)
CIn.ufpe.br
Conclusão
• A estratégia proposta se mostrou eficiente em todos os
cenários.
• Confirmamos que utilizar uma grande quantidade de atributos
na Resolução de Entidades não é viável.
• Verificamos que, à medida que atributos com menor valor de
relevância são considerados na comparação, o F-measure
diminui.
• Os resultados obtidos por meio dos experimentos validaram
nossas hipóteses.
39
![Page 40: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia](https://reader030.fdocument.pub/reader030/viewer/2022040707/5e09be55f414f457fc74ee8c/html5/thumbnails/40.jpg)
Universidade Federal de Pernambuco
Centro de Informática
Obrigada pela Atenção!
Dúvidas?