Cost-e ective on-demand associative author name …Introdução Problema Desambiguação associativa...
Transcript of Cost-e ective on-demand associative author name …Introdução Problema Desambiguação associativa...
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Cost-e�ective on-demand associative author namedisambiguation
Adriano Veloso Anderson A. Ferreira
Marcos André Gonçalves Alberto H.F. Laender
Wagner Meira Jr.
Departamento de Ciência da Computação
Universidade Federal de Minas Gerais
Information Processing & Management, 2011
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Índice
1 Introdução
2 Problema
3 Desambiguação associativa
4 EAND
5 LAND
6 SLAND
7 Experimentos
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Introdução
Citação
Adriano Veloso, Anderson A. Ferreira, Marcos André Gonçalves,
Alberto H. F. Laender, Wagner Meira Jr. Cost-e�ective on-demand
associative author name disambiguation. Information Processing &
Management, 2011.
{f1, f2, ..., fm}{coauthor = Anderson A. Ferreira, Marcos André Gonçalves,Alberto H. F. Laender, Wagner Meira Jr}{title = Cost-e�ective on-demand associative author namedisambiguation. }{venue = Information Processing & Management}{year = 2011}
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Problema
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Desambiguação associativa
Função de desambiguação
Função de desambiguação
{f1, f2, ..., fm}→ {a1,a2, ...,an}
Regras de associação
X → aiX ⊆ {f1, f2, ..., fm}
Exemplo
{coauthor = K. Talwar, title = Metric, venue = LATIN} � a1
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Desambiguação associativa
Rxai ⊆ Rai ⊆ RR é o conjunto de regras arbitráriasRai é o conjunto de regras da forma X → aiRxai é o conjunto de regras da forma X → ai para a citação x
θ = (X → ai ) mede a força de cada associação
coauthor = K. Talwarθ=1.00−−−−→= a1
venue = LATINθ=0.50−−−−→= a1
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Desambiguação associativa
s(ai ,x) =∑|Rxai |j=1 θ(rj )|Rxai |
medida de con�ança média
Exemplo
coauthor = K. Talwarθ=1.00−−−−−→= a1
venue = LATINθ=0.50−−−−−→= a1
s(a1,c) =1.00+0.50
2= 0.75
p̂(ai |x) = s(ai ,x)∑|n|j=1 s(aj ,x)
normalização de s(ai ,x)
Exemplo
coauthor = K. Talwarθ=1.00−−−−−→= a1
venue = LATINθ=0.50−−−−−→= a1
s(a1,c) = 0.75p̂(a1|c) = 0.750.75 = 1
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Métodos
3 desambiguadores baseados em associação:
EAND (Eager Associative Name Disambiguation)LAND (Lazy Associative Name Disambiguation)SLAND (Self-training LAND)
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
EAND
Algorithm 1. Eager Associative Name Disambiguation Require: Examples in D; ���� , and citation x � T Ensure: The predicted author of citation x 1: ���� ⇐ ����� � � |�|�
2: � ⇐ rules r extracted from ����� � ����
3: for each author � do 4: ���
� ⇐ rules � � � � ������ � �� � ���� and �� �
5: Estimate ̂�� ��� 6: end for 7: Predict author � such that ̂�� ��� ̂�� ����� � � �
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Exemplo
Label Coauthors Publication title Venue c1 a1 K.Talwar Doubling Metric LATIN c2 a1 T. Chan, K. Talwar Dimensional Embeddings SODA c3 a1 T. Chan Approximating TSP SODA c4 a1 T. Chan (among others) Metric Embeddings FOCS
c5 a2 T. Ashwin, S. Ghosal Adaptable Similarity Search VLDB c6 a2 --- Explanation-Based Failure Recovery AAAI c7 a2 M. Bhide (among others) Dynamic Access Control Framework ICDE
c8 a3 S. Sarawagi Creating Probabilistic DBs VLDB c9 a3 S. Puradkar (a. others) Semantic Web Based Pervasive AAAI
c10 a4 V. Harinarayan Virtual Database Technology ICDE
c11 a1? K. Talwar Approximating Unique Games SODA c12 a4 ?� V. Harinarayan Index Selection for OLAP ICDE c13 a4 ?� I. Mumick What is the DW Problem? VLDB c14 a4 ?� V. Harinarayan Aggregate-Query Processing VLDB c15 a5 ?� J. Hennessy (a. others) Flexible Use of Memory ISCA �
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
EAND
De�ne
D = 10 conjunto de treinamentoσmin = 0.20 limite que separa regras frequentesπmin⇐ (σmin×|D|) = (0.20×10) = 2 função de popularidadedo autor
c1 a1 K. Talwar Doubling Metric LATIN c2 a1 K. Talwar Dimensional Embeddings SODA
c11 K. Talwar Approximating Unique Games SODA �Extrai a regra
coauthor = K. Talwar ∧ venue = LATIN θ=1.00−−−−→= a1p̂(ai |c11) = 1.00Portanto preve que o autor a1é o autor correto para a citaçãoc11
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
LAND
Algorithm 2. Lazy Associative Name Disambiguation Require: Examples in �; ���� , and citation x � T Ensure: The predicted author of citation x 1: Let ����� be the set of examples in � in which feature �� has occurred 2: �� ⇐ ��
3: for each feature �� � � do 4: �� ⇐�� � �����
5: end for 6: ����
� ⇐ ����� � � |�� |
7: for each author � do 8: ���� ⇐ rules � � extracted from �� ���� �� � ����� 9: Estimate ̂��� 10: end for 11: Predict author � such that ̂��� � ̂�� ��� � � �
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Exemplo
Label Coauthors Publication title Venue c1 a1 K.Talwar Doubling Metric LATIN c2 a1 T. Chan, K. Talwar Dimensional Embeddings SODA c3 a1 T. Chan Approximating TSP SODA c4 a1 T. Chan (among others) Metric Embeddings FOCS
c5 a2 T. Ashwin, S. Ghosal Adaptable Similarity Search VLDB c6 a2 --- Explanation-Based Failure Recovery AAAI c7 a2 M. Bhide (among others) Dynamic Access Control Framework ICDE
c8 a3 S. Sarawagi Creating Probabilistic DBs VLDB c9 a3 S. Puradkar (a. others) Semantic Web Based Pervasive AAAI
c10 a4 V. Harinarayan Virtual Database Technology ICDE
c11 a1? K. Talwar Approximating Unique Games SODA c12 a4 ?� V. Harinarayan Index Selection for OLAP ICDE c13 a4 ?� I. Mumick What is the DW Problem? VLDB c14 a4 ?� V. Harinarayan Aggregate-Query Processing VLDB c15 a5 ?� J. Hennessy (a. others) Flexible Use of Memory ISCA �
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
LAND
Dxé o novo conjunto de treinamento composto por todas as
citações que correspondem com a citação x no conjunto de
teste.Dc12 Label Coauthors Publication title Venue c7 a2 --- ---- ICDE c10 a4 V. Harinarayan ---- ICDE �
Regras de associação para a citação c12:
coauthor = V. Haribarayanθ=1.00−−−−→= a4
coauthor = V. Haribarayan ∧ venue = ICDE θ=1.00−−−−→= a4venue = ICDE
θ=0.50−−−−→= a4venue = ICDE
θ=0.50−−−−→= a2Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
LAND
s(a4,c12) =1.00+1.00+0.50
3= 0.83
p̂(a4|c12) = 0.830.50+0.83 = 0.62s(a2,c12) =
0.501
= 0.50p̂(a2|c12) = 0.50.50+0.83 = 0.38
Portanto, a4 é o autor correto para a citação c12, pois
p̂(a4|c12)é maior do que p̂(a2|c12)
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
SLAND
Expansão de LAND
Tenta resolver os seguintes problemas:
Quando a probabilidade de dois autores é a mesmaQuando o conjunto Dx = /0
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
SLAND
Algorithm 3. Self-training LAND Require: Examples in �; ���� , ���� , ���� and citation x � T Ensure: The predicted author of citation x (if the prediction is not abstained) (The ten first steps are exactly the same ones shown in Algorithm 2, and thus they are omitted here) � 1: [11:] if ���� � ���� then 2: [12:] Create a new label, �� 3: [13:] Predict author �� 4: [14:] Include �� � �� in � 5: [15:] else if if ���� � ���� then 6: [16:] Predict author �� such that �̂��� � �̂��� �� � 7: [17:] Include �� � �� in � 8: [18:] else 9: [19:] Place x in the end of the queue 10: [20:] end if �
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
SLAND
Inclui novos exemplos nos dados de treinamento
1 ∆(x) = p̂(ai |x)∑|n|j=1 p̂(aj |x)
medida de con�abilidade
2 ∆min é um parâmetro especi�cado pelo usuário
se ∆(x)≥∆minNão inclui exemplos que não são con�áveis
Coloca as citações randomicamente em uma �la deprioridades
1 Olha a citação no início da �la e veri�ca a suacon�abilidade
se ∆(x) < ∆minÉ colocada no �nal da �la
se ∆(x)≥∆mininclui como novo exemplo nos dados de treinamento
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
SLAND
Encontra novos autores
1 γ(x) é o número de regras extraídas para Dx2 γmin é um parâmetro especi�cado pelo usuário
se γ(x) < γmincria um novo rótulo akinclui como novo exemplo nos dados detreinamento
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Exemplo
c13 a4 ?� I. Mumick What is the DW Problem? VLDB c14 a4 ?� V. Harinarayan Aggregate-Query Processing VLDB c15 a5 ?� J. Hennessy (a. others) Flexible Use of Memory ISCA �
∆min = 1.50
Dc13 Label Coauthors Publication title Venue c5 a2 --- ---- VLDB c8 a3 --- ---- VLDB �
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Exemplo
Extrai as regras:
venue = VLDBθ=0.50−−−−→= a4
venue = VLDBθ=0.50−−−−→= a2
1 ∆(c13) =p̂(a2|c13)p̂(a3|c13) =
0.500.50 = 1< ∆min
2 c13 é colocada no �nal da �la
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Exemplo
Dc14 Label Coauthors Publication title Venue c8 a3 --- ---- VLDB c10 a4 V. Harinarayan ---- ICDE �
1 ∆(c13) =p̂(a4|c13)p̂(a3|c13) =
0.750.50 = 1.50≥∆min
2 c14 é incluída nos dados de treinamento e o autor correto é a4,
pois p̂(a4|c13) é maior que p̂(a3|c13).
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Exemplo
1 Dc15 = /0
1 γmin = 12 γ(c15) = 0 (o número de regras extraídas é igual a zero)
2 é criado um novo autor a15 para c15 e é incluída nos dados de
treinamento
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Avaliação
Coleções:
DBLPBDBComp
Métricas:
F1
microF1 = é a média entre autores especí�cos e sobre todosos autores.macroF1= decisões para todos os autores foram contadas emum conjunto comum
Baseline
Métodos supervisionados: S-SVM, S-NB
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Resultados
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
-
IntroduçãoProblema
Desambiguação associativaEANDLAND
SLANDExperimentos
Resultados
Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation
IntroduçãoProblemaDesambiguação associativaEANDLANDSLANDExperimentos