GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s8_feedback.pdf · jC rj X...
Transcript of GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s8_feedback.pdf · jC rj X...
UFU/FACOM/BSI 8-Reformulacao de Consultas
GSI024 - Organizacao e Recuperacao daInformacao
Ilmerio Reis da Silva
UFU/FACOM/BSI
Arquivo 8 - Reformulacao de Consultas
GSI024-ORI Pg:8. 1
UFU/FACOM/BSI 8-Reformulacao de Consultas
9-Reformulacao de Consultas
• Objetivo: melhorar resultado de buscasExemplo: q=”termodinamica” x d=”Calor”
• Alternativas
– Metodos globais de expansao de consultas∗ dicionarios de sinonimos (ontologias como WordNet)∗ geracao automatica de dicionarios de sinonimos
– Metodos locais de expansao de consultas∗ realimentacao de relevantes∗ pseudo realimentacao de relevantes
– Foco em Realimentacao de Relevantes
GSI024-ORI Pg:8. 2
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes
– Ideia: reformulacao de consulta a partir de informacoes do usuario sobre relevanciade documentos
– Processo - a partir de uma consulta:1. o sistema apresenta um resultado2. usuario indica documentos relevantes ou nao relevantes3. o sistema calcula uma nova consulta4. volta ao passo 1.
– intuicao: o usuario adquire conhecimento da colecao
GSI024-ORI Pg:8. 3
UFU/FACOM/BSI 8-Reformulacao de Consultas
Exemplo: Image search engineConsulta inicial
GSI024-ORI Pg:8. 4
UFU/FACOM/BSI 8-Reformulacao de Consultas
Exemplo: Image search engineResultado inicial
GSI024-ORI Pg:8. 5
UFU/FACOM/BSI 8-Reformulacao de Consultas
Exemplo: Image search engineRealimentacao
GSI024-ORI Pg:8. 6
UFU/FACOM/BSI 8-Reformulacao de Consultas
Exemplo: Image search engineResultado consulta modificada
GSI024-ORI Pg:8. 7
UFU/FACOM/BSI 8-Reformulacao de Consultas
Consulta otima
– Realimentacao de relevantes no modelo vetorial, sendo∗ Cr: conjunto de documentos relevantes∗ Cnr: conjunto de documentos nao relevantes∗ Objetivo: maximizar (sim(Q,Cr)− sim(Q,Cnr))
– O vetor consulta otimo, ~Qopt e dado por:
~Qopt =1|Cr|
∑dj∈Cr
~dj −1|Cnr|
∑dj∈Cnr
~dj
– Cnr e o complemento de Cr.
GSI024-ORI Pg:8. 8
UFU/FACOM/BSI 8-Reformulacao de Consultas
Exemplo: Consulta otimaTeorica
GSI024-ORI Pg:8. 9
UFU/FACOM/BSI 8-Reformulacao de Consultas
Formula de Rocchio (1971)
~Qm = α~q0 + β1|Dr|
∑~dj∈Dr
~dj − γ1|Dnr|
∑~dj∈Dnr
onde:
• ~Qm: vetor consulta modificada
• α, β, γ: pesos empıricos
• Dr, Dnr: conjunto de vetores de documentos indicados como relevantes/naorelevantes
• o vetor da nova consulta se aproxima dos relevantes e distancia dos nao relevantes
• pesos negativos sao ignorados
GSI024-ORI Pg:8. 10
UFU/FACOM/BSI 8-Reformulacao de Consultas
Consulta original e modificada apos realimentacao
GSI024-ORI Pg:8. 11
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes
• modifica a consulta e aplica modelo vetorial padrao
• usa apenas documentos marcados
• melhoria de precisao e revocacao
• mais usada na melhoria de revocacao, sem perda de precisao
• realimentacao positiva e mais usada γ = 0 ou β > γ.
GSI024-ORI Pg:8. 12
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes Probabilıstica
• Um classificador baseado em termos
P (tk|R) =|Drk|
|Dr|P (tk|NR) =
Nk − |Drk|
N − |Dr|
• tk: termo
• Drk: conjunto de documentos relevantes que contem o termo tk
• Dr: conjunto de documentos relevantes
• classificacao sera topico de estudo futuro
• um outro meio de mudar peso de termos
GSI024-ORI Pg:8. 13
UFU/FACOM/BSI 8-Reformulacao de Consultas
Consideracoes sobre Realimentacao de Relevantes(Assumptions)
• A1: usuario tem conhecimento inicial suficiente
• A2: representacao dos documentos relevantes tem bom-comportamento
– distribuicao de termos nos documentos relevantes e similar– distribuicao de termos nos documentos nao relevantes e diferente dos relevantes– todos os documentos relevantes estao agrupados em torno de um vetor ou– existem varios vetores, mas com sobreposicao significativa de vocabulario
GSI024-ORI Pg:8. 14
UFU/FACOM/BSI 8-Reformulacao de Consultas
Consideracoes Realimentacao de RelevantesViolacao de A1
• erros de escrita, por exemplo, Brittany Speers
• diferenca de linguagens, por exemplo, hıgado
• diferenca de vocabulario entre colecao e usuario, por exemplo,cosmonaut/astronaut
GSI024-ORI Pg:8. 15
UFU/FACOM/BSI 8-Reformulacao de Consultas
Consideracoes Realimentacao de RelevantesViolacao de A2 - Exemplos
• Vocabularios diferentes: Burma/Myanmar (sinonimos para nome de republicaasiatica)
• Consulta inerentemente disjuntiva: famosos que trabalharam na Burger King
• instancias de um conceito geral: felinos
• Porque muitas maquinas de busca nao utilizam RF?
GSI024-ORI Pg:8. 16
UFU/FACOM/BSI 8-Reformulacao de Consultas
Consideracoes Realimentacao de RelevantesProblemas
• consultas longas sao ineficientes
– aumentam o tempo de resposta– tem alto custo de processamento– solucao parcial: repesar termos principais (top 20)
• dificuldades do usuario prover realimentacao
• dificuldades de entender porque um documento foi retornado apos aplicar arealimentacao
GSI024-ORI Pg:8. 17
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes - ExemploConsulta inicial e 8 de topo
GSI024-ORI Pg:8. 18
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes - ExemploConsulta modificada
GSI024-ORI Pg:8. 19
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes - ExemploResultado apos realimentacao
GSI024-ORI Pg:8. 20
UFU/FACOM/BSI 8-Reformulacao de Consultas
Avaliacao de Realimentacao de Relevantes
• use q0 e calcule grafico de precisao e revocacao
• use qm e calcule grafico de precisao e revocacao
• usando toda a colecao o ganho e espetacular
• parcialmente porque os documentos conhecidos como relevantes vao para o topo
• uma avaliacao melhor considera apenas documentos nao observados (colecaoresidual)
GSI024-ORI Pg:8. 21
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes na Web
• funcionalidade similar/relacionado
– Google (link-based)– Altavista– Stanford WebBase
• outros nao:
– Alltheweb– msn– Yahoo
• Excite usou inicialmente, mas abandonou por desuso
GSI024-ORI Pg:8. 22
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes no ExciteSpink et al. 2000
• Cerca de 4% das sessoes usam Realimentacao de Relevantes do tipo”More like this?”
• Cerca de 70% dos usuarios observam somente a primeira pagina
• Melhoria no resultado observado cerca de 70% das vezes.
GSI024-ORI Pg:8. 23
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de RelevantesResumo
• E um metodo efetivo de melhoria do resultado
• Melhora com quantidade de documentos observados (recomenda-se cinco oumais)
• Melhor quando documentos sao de tamanho medio ou grande
• Realimentacao de Relevantes completa e inviavel para o usuario
• Melhorias podem ser alcancadas sem tanto esforco do usuario.
GSI024-ORI Pg:8. 24
UFU/FACOM/BSI 8-Reformulacao de Consultas
Reformulacao de ConsultasVisao Geral
• Metodos Globais
– Dicionario de sinonimos (thesauri (ou WordNet))– Geracao automatica de thesauri– Realimentacao de Relevantes global indireta
• Metodos Locais
– Realimentacao de Relevantes– Pseudo Realimentacao de Relevantes
GSI024-ORI Pg:8. 25
UFU/FACOM/BSI 8-Reformulacao de Consultas
Reformulacao de ConsultasFerramentas baseadas em Vocabulario
• Realimentacao
– stop-lists, stemming, etc.– hits em termos ou frases
• Sugestoes
– Thesaurus– Vocabulario controlado– Navegacao em lista de termos
• usuario da informacoes de relevancia de termos ou frases e nao de documentos
GSI024-ORI Pg:8. 26
UFU/FACOM/BSI 8-Reformulacao de Consultas
Expansao de Consultas - Exemplo
GSI024-ORI Pg:8. 27
UFU/FACOM/BSI 8-Reformulacao de Consultas
Tipos de Expansao de Consultas
• Analise global
• Vocabulario controlado (mantido por editores, ex. Medline)
• Thesaurus manual, (ex. physician, syn: doc, doctor, MD, medico)
• Thesaurus derivado automaticamente (estatıstica de co-ocorrencias)
• Refinamento baseado em mineracao de log de consultas
• Analise local de resultados de consultas
GSI024-ORI Pg:8. 28
UFU/FACOM/BSI 8-Reformulacao de Consultas
Vocabulario controlado - Exemplo
GSI024-ORI Pg:8. 29
UFU/FACOM/BSI 8-Reformulacao de Consultas
Expansao de Consultas baseada em Thesaurus
• Nao requer informacao do usuario
• Para cada termo tk expandir com termos no conjunto syn(tk)
• Temos adicionados podem ter pesos menores que os originais
• Geralmente melhoram revocacao
• Mais usada em buscadores cientıficos
• Podem prejudicar precisao
• Construcao manual e cara
GSI024-ORI Pg:8. 30
UFU/FACOM/BSI 8-Reformulacao de Consultas
Geracao automatica de Thesaurus
• Baseada em co-ocorrencia
• Baseada em relacoes gramaticaisobjetos cozidos, comidos, digeridosprovavelmente sao alimentos
• Co-ocorrencia e mais robusta e relacoes gramaticais sao mais precisas
GSI024-ORI Pg:8. 31
UFU/FACOM/BSI 8-Reformulacao de Consultas
Thesaurus automatico baseado em co-ocorrencia
• Baseado na matriz termo-termo C obtida de C = AAT , onde A e a matriztermo-documento
• wi,j e o peso normalizado
GSI024-ORI Pg:8. 32
UFU/FACOM/BSI 8-Reformulacao de Consultas
Thesaurus automatico baseado em co-ocorrenciaExemplo
GSI024-ORI Pg:8. 33
UFU/FACOM/BSI 8-Reformulacao de Consultas
Thesaurus automatico - Discussao
• A qualidade das associacoes e um problema
• Ambiguidade de termos pode introduzir correlacoes irrelevantes?Apple computer? × ?Apple red fruit computer?
• Falsos positivos
• Falsos negativos
• Como os termos sao correlatos, expansao nao adicona muitos documentos aoresultado
GSI024-ORI Pg:8. 34
UFU/FACOM/BSI 8-Reformulacao de Consultas
Expansao de ConsultasResumo
• Geralmente aumenta revocacao, exceto com thesauri generico
• Uteis em colecoes especıficas
• Geralmente prejudica precisao
• Em geral nao e tao util quanto realimentacao de relevantes
GSI024-ORI Pg:8. 35
UFU/FACOM/BSI 8-Reformulacao de Consultas
Pseudo Realimentacao de Relevantes
• Analise local automatica
• Tentativa de automatizar parte manual da realimentacao de relevantes
– Recupere um conjunto inicial– Assuma que os m documentos de topo sao relevantes– Faca a realimentacao
• Na TREC melhorou o desempenho
GSI024-ORI Pg:8. 36
UFU/FACOM/BSI 8-Reformulacao de Consultas
Realimentacao de Relevantes Indireta
• Introduzida na Web por DirectlHit
• Gera um raking de documentos frequentemente observados por usuarios
• Um click e assumido como indicacao de relvancia
• A hipotese e que os sumarios sao bons
• E global, nao especıfico de consultas
• Area chamada clickstream mining
GSI024-ORI Pg:8. 37
UFU/FACOM/BSI 8-Reformulacao de Consultas
Referencias
IIR Ch 9, MG Ch. 4.7, MIR Ch. 5.2 ? 5.4
Yonggang Qiu , Hans-Peter Frei, Concept based query expansion. SIGIR 16:161?169, 1993.
Schuetze: Automatic Word Sense Discrimination, Computational Linguistics, 1998.
Singhal, Mitra, Buckley: Learning routing queries in a query zone, ACM SIGIR,1997.
Buckley, Singhal, Mitra, Salton, New retrieval approaches using SMART: TREC4,NIST, 1996.
G. Salton and C. Buckley. Improving retrieval performance by relevance feedback.Journal of the American Society for Information Science, 41(4):288-297, 1990.
GSI024-ORI Pg:8. 38
UFU/FACOM/BSI 8-Reformulacao de Consultas
Harman, D. (1992): Relevance feedback revisited. SIGIR 15: 1-10
Chris Buckley, Gerard Salton, and James Allan. The effect of adding relevanceinformation in a relevance feedback environment. In SIGIR 17, pages 292-300,Dublin, Ireland, 1994.
Xu, J., Croft, W.B. (1996): Query Expansion Using Local and Global DocumentAnalysis, in SIGIR 19: 4-11.
Spink, A., Jansen, J. and Ozmultu, H.C. (2000) ”Use of query reformulation andrelevance feedback by Excite users.” Internet Research: Electronic NetworkingApplications and Policy. http://ist.psu.edu/faculty pages/jjansen/academic/pubs/internetresearch2000.pdf
GSI024-ORI Pg:8. 39