Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill...

31
Beyond PageRank: Beyond PageRank: Machine Learning for Static Ranking Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Matthew Richardson Amit Prakash Eric Brill Brill Microsoft Research MSN Microsoft Research MSN Microsoft Research Microsoft Research Adriano Kaminski Sanches Prof. Dr. Pável Calado Universidade Técnica de Lisboa Instituto Superior Técnico Recuperação de Informação Novembro de 2007 Novembro de 2007

Transcript of Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill...

Page 1: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Beyond PageRank: Beyond PageRank: Machine Learning for Static RankingMachine Learning for Static Ranking

Matthew Richardson Amit Prakash Eric BrillMatthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Microsoft Research MSN Microsoft Research

Adriano Kaminski Sanches

Prof. Dr. Pável Calado

Universidade Técnica de LisboaInstituto Superior Técnico

Recuperação de Informação

Novembro de 2007Novembro de 2007

Page 2: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Contéudo

• Introdução

• PageRank

• fRank (RankNet)

• Características

• Experimentos

• Trabalhos Relacionados e Futuros

• Conclusão

Page 3: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Introdução

• Internet Crescendo• Número de páginas com conteúdo

duvidoso também cresce• Pesquisas com foco em ranking

dinâmico• Importante também ranking estático:

– Relevância– Eficiência– Prioridade de Rastreamento na Internet

Page 4: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Introdução

• Mito sobre o PageRank• Uso da estrutura de links é essencial

para um ranking estático?• Será que é tão bom?• Soluções menos complexas,

resultados parecidos• PageRank em competições » baixo

sucesso• Será mostrado a eficiência de outro

método » fRank utilizando o RankNet

Page 5: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

PageRank

– A importância de uma página --» popularidade

– Colecta-se todos os links da coleção (origem e destino)

– Cria-se um mapa de links --»370 milhões de hyperlinks em 5 bilhões de páginas da coleção estudada

Page 6: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

PageRank

Cálculo do PageRank:“Vamos assumir que a Página A tenha as

páginas T1..Tn que apontam para ela

Parametro D é um damping factor (entre 0 e 1)

C(A) é o número de links que saem de A

PR(A) = (1-d) + d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)”

Page 7: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

PageRank

Cálculo do PageRank:

Se uma Página A é muito citada --» PR(A) ↑ Se uma Página A é citada por páginas

populares --» PR(A) ↑

Page 8: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

PageRank

Problema:– Função Recursiva– Cada Página é iniciada com um PR igual– Aplica-se o algoritmo sucessivas vezes até

atingir uma convergência– Trabalho relativamente lerdo, e

computacionalmente caro

Page 9: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

RankNet

– Seja X={x i} uma coleção de vetores de características

– Seja Y={y i} uma coleção de classes associada a cada vetor de característica

Ranknet »

Achar uma função f tal que

y i = f(x i) para todo I

Solução » Redes Neurais back-prop

Page 10: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

RankNet

– Não é necessário ter uma nota para cada página

– Necessário ter uma lista ordenada de páginas

Seja Z={<i,j>} uma coleção de par de páginas

para qualquer <i,j> pertencente a Z, f(x i) > f(x j)

Page 11: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Redes Neurais BackPropagation

Modelo de Neurônio

Page 12: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Redes Neurais BackPropagation

Apresenta as entradas Compara a saída obtida com a saída

esperada Gradiente descendente Correção na direção contrária ao erro

Minimização do erro na fase de treinamento

Page 13: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Redes Neurais BackPropagation

Exemplo

Conjuntos:

Treinamento

Validação

Teste

Época

Page 14: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Vetor de Características

• PageRank – 5 bilhões de páginas armazenadas– 20 bilhões the URLs ligadas por essas páginas– Porção significativa da web

• Popularidade– Numero de vezes que uma página é visitada em um

determinado tempo– Poderia ser obtido por logs de Proxy ou próprio cliques do

usuário no motor de busca– Log obtido de quem tem a barra de ferramentas do MSN e

optou por prover essas informações para o MSN

Page 15: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Vetor de Características

• Ãncoras – Tamanho do texto da ãncora– Número de palavras únicas nesse texto...

• Página– 8 características de cada página analisadas isoladamente– Número de palavras no corpo da página,– Frequência do termo mais comum...

• Domínio– Médias sobre as páginas em um determinado domínio– Média de links, PageRank...

Page 16: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Experimentos

• Dados– Julgamento humano para 28000 buscas (notas de 0 a 4)– 500.000 julgamentos– Média de 18 julgamentos por busca– Buscas escolhidas randomicamente entre as do motor de

busca do MSN– Converter dependente de busca » independente de busca– Tira-se a busca e mantém a maior nota para aquela página– 84% treinamento– 08% validação– 08% teste

Page 17: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Experimentos

• Método– Rede neural de duas camadas totalmente conectada– Camada oculta com 10 neurônios– Pesos da camada de entrada inicializados com 0– Pesos da camada de saída inicializados randomicamente

com valores entre [-0.1,0.1]– Função de transferência entrada»camada oculta tanh– Função de transferência camada oculta»saída linear– Características da entrada é normalizada– 5 milhões de pares de entrada– Treinado por 30 épocas– Taxa de aprendizagem inicial 0.001

Page 18: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Experimentos

•Resultados 1

Page 19: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Experimentos

•Resultados 2

Page 20: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Experimentos

•Resultados

Page 21: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Experimentos

•Resultados 4

Page 22: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Experimentos

•Resultados 5

Page 23: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Dados de Popularidade

• Barra de ferramenta do MSN– 3 possibilidades:– Contador “cru” das URLs– Contador das URLs junto com o Domínio– Segmentação total da URL

Page 24: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Dados de Popularidade

• Barra de ferramenta do MSN– Resultados

Page 25: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Sumário dos Resultados

• Experimentos comprovaram que proposta tem desempenho significante melhor que PageRank

• Não é necessário ter o grafo dos links na web• Características: Página e Popularidade são os mais

importantes• Coletando mais dados de popularidade(barra de

ferramentas do MSN), dados serão melhores ainda• Dados do usuário, não de desenvolvedores de páginas web• Dinâmica da web sentida mais rapidamente

Page 26: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Trabalhos Relacionados e Futuros

Trabalhos Relacionados– Melhorar o PageRank em buscas sensíveis a tópicos– Analisar não apenas o histórico todo da web, e sim as

mudanças recentes em sua configuração– Identificar a qualidade de sites por características de:

• Contéudo• Estrutura e navegação• Design visual• Funcionalidade• Interatividade • Etc... mais de 100 características analisadas

Page 27: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Trabalhos Relacionados e Futuros

Trabalhos Futuros

• Aumentar o número de características de entrada

• Identificar palavras importantes

• Under Construction » baixa qualidade da página• Número de imagens, tamanho,• Elementos de layout• Uso de estilos• Cor de fundo

• Estudo das diferentes avaliações feita pelo usuário para a mesma página (buscas diferentes)

Page 28: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Trabalhos Relacionados e Futuros

Trabalhos Futuros

• Aplicar Aprendizado de máquina para determinar páginas a serem recarregadas da web

•Incorporar algumas características diretamente no PageRank

• Utilizar os dados de populariedade com maior aproveitamento:

• Sensível a hora da busca• Tempo de permanência na página• Chegou na página clicando em um hiperlink ou usando o botão voltar?

Page 29: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Conclusão

PageRank não gera um bom ranking estático

Muitas características individuais são melhores do que o PageRank

PageRank » tendência para tecnologia

fRank » tendência para os costumes do usuário

O aprendizado de máquina deixa o ranking mais robusto (contra fraudes)

Muito a ser feito ainda

Page 30: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Muito Obrigado!

Page 31: Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Adriano Kaminski.

Beyond PageRank: Beyond PageRank: Machine Learning for Static RankingMachine Learning for Static Ranking

Matthew Richardson Amit Prakash Eric BrillMatthew Richardson Amit Prakash Eric Brill Microsoft Research MSN Microsoft Research Microsoft Research MSN Microsoft Research

Adriano Kaminski Sanches

Prof. Dr. Pável Calado

Universidade Técnica de LisboaInstituto Superior Técnico

Recuperação de Informação

Novembro de 2007Novembro de 2007