Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do...

28
Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE ARTIGO FONTE ESTIMATIVA DA PIW ATRAVÉS DE ESTIMATIVA DA PIW ATRAVÉS DE MOTORES DE BUSCA DE GRANDE ESCALA MOTORES DE BUSCA DE GRANDE ESCALA Autores: Autores: Antônio Soares, João Barroso, José Bulas-Cruz Antônio Soares, João Barroso, José Bulas-Cruz Universidade de Trás –os-Montes e Alto Douro, Portugal Universidade de Trás –os-Montes e Alto Douro, Portugal SEMINÁRIO 01 SEMINÁRIO 01 30.MARÇO.2006 30.MARÇO.2006 APRESENTAÇÃO APRESENTAÇÃO Alunos PGEGC Alunos PGEGC Renata Jorge Vieira Renata Jorge Vieira Marcus Grudtner Marcus Grudtner Eduardo Giugliani Eduardo Giugliani

Transcript of Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do...

Page 1: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

ARTIGO FONTEARTIGO FONTEESTIMATIVA DA PIW ATRAVÉS DE ESTIMATIVA DA PIW ATRAVÉS DE

MOTORES DE BUSCA DE GRANDE ESCALAMOTORES DE BUSCA DE GRANDE ESCALAAutores: Autores:

Antônio Soares, João Barroso, José Bulas-CruzAntônio Soares, João Barroso, José Bulas-CruzUniversidade de Trás –os-Montes e Alto Douro, PortugalUniversidade de Trás –os-Montes e Alto Douro, Portugal

SEMINÁRIO 01SEMINÁRIO 0130.MARÇO.200630.MARÇO.2006

APRESENTAÇÃOAPRESENTAÇÃOAlunos PGEGCAlunos PGEGC

Renata Jorge VieiraRenata Jorge VieiraMarcus GrudtnerMarcus Grudtner

Eduardo GiuglianiEduardo Giugliani

Page 2: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

INTRODUÇÃO

• A WorldWebWide é um campo fértil deA WorldWebWide é um campo fértil deinvestigação e recuperação de informaçõesinvestigação e recuperação de informações

• A indexação é, por excelência, A indexação é, por excelência, o método que permite, o método que permite, de uma formade uma forma escalável escalável e eficaz, a pesquisa da Webe eficaz, a pesquisa da Web

• O foco da investigação está no enquadramentoO foco da investigação está no enquadramentogeral da Recuperação de Informação geral da Recuperação de Informação na na Web e na forma como os ‘sites’ deWeb e na forma como os ‘sites’ depesquisa percorrem e recolhem todo o pesquisa percorrem e recolhem todo o espaço espaço textual público e indexável da Web.textual público e indexável da Web.

Page 3: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

OBJETIVOS DO ARTIGOOBJETIVOS DO ARTIGO

• Estudo mais aprofundado da Estudo mais aprofundado da Recuperação de Informação na WebRecuperação de Informação na Web processo antigo processo antigo desafio atual desafio atual

• Análise dos desafios que direcionam oAnálise dos desafios que direcionam odesenvolvimento de ‘sites’ de pesquisadesenvolvimento de ‘sites’ de pesquisade grande escala operados comercialmente,de grande escala operados comercialmente,

• Análise da forma como estes sistemas sãoAnálise da forma como estes sistemas sãoimplementados ao nível dos componentesimplementados ao nível dos componentes que lhes permitem o percurso e recolhimentoque lhes permitem o percurso e recolhimento automático de todo o espaço automático de todo o espaço WWeb, eb, PPúblico e úblico e IIndexável (ndexável (PIWPIW).).

Page 4: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

SOBRE A PESQUISA REALIZADASOBRE A PESQUISA REALIZADA

Trata-se de uma experiência cujos Trata-se de uma experiência cujos objetivosobjetivos foram de foram de

• estimar a PIW, estimar a PIW,

• estimar a cobertura da PIW estimar a cobertura da PIW por por parte dos maiores ‘sites’ de pesquisa, eparte dos maiores ‘sites’ de pesquisa, e

• estimar a percentagem de ligações inválidas estimar a percentagem de ligações inválidas presente nos índices desses ‘sites’ de pesquisa.presente nos índices desses ‘sites’ de pesquisa.

Page 5: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

METODOLOGIAMETODOLOGIA

• A experimentação teve por base os estudosA experimentação teve por base os estudosefetuados de Lawrence e Giles e efetuados de Lawrence e Giles e foi realizada através do foi realizada através do

programa programa CopernicCopernic (Inc.-2003d). (Inc.-2003d).

• O método de Lawrence e Giles consiste naO método de Lawrence e Giles consiste naestimativa da PIW com base no cálculoestimativa da PIW com base no cálculodo número de documentos sobrepostosdo número de documentos sobrepostosentre pares de motores de pesquisa entre pares de motores de pesquisa (Lawrence e Giles - 1998).(Lawrence e Giles - 1998).

Page 6: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

• Lidar com a natureza Lidar com a natureza dinâmica e heterogênea da Webdinâmica e heterogênea da Web

• Lidar com questões de Lidar com questões de escalabilidade escalabilidade (relevância)(relevância) e distribuição, e distribuição,

• Lidar com um grau de qualidade Lidar com um grau de qualidade da da informação muito variado, informação muito variado,

• Fazer uso da estrutura de ligações da Web Fazer uso da estrutura de ligações da Web para aumentar a eficiência e qualidade para aumentar a eficiência e qualidade dos sites de pesquisa, entre outros ... dos sites de pesquisa, entre outros ...

OS DESAFIOS DO EXPERIMENTOOS DESAFIOS DO EXPERIMENTO

Page 7: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

• Ocorreu entre Maio e Junho de 2003 Ocorreu entre Maio e Junho de 2003

• Sites de pesquisa selecionados: Sites de pesquisa selecionados: AlltheWeb (AW)AlltheWeb (AW)

Altavista (AV)Altavista (AV)Google (GG)Google (GG)HotBot (HB) HotBot (HB)

• Foram analisadas ferramentas de pesquisa Foram analisadas ferramentas de pesquisa da Web (agentes) da Web (agentes)

• De todas as ferramentas analisadas, De todas as ferramentas analisadas, somente osomente o “agente”“agente” Copernic Copernic obedecia obedeciaaos requisitos da experimentação aos requisitos da experimentação

REALIZAÇÃO DA PESQUISAREALIZAÇÃO DA PESQUISA

Page 8: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

• Interrogar os sites de pesquisa escolhidosInterrogar os sites de pesquisa escolhidos

• Retornar até 600 documentosRetornar até 600 documentos

• Detectar e eliminar URLs duplicadosDetectar e eliminar URLs duplicados

• Detectar e eliminar URLs inválidosDetectar e eliminar URLs inválidos

• Permitir a definição de um Permitir a definição de um timetime--outout

• Permitir definição do tamanho dos documentos Permitir definição do tamanho dos documentos

• Descarregar os documentos e analisar os seus termosDescarregar os documentos e analisar os seus termos

• Permitir a contagem dos documentos retornados para Permitir a contagem dos documentos retornados para

o cálculo da sua sobreposiçãoo cálculo da sua sobreposição

REQUISITOS DA EXPERIMENTAÇÃOREQUISITOS DA EXPERIMENTAÇÃO

Page 9: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

• Definição dos pares dos sites de pesquisaDefinição dos pares dos sites de pesquisa

GG/HB, AW/GG, AW/HB, AV/HB, AW/AV, GG/HB, AW/GG, AW/HB, AV/HB, AW/AV,

AV/GGAV/GG

• Seleção das interrogações a efetuar:Seleção das interrogações a efetuar:

interrogação teste: ‘agamosenesis’ interrogação teste: ‘agamosenesis’

já utilizada em outras pesquisasjá utilizada em outras pesquisas

28 termos escolhidos: 28 termos escolhidos:

em inglês ( ~ 72% em inglês ( ~ 72%

da PIW )da PIW )

interrogações de um só termo interrogações de um só termo

EXPERIMENTAÇÃOEXPERIMENTAÇÃO

Page 10: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

ANÁLISE DA EQUIPEANÁLISE DA EQUIPE

SITES DE PESQUISASITES DE PESQUISA

MOTORES DE BUSCAMOTORES DE BUSCA

Page 11: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Sites de Pesquisa x Motores de Sites de Pesquisa x Motores de BuscaBusca

• Sites de PesquisaSites de Pesquisa• Sites que executam busca de informações Sites que executam busca de informações

em bases próprias ou não.em bases próprias ou não.

• Motores de BuscaMotores de Busca• Mecanismos para a busca e manutenção Mecanismos para a busca e manutenção

de conteúdos na internet.de conteúdos na internet.

Page 12: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Motores de BuscaMotores de Busca

• Definição:Definição: Mecanismo automatizado que acessa sitesMecanismo automatizado que acessa sitespreviamente cadastrados buscando conteúdospreviamente cadastrados buscando conteúdos e, e, através de links encontrados, buscaatravés de links encontrados, buscanovos conteúdos em outras páginas.novos conteúdos em outras páginas.

• CrawlerCrawler• Web CrawlerWeb Crawler• BotBot• RobotRobot• SpiderSpider

Page 13: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Motor de Busca do Google - GooglebotMotor de Busca do Google - Googlebot

• Adicionar URLAdicionar URLURL e comentárioURL e comentário

• Robot.txtRobot.txtUser-agent: *User-agent: *

Disallow: /cgi-bin/Disallow: /cgi-bin/Disallow: /tmp/Disallow: /tmp/Disallow: /~joe/Disallow: /~joe/

• META TagMETA Tag<META NAME=“ROBOTS” CONTENT=“NOFOLLOW”><META NAME=“ROBOTS” CONTENT=“NOFOLLOW”>

• HotBot HotBot utiliza a base de dados do Google e do Lycos utiliza a base de dados do Google e do Lycos

Page 14: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Motor de busca do Motor de busca do AllTheWeb e AltavistaAllTheWeb e Altavista

• Usa o Yahoo como base Usa o Yahoo como base Programa “Overture Site Match(tm)” Programa “Overture Site Match(tm)”

• Vincula os sites a uma conta Vincula os sites a uma conta (deve ser criada anteriormente)(deve ser criada anteriormente)

• Várias categorias para submissão de URLVárias categorias para submissão de URL• Cadastro mais trabalhosoCadastro mais trabalhoso

Page 15: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Page 16: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Page 17: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Page 18: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Page 19: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Outros Sites de BuscaOutros Sites de Busca

• - AOL – base própria- AOL – base própria• - Iwon – utiliza o serviço do ‘ASK’- Iwon – utiliza o serviço do ‘ASK’• - Teoma – mudou para ‘ask’- Teoma – mudou para ‘ask’• - Lycos – tem indexação própria que é utilizada - Lycos – tem indexação própria que é utilizada

por vários sites de busca:por vários sites de busca: www.lycos.com, www.gamesville.com, www.tripod.com, www.lycos.com, www.gamesville.com, www.tripod.com,

www.angelfire.com, mail.lycos.com, www.quote.com,www.angelfire.com, mail.lycos.com, www.quote.com, www.ragingbull.com, www.wired.com, www.hotbot.com,www.ragingbull.com, www.wired.com, www.hotbot.com,www.whowhere.com, www.hotwired.com, www.webmonkey.com, www.whowhere.com, www.hotwired.com, www.webmonkey.com, www.getrelevant.com, and www.htmlgear.com www.getrelevant.com, and www.htmlgear.com

Page 20: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Outros Sites de BuscaOutros Sites de Busca

• MSN MSN motor de busca - MSNbot motor de busca - MSNbot

• Overture Overture motor de busca do Yahoo motor de busca do Yahoo

• WiseNut WiseNut motor de busca próprio motor de busca próprio

Page 21: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

Tamanho estimado da PIW Tamanho estimado da PIW e respectivo intervalo de confiança a 95% e respectivo intervalo de confiança a 95%

RESULTADOSRESULTADOSTABELA 1TABELA 1

Page 22: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

RESULTADOSRESULTADOSFIGURA 1FIGURA 1

Estimativas do tamanho da PIW Estimativas do tamanho da PIW ao longo do tempo ao longo do tempo

??

Page 23: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

RESULTADOSRESULTADOSTABELA 2TABELA 2

Resultados da porcentagem de ligações inválidasResultados da porcentagem de ligações inválidas

Page 24: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

CONCLUSÕES DO ARTIGOCONCLUSÕES DO ARTIGO• Utilização de métodos mais simples Utilização de métodos mais simples

inviável !!!, ... sites comerciais, ... info valiosasinviável !!!, ... sites comerciais, ... info valiosas

• Vários métodos para estimar a PIWVários métodos para estimar a PIW alguns com resultados muito divergentes alguns com resultados muito divergentes

• Estimativa da PIW determinada: 8,245 bilhõesEstimativa da PIW determinada: 8,245 bilhões junho de 2003 junho de 2003 coerente com outra pesquisa de maio de 2003 (6 bi) coerente com outra pesquisa de maio de 2003 (6 bi)

• Relativamente à atualização dos sites de pesquisa,Relativamente à atualização dos sites de pesquisa,os resultados obtidos sugerem que os sites vêm os resultados obtidos sugerem que os sites vêm acompanhamento oacompanhamento o ritmo de crescimento e a dinâmicaritmo de crescimento e a dinâmicada Web... mais precisamente da PIW.da Web... mais precisamente da PIW.

• Sites de pesquisa com maiores índices Sites de pesquisa com maiores índices (Google-Hotbot)(Google-Hotbot) apresentam as melhores políticas de ‘frescura’ !!! apresentam as melhores políticas de ‘frescura’ !!!

Page 25: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

CONCLUSÕES DA EQUIPE (1)CONCLUSÕES DA EQUIPE (1)• WEB WEB

ainda é um grande campo de pesquisa ainda é um grande campo de pesquisa• Vulnerabilidade Vulnerabilidade ??????

páginas dinâmicaspáginas dinâmicas oferecem consistência das informações buscadasoferecem consistência das informações buscadas??

atualização dos sites de pesquisa:atualização dos sites de pesquisa: > ‘frescura’ dos índices > ‘frescura’ dos índices

< erros, ligações erradas, < erros, ligações erradas, dead links,...dead links,...

• Independência entres motores Independência entres motores >s índices na PIW >s índices na PIW ??????

Page 26: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

CONCLUSÕES DA EQUIPE (2)CONCLUSÕES DA EQUIPE (2)

Resultados Obtidos Buscando Alguns dos 28 ‘Termos’Resultados Obtidos Buscando Alguns dos 28 ‘Termos’

scrimshank scrimshank mutule mutule ozotype ozotype allomorphism allomorphism quindecagon quindecagon

GoogleGoogle 12.400 12.400 23.800 23.800 313 313 13.400 13.400 21.300 21.300

AltaVistaAltaVista

(Yahoo) (Yahoo) 10.200 10.200 1.930 1.930 254 254 1.570 1.570 474 474

AllTheWebAllTheWeb

(Yahoo) (Yahoo) 9.580 9.580 1.240 1.240 227 227 1.380 1.380 393 393

HotBotHotBot

(Google) (Google) 389 389 1.130 1.130 97 97 619 619 252 252

Page 27: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

REFERÊNCIAS BIBLIOGRÁFICAS

• CONFERÊNCIA IBERO-AMERICANA WWW/INTERNET 2004, CONFERÊNCIA IBERO-AMERICANA WWW/INTERNET 2004, 2004, Madrid. Actas da Conferência Ibero- Americana. 2004, Madrid. Actas da Conferência Ibero- Americana. Madrid: Iadis Press, 2004. v. 1, p. 155-165. Madrid: Iadis Press, 2004. v. 1, p. 155-165. ISBN ISBN 97299353-1-9. 97299353-1-9. www.iadis.org/ciawi2004/ciawi2004_prog.pdf

• Lawrence, S. e Giles, C. L., 1998. Searching the World Lawrence, S. e Giles, C. L., 1998. Searching the World Wide WebWide Web. Science. Science. . Vol. 280, n.º 4, p. 98-100. Vol. 280, n.º 4, p. 98-100. http://citeseer.nj.nec.com/lawrence98searching.html..

• Lawrence, S. e Giles, L., 1999. Accessibility and Lawrence, S. e Giles, L., 1999. Accessibility and Distribution of Information on the WebDistribution of Information on the Web. Nature. Nature. . Vol. 400, Vol. 400, p. 107-109. p. 107-109.

http://wwwmetrics.com/

Page 28: Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Programa de Pós-Graduação emEngenharia e Gestão do Conhecimento, EGC - UFSC

T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

MUITO OBRIGADOMUITO OBRIGADO

SEMINÁRIO 01SEMINÁRIO 0130.MARÇO.200630.MARÇO.2006

Renata Jorge VieiraRenata Jorge VieiraMarcus GrudtnerMarcus Grudtner

Eduardo GiuglianiEduardo Giugliani