Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le...

51
Le 09/11/2001 Université de Technologie de Belfort Montbéliard 1 par Sid-Ahmed Lamrous SRI pour le WEB : Moteurs de recherche

Transcript of Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le...

Page 1: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

1

par Sid-Ahmed Lamrous

SRI pour le WEB : Moteurs de recherche

Page 2: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

2

par Sid-Ahmed Lamrous

Plan• Introduction

– Caractéristiques du WEB

– Définitions

• Principes de fonctionnement– Annuaires (ou répertoires) thématiques

– Moteurs de recherche :• Indexation• Couverture• Statistiques significatives

– Méta-moteurs

• Conclusion et discussion

Page 3: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

3

par Sid-Ahmed Lamrous

Introduction• Définition du WEB

– Système hypertexte qui relie des documents multimédia grâce à des serveurs répartis géographiquement dans le monde.

• Documents présents sur le WEB– Tout type de format : fichiers

• textuels• PDF • Postscript • Word• PowerPoint, • …

– HTML (en majorité)– XML (pour l’avenir)

Page 4: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

4

par Sid-Ahmed Lamrous

Exemple de page WEB

Corps

Entête

<HTML>•• <HEAD>• <TITLE>Exemple de document HTML</TITLE>• <META NAME="author" CONTENT="Emmanuel Nauer">• <META NAME="organization" CONTENT="LORIA">• <META NAME="keywords" CONTENT="HTML, exemple, • lien hypertexte, LORIA">• </HEAD>

• <BODY>• <H1>Mon 1er document HTML</H1>• <P>• Ceci est un document HTML avec un lien hypertexte sur le

• <A HREF="http://www.loria.fr/">LORIA</A>.• • </P>• </BODY>•

</HTML>

Page 5: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

5

par Sid-Ahmed Lamrous

Caractéristiques des moteurs de recherche

• un logiciel de recherche– Robot (« crawlers » ou « spiders ») qui traverse

automatiquement la structure hypertextuelle du Web,– Les informations collectées peuvent varier d’un moteur à l’autre

mais généralement elles recouvrent :• l’URL, le titre, les premiers paragraphes, des mots-clés dans le texte ou

texte intégral et/ou metainformations

– Ces informations sont ensuite transmises à une autre station en charge de la sauvegarde et de la gestion de ces données.

• la base de données qui reçoit les informations collectées par le robot.

Composent de deux parties distinctes :

Page 6: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

6

par Sid-Ahmed Lamrous

Mise à jour de la base de données

• Mise à jour à intervalles réguliers dépendants de la rapidité du robot, ceci pour éliminer les liens morts,

• les fonctions principales de la base de données sont :– la recherche ou requête

– l’insertion des données

– la mise à jour des données

– la suppression des données

Page 7: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

7

par Sid-Ahmed Lamrous

Contenu du WEB• Une grande hétérogénéité

– Différents sujets d’informations : informations scientifiques, commerciales, sportives, actualités, …

– Différents types d’informations : données factuelles, texte intégral, banques de données …

– Différents supports : images, sons, vidéos, textes …

– Différents formats

• Gigantesque espace d’information– Résultant de la grande facilité de publication d’information :

N’importe qui peut mettre n’importe quoi, n’importe comment

Page 8: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

8

par Sid-Ahmed Lamrous

Taille du WEB• Des chiffres à la mi-2002 (source : www.abondance.com)

– Nombre de sites WEB (i.e. ensemble de pages WEB) :• anglophones : au moins 3 millions (nombre de sources d'information

recensées sur les annuaires anglophones majeurs : Yahoo!, Looksmart, Open Directory).

• francophones : au moins 160 000 (mêmes sources : annuaires francophones Yahoo!, Nomade.fr, Guide de Voila).

– Nombre de pages WEB :• en toutes langues : au moins 3 milliards.

• en français : 60 millions environ.

– Ces chiffres ne concernent que le WEB statique !!! = uniquement les documents accessibles par des liens

hypertextes

Page 9: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

9

par Sid-Ahmed Lamrous

Répertoires thématiques

Page 10: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

10

par Sid-Ahmed Lamrous

Répertoires thématiques (ou annuaires)• Objectif

– Fournir un accès hiérarchisé à l'information– Exemple : http://www.dmoz.org/, http://www.yahoo.com/, …

• Organisation des données– Indexation humaine des sites (ensemble de pages WEB) :

• Valeur ajoutée

• Couverture limitée

• Biais de l'indexation humaine

• Maintenance de la hiérarchie

– Recherche par navigation dans des classifications thématiques

Page 11: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

11

par Sid-Ahmed Lamrous

Répertoires thématiques (ou annuaires)• Quelques statistiques

– Open Directory (www.dmoz.org, 04/2001)• 36 000 indexeurs • 361 000 catégories• 2 600 000 d’URL

– LookSmart (08/2001)• 200 indexeurs• 200 000 catégories• 2 500 000 d’URL

– Yahoo (08/2000)• 100 indexeurs• Non communiqué• 1 500 000 à 1 800 000 d’URL (intervalle estimé par addition

des liens présentes dans l’ensemble des catégories)

Page 12: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

12

par Sid-Ahmed Lamrous

Moteurs de recherche

Page 13: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

13

par Sid-Ahmed Lamrous

Moteurs de recherche

• Objectifs– Fournir un service pour de la recherche

d'information sur le WEB à partir de requêtes. – Indexation automatique et complète du WEB

• Les plus connus– http://www.altavista.com/– http://www.alltheweb.com/– http://www.excite.com/– http://www.google.com/– http://www.hotbot.com/– …

Page 14: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

14

par Sid-Ahmed Lamrous

Moteurs de recherche

• Fonctionnement et architecture– Moteur d’indexation et de recherche, adapté au

WEB Web INDEX

a : …

information : (#1,16), (#4,145),(#12,19)…

recherche : (#1,4), …

Moteur

- Parcours du WEB- Mise à jour des index

Indexation

- Traitement de la requête- Calcul de la réponse

Recherche

?

Page 15: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

15

par Sid-Ahmed Lamrous

Problèmes de mise en oeuvre• Indexation

– Fréquence de mise à jour de l'index• Couverture : indexation d'une partie du WEB seulement • Technique pour ré-indexer régulièrement les pages à grande

fréquence de modification

– Constitution de l’index = analyse de la page WEB :• Accentuations et majuscules• Mots « vides » (exemples : a, pour, de, afin, ...)• Indexation d'une partie de document seulement• Détection de doublons (document identique à différentes

URL)• Non-indexation des pages contenant du SPAM

(pollution électronique dont le but est de classer une page dans les premières places des résultats de recherche)

Page 16: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

16

par Sid-Ahmed LamrousExemple de document contenant du SPAM

<HTML>

<HEAD> <TITLE>Ma page d’accueil perso</TITLE>

<META NAME="keywords" CONTENT="pamela anderson, pamela, pamela,

pamela, sex, sex, sex, sex">

</HEAD> <BODY BGCOLOR="white">

… <P> Eh non… elle n’est pas là !

</P>…<FONT COLOR="white">pamela, pamela, pamela, … </FONT>

</BODY>

</HTML>

Page 17: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

18

par Sid-Ahmed Lamrous

Classement des réponses• Formule mystérieuse et secrète !• Méthode dépendante du moteur et de différents

paramètres

– Nombre de mots de la requête présents dans le document« Un document qui contient tous les mots de la requête est plus pertinent qu’un document qui n’en contient qu’une partie »

– Mots de la requête en tête de page« Un document qui contient les mots en tête de page est plus pertinent qu’un document qui les contient en fin de page »

Page 18: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

19

par Sid-Ahmed Lamrous

Classement des réponses– Proximité des mots de la requête dans le document

« Si les mots de la requête sont proches, ils sont employés

dans un même contexte »

Exemple :

– Taille de la page

« Plus une page est grande, plus elle contient d’information »

…………………………………..…….. moteur de recherche ….…………………………………..……..

………………………………..… recherche ………………..……………………………

………………………………..…………………

……………….. moteur …….………………………………..

Page 19: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

20

par Sid-Ahmed Lamrous

Classement des réponses– Rareté d’un mot de la requête dans l'ensemble des documents

« Plus un mot est rare dans l’ensemble des documents, plus ce mot est spécifique… par conséquent, il aura un poids plus important que les autres mots de la requête »

– Densité des mots (pour relativiser l’importance de chacun des mots d'une page)Exemple :

nombre d'occurrences du motle nombre total de mots de la page

« Plus un mot apparaît souvent dans un document, plus il caractérise ce document (par rapport aux mots du document qui apparaissent moins souvent) »

Page 20: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

21

par Sid-Ahmed Lamrous

Classement des réponses– Contenu des méta-données

– Nombre de liens qui pointent sur la page« Plus une page est accessible à partir d’autres pages, plus elle est importante »

– Diminution de la pertinence des pages contenant du SPAM

(page en fin de classement)

– Paiement pour apparaître en tête de classement

<META NAME="author" CONTENT= "Toto Titi"><META NAME="keywords"

CONTENT="page personnelle, recherche, UTBM, …">

Page 21: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

22

par Sid-Ahmed Lamrous

Utilisation des liens pour la Recherche

d’Information• Les approches existantes

– l’approche du PageRank,• Utilisation des liens lors de la phase d’indexation

– l’approche de propagation de pertinence – le système probabiliste d’argumentation (PAS), – et l’algorithme de Kleinberg (HITS)

• Utilisation des liens lors de la phase d’interrogation

Page 22: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

23

par Sid-Ahmed Lamrous

Le PageRank• Basé sur la notion de propagation de popularité. Le principe est d’évaluer l’importance d’une page en fonction de chaque page

pointant vers elle. La propagation met en avant les pages qui jouent un rôle particulier dans le réseau des liens, avec l’hypothèse : “une page référencée par un grand nombre de pages est une bonne page”.

• Cette mesure est une distribution de probabilité sur les pages. Elle mesure la probabilité PR d'atteindre une page donnée P. Cette probabilité est d'autant plus forte que le nombre de pages P1 à Pm qui réfèrent P est important.

• PR est donc fonction de la somme des probabilités des pages qui référencent P.

• Il faut aussi tenir compte du fait que les pages qui référencent P ont d'autres liens sortant vers d'autres pages que P. Il faut donc diviser cette probabilité par le nombre C(Pi) de liens sortant des

pages Pi qui référencent P.

Page 23: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

24

par Sid-Ahmed Lamrous

Approche de propagation de pertinence

• Le principe de cette approche consiste à propager des valeurs de pertinence de documents par rapport à une requête avec l’hypothèse suivante : – “un document référencé par un grand nombre de

documents pertinents est un bon document”.

• Contrairement à la propagation de popularité , le calcul de la propagation dépend de la requête. Il doit être effectué à la phase d’interrogation, et donc à chaque fois que l’utilisateur pose sa requête. Au lieu de modifier directement l’index des pages, on modifie la pertinence d’une page en fonction de la pertinence des pages voisines.

Page 24: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

25

par Sid-Ahmed Lamrous

Le système probabiliste d’argumentation (PAS)

• Dans cette approche, au lieu de propager la valeur de pertinence d’un document par rapport à une requête, on propage la probabilité qu’il soit pertinent.

Page 25: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

26

par Sid-Ahmed Lamrous

Algorithme de Kleinberg (HITS)

• Cette approche consiste à calculer la popularité (Hub) et l’autorité (Authority) d’un document et ce pour classer les documents résultats par rapport à une requête.

• L’hypothèse est :– “Un document qui pointe vers beaucoup de

bonnes Authorities est un bon Hub,

– et un document pointé par beaucoup de bons Hubs est une bonne Authority” [Kleinberg99].

Page 26: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

27

par Sid-Ahmed Lamrous

Google

Page 27: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

28

par Sid-Ahmed Lamrous

Google : http://www.google.com/

• Principes de fonctionnement– Idée : exploiter les liens hypertextes (à la manière de

l’analyse des citations en science de l’information) avec l’hypothèse que les liens de citations entre pages WEB expriment une approbation

– Exemple :

LORIA accueil

Page 28: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

29

par Sid-Ahmed Lamrous

Google : http://www.google.com/

• Algorithme de classement– 2 types de pages :

• les pages de références (i.e. pages fréquemment citées)

• les pages pivots (i.e. pages contenant un grand nombre de liens)

– Définition récursive de l’importance des pages« plus une page de référence est pointée par de bonnes pages pivots, plus elle sera une bonne page de référence »« plus une page pivot pointera de bonnes pages de références, plus, plus elle sera une bonne page pivot »

Page 29: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

30

par Sid-Ahmed Lamrous

Google • Algorithme de classement

– Évaluation de chaque page par rapport :• à un score de référence• à un score pivot :

– Méthode de calcul des scores• Augmentation des valeurs des pages pivots par rapport aux

meilleurs pages de référence• Augmentation des valeurs des pages de référence par rapport

aux bonnes pages pivots

– Après quelques itérations, le classement devient stationnaire

Page 30: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

31

par Sid-Ahmed Lamrous

Google • Constitution de la base d’index

– Taille annoncée (source Google, 12/2001) : 2 000 000 000 d’URL, dont :

1 465 000 000 de pages WEB indexées

500 000 000 pages non indexés : documents non analysés, seuls les termes de l’URL et les termes de l’ancre qui contenait ce lien sont indexés.

35 000 000 de documents accessibles par le WEB, mais qui ne sont pas des pages WEB (documents PDF, Postscript, Word, PowerPoint, ...)

3 000 000 de pages ré-indexées quotidiennement (pages à grande fréquence de modification)

Page 31: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

32

par Sid-Ahmed Lamrous

Google

• Nombre de requêtes – Plus de 150 millions de requêtes par jour !

(dans le plus grand index)

• Infrastructure matérielle– Utilisation du plus grand cluster LINUX commercialisé :

plus de 10 000 serveurs !!!

Page 32: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

33

par Sid-Ahmed Lamrous

Quelques statistiqueshttp://www.searchengineshowdown.com/

Page 33: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

34

par Sid-Ahmed Lamrous

Taille des index (en nombre d’URL)• Chiffres annoncés

– Par les moteurs eux-mêmes (12/2001)

Abréviations : FAST=FAST, AV=AltaVista,NL=Northern Light,GG=Google, INK=Inktomi.

Page 34: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

35

par Sid-Ahmed Lamrous

Les moteurs étudiés sont :AltaVista, HotBot, Excite, NorthernLight, Voilà, Lycos, WebCrawler, Infoseek

Champs pris en compte lors de l’indexation

Page 35: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

36

par Sid-Ahmed Lamrous

Priorités dans les champs indexés

Page 36: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

37

par Sid-Ahmed Lamrous

Taille des index (en nombre d’URL)

• Méthode d’estimation– 25 requêtes– Calcul de la taille de l’index d’un moteur par rapport à un moteur dont

on connaît la taille de l’index (multiplication par un coefficient issu des résultats des requêtes).

• Résultats estimés annoncés– Google 968 000 000 1 500 000 000– WiseNut 579 000 000 1 500 000 000– AllTheWeb 580 000 000 507 000 000– AltaVista 397 000 000 500 000 000– Hotbot 332 000 000 500 000 000– MSN Search 292 000 000 500 000 000

Page 37: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

38

par Sid-Ahmed Lamrous

Taille relative• Principe d’évaluation

– 25 requêtes simples (composées d’un seul terme) et comparaison du nombre d’URL renvoyées

• Résultats(04/2001)

Page 38: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

39

par Sid-Ahmed Lamrous

Recouvrement des index

•Principe d’évaluation– 4 requêtes donnant

peu de réponses

– Étude des réponsespar moteurs

•Très peu de recouvrement– malgré une croissance de la taille des index

Page 39: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

40

par Sid-Ahmed Lamrous

Recouvrement des index

•Évaluation de la couverture des moteurs– Analyse de répartitions des réponses données par 1 seul

moteur

Page 40: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

41

par Sid-Ahmed Lamrous

Le Web « invisible »

• On entend par Web « invisible » , les pages qui demeurent invisibles aux moteurs de recherche. On peut en extraire trois catégories :1- Les « frames » : de nombreux moteurs ne savent pas

indexer les sites basés sur des « frames » (terme utilisé pour désigner les cadres qui permettent d’avoir constamment à l’écran le menu initial).

• Northern Light et AltaVista comprennent les « frames » mais elles ne sont pas dans leur contexte (contenu indexé mais navigation impossible).

Page 41: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

42

par Sid-Ahmed Lamrous

Le Web « invisible » (2)

2- Les pages dynamiques : ce sont les pages typiquement liées à des bases de données, il yen a de plus en plus sur le Web.

• Quand l’utilisateur fait sa demande, la base de données assemble les différentes pièces et délivre une page Web comme réponse.

• La marque de fabrique d’une page dynamique est la présence d’un « ? » dans l’URL. La plupart des moteurs ne vont pas plus loin que le « ? », qu’ils comprennent comme une erreur et qui empêche la page d’être indexée.

• Google, grâce à sa particularité d’indexer les mots proches des liens, permet de retrouver ces pages par leurs liens.

Page 42: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

43

par Sid-Ahmed Lamrous

Le Web « invisible » (3)

– Le XML : ce format nouveau ouvre des perspectives intéressantes et est le langage d’avenir sur le Web. Tous les moteurs de recherche disent qu’ils supporteront le XML mais avec des « si ».

– Si un standard émerge, si les « tags »sont utilisés de façon uniforme. Les documents pourraient être indexés par auteur,par éditeur, par dates.

– L’indexation du XML n’est pas encore mise en place

Page 43: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

44

par Sid-Ahmed Lamrous

Au delà des moteurs de recherche

Page 44: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

45

par Sid-Ahmed Lamrous

Méta-moteurs• Principe de fonctionnement

– Interrogation (parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface unique

• Deux types– Méta-moteurs accessibles par le WEB : http://

www.search.com/, http://www.metacrawler.com/, http://www.ariane6.com/, …

– Méta-moteurs logiciels : à installer sur son ordinateur : Copernic, DigOut4U, …

• Intérêt– Besoin rapide d'exhaustivité : recherches aboutissant

à peu (ou pas) de réponse avec les moteurs de recherche classiques

Page 45: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

46

par Sid-Ahmed Lamrous

Méta-moteurs accessibles par le WEB

• Principe de fonctionnement– Interrogation (parallèle ou à la suite) de plusieurs moteurs de

recherche à partir d'une interface unique

• Indexation– Pas d’indexation propre

• Résultats– Exhaustivité variable, dépendante du nombre de résultats

fournis par les moteurs, du temps, des moteurs interrogés– Dédoublonnage – Méthode de classement : le plus souvent en fonction des

classements des réponses fournis par les différents moteurs– Quelque fois : synthèse des réponses

Page 46: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

47

par Sid-Ahmed Lamrous

Méta-moteurs logiciels• Principe de fonctionnement

– Interrogation initiale (en parallèle ou à la suite) de plusieurs moteurs de recherche à partir d'une interface locale

– Puis traitement local :• Récupération des documents en local • Mesure de similarité entre la requête et les documents (avec

éventuellement prise en compte de connaissances de domaine)

• Parcours des liens hypertextes pour accéder à d’autres documents, et les évaluer

• Résultats– Propre à chaque logiciel : utilisation de critères

semblables à ceux utilisés par les moteurs

– Temps d’exécution

Page 47: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

48

par Sid-Ahmed Lamrous

Conclusion

Page 48: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

49

par Sid-Ahmed Lamrous

ConclusionDe sérieux problèmes…

– d’organisation des données : accroissement du nombre de serveurs, du nombre de pages, du volume des données, …

– de sémantique : HTML = langage de présentation de documents

langage de représentation de documents

+ d’utilisation du WEB (méthodologie de recherche d’information : connaissances des sources, des outils, capacité à formuler son besoin, à analyser et comprendre les résultats, …)

… pour mettre en œuvre des systèmes de recherche d’information de qualité.

Page 49: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

50

par Sid-Ahmed Lamrous

Des recherches plus sémantiques

• Recherche dans des parties précises (exemple : AltaVista) – de documents

• Dans le texte du document : text:expression_recherchée

• Dans le titre du document : title:expression

• Dans les ancres : anchor:expression_recherchée

• Dans les URL : url:expression_recherchée

• …

– ou d’éléments attachés aux documents• Nom de domaine : domain:domaine

• Nom de serveur WEB : host:serveur

• …

• C’est pas la panacée, tout de même !!!

Page 50: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

51

par Sid-Ahmed Lamrous

La RI sur le WEB chez Orpailleur• DefineCrawler : un crawler paramétrable pour la recherche

d’information intelligente– Système capable de parcourir le WEB de façon dirigée– Exploitation de connaissances pour guider la RI :

• aide à la formulation et formulation automatique de requêtes

• évaluation du contexte d’apparition des termes de la requête

• évaluation de l’adéquation entre le contenu d’un document et le domaine

– Transparence de la méthode de classement

• Travail en cours– Identification des connaissances favorisant la RI sur le WEB

Page 51: Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 09/11/2001 1 SRI pour le WEB : Moteurs de recherche.

Le 09/11/2001

Université de Technologie de Belfort Montbéliard

52

par Sid-Ahmed Lamrous

Références• Sites WEB

– Moteurs• http://www.google.com/• http://www.altavista.com/

– Statistiques et fonctionnement• http://www.abondance.com/• http://www.searchengineshowdown.com/• http://searchenginewatch.com/