Transcript of Bienvenue. UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT D’INFORMATIQUE En vue...
- Page 1
- Bienvenue
- Page 2
- UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU DEPARTEMENT
DINFORMATIQUE En vue dobtention du diplme dingnieur dtat en
informatique Option Systmes dinformation avancs Travail Ralis par :
M R GUENDOUL Samir Dirig par: M r HAMMACHE Arezki
PROMOTION2009_2010PROMOTION2009_2010
- Page 3
- Thme : Ralisation dun crawler web paramtrable.
- Page 4
- Plan : Introduction. Recherche dinformation sur le web. Moteurs
de recherche. Crawler. Solution ralise. Conclusion.
- Page 5
- Introduction: Recherche dinformation: La recherche
d'information est un domaine historiquement li aux sciences de
l'information et la bibliothconomie. La recherche informatique a
permis le dveloppement doutils pour traiter linformation et tablir
la reprsentation des documents linstant de leur indexation. Au sens
large, la recherche d'information inclut deux aspects :
l'indexation des corpus ; l'interrogation du fonds documentaire
ainsi constitu.
- Page 6
- Le Web: (www) Cr par Tim Berners-Lee dans les anne 90.
Reprsente la couche logique du rseau Internet. Cr pour changer et
consulter linformation. Question : Comment accder aux informations
nous intressant ? Parcourir tous les composants relis au Web. (tche
ardue et lente). Comment faire ?
- Page 7
- Les outils de recherche sur le Web Les moteurs de recherche :
lun des composants qui ont rvolutionn le web. Cr par Matthew Gray
En 1993. Son travail consiste : Chercher les informations
pertinentes. Les restituer lutilisateur.
- Page 8
- Les outils de recherche sur le Web Les annuaires: Yahoo est le
premier faire son entre en 1994. Ils sont constitus par des
catalogues organiss en grandes rubriques. Les rsultats sont
pertinents mais beaucoup plus restreints. Les mta-moteurs: Un
mta-moteur est un moteur de recherche, combinant la recherche
dinformation sur plusieurs moteurs de recherche diffrents. web
Crawlde, mtaCrawler, etc.
- Page 9
- Les moteurs de recherches: Web Liste range Reprsentation de
question Anti-dictionnaire Besoin dinformations Formulation
Indexeur Classement Retourne le rsultat lutilisateur Crawler Base
de stockage prsentation
- Page 10
- Processus de moteur de recherche: www Crawler Base de stockage
indexeur Anti-dictionnaire Besoin dinformations Module de recherche
Liste range requte
- Page 11
- Le Crawler: Dfinition: Programme intelligent qui sexcute
automatiquement. Parcoure et explore le Web en suivant les line
hypertextes. Alimente la base de donn des moteurs de recherche.
Archie: Le premier robot apparu dans le web. Cr par Alan Emtage en
1990. Tlcharger le listings dannuaire.
- Page 12
- Les types des Crawlers: Crawler Web : il explore tous le Web et
aspire les informations correspondantes chaque URL. Crawler
indexeur : parcoure, aspirant et index chaque page trouver dans le
Web. Crawler chercheur: Rechercher des informations spcifique un
domaine prcis par une requte. Cherche sur le web en temps rel.
Remarque : Le type de Crawler quest tudi est le Crawler Web.
- Page 13
- Architecture Gnrale des Crawlers: Frontire Client HTTP Parseur
URLs de dpart www B.D.D Entre Choisir URL Chercher Sauvegarde
Fouiller Traiter Ajout dURL Scanneur
- Page 14
- Stratgies de parcours: Le web est un graphe dont les nuds sont
des pages et les arcs sont des liens. Le crawler commence par
quelque nuds est suit les arcs. Dvers Stratgies existe : Le
parcours en largeur (FIFO). Le parcours en profondeur (LIFO). Le
parcours suivant le degr entrant maximum (DEM). Le parcours
alatoire (RANDOM).
- Page 15
- Le parcours en Largeur 1 234 56789 10 1 QueueTte
2132143215432165432176543218765432198765432110987654321
- Page 16
- Le parcours en profondeur 1 234 56789 10 1 Queue Tte
21521652136521 736521 87365214873652194873652110948736521
- Page 17
- Le processus de Crawler: URL Entre URLs de dpart La frontire
Client HTTP Choisir URL www BDD chercher sauvegarder Parseur URL
parser scanner URLs trouves URL
- Page 18
- Critres du Crawler: Les critres suivre : Eviter de parcourir
une mme page; Choisir les documents a tlchargs; Ne pas rcolter des
fichiers qui peuvent causer des dommages; Eviter de suive un
parcours sans fin; Respecter les instructions dexclusion
(robot.txt); Ne pas saturer les serveurs.
- Page 19
- Les Crawlers distribus: Problme : Immensit de Web. Limite des
Crawlers mon-poste. Solution: Ncessit dune nouvelle technologie;
Naissance des Crawlers Distribus.
- Page 20
- Architecture des Crawlers Distribus: Crawler www BDD Frontir
URL Clients Serveur URL...
- Page 21
- Solution raliser: Un Crawler Paramtrable
- Page 22
- Environnement de dveloppement : La ralisation dun logiciel
fiable et performant est capitale. Les outils de dveloppement:
Systme dexploitation : Windows Vista. Environnement : Eclipse IDE
version 3.4.1. Langage de programmation : JAVA.
- Page 23
- Architecture du Systme: Crawler URL document
- Page 24
- Architecture du Systme: Interface Utilisateur Noyau Stockage
dinformations Initialiser et dmarrer le Crawler Sauvegarder les
donnes Consulter les donnes
- Page 25
- Le Noyau: Noyau ExploreurParseurScanneurClient HTTP
- Page 26
- Le Client HTTP : URL Interroger le serveur www Existe? Oui Non
Tlcharger le document Base De Donnes Fin Sauvegarder
- Page 27
- Le parseur: Analyser page Contient des liens? Extraire les
liens Fille temporaire Fin Oui Non ajouter
- Page 28
- Le Scanneur: URLs Vrifier le Protocole Ajouter une fille
temporaire Fin HTTP? Non Vrifier le lien interne? Oui Non Oui
Vrifier le type existe? Non Vrifier la longueur et la profondeur
dpasser? Oui Non
- Page 29
- Lexploreur: Frontire Client HTTP vide? Fin Oui Choisir URL Non
Parseur Scanneur Ajouter les URLs la frontire Tlcharger Analyser
vrifier ajouter recommencer Dbut
- Page 30
- Stratgies de parcours: La frontire dtermine quelle stratgie
adopter. Nous avons dvelopps quatre stratgies : Parcours en Largeur
: utilise une fille FIFO. Parcours en Profondeur : utilise une
fille LIFO. Parcours alatoire : programme avec la fonction
Random(). Parcours Delay : utilise une fille FIFO, temps de
connexion limit. Pour programmer ces fille dattentes, nous avons
utiliss la classe ArrayList.
- Page 31
- Interface graphique principale:
- Page 32
- Ajouter un Crawler:
- Page 33
- Panneau gestion Crawler: Proprits du Crawler Etat de parcours
Arrter Pause Continuer Dmarrer URLs xplores Pages tlcharges
- Page 34
- Consulter les pages tlcharges: Consulter les URLs
Explores:
- Page 35
- Fin de Crawler
- Page 36
- Test Nous avons initialis le Crawler comme suit: Stratgie :
Fifo ; Nombre Urls : illimit ; Nombre Rpertoire : illimit ;
Longueur Url : illimit ; Type Url : html, php, asp, pdf, doc, txt,
ptt ; Url de depart : http://www.ummto.dz/ Aprs onze heur de
parcours:
- Page 37
- Test
- Page 38
- Conclusion Nous avons prsent une tude dtaill sur les Crawler et
la solution ralise. Nous avons conquis de nouvelles information sur
la RI, et acquis une base solide sur le dveloppement et la
programmation de logiciel. En guise de perspective nous proposons,
dlaborer une architecture distribue pour le Crawler raliser.
- Page 39
- Merci pour votre attention Questions..?