Recherche d’information sur le web
Gabriel GallezotUniversité de Nice Sophia Antipolis
URFIST
Gabriel Gallezot - Urfist PacaC 2
Imaginez la situation suivante :En vue de la réalisation d'un prochain projet de recherche sur le
développement durable le responsable du projet vous demande :
1. De produire une bibliographie sur de le thème de l'anthropocène
2. De lui fournir sur la base de la bibliographie réalisée une dizaine de documents significatifs afin de mieux cerner ce thème.
3. De surveiller un certain nombre de sites sur ce même thème.
4. De lui proposer un moyen simple de partager des références (liens sur textes ou sites) avec les autres membres du projet de recherche qui travaillent sur d'autres thèmes connexes.
IntroP
ull
Pu
sh
Gabriel Gallezot - Urfist PacaC 3
1Rappel sur la recherche
d’information (IR)
Gabriel Gallezot - Urfist PacaC 4
Base Bibliographiques
Banques de données
Revues, ouvrages
Colloques
Site web, page perso, blog
Liste de discussion
Editeurs, agrégateurs
Archives Ouvertes
Bibliothèques
Accès aux documents
…
Usage de l’information
Resssources
Typologie de l’info
Vue usagersde l’info
Gabriel Gallezot - Urfist PacaC 5Source : Info@vis
La RI en contexte- différentes sources- différents outils- différents contextes
Appréhension de l’info
Gabriel Gallezot - Urfist PacaC 6
Appropriation des outils
The Machine is Us/ing UsIntroducing the book
Gabriel Gallezot - Urfist PacaC 7
La Recherche d’Information- Bien appréhender votre question (Bien appréhender votre question (mind mappingmind mapping))
- Bien appréhender ce que vous cherchez et où vous le - Bien appréhender ce que vous cherchez et où vous le
cherchez (cherchez (connaître les types de doc, d’info et les ressourcesconnaître les types de doc, d’info et les ressources))
- Comprendre l’envers du “décor” (- Comprendre l’envers du “décor” (indexation, aspects indexation, aspects
commerciaux, stratégie des différents outils,commerciaux, stratégie des différents outils, …) …)
- Bien gérer ses requêtes (Bien gérer ses requêtes (fonctionnalités des outils et fonctionnalités des outils et
méthodesméthodes))
- S’interroger sur la validiter de l’info (- S’interroger sur la validiter de l’info (paratexte, contenu,paratexte, contenu, …) …)
Gabriel Gallezot - Urfist PacaC 8
Nommer les différents types de ressources
En BU
Les catalogues
Les bases de données
Les périodiques
Les encyclopédies et dictionnaires
Les livres électroniques
Les cédéroms
-------------------------
Sur le web
les sites web, les blogs, les wiki (autres CMS)
les portails
les archives ouvertes et les revues en ligne (Open Access)
les sites de « partage » : web 2.0
les répertoires de liens
Gabriel Gallezot - Urfist PacaC 9
Types de documents Articles scientifiques
Brevets
Documents numérisés
Thèses et HDR
Rapports et études
Cours
Données primaires et adjuvants à la recherche
Ouvrages
Notices bibliographiques
Documents multimédias (audio, vidéo, ..)
…
> Def du document ? > Notion d’unité documentaire ?
Gabriel Gallezot - Urfist PacaC 10
Quelques questions
Quels documents sont d'intérêt pour moi (ma question) ? Est-ce que d'autres documents assez proches de mon intérêt
peuvent être également considérés ? Les titres d'autres documents pourraient-ils déclencher des idées
valables pour ma recherche d'information ? Comment mes mots-clés sont-ils réellement distribués dans un
des document ? ....
Trois notions à considérer : Relevance (correspondance a ma question) Pertinence (ce qui m'intéresse vraiment !) Serendipity (quelle chose que je ne recherchais pas mais qui
pourrait également m'intéresser)
Gabriel Gallezot - Urfist PacaC 11
Chercher une aiguille dans une botte de foin c’est :
trouver une aiguille connue dans une botte de foin connue
trouver une aiguille connue dans une botte de foin inconnue
trouver une aiguille inconnue dans une botte de foin inconnue
trouver n'importe quelle aiguille dans une botte de foin
trouver […] [Koll, 00]
Aiguille(s) et botte(s) de foin
=> 3 façons de recherche l’information• « chercher de l'information sur un objet bien défini ;• chercher de l'information sur un objet incomplètement décrit
mais qui sera reconnaissable dès qu'un le rencontrera ;• trouver de l'information de manière fortuite. » (Toms)
Gabriel Gallezot - Urfist PacaC 12
Pour rebondir sur ma métaphore de l’aiguille dans la botte de foin : « Mal chercher l’aiguille dans la botte de foin et la trouver quand même ». >>>> le paradigme de la serendipity
Matching : correspondance des mots-clés d’une requête avec les mots-clés représentant « le(s) document(s) résultat » (système documentaire). Watching : une « vue » des résultats introduite par une organisation spécifique (ex. page rank, clusterisation, etc) (monde des moteurs) >>>>> Nécessité d’interroger le rapport entre la (re)quête d’un individu et la (re)présentation d’une connaissance
Gabriel Gallezot - Urfist PacaC 13
Où chercher ?
Web visibleet Web 2.0
Web invisible
P2P
• Contenu indexable,
• contenu taggé
• bases de données spécialisées
• Contenu dynamique
• Index partiel des sites
• Interdiction d’indexation
• Information contenue sur les ordinateurs individuels
• plusieurs millions d’ordinateurs inter-connectés
•10 Milliards dePages web•Forum de discussion
À partir de source : Eric Boutin
Gabriel Gallezot - Urfist PacaC 14
La notion d’indexation(une notion transversale et centrale)
Indexer/classer pour retrouver (mots clés/répertoire, …)
Les métadonnées (entête)
La structuration du document (corps)
Classification :
Index
Thésaurus
Taxonomie
Facette
Ontologie
Gabriel Gallezot - Urfist PacaC 15
Gestion du bruit et du silence
Documents non relevants
Documents relevants Corpus
Bien gérer VOS REQUETES !
Gabriel Gallezot - Urfist PacaC 16
non relevants(bruit)
relevants
Documents retrouvés
Documents non retrouvés
Relevants(silence)
non relevants
Documents retrouvés
Document non retrouvés
Optimiser sa recherche d'information
Bien gérer VOS
REQUETES !
Gabriel Gallezot - Urfist PacaC 17
Les opérateurs booléens Exemple
Ensemble A cours tutorial
Ensemble B tutorial gratuit
Ensemble C Payant
Tutorial
Cours
gratuit
tutorial
payant
Protection
cours ou tutorial
tutorial et gratuit
cours sauf payant
cours
OR
AND
AND NOT
Les booléens sur GIRI : http://www.bibl.ulaval.ca/vitrine/giri/mod3/booleen.htm
Gabriel Gallezot - Urfist PacaC 18
Opérateurs (ex. google)
L'opérateur « link:site.com » (sans les guillemets) permet d'afficher les pages extérieures qui pointent sur l'URL spécifiée
l'opérateur « site: » (sans les guillemets). Pour limiter la recherche à un site ou à un domaine spécifique, utilisez la syntaxe « site:site_ou_domaine.com » dans le champ de recherche de Google. OU encore recenser TOUTES les pages d'un site
Sélectionner toutes les pages contenant le mot dans l'URL et n'importe où dans la page : inurl:motrecherché
Sélectionner toutes les pages contenant le mot dans l'URL seulement : allinurl:mot recherché
Sélectionner toutes les pages contenant le mot dans le titre et n'importe où dans la page : intitle:mot recherché
Sélectionner toutes les pages contenant le mot dans le titre seulement : allintitle:motrecherché
Rechercher un mot contenu dans un format de document en particulier : filetype:pdf mot recherché
Contrôler l'orthographe d'un mot ou d'une requête : spell:mot ou requête
Pour obtenir la définition d'un mot ou d'une expression, il vous suffit d'entrer define: suivi d'un espace et des mots concernés
Gabriel Gallezot - Urfist PacaC 19
2Les outils de recherche
15.02.07 Gabriel Gallezot - Urfist PacaC
Exemples d’outils(panorama sur le web)
http://delicious.com/Gallezot_Urfist/Rweb-Dec
Gabriel Gallezot - Urfist PacaC 21
Le Web chercher des références bibliographiques
et les textes associés
Les Catalogues et les Bibliothèques Numériques (cat. et BN)
Les Dictionnaires et les encyclopédies (Dico & Co)
Les Archive Ouvertes et Revues en ligne (AO & Co)
Les outils du « web2.0 »
Les Moteurs et Annuaires
Les outils « embarqués » (extension navigateur)
« son » moteur
La méthode Push (la veille) (selon déroulement du stage)
Gabriel Gallezot - Urfist PacaC 22
Cat. et BNCatalogues Sudoc http://www.sudoc.abes.fr/ Worldcat http://worldcat.org/
Ne pas oublier Amazon, chapitre.com, decitre...
Bibliothèques Numériques Europeana : http://www.europeana.eu/portal/
Gallica : http://gallica.bnf.fr/
Google book : http://books.google.com/
Le projet Gutenberg (ebook): http://www.gutenberg.org/wiki/Main_Page
Internet Archive (le web) : http://www.archive.org/
Liste des Bibliothèques numériques : http://www.science.gouv.fr/fr/bibliotheques-numeriques/ et http://signets.bnf.fr/html/categories/c_011textes_num.html
Gabriel Gallezot - Urfist PacaC 23
Dico & Co
Wikipedia : http://fr.wikipedia.org/wiki/Accueil
Les dictionnaires : http://www.dictionnaire-mediadico.com/ http://www.les-dictionnaires.com/
TermScience (lexiques, dictionnaires, thesaurus) : http://www.termsciences.fr
CNRTL : Centre National de Ressources Textuelles et (Morphologies, Lexicographie, Etymologie, Synonymie, Antonymie, Proxémie, Concordance) http://www.cnrtl.fr/lexicographie/
Gabriel Gallezot - Urfist PacaC 24
OA & Co HAL : http://hal.archives-ouvertes.fr/ Revues.org : http://www.revues.org/
Persee : http://www.persee.fr/web/guest/home/
OAIster (cf. Worldcat) : http://www.oaister.org/
OpenDOAR : http://www.opendoar.org/
Scientific commons http://www.scientificcommons.org/
DOAJ : http://www.doaj.org/
Gabriel Gallezot - Urfist PacaC 25
Le web2.0Recherche « verticale »
Signets : Del.ici.ous http://delicious.com, digg http://www.digg.com/
, … :
Ref biblio : CiteUlike http://www.citeulike.org/ , Bibsonomy http://www.bibsonomy.org/ , Connotea : http://www.connotea.org/, LibraryThing : http://www.librarything.com, Zotero http://www.zotero.org/ …
Illustrations : Flickr http://www.flickr.com/ , youtube http://www.youtube.com/ , … :
Présentations : PPT : http://www.slideshare.net
Gabriel Gallezot - Urfist PacaC 26
Les outils de recherche du web(quelques exemples)
Moteurs « academics » Google scholar : http://scholar.google.com Scirus : http://www.scirus.com Esp@cenet : http://www.espacenet.com Google patent : http://www.google.com/patents Scitopia : http://www.scitopia.org/scitopia/ Cf aussi dia AO & co
« Clustering » Exalead http://www.exalead.fr Quintura : http://quintura.com/ Cluuz : http://www.cluuz.com Grokker (!! Délai): http://www.grokker.com/
Gabriel Gallezot - Urfist PacaC 27
Les outils de recherche du web(quelques exemples - suite)
MétaMoteurs Ixquick http://www.eu.ixquick.com/fra/ Clusty : http://clusty.com/ Kartoo : http://www.kartoo.com/ ALL+ : http://www.allplus.com
Curseurs
Oamos : http://www.oamos.com/
Moteurs de médias Vidéos : http://www.blinkx.com/ Images : http://www.picsearch.com/ Music : http://www.picsearch.com/
Gabriel Gallezot - Urfist PacaC 28
« Verticaux » selon plateforme Blogs : http://www.technorati.com/ Wikio (blogs) : http://www.wikio.fr/blogs
Divers searchtwitter http://search.twitter.com/
Wayback machine http://www.archive.org/ Cuil : http://www.cuil.com/ Lecdi : http://www.lecdi.net/
Annuaire Open directory project http://www.dmoz.org/ Intute : http://www.intute.ac.uk/about.html
Autres Moteurs : http://en.wikipedia.org/wiki/List_of_search_engines http://www.altsearchengines.com/ Comprendre la relation entre les moteurs : http://www.search-this.com/search-engine-decoder/
Gabriel Gallezot - Urfist PacaC 29
EXOS je cherche si l'ouvrage : Aramis ou l'amour des techniques / Latour,
Bruno / La D ネ couverte / 1993…. Est disponible dans une BU de l'univ de XXXX...comment faire ?
Dans quelle(s) autre(s) BU en France l'ouvrage est-il disponible ? ... comment faire ?
je souhaite lire l'ouvrage « Changer de société. Refaire de la sociologie, de Bruno Latour ? » comment faire ? Conseillez-moi.
Je souhaite obtenir sous forme numérique le livre « de l’origine des espèces » de Charles Darwin… quels sont les possibilités ?
Je souhaite lire l’article « the anthropocene » (2002), de Paul Crutzen, comment faire ?
…
Gabriel Gallezot - Urfist PacaC 30
Outils embarqués : des extensions FireFox Tous les outils dans un menu déroulant Add to search : https://addons.mozilla.org/en-US/firefox/addon/3682
Ajout de fonctionnalité sur certain outils de recherche. search Cloudlet : http://getcloudlet.com/ …
“Sur mesure” : créer son moteur de recherche (ex : LeMien)
sur google custom search (ex co-op) , équivalent de l’opérateur site: multiplié à souhait : http://www.google.com/coop/cse/
Methode Push(la veille)
Gabriel Gallezot - Urfist PacaC 32
Veille et alerte
Update scanner https://addons.mozilla.org/fr/firefox/addon/3362
Google Alert : http://www.google.fr/alerts …
Testez et évaluer ces outils
Gabriel Gallezot - Urfist PacaC 33
RSS
Contexte (cms…) Pourquoi faire ? Outils (local, en ligne) En pratiques (OPML, …)
Voir vidéo :
http://www.youtube.com/watch?v=240u_FoIHc8
QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.
Gabriel Gallezot - Urfist PacaC 34
Adhérer/Créer un réseau de veilleur(cf : http://wiki-urfist.unice.fr/wiki_urfist/index.php/C2i_niveau_2%2C_%22m%C3%A9tiers_du_droit%22_-_D6/r%C3%A9seaux
Liste de discussion / les « groups »
Chat et Instant messager
Annuaires pro (linkedIn, viadéo, ...)
Un blog
Un wiki
Zotero
...
Pensez « interfaçage ».
1 opération : alimentation de 4 plateformes
Delicous + twitter + groups + facebook
Gabriel Gallezot - Urfist PacaC 35
Mashup
Pour faire quoi ? Quels outils
Xfruits : http://www.xfruits.com/?lg=fr yahooPipe : http://pipes.yahoo.com/pipes/ …
Diffusion ?
Gabriel Gallezot - Urfist PacaC 36
Vos questions
?
Top Related