Bibliografia e motori di ricerca: Google e non solo
-
Upload
michele-santoro -
Category
Documents
-
view
707 -
download
1
Transcript of Bibliografia e motori di ricerca: Google e non solo
1
Bologna, 13 maggio 2013
Michele Santoro
Bibliografia e motori di ricerca:
Google e non solo
Michele SantoroUniversità di Bolognae-mail: [email protected]
2
La realtà di Internet
Internet è un contenitore di informazioni da cui è impossibile prescindere
ma è proprio l’immensa mole di informazioni che provoca i problemi maggiori quando si effettua una ricerca bibliografica:information overloaddata deluge
3
La soluzione per eccellenza?
qual è la chiave del suo successo?
senza dubbio il suo “algoritmo di ricerca”
4
La ricerca con Google
il criterio adottato da Google per definire il “ranking” di una pagina
è basato sul grado di “popolarità” della pagina stessa
ossia sul numero di legami (links) che essa riceve da parte di altre paginepiù una pagina è linkata, più è conosciuta e
quindi (si suppone), più è importante e utile
5
La ricerca con Google
ben presto però si è capito che quello della popolarità (“molti links molta importanza”) non era l’unico criterio impiegato da Google per indicizzare le pagine web
e offrirle all’utente in un preciso ordine di rilevanza così sono stati “scoperti” gli elementi che
compongono il famoso (anche se ufficialmente “segreto”) algoritmo di ricerca di Google
6
L’algoritmo di ricerca di Google
il “punteggio” ottenuto da una risorsa in seguito ad una ricerca con Google è dato da: utilizzo delle parole chiave (0.3) importanza del dominio (0.25) link in ingresso (0.25) dati degli utenti (0.1) qualità del contenuto (0.1) altre variabili
7
La ricerca con Google
tutto bene, dunque? per le nostre ricerche possiamo affidarci con fiducia
alla potenza di calcolo di Google ed alla razionalità del suo algoritmo?
non esattamente... proviamo a porci qualche domanda:
8
La ricerca con Google
siamo proprio sicuri che con Google si ottenga tutto ciò che è disponibile su Internet?
siamo proprio sicuri che ciò che troviamo con Google su un certo argomento sia davvero tutto ciò che esiste su quell’argomento?
siamo proprio sicuri che le soluzioni offerte da Google siano autorevoli, cioè adeguate ai fini di una seria ricerca bibliografica?lo stesso Google ha compreso la necessità di
strumenti di ricerca più specifici dando vita a Google Books e Google Scholar
9
Google Books
progetto in base a cui milioni di libri sono stati digitalizzati e messi a disposizione gratuitamente: per quanto il progetto abbia avuto fasi alterne a
causa di problemi legati ai diritti d’autore Google Books è una fonte ricchissima e utilissima
per la ricerca bibliografica modalità di ricerca analoghe a quelle di Google anche se, nella maggior parte dei casi, non è possibile
né stampare né fare il download delle pagine !!! http://books.google.it/
…_
15
Google Scholar ma, come si è visto, Google Books si rivolge alle
monografie mentre la maggior parte dell’informazione nei diversi
ambiti di studio è veicolata dai periodici per questo Google ha creato Google Scholar, un motore di
ricerca specifico che esplora le diverse tipologie di documenti e in particolare i periodici
16
Google Scholar
Google Scholar infatti indicizza non solo libri ma anche articoli di riviste liberamente disponibili in
rete o concessi a Google da autori o editori altri articoli sono invece accessibili sulla base di
determinati requisiti anche se gran parte dei documenti indicizzati sono
di ambito scientifico e in lingua inglese Google Scholar è uno strumento molto importante
per la ricerca bibliografica
19
Non solo Google
per quanto raffinati, i criteri di ricerca di Google presentano comunque numerosi limitiGoogle e i suoi “derivati” (Books e Scholar) non
sono in grado di offrire una copertura esaustiva delle risorse di rete
per cui sono comparsi nuovi strumenti che si presentano come più “intelligenti” e “semanticamente” affidabili
fra questi, si segnala il motore di ricerca “computazionale” Wolphram Alpha, che interessa soprattutto le discipline scientifico-tecniche
E per le discipline umanistiche?
in primo luogo vediamo cosa offre il Portale delle biblioteche dell’Università di Bologna
http://www.biblioteche.unibo.it/portale ed in particolare il settore delle banche dati
http://www.biblioteche.unibo.it/portale/home/portale/risorse-elettroniche/banche-dati
(sono risorse ad accesso riservato per tutti gli utenti Unibo)
Motori di ricerca per le discipline umanistiche/1
JURN (http://www.jurn.org/): indicizza 4.507 free e-journals (vantaggi e limiti) UK-centrico: le risorse sono indicizzate con una
specifica attenzione agli interessi degli studiosi inglesi presenta una lista integrale dei titoli indicizzati
(http://www.jurn.org/jurn-listoftitles.pdf) e una directory più sintetica
(http://www.jurn.org/directory/) utilizza Google CSE (Custom Search Engine), uno
strumento che permette di creare - anche in modo sofisticato - motori di ricerca personalizzati
Motori di ricerca per le discipline umanistiche/2
ISIDORE (http://www.rechercheisidore.fr/) piattaforma di ricerca sviluppata in Francia indicizza una quantità di risorse digitali ad
accesso aperto relative alle scienze umane e sociali
e quindi permette l’accesso a milioni di documenti comprese le tesi di dottorato e i contributi
scientifici disponibili su Revues.org, Cairn, Persée
…_
31
Oltre i motori di ricerca
Google e i suoi derivati, così come i motori di ricerca specifici, sono strumenti molto importanti per il reperimento dell’informazione essi infatti rendono disponibile un patrimonio
conoscitivo enorme ma… la ricerca sul web continua ad essere ancora
problematica
32
Problemi del web problemi legati al linguaggio naturale:
polisemia (termini con più significati) sinonimia (diversi termini con lo stesso
significato) integrazione di informazioni provenienti da più fonti assenza di “macchine intelligenti” cioè in grado di comprendere le informazioni
strutturate in maniera differente e di “ragionarci sopra”
33
Il web profondo
oltre al web “di superficie”, ossia quello visibile e ricercabile attraverso i motori di ricerca
esiste un “web profondo”, detto anche “web invisibile” o “web sommerso”
che risulterebbe essere molto più grande (da 400 a 550 volte) rispetto a quello di superficie deep web: parte del web che non è accessibile ai
motori di ricerca per diversi motivi tra cui:
34
Il web profondo
1. il sito è protetto da password (ad esempio un periodico elettronico non accessibile gratuitamente)
2. il contenuto informativo del sito è raggiungibile solo attraverso una ricerca interattiva in una base di dati (esempio tipico: gli opac!)
numerosi studi rilevano che il web profondo è il più consultato (ha il 50% del traffico in più)
cresce più velocemente ed è di qualità più elevata
35
Possibili soluzioni
1) individuare dei criteri per “forzare” il web profondo
2) perfezionare la tecnologia e rendere le macchine più intelligenti
3) migliorare gli algoritmi di ricerca dei motori
4) accrescere la “significatività” delle parole utilizzate per le ricerche
36
Possibili soluzioni tutte queste possibilità sono state sviluppate negli
anni più recenti in particolare, l’idea di migliorare i criteri di
recupero per termini significativi ha trovato una sua realizzazione attraverso l’impiego dei metadati
che permettono di descrivere le risorse elettroniche, i testi e i documenti multimediali
rendendo meno caotico l’ambiente digitale e consentendo un più efficace recupero
dell’informazione ricercata
37
I metadati
si tratta di un criterio assai simile a quello della tradizionale descrizione bibliografica
ma diversamente dalla catalogazione tradizionale che dà vita a prodotti “esterni” ai documenti descritti
(e cioè schede catalografiche o record bibliografici) i metadati sono inclusi nella stessa risorsa che
descrivono
Un esempio di “vecchi” metadati/1
Un esempio di “vecchi” metadati/2
Campbell, Ann-Jeanette
Viaggio nello spazio : guida essenziale all'astronomia / Ann-Jeanette Campbell ; prefazione di Franco Foresta Martin. – Nuova ed. rinnovata. – Bari : Dedalo, [1998]. – 198 p. : ill. ; 21 cm. - (Nuova biblioteca Dedalo ; 205)
Trad. di Elena Joli
ISBN 88-220-6205-1
Serie: Nuova biblioteca Dedalo, 205.
CDD: 520(21.)
1. Astronomia 2. Universo I. Foresta Martin, Franco
Un esempio di “vecchi” metadati/3
41
Un esempio di “nuovi” metadati
42
Metadati “descrittivi”
fra i molti set di metadati predisposti per la descrizione delle risorse di Internet
si è imposto (in particolare nel mondo bibliotecario) il modello Dublin Core (http://dublincore.org/)
sviluppato a partire dal Metadata Workshop del marzo 1995 tenutosi presso la sede dell’OCLC a Dublin (Ohio)
e sponsorizzato da Online Computer Library Center (OCLC) e dal National Center for Supercomputing Applications (NCSA)
43
I quindici elementi del Dublin Core “simple”
1. Title Titolo della risorsa
2. Subject Parole chiave o termini tratti da un vocabolario controllato
3. Description Descrizione o abstract
4. Creator Persona o organizzazione primariamente responsabile del contenuto intellettuale della risorsa
5. Publisher Editore
6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa
7. Date Data associata con la creazione o la disponibilità della risorsa
8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.)
9. Format Normalmente di tipo MIME (ad es. text/html)
10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore
11. Source Risorsa da cui deriva la risorsa descritta
12. Language Lingua della risorsa
13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta
14. Coverage Caratteristiche spazio-temporali della risorsa
15. Rights Condizioni di copyright della risorsa
44
Una pagina XML con metadati
…_
45
Web semantico
il termine “Semantic Web” è stato proposto per la prima volta nel 2001 da Tim Berners Lee
da allora il termine è stato associato all’idea di un web nel quale vi siano applicazioni in grado di comprendere il significato dei documenti presenti sulla rete quindi guidare l’utente direttamente verso
l’informazione ricercata o sostituirsi a lui nello svolgimento di alcune
operazioni
46
Web semantico
il web semantico quindi rende possibile una ricerca più evoluta
attraverso la costruzione di reti di relazioni e connessioni tra documenti
in base a logiche più elaborate rispetto a quella basata sui semplici link ipertestuali
difatti, è vero che il web è un insieme di testi collegati tra loro
ma questi collegamenti sono “deboli”, nel senso che sono troppo generici e vaghi
47
Web semantico
con il web semantico invece è possibile recuperare documenti esprimendo query complesse: partendo da concetti semplici, si può raffinare
la ricerca esprimendo vere e proprie asserzioni composte da un soggetto, un predicato e un
oggetto si può quindi fare una richiesta del tipo: aziende
(soggetto) che hanno come servizio (predicato) la fornitura di scarpe (oggetto)
48
Web semantico
tale possibilità è radicalmente diversa dall’interrogazione effettuata con un motore di ricerca attraverso il quale si possono indicare i tre
concetti di azienda, di servizio e di scarpe ma non si può esprimere in nessun modo il
legame esistente fra essie da ciò derivano tutte le imprecisioni tipiche
dei motori di ricerca
Web semantico e linked data oggi per la realizzazione del web semantico viene
impiegata la tecnologia dei linked data ossia dati pubblicati sul web in una modalità leggibile,
interpretabile e utilizzabile da una macchina il cui significato deve essere esplicitamente definito da
un insieme di parole e marcatori (tags) importanza bibliografico-documentale dei linked data:
i metadati bibliotecari possono “uscire” dal deep web
aumenta la qualità delle ricerche sul web 49
50
Michele Santoro
Bibliografia e motori di ricerca: Google e non solo
Grazie per l’attenzione!