Bibliografia e motori di ricerca: Google e non solo

1

Bologna, 13 maggio 2013

Michele Santoro

Bibliografia e motori di ricerca:

Google e non solo

Michele SantoroUniversità di Bolognae-mail: [email protected]

2

La realtà di Internet

Internet è un contenitore di informazioni da cui è impossibile prescindere

ma è proprio l’immensa mole di informazioni che provoca i problemi maggiori quando si effettua una ricerca bibliografica:information overloaddata deluge

3

La soluzione per eccellenza?

qual è la chiave del suo successo?

senza dubbio il suo “algoritmo di ricerca”

4

La ricerca con Google

il criterio adottato da Google per definire il “ranking” di una pagina

è basato sul grado di “popolarità” della pagina stessa

ossia sul numero di legami (links) che essa riceve da parte di altre paginepiù una pagina è linkata, più è conosciuta e

quindi (si suppone), più è importante e utile

5


ben presto però si è capito che quello della popolarità (“molti links molta importanza”) non era l’unico criterio impiegato da Google per indicizzare le pagine web

e offrirle all’utente in un preciso ordine di rilevanza così sono stati “scoperti” gli elementi che

compongono il famoso (anche se ufficialmente “segreto”) algoritmo di ricerca di Google

6

L’algoritmo di ricerca di Google

il “punteggio” ottenuto da una risorsa in seguito ad una ricerca con Google è dato da: utilizzo delle parole chiave (0.3) importanza del dominio (0.25) link in ingresso (0.25) dati degli utenti (0.1) qualità del contenuto (0.1) altre variabili

7


tutto bene, dunque? per le nostre ricerche possiamo affidarci con fiducia

alla potenza di calcolo di Google ed alla razionalità del suo algoritmo?

non esattamente... proviamo a porci qualche domanda:

8


siamo proprio sicuri che con Google si ottenga tutto ciò che è disponibile su Internet?

siamo proprio sicuri che ciò che troviamo con Google su un certo argomento sia davvero tutto ciò che esiste su quell’argomento?

siamo proprio sicuri che le soluzioni offerte da Google siano autorevoli, cioè adeguate ai fini di una seria ricerca bibliografica?lo stesso Google ha compreso la necessità di

strumenti di ricerca più specifici dando vita a Google Books e Google Scholar

9

Google Books

progetto in base a cui milioni di libri sono stati digitalizzati e messi a disposizione gratuitamente: per quanto il progetto abbia avuto fasi alterne a

causa di problemi legati ai diritti d’autore Google Books è una fonte ricchissima e utilissima

per la ricerca bibliografica modalità di ricerca analoghe a quelle di Google anche se, nella maggior parte dei casi, non è possibile

né stampare né fare il download delle pagine !!! http://books.google.it/

15

Google Scholar ma, come si è visto, Google Books si rivolge alle

monografie mentre la maggior parte dell’informazione nei diversi

ambiti di studio è veicolata dai periodici per questo Google ha creato Google Scholar, un motore di

ricerca specifico che esplora le diverse tipologie di documenti e in particolare i periodici

16

Google Scholar

Google Scholar infatti indicizza non solo libri ma anche articoli di riviste liberamente disponibili in

rete o concessi a Google da autori o editori altri articoli sono invece accessibili sulla base di

determinati requisiti anche se gran parte dei documenti indicizzati sono

di ambito scientifico e in lingua inglese Google Scholar è uno strumento molto importante

per la ricerca bibliografica

19

Non solo Google

per quanto raffinati, i criteri di ricerca di Google presentano comunque numerosi limitiGoogle e i suoi “derivati” (Books e Scholar) non

sono in grado di offrire una copertura esaustiva delle risorse di rete

per cui sono comparsi nuovi strumenti che si presentano come più “intelligenti” e “semanticamente” affidabili

fra questi, si segnala il motore di ricerca “computazionale” Wolphram Alpha, che interessa soprattutto le discipline scientifico-tecniche

E per le discipline umanistiche?

in primo luogo vediamo cosa offre il Portale delle biblioteche dell’Università di Bologna

http://www.biblioteche.unibo.it/portale ed in particolare il settore delle banche dati

http://www.biblioteche.unibo.it/portale/home/portale/risorse-elettroniche/banche-dati

(sono risorse ad accesso riservato per tutti gli utenti Unibo)

Motori di ricerca per le discipline umanistiche/1

JURN (http://www.jurn.org/): indicizza 4.507 free e-journals (vantaggi e limiti) UK-centrico: le risorse sono indicizzate con una

specifica attenzione agli interessi degli studiosi inglesi presenta una lista integrale dei titoli indicizzati

(http://www.jurn.org/jurn-listoftitles.pdf) e una directory più sintetica

(http://www.jurn.org/directory/) utilizza Google CSE (Custom Search Engine), uno

strumento che permette di creare - anche in modo sofisticato - motori di ricerca personalizzati

Motori di ricerca per le discipline umanistiche/2

ISIDORE (http://www.rechercheisidore.fr/) piattaforma di ricerca sviluppata in Francia indicizza una quantità di risorse digitali ad

accesso aperto relative alle scienze umane e sociali

e quindi permette l’accesso a milioni di documenti comprese le tesi di dottorato e i contributi

scientifici disponibili su Revues.org, Cairn, Persée

31

Oltre i motori di ricerca

Google e i suoi derivati, così come i motori di ricerca specifici, sono strumenti molto importanti per il reperimento dell’informazione essi infatti rendono disponibile un patrimonio

conoscitivo enorme ma… la ricerca sul web continua ad essere ancora

problematica

32

Problemi del web problemi legati al linguaggio naturale:

polisemia (termini con più significati) sinonimia (diversi termini con lo stesso

significato) integrazione di informazioni provenienti da più fonti assenza di “macchine intelligenti” cioè in grado di comprendere le informazioni

strutturate in maniera differente e di “ragionarci sopra”

33

Il web profondo

oltre al web “di superficie”, ossia quello visibile e ricercabile attraverso i motori di ricerca

esiste un “web profondo”, detto anche “web invisibile” o “web sommerso”

che risulterebbe essere molto più grande (da 400 a 550 volte) rispetto a quello di superficie deep web: parte del web che non è accessibile ai

motori di ricerca per diversi motivi tra cui:

34

Il web profondo

1. il sito è protetto da password (ad esempio un periodico elettronico non accessibile gratuitamente)

2. il contenuto informativo del sito è raggiungibile solo attraverso una ricerca interattiva in una base di dati (esempio tipico: gli opac!)

numerosi studi rilevano che il web profondo è il più consultato (ha il 50% del traffico in più)

cresce più velocemente ed è di qualità più elevata

35

Possibili soluzioni

1) individuare dei criteri per “forzare” il web profondo

2) perfezionare la tecnologia e rendere le macchine più intelligenti

3) migliorare gli algoritmi di ricerca dei motori

4) accrescere la “significatività” delle parole utilizzate per le ricerche

36

Possibili soluzioni tutte queste possibilità sono state sviluppate negli

anni più recenti in particolare, l’idea di migliorare i criteri di

recupero per termini significativi ha trovato una sua realizzazione attraverso l’impiego dei metadati

che permettono di descrivere le risorse elettroniche, i testi e i documenti multimediali

rendendo meno caotico l’ambiente digitale e consentendo un più efficace recupero

dell’informazione ricercata

37

I metadati

si tratta di un criterio assai simile a quello della tradizionale descrizione bibliografica

ma diversamente dalla catalogazione tradizionale che dà vita a prodotti “esterni” ai documenti descritti

(e cioè schede catalografiche o record bibliografici) i metadati sono inclusi nella stessa risorsa che

descrivono

Un esempio di “vecchi” metadati/1


Campbell, Ann-Jeanette

Viaggio nello spazio : guida essenziale all'astronomia / Ann-Jeanette Campbell ; prefazione di Franco Foresta Martin. – Nuova ed. rinnovata. – Bari : Dedalo, [1998]. – 198 p. : ill. ; 21 cm. - (Nuova biblioteca Dedalo ; 205)

Trad. di Elena Joli

ISBN 88-220-6205-1

Serie: Nuova biblioteca Dedalo, 205.

CDD: 520(21.)

1. Astronomia 2. Universo I. Foresta Martin, Franco

41

Un esempio di “nuovi” metadati

42

Metadati “descrittivi”

fra i molti set di metadati predisposti per la descrizione delle risorse di Internet

si è imposto (in particolare nel mondo bibliotecario) il modello Dublin Core (http://dublincore.org/)

sviluppato a partire dal Metadata Workshop del marzo 1995 tenutosi presso la sede dell’OCLC a Dublin (Ohio)

e sponsorizzato da Online Computer Library Center (OCLC) e dal National Center for Supercomputing Applications (NCSA)

43

I quindici elementi del Dublin Core “simple”

1. Title Titolo della risorsa

2. Subject Parole chiave o termini tratti da un vocabolario controllato

3. Description Descrizione o abstract

4. Creator Persona o organizzazione primariamente responsabile del contenuto intellettuale della risorsa

5. Publisher Editore

6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa

7. Date Data associata con la creazione o la disponibilità della risorsa

8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.)

9. Format Normalmente di tipo MIME (ad es. text/html)

10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore

11. Source Risorsa da cui deriva la risorsa descritta

12. Language Lingua della risorsa

13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta

14. Coverage Caratteristiche spazio-temporali della risorsa

15. Rights Condizioni di copyright della risorsa

44

Una pagina XML con metadati

…_

45

Web semantico

il termine “Semantic Web” è stato proposto per la prima volta nel 2001 da Tim Berners Lee

da allora il termine è stato associato all’idea di un web nel quale vi siano applicazioni in grado di comprendere il significato dei documenti presenti sulla rete quindi guidare l’utente direttamente verso

l’informazione ricercata o sostituirsi a lui nello svolgimento di alcune

operazioni

46

Web semantico

il web semantico quindi rende possibile una ricerca più evoluta

attraverso la costruzione di reti di relazioni e connessioni tra documenti

in base a logiche più elaborate rispetto a quella basata sui semplici link ipertestuali

difatti, è vero che il web è un insieme di testi collegati tra loro

ma questi collegamenti sono “deboli”, nel senso che sono troppo generici e vaghi

47

Web semantico

con il web semantico invece è possibile recuperare documenti esprimendo query complesse: partendo da concetti semplici, si può raffinare

la ricerca esprimendo vere e proprie asserzioni composte da un soggetto, un predicato e un

oggetto si può quindi fare una richiesta del tipo: aziende

(soggetto) che hanno come servizio (predicato) la fornitura di scarpe (oggetto)

48

Web semantico

tale possibilità è radicalmente diversa dall’interrogazione effettuata con un motore di ricerca attraverso il quale si possono indicare i tre

concetti di azienda, di servizio e di scarpe ma non si può esprimere in nessun modo il

legame esistente fra essie da ciò derivano tutte le imprecisioni tipiche

dei motori di ricerca

Web semantico e linked data oggi per la realizzazione del web semantico viene

impiegata la tecnologia dei linked data ossia dati pubblicati sul web in una modalità leggibile,

interpretabile e utilizzabile da una macchina il cui significato deve essere esplicitamente definito da

un insieme di parole e marcatori (tags) importanza bibliografico-documentale dei linked data:

i metadati bibliotecari possono “uscire” dal deep web

aumenta la qualità delle ricerche sul web 49

50

Michele Santoro

Bibliografia e motori di ricerca: Google e non solo

Grazie per l’attenzione!

Bibliografia e motori di ricerca: Google e non solo

Documents

Transcript of Bibliografia e motori di ricerca: Google e non solo