Navigazione - colnuovo.unipv.itcolnuovo.unipv.it/matdida/5.database.pdf · Bassa qualità significa...
Transcript of Navigazione - colnuovo.unipv.itcolnuovo.unipv.it/matdida/5.database.pdf · Bassa qualità significa...
1
Tipologia dei dati e organizzazione delle informazioniSistemi di indicizzazione e recupero
5.
Database e Information Retrieval
Navigazione
• per associazione
ipertesti/ipermedia
l’utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse
2
RICERCA
Ricerca della risposta esattaes. quanti sono i siti Web a marzo 2005?
Ricerca esplorativaes. articoli, manuali su progettazione di siti Web
Mezzi di ricerca su WEB:
navigare (percorrere link), ricercare (immettere interrogazioni), domandare (e-mail, chat)
Il risultato preciso
Qualcosa di simile
Tutto
Recuperare i documenti che soddisfano condizioni chiaramente definite
Es: i clienti di una banca che hanno una giacenza media di C/C nel 2004 superiore a 5000 euro
Recuperare i documenti che contengono informazioni su un determinato argomento
ES: turismo culturale
E’ DIVERSO DA
3
Ricerca• Per valore esatto →DBMSsi cercano i “record” i cui “campi” soddisfano un
certo valore
• Per contenuto semantico → IRSsi cercano documenti che contengono parole o frasi
di interesse per l’utente
DATA BASE MANAGEMENT SYSTEM (DBMS)
È un sistema software in grado di memorizzare, mantenere e recuperare l’informazione
L’informazione è strutturataIl recupero avviene mediante confronto di valori di querycon il contenuto di campi indice
4
Information Retrieval System
(IRS)
È un sistema software in grado di memorizzare, mantenere e recuperare l’informazione
L’informazione non è strutturata (testi e multimedia)Il recupero avviene mediante elaborazione di query espresse in un linguaggio di interrogazione e il confrontocon descrittori di documenti estratti da questi con procedure di analisi
DBMS e IRS
• Sistemi capaci di memorizzare, gestire e recuperare dati sulla base di richieste dell’utente
• In entrambi i casi, l'archivio è costituito da una collezione di informazioni correlate
5
Cos'è un database?
• Un db e' un insieme di dati strutturati e permanenti,
• raggruppati per insiemi omogenei in relazione tra loro,
• organizzati con la minima ridondanza per essere usati da applicazioni diverse, in modo controllato.
Caratteristiche
la ridondanza e' minima e controllata: e' assicurata la consistenza delle informazionii dati sono disponibili per utenze diverse e concorrenti (anche contemporanee):es. prenotazione aerei i dati sono controllati: protetti da malfunzionamenti hardware e softwareindipendenza dei dati dal programma dal programma che li gestisce
6
Cos’e’ un DBMS?
• un DBMS e' un insieme di programmi che permettono di creare, usare e gestire un db
• quindi un DBMS e' un sistema software che facilita il processo di definizione, costruzione e manipolazione del database per varie applicazioni
Creazione di un database
• Tre fasi:
definizione
creazione/popolazione
gestione
9
Interrogazione di un db
SELECT [Nome], [Cognome], [Indirizzo], [Città]
FROM StudentiWHERE [Cognome]="Rossi";
Interrogazione di un db
• L'efficacia della query dipende da:
• conoscenza del contenuto del db• esperienza del linguaggio di interrogazione
• Ma anche• semplicità ed efficacia dell'interfaccia di
interrogazione
10
Cos’e’ un sistema di Information Retrieval?
Un sistema di Information Retrieval (IRS) e’ un sistema capace di gestire archivi di documenti di grandi dimensioni.
Permette all’utente la memorizzazione, la ricerca, il recupero e la visualizzazione dei documenti che soddisfano le sue richieste
documenti
matching
documentirecuperati
query
query indicizzata
indicizzazione
indici documenti
indicizzazione
11
documenti
matching
documentirecuperati
query
query indicizzata
indicizzazione
indici documenti
indicizzazione Documenti
costituiscono l’input per l’archivio
matching
documentirecuperati
query
query indicizzata
indicizzazione
indici documenti
indicizzazione Query
• esprime la necessita’ di informazioni dell’utente
• puo’ essere espressa in linguaggio naturale
• presenza di operatori Booleani
documenti
12
matching
documentirecuperati
query
query indicizzata
indicizzazione
indici documenti
indicizzazione Indicizzazione• consiste nell’assegnare
a ciascun documento un insieme di termini indice o parole chiave (index e keyword) capaci di caratterizzarlo per contenuto
• manuale vsautomatica
• controllata vs non controllata
• stop-word
documenti
matching
documentirecuperati
query
query indicizzata
indicizzazione
indici documenti
indicizzazione Matching
• consiste nel confronto tra i termini indice della query e quelli dei documenti dell’archivio e porta al recupero dei documenti pertinenti
• esatto vs parziale
documenti
13
matching
documentirecuperati
query
query indicizzata
indicizzazione
indici documenti
indicizzazione
Documenti recuperati
• come si valuta?• solo l’utente puo’ dire se
sono pertinenti• pero’ non sa se sono tutti• efficacia vs efficienza
documenti
Termini indice
La vista logica di un documento:
Dal full text ai termini indice
Accenti, spazi, etc.
Riconoscimento della struttura
SostantiviStop words Stemming Indicizzazione automaticao manualedocumento
testo
Full text
14
Parola Frequenza Rank
A
Abandon
Abbey
Ability
Able
2.186.369 5
4.249
1.110
10.468
30.454
2107
5204
966
321
Frequenza x Rank = Costante (legge di Zipf)
Rilevante, Recuperato Rilevante, non Recuperato
Non rilevante, Recuperato Non Rilevante, Non recuperato
Recall & Precision
15
Rilevanti e Recuperati
Relevant
Retrieved
Tutti i documenti
Precision vs. Recall
Relevant
Retrieved
|Collectionin Rel||edRelRetriev| Recall=
|Retrieved||edRelRetriev| Precision =
All docs
16
Relevant
Very high precision, very low recall
Relevant
Very low precision, very low recall (0 in fact)
17
Relevant
High recall, but low precision
Retrieved vs. Relevant Documents
Relevant
High precision, high recall (at last!)
18
Precision/Recall Curves
• Difficult to determine which of these two hypothetical results is better:
precision
recall
x
x
x
x
Livelli di CUT OFF• Un modo differente di valutare
– Fissare il numero di documenti recuperati a differentilivelli
• top 5• top 10• top 20• top 50• top 100• top 500
– Misurare la precisione a ciascun livello– Prendere la media (pesata) dei risultati
• In questo modo si può valutare l’efficacia con cui un sistemaordina I primi k documenti
20
E’ più facile fotografare una scena che una fotografia
E’ più facile fotografare una scena che digitalizzare una fotografia
21
Costruire un database di immagini digitali
1 : Quali sono i fattori che determinano la qualità dell’immagine digitale?
2 : Quale livello di qualità è realmente necessario?
Alta qualità produce immagini versatili ma files voluminosi e difficili da gestire
Bassa qualità significa gestione più facile ma spesso impedisce l’uso in contesti quali editoria o mostre
Decidere il livello di qualità implica un’analisi accurata degliusi previsti a medio e lungo termine
TONI (i gradi di luminosità, range dinamico)
DETTAGLI (la definizione dei particolari, sharpness, risoluzione spaziale)
COLORE (intento percettivo, intento colorimetrico)
Non esistono Guidelines o Standard accettati per determinare il livello di qualità necessario per la creazione di un archivio digitale nei progetti di digitalizzazione di collezioni fotografiche a scopo conservativo e per consentirne l’accesso..
22
Digitalizzare per un archivio
Digitalizzare per pre-print
Si possono calcolare esattamente i parametri con formule matematiche
Più complicato
Non si conoscono a priori gli usi
Non si conoscono i cambiamenti tecnologici
Pratica accettata:
Immagine Master a cui assicurare qualità e longevità
Immagini derivate per l’accesso e la comunicazione
La differenza è fondamentale
23
Le immagini sono usualmente documenti “passivi”,considerati come un’appendice di documenti testuali.
Esempio:
soggetto: collezione di opere d’arte
•schede che descrivono l’opera
•immagini digitali che ritraggono l’opera
Boccale ceramica
1745
Faenza
decoro geometrico
Un’immagine può anche essere descritta da un insieme di attributi che la identificano e la descrivono “di per sé” .
Esempi di attributi sono:fotografo (es. Mario Rossi)data fototipo fotosoggettosupporto
Esempio : www.edu.Alinari.it
24
Esempio: Creazione di
archivi di immagini digitali di opere d’arte
DUE PASSI:
.Passo 1: creare le immagini digitali
♦♦A PARTIRE DA IMMAGINI SURROGATO oppureA PARTIRE DA IMMAGINI SURROGATO oppure
♦♦A PARTIRE DALL’OPERA ORIGINALEA PARTIRE DALL’OPERA ORIGINALE
.Passo 2: associare le immagini a un database
I campi descrivono L’OPERA eI campi descrivono L’OPERA e
♦♦L’IMMAGINE SURROGATOL’IMMAGINE SURROGATO
LA DOCUMENTAZIONE DA GESTIRE
INFORMAZIONI SULL’OPERA ORIGINALE
INFORMAZIONI SULLA RAPPRESENTAZIONEFOTOGRAFICA (IMMAG. SURROGATO)
INFORMAZIONI SULL’IMMAGINE DIGITALE(DOCUMENTAZIONE TECNICA)
OPERA IMMAGINE
DESCRIZIONE SURROGATO INDICI DESCRIZIONE INDICI
IMMAGINE DIGITALE
DOCUM. TECNICA
25
N° Plico IdDoc TipoDoc N° Cat. Electa
N° Cat. Brera
Opera Autore Id. File DimFile StatoFile N°CD Dim. Stampa
Operatore
III/3 014224/C col III/165g 180067 S. GiulianoMantegna Andrea 014224/C 32,3 definitivo 47 A4 giuseppe
III/3 014224/C col III/165g 180067 S. GiulianoMantegna Andrea 014224/W 7,8 definitivo 47 A4 giuseppe
III/3 014225/C col III/165c 180067 MadonnaMantegna Andrea 014225/C 13,3 definitivo 47 A4 giuseppe
III/3 014225/C col III/165c 180067 MadonnaMantegna Andrea 014225/W 2,8 definitivo 47 A4 giuseppe
III/3 014226/C col III/165d 180067 Cristo in pietàMantegna Andrea 014226/C 27,3 definitivo 47 A4 giuseppe
III/3 014226/C col III/165d 180067 Cristo in pietàMantegna Andrea 014226/W 6,5 definitivo 47 A4 giuseppe
III/3 014227/C col III/165e 180067 S. GiovanniMantegna Andrea 014227/C 13,6 definitivo 47 A4 giuseppe
III/3 014227/C col III/165e 180067 S. GiovanniMantegna Andrea 014227/W 3,1 definitivo 47 A4 giuseppe
III/3 014228/C col III/165b 180067 S. GirolamoMantegna Andrea 014228/C 29 provvisorio A4 giuseppe
III/3 014228/C col III/165b 180067 S. GirolamoMantegna Andrea 014228/W 6,9 provvisorio A4 giuseppe
III/3 014229/C col III/165a 180067 S. Daniele da PadovaMantegna Andrea 014229/C 30,2 provvisorio A4 giuseppe
III/3 014229/C col III/165a 180067 S. Daniele da PadovaMantegna Andrea 014229/W 7 provvisorio A4 giuseppe
III/3 039964/CE col III/165 180067 Polittico di S. LucaMantegna Andrea 039964/CE 59,4 definitivo 47 A3 giuseppe
III/3 039964/CE col III/165 180067 Polittico di S. LucaMantegna Andrea 039964/W 14,4 definitivo 47 A3 giuseppe
III/3 089524/CE col III/178 88954 S. GirolamoMontagna Bartolomeo 089524/CE 29,3 definitivo 48 A4
III/3 089524/CE col III/178 88954 S. GirolamoMontagna Bartolomeo 089524/W 6,4 definitivo 48 A4
III/3 069366/C col III/166 180068Cristo morto nel sepolcro e tre dolenti
Mantegna Andrea 069366/C 36,7 definitivo 48 A4
Il database associato alla collezione di Brera