Navigazione - colnuovo.unipv.itcolnuovo.unipv.it/matdida/5.database.pdf · Bassa qualità significa...

28
Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval Navigazione per associazione ipertesti/ipermedia l’utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

Transcript of Navigazione - colnuovo.unipv.itcolnuovo.unipv.it/matdida/5.database.pdf · Bassa qualità significa...

1

Tipologia dei dati e organizzazione delle informazioniSistemi di indicizzazione e recupero

5.

Database e Information Retrieval

Navigazione

• per associazione

ipertesti/ipermedia

l’utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

2

RICERCA

Ricerca della risposta esattaes. quanti sono i siti Web a marzo 2005?

Ricerca esplorativaes. articoli, manuali su progettazione di siti Web

Mezzi di ricerca su WEB:

navigare (percorrere link), ricercare (immettere interrogazioni), domandare (e-mail, chat)

Il risultato preciso

Qualcosa di simile

Tutto

Recuperare i documenti che soddisfano condizioni chiaramente definite

Es: i clienti di una banca che hanno una giacenza media di C/C nel 2004 superiore a 5000 euro

Recuperare i documenti che contengono informazioni su un determinato argomento

ES: turismo culturale

E’ DIVERSO DA

3

Ricerca• Per valore esatto →DBMSsi cercano i “record” i cui “campi” soddisfano un

certo valore

• Per contenuto semantico → IRSsi cercano documenti che contengono parole o frasi

di interesse per l’utente

DATA BASE MANAGEMENT SYSTEM (DBMS)

È un sistema software in grado di memorizzare, mantenere e recuperare l’informazione

L’informazione è strutturataIl recupero avviene mediante confronto di valori di querycon il contenuto di campi indice

4

Information Retrieval System

(IRS)

È un sistema software in grado di memorizzare, mantenere e recuperare l’informazione

L’informazione non è strutturata (testi e multimedia)Il recupero avviene mediante elaborazione di query espresse in un linguaggio di interrogazione e il confrontocon descrittori di documenti estratti da questi con procedure di analisi

DBMS e IRS

• Sistemi capaci di memorizzare, gestire e recuperare dati sulla base di richieste dell’utente

• In entrambi i casi, l'archivio è costituito da una collezione di informazioni correlate

5

Cos'è un database?

• Un db e' un insieme di dati strutturati e permanenti,

• raggruppati per insiemi omogenei in relazione tra loro,

• organizzati con la minima ridondanza per essere usati da applicazioni diverse, in modo controllato.

Caratteristiche

la ridondanza e' minima e controllata: e' assicurata la consistenza delle informazionii dati sono disponibili per utenze diverse e concorrenti (anche contemporanee):es. prenotazione aerei i dati sono controllati: protetti da malfunzionamenti hardware e softwareindipendenza dei dati dal programma dal programma che li gestisce

6

Cos’e’ un DBMS?

• un DBMS e' un insieme di programmi che permettono di creare, usare e gestire un db

• quindi un DBMS e' un sistema software che facilita il processo di definizione, costruzione e manipolazione del database per varie applicazioni

Creazione di un database

• Tre fasi:

definizione

creazione/popolazione

gestione

7

Creazione di un database

Creazione di un database

8

Creazione di un database

Creazione di un database

9

Interrogazione di un db

SELECT [Nome], [Cognome], [Indirizzo], [Città]

FROM StudentiWHERE [Cognome]="Rossi";

Interrogazione di un db

• L'efficacia della query dipende da:

• conoscenza del contenuto del db• esperienza del linguaggio di interrogazione

• Ma anche• semplicità ed efficacia dell'interfaccia di

interrogazione

10

Cos’e’ un sistema di Information Retrieval?

Un sistema di Information Retrieval (IRS) e’ un sistema capace di gestire archivi di documenti di grandi dimensioni.

Permette all’utente la memorizzazione, la ricerca, il recupero e la visualizzazione dei documenti che soddisfano le sue richieste

documenti

matching

documentirecuperati

query

query indicizzata

indicizzazione

indici documenti

indicizzazione

11

documenti

matching

documentirecuperati

query

query indicizzata

indicizzazione

indici documenti

indicizzazione Documenti

costituiscono l’input per l’archivio

matching

documentirecuperati

query

query indicizzata

indicizzazione

indici documenti

indicizzazione Query

• esprime la necessita’ di informazioni dell’utente

• puo’ essere espressa in linguaggio naturale

• presenza di operatori Booleani

documenti

12

matching

documentirecuperati

query

query indicizzata

indicizzazione

indici documenti

indicizzazione Indicizzazione• consiste nell’assegnare

a ciascun documento un insieme di termini indice o parole chiave (index e keyword) capaci di caratterizzarlo per contenuto

• manuale vsautomatica

• controllata vs non controllata

• stop-word

documenti

matching

documentirecuperati

query

query indicizzata

indicizzazione

indici documenti

indicizzazione Matching

• consiste nel confronto tra i termini indice della query e quelli dei documenti dell’archivio e porta al recupero dei documenti pertinenti

• esatto vs parziale

documenti

13

matching

documentirecuperati

query

query indicizzata

indicizzazione

indici documenti

indicizzazione

Documenti recuperati

• come si valuta?• solo l’utente puo’ dire se

sono pertinenti• pero’ non sa se sono tutti• efficacia vs efficienza

documenti

Termini indice

La vista logica di un documento:

Dal full text ai termini indice

Accenti, spazi, etc.

Riconoscimento della struttura

SostantiviStop words Stemming Indicizzazione automaticao manualedocumento

testo

Full text

14

Parola Frequenza Rank

A

Abandon

Abbey

Ability

Able

2.186.369 5

4.249

1.110

10.468

30.454

2107

5204

966

321

Frequenza x Rank = Costante (legge di Zipf)

Rilevante, Recuperato Rilevante, non Recuperato

Non rilevante, Recuperato Non Rilevante, Non recuperato

Recall & Precision

15

Rilevanti e Recuperati

Relevant

Retrieved

Tutti i documenti

Precision vs. Recall

Relevant

Retrieved

|Collectionin Rel||edRelRetriev| Recall=

|Retrieved||edRelRetriev| Precision =

All docs

16

Relevant

Very high precision, very low recall

Relevant

Very low precision, very low recall (0 in fact)

17

Relevant

High recall, but low precision

Retrieved vs. Relevant Documents

Relevant

High precision, high recall (at last!)

18

Precision/Recall Curves

• Difficult to determine which of these two hypothetical results is better:

precision

recall

x

x

x

x

Livelli di CUT OFF• Un modo differente di valutare

– Fissare il numero di documenti recuperati a differentilivelli

• top 5• top 10• top 20• top 50• top 100• top 500

– Misurare la precisione a ciascun livello– Prendere la media (pesata) dei risultati

• In questo modo si può valutare l’efficacia con cui un sistemaordina I primi k documenti

19

Ricerca efficace

query+

navigazione⇓

integrazione di paradigmi

Database di immagini

20

E’ più facile fotografare una scena che una fotografia

E’ più facile fotografare una scena che digitalizzare una fotografia

21

Costruire un database di immagini digitali

1 : Quali sono i fattori che determinano la qualità dell’immagine digitale?

2 : Quale livello di qualità è realmente necessario?

Alta qualità produce immagini versatili ma files voluminosi e difficili da gestire

Bassa qualità significa gestione più facile ma spesso impedisce l’uso in contesti quali editoria o mostre

Decidere il livello di qualità implica un’analisi accurata degliusi previsti a medio e lungo termine

TONI (i gradi di luminosità, range dinamico)

DETTAGLI (la definizione dei particolari, sharpness, risoluzione spaziale)

COLORE (intento percettivo, intento colorimetrico)

Non esistono Guidelines o Standard accettati per determinare il livello di qualità necessario per la creazione di un archivio digitale nei progetti di digitalizzazione di collezioni fotografiche a scopo conservativo e per consentirne l’accesso..

22

Digitalizzare per un archivio

Digitalizzare per pre-print

Si possono calcolare esattamente i parametri con formule matematiche

Più complicato

Non si conoscono a priori gli usi

Non si conoscono i cambiamenti tecnologici

Pratica accettata:

Immagine Master a cui assicurare qualità e longevità

Immagini derivate per l’accesso e la comunicazione

La differenza è fondamentale

23

Le immagini sono usualmente documenti “passivi”,considerati come un’appendice di documenti testuali.

Esempio:

soggetto: collezione di opere d’arte

•schede che descrivono l’opera

•immagini digitali che ritraggono l’opera

Boccale ceramica

1745

Faenza

decoro geometrico

Un’immagine può anche essere descritta da un insieme di attributi che la identificano e la descrivono “di per sé” .

Esempi di attributi sono:fotografo (es. Mario Rossi)data fototipo fotosoggettosupporto

Esempio : www.edu.Alinari.it

24

Esempio: Creazione di

archivi di immagini digitali di opere d’arte

DUE PASSI:

.Passo 1: creare le immagini digitali

♦♦A PARTIRE DA IMMAGINI SURROGATO oppureA PARTIRE DA IMMAGINI SURROGATO oppure

♦♦A PARTIRE DALL’OPERA ORIGINALEA PARTIRE DALL’OPERA ORIGINALE

.Passo 2: associare le immagini a un database

I campi descrivono L’OPERA eI campi descrivono L’OPERA e

♦♦L’IMMAGINE SURROGATOL’IMMAGINE SURROGATO

LA DOCUMENTAZIONE DA GESTIRE

INFORMAZIONI SULL’OPERA ORIGINALE

INFORMAZIONI SULLA RAPPRESENTAZIONEFOTOGRAFICA (IMMAG. SURROGATO)

INFORMAZIONI SULL’IMMAGINE DIGITALE(DOCUMENTAZIONE TECNICA)

OPERA IMMAGINE

DESCRIZIONE SURROGATO INDICI DESCRIZIONE INDICI

IMMAGINE DIGITALE

DOCUM. TECNICA

25

N° Plico IdDoc TipoDoc N° Cat. Electa

N° Cat. Brera

Opera Autore Id. File DimFile StatoFile N°CD Dim. Stampa

Operatore

III/3 014224/C col III/165g 180067 S. GiulianoMantegna Andrea 014224/C 32,3 definitivo 47 A4 giuseppe

III/3 014224/C col III/165g 180067 S. GiulianoMantegna Andrea 014224/W 7,8 definitivo 47 A4 giuseppe

III/3 014225/C col III/165c 180067 MadonnaMantegna Andrea 014225/C 13,3 definitivo 47 A4 giuseppe

III/3 014225/C col III/165c 180067 MadonnaMantegna Andrea 014225/W 2,8 definitivo 47 A4 giuseppe

III/3 014226/C col III/165d 180067 Cristo in pietàMantegna Andrea 014226/C 27,3 definitivo 47 A4 giuseppe

III/3 014226/C col III/165d 180067 Cristo in pietàMantegna Andrea 014226/W 6,5 definitivo 47 A4 giuseppe

III/3 014227/C col III/165e 180067 S. GiovanniMantegna Andrea 014227/C 13,6 definitivo 47 A4 giuseppe

III/3 014227/C col III/165e 180067 S. GiovanniMantegna Andrea 014227/W 3,1 definitivo 47 A4 giuseppe

III/3 014228/C col III/165b 180067 S. GirolamoMantegna Andrea 014228/C 29 provvisorio A4 giuseppe

III/3 014228/C col III/165b 180067 S. GirolamoMantegna Andrea 014228/W 6,9 provvisorio A4 giuseppe

III/3 014229/C col III/165a 180067 S. Daniele da PadovaMantegna Andrea 014229/C 30,2 provvisorio A4 giuseppe

III/3 014229/C col III/165a 180067 S. Daniele da PadovaMantegna Andrea 014229/W 7 provvisorio A4 giuseppe

III/3 039964/CE col III/165 180067 Polittico di S. LucaMantegna Andrea 039964/CE 59,4 definitivo 47 A3 giuseppe

III/3 039964/CE col III/165 180067 Polittico di S. LucaMantegna Andrea 039964/W 14,4 definitivo 47 A3 giuseppe

III/3 089524/CE col III/178 88954 S. GirolamoMontagna Bartolomeo 089524/CE 29,3 definitivo 48 A4

III/3 089524/CE col III/178 88954 S. GirolamoMontagna Bartolomeo 089524/W 6,4 definitivo 48 A4

III/3 069366/C col III/166 180068Cristo morto nel sepolcro e tre dolenti

Mantegna Andrea 069366/C 36,7 definitivo 48 A4

Il database associato alla collezione di Brera

26

27

http://pro.corbis.com/default.aspx

28

Esercizio n.4

Dato un database di 1000 documenti, dei quali 6 sono rilevanti,

Se vengono recuperati 5 documenti di cui 3 rilevanti e 2 non rilevanti

Cosa sono Recall e Precision?

Calcolare Recall e Precision in altre due situazioni a vostra scelta