Download - Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti.

Transcript

Le nuove frontiere nella gestione della conoscenza sul Web

Fabio Ciotti

La gestione della conoscenza sul Web

Una delle conseguenze più rilevanti della diffusione del Web è il problema dell'information overload

I motori di ricerca full-text generalisti hanno successo perchè Richiedono un minimo sforzo dell’utente (inserire keyword in una

semplice form ed eventualmente raffinare la richiesta aggiungendo/cambiando parole)

Forniscono risultati rilevanti, numerosi e “pronti per l’uso” Ma la ricerca è un’attività costosa e inefficiente

l’information overload costringe l’utente ad una cernita manuale durante la quale possono sfuggire le informazioni maggiormente rilevanti

i risultati non garantiscono di essere esaustivi non sono gestite le problematiche del pluringuismo le omonimie e le

sinonimie In generale possiamo dire che la ricerca di informazioni sul attualmente

non è in grado di eseguire alcun filtraggio basato sui concetti

La gestione della conoscenza sul Web

Un'altra conseguenze della diffusione del Web è il passaggio dai sistemi informativi monade ai sistemi aperti e interoperabili

Nei ‘primordi’ del Web la semplicità dell’architettura (basata su HTTP/URL/HTML in modalità client side) forniva sufficienti garanzie per far interagire senza limiti gli agenti presenti nel sistema

L’introduzione dell’elaborazione server side…

…l’aumento della complessità dei servizi erogati

… la necessità di interazione tra sistemi informativi diversi ha richiesto soluzioni tecniche sempre più avanzate

L’interoperabilità è divenuta uno dei requirement principali di un sistema informativo Web

La gestione della conoscenza sul Web

Al fine di garantire l’interoperabilità possono adottare due strategie: standardizzazione a priori di architetture e

linguaggi (omogeneità dei sistemi) definizione di protocolli di interoperabilità tra

sistemi eterogenei

La gestione della conoscenza sul Web

Un ruolo centrale in entrambi i casi è svolto dall’introduzione di XML

XML è un formalismo per la modellizzazione di documenti digitali da pubblicare sul Web sottoforma di alberi etichettati

In virtù della sua flessibilità sintattica XML è stato ampiamente adottato come formato di serializzazione (cioè rappresentazione in forma di stringa lineare di caratteri codificati) per modelli di dati non intrinsecamente gerarchici (reti, grafi, tabelle, strutture relazionali)

La gestione della conoscenza sul Web

I vantaggi di XML in questo campo sono numerosi

standard aperto specifiche chiare, complete e abbastanza

semplici da implementare alto livello di portabilità possibilità di definire il proprio linguaggio di

rappresentazione formale dei dati possibilità controllo sintattico/strutturale

rigoroso dei dati codificati

La gestione della conoscenza sul Web

XML infatti si basa sulla associazione di etichette descrittive ai dati

Etichette e dati sono memorizzati in formato testuale (stringhe di caratteri codificati in Unicode)

Sia il vocabolario delle etichette utilizzabili sia la struttura sintattica che ne regola l’uso possono essere stabilite a priori mediante la definizione di uno schema

I dati possono essere validati automaticamente rispetto allo schema mediante un processo di parsing

La gestione della conoscenza sul Web

Queste caratteristiche hanno fatto si che XML assumesse un ruolo centrale nella costruzione di linguaggi standard per la rappresentazione di dati e metadati, divenendo una sorta di esperanto sintattico

Il problema è che XML di per sé non può giocare nessun ruolo nel garantire il trattamento semantico (automatica) dei dati, sebbene spesso si senta affermare il contrario

La gestione della conoscenza sul Web

“XML is a poor language for data modelling if the goal is to represent information objects in the problem domain such that they correspond transparently ("one-to-one") to the user's conceptual model of objects in this domain.” Robin Cover, XML and Semantic Transparency

XML permette esclusivamente di esprimere semplici relazioni strutturali: gerarchia (A contiene B) adiacenza (A seguito da B) co-occorrenza (se A allora [anche/non] B)

Con l’introduzione degli schema language si è aggiunta la possibilità di tipazione dei valori di elementi e attributi eguagliando la espressività semantica dei DBMS

La gestione della conoscenza sul Web

XML non aggiunge senso ai dati, almeno non lo aggiunge in modo computazionalmente accessibile/trattabile

L’errore deriva da una sorta di fallacia interpretazionale dovuta al fatto che le etichette XML sono leggibili e comprensibili da un

utente umano, di norma il vocabolario utilizzato nei linguaggi XML usa

termini sensati tratti da una lingua naturale Ma la semantica del vocabolario XML è del tutto

inaccessibile a un elaboratore XML

La gestione della conoscenza sul Web

Per un parser <title>Il fu Mattia Pascal</title> <blob>Il fu Mattia Pascal</blob>

sono entrambi frammenti perfettamente accettabili

È la mente dell’agente umano che legge il documento XML a fornire una semantica al markup…

… eventualmente associandovi una apposita documentazione in lingua naturale (come il manuale EAD, TEI, METS, MODS etc…)

La gestione della conoscenza sul Web

Si noti che anche i successivi livelli di elaborazione di un sistema basato su XML non risolvono il problema

Ad esempio una trasformazione XSLT è in grado di prendere in input un albero XML A e trasformarlo nell’albero B, ma di nuovo tutto avviene sulla base esclusiva di vincoli sintattici e strutturali

Nessuna trasformazione XSLT può introdurre complessità semantica ad esempio prendere i nomi unitari in un set di metadati DC e

dividerli in componenti come previsto da MODS… …a meno di complessi insiemi di regole ad hoc o dell’uso di

vocabolari controllati preesistenti

La gestione della conoscenza sul Web

Perché questo è un problema? Torniamo a considerare il discorso iniziale sulla centralità dell’interoperabilità e sulle strategie per conseguirla

Se si sceglie di percorrere la strada della standardizzazione a priori l’indifferenza semantica di XML (e di qualsiasi altro metalinguaggio di modellizzazione dati) non sarebbe un problema rilevante

In questo caso infatti una comunità di utenti decide di adottare un vocabolario condiviso definito a priori con una semantica chiara e prefissata

Chiunque può sviluppare delle applicazione di elaborazione e scambio dei dati consistenti a tale standard Si tratta di una pratica ben nota nel mondo delle biblioteche e degli

archivi che sin dai primordi dell’automazione hanno avvertito l’esigenza di definire modelli di descrizione (oggi le chiameremmo ontologie), formati, vocabolari controllati per la descrizione semantica tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD a FRBR, dal soggettario LC ai vari thesaura settoriali…..

La gestione della conoscenza sul Web

Tuttavia questa strategia è adottabile solo in ambienti chiusi e omogenei o in domini ristretti

Non appena il dominio applicativo si estende o l’ambiente si estende e diviene eterogeneo (come nel Web) l’uniformità a priori dei linguaggi descrittivi non è praticabile sia perché esistono numerosi standard diversi che

insistono sul medesimo dominio sia perché ci sono profili di adozione e applicazione

diversi del medesimo standard

La gestione della conoscenza sul Web

Si pone dunque l’esigenza di individuare dei sistemi di interoperabilità semantica che consentano l’integrazione di sistemi eterogenei l’erogazione servizi avanzati di descrizione ed

elaborazione semantica. In questa direzione si muovono le

sperimentazioni che complessivamente ricadono nell’area del Semantic Web

La gestione della conoscenza sul Web

Il termine ‘Semantic Web’ è stato coniato nel 2001 da Tim Berners Lee

Obiettivo: aumentare l’efficacia del World Wide Web come luogo di elaborazione e scambio di conoscenza attribuendo ad agenti software la capacità di analizzare il significato dei documenti in esso presenti, di selezionarli o confrontarli in modo semanticamente rilevante di inferirne conseguenze non esplicitate.

Questo obiettivo visto nella sua generalità richiede numerose e rilevanti innovazioni sia dal punto di vista tecnico, con la convergenza tra alcune tecnologie

sviluppate nell’ambito della rappresentazione e gestione della conoscenza in Intelligenza Artificiale e quelle create per implementare l’architettura del Web

sia da quello dei comportamenti sociali degli utenti, poiché il progetto richiederà il contributo diffuso dell’intera comunità della rete.

La gestione della conoscenza sul Web

L’idea alla base del Web Semantico consiste nell’associare alle risorse informative disponibili in varie forme sul Web una descrizione formale del loro significato

Tale descrizione può essere elaborata autonomamente da un agente software in modo significativo (cioè tenendo conto di che cosa essa significhi), così da dedurne conseguenze implicite e generare automaticamente nuova informazione

Le ricadute applicative di questo progetto sono numerose: creazione di sistemi di ricerca dell’informazione guidati dalla semantica interazione multilinguistica uomo-macchina e macchina-macchina creazione di applicazioni di e-commerce intelligenti sviluppo di agenti software autonomi …

La gestione della conoscenza sul Web

Nell’architettura disegnata da Berners-Lee e dai suoi collaboratori presso il W3C Consortium, le componenti tecnologiche che dovranno contribuire alla costruzione del Web Semantico sono le seguenti URI RDF ontologie formali (e relativi linguaggi) motori inferenziali

La gestione della conoscenza sul Web

Le URI, sono i formalismi che consentono di identificare le risorse sulla rete. Ogni risorsa – dal singolo documento, a sue parti, a oggetti ed

entità in essi menzionate, a collezioni di documenti – deve avere un suo identificativo URI, affinché possa essere univocamente individuata nello spazio informativo costituito dal Web.

Una volta che una risorsa sia identificata in modo univoco è possibile esprimere su di essa asserzioni che ne descrivono il contenuto o esprimono ciò che un utente pensa su tale contenuto in generale ne specificano proprietà da vari punti di vista

Queste asserzioni sono informazioni che si riferiscono ad altre informazioni, ovvero metadati semantici

La gestione della conoscenza sul Web

Naturalmente, affinché i metadati semantici siano utilizzabili non solo dagli esseri umani ma anche dai computer, è necessario che vengano espressi in un linguaggio che sia computazionalmente trattabile sia dal punto di vista sintattico sia da quello semantico

È questo il fine del Resource Description Framework (RDF)

Si tratta di un metalinguaggio dichiarativo per la formalizzare di asserti (predicati) che esprimono proprietà di e relazioni tra risorse

La gestione della conoscenza sul Web

L’architettura di RDF è basata su tre concetti: Risorse: tutto ciò che viene descritto. Ogni risorsa è

identificata da un URI (può essere anche un oggetto non accessibile dal Web)

Proprietà: una coppia attributo-valore associata alla risorsa. Ogni proprietà ha un significato specifico una serie di valori leciti è associabile ad uno o più tipi di risorsa Proprietà e i valori possono essere espresse da URI ma anche

da valori letterali Asserzioni (statement): l’associazione di una proprietà a una

risorsa Ogni asserzione ha una struttura “soggetto” - “predicato” -

“oggetto” In RDF sono consentite solo relazioni binarie

Page 22: Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti.

http://www.laterza.it/internet/leggi/internet2004/index.htm Fabio CiottiAutore

Risorsa Proprietà Letterale

La gestione della conoscenza sul Web

Fabio Ciotti è l’autore di “http://www.laterza.it/internet/leggi/internet2004/index.htm”:«La proprietà “Autore” della risorsa “http://www.laterza.it/internet/leggi/internet2004/index.htm” vale “Fabio Ciotti”»

La gestione della conoscenza sul Web

L’architettura prevista da RDF si divide in due parti: Resource Description Framework (RDF) Model and Syntax

Specification – le cui specifiche sono state rilasciate come raccomandazioni definitive nel febbraio 1999 – definisce il modello dei dati la sintassi di RDF, basato su XML (ma è stata sviluppata una notazione

più compatte per esprimere asserzioni RDF, Notation 3) RDF di per sé non fa alcuna assunzione circa il vocabolario

specifico o la tipologia delle proprietà che si possono attribuire e delle relazioni tra tali proprietà

A tale fine occorre definire un RDF Schema, la seconda parte dell’architettura RDF (RDF Vocabulary Description Language 1.0: RDF Schema)

Una volta che uno schema è stato definito formalmente e pubblicato, chiunque può adottarlo e utilizzarlo per costruire descrizioni RDF dei propri documenti

La gestione della conoscenza sul Web

Potranno esistere numerosi schemi, basati su diverse concettualizzazioni di particolari domini, su diverse nomenclature e su diverse lingue

Occorre un sistema per specificare le relazioni logico-semantiche (equivalenza, specificazione, generalizzazione, istanziazione, cardinalità etc.) tra oggetti e proprietà di un medesimo schema e di schemi diversi

Ad esempio, in un schema la relazione di ‘autorialità’ potrà essere indicata con il termine ‘author’ – che fa parte della classe ‘creator’ – in funzione di soggetto, il cui oggetto è una certa risorsa

In un altro potremmo avere che il soggetto è il documento di cui si predica la proprietà ‘essere scritto da’ un esponente della classe ‘responsabili intellettuali’ caratterizzato dalla proprietà ‘primario’

Evidentemente si sta parlando dello stesso insieme di individui e relazioni (un dominio), ma in modo diverso

La gestione della conoscenza sul Web

Le ontologie formali sono un sistema ideato per definire formalmente domini concettuali e indicare in che modo essi sono espressi da schemi logici e nomenclature differenti

Esistono numerosi linguaggi formali per specificare ontologie. In particolare nel contesto del progetto Web Semantico è stato sviluppato il Web Ontology Language (OWL), derivato dal DARPA Agent Markup Language (DAML+OIL)

La gestione della conoscenza sul Web

OWL si divide in tre livelli a seconda della capacità espressiva OWL Lite

principalmente rivolto alla formalizzazione di tassonomie gerarchiche e thesaura permette di esprimere solo cardinalità zero o uno esclude alcuni costrutti che esprimono relazioni tra classi (disgiunzione, unione,

istanziazione…) facilmente implementabile in sistemi inferenziali

OWL Description Logic basato sul modello delle description logic (una formalizzazione logica decidibile e

computabile del concetto informale di rete semantica e frame dotata di una semantica formale completa)

include tutti i costrutti di OWL, ma fornisce alcuni vincoli sul loro uso. • una classe può essere sottoclasse di una classe, ma non istanza di una classe; non si possono

esprimere restrizioni di cardinalità per proprietà transitive notevole espressività mantenendo la completezza computazionale e la trattabilità

OWL Full OWL Full serve per quegli usi in cui è necessaria la massima espressività e la libertà

sintattica di RDF senza nessuna garanzia computazionale. in OWL Full i livelli si mescolano, ed è lecito trattare una classe simultaneamente come

una collezione di individui e come un individuo a sé stante. attraverso OWL Full un’ontologia può arricchire il modello semantico predefinito dai

vocabolari di RDF e OWL. non è decidibile (equivalente a logica dei predicati) e dunque difficilmente

implementabile

La gestione della conoscenza sul Web

Una architettura alternativa a RDF/S-OWL, ma dotata di funzioni e scopi simili, è quella delle Topic Map

Topic Map è uno standard definito dalla ISO (ISO 13250)

Nasce come meccanismo per la rappresentazione di tassonomie e reti concettuali cui associare come istanze risorse informative sia off-line sia on-line

La gestione della conoscenza sul Web

Una topic map è costituita da un insieme di soggetti (i concetti astratti) che vengono rappresentati sottoforma di topic (i concetti oggettivati o reificati)

Ogni topic ha uno o più nomi ma esprime uno e un solo soggetto (cui può essere formalmente collegato)

Ogni topic può essere istanziato da una o più risorse informative (occorrenze)

Ogni topic può essere inserito in diverse relazioni (associazioni) con altri topic

La gestione della conoscenza sul Web

A differenza di RDF in TM le associazioni (relazioni) possono

essere n-arie ci sono delle relazioni predefinite in TM che

consentono di esprimere rapporti classe/sottoclasse rapporti tipo/istanza

ci sono costrutti per esprimere direttamente il tipo di una topic o il ruolo che svolge in una associazione

La gestione della conoscenza sul Web

Una TM costituisce dunque la formalizzazione di una rete concettuale collegata all’insieme delle risorse informative che veicolano tali concetti.

Anche le TM hanno una sintassi di serializzazione XML (XTM) e una non XML (Linear Topic Map)

È in corso di sviluppo un linguaggio per le espressione di restrizioni ontologiche su topic e associazioni (TMCL) e uno per l’interrogazioni di Topic Map (TMQL)

La gestione della conoscenza sul Web

Molti esperti nutrono non pochi dubbi sul fatto che l’architettura del Web Semantico, almeno nella sua versione più ambiziosa e universale, potrà mai trasformarsi da sogno a realtà

Diverso il discorso relativo all’applicazione di tecnologie di Semantic Web a domini circoscritti e limitati, che già iniziano a essere sperimentate e implementate

Tra queste applicazioni locali di particolare interesse possono essere quelle nel dominio della biblioteche e degli archivi digitali

La gestione della conoscenza sul Web

sistemi di organizzazione e reperimento su collezioni locali o distribuite basati sulla semantica si veda AustLit http://www.austlit.edu.au/ il progetto di una ontologia della letteratura Italiana di

Bibit per generi, temi, cronologia integrazione di metadati da fonti informative

distribuite che adottano schemi descrittivi o semantici diversi (OAI + semantic web)

estensione della funzione dell’authority control authority file come rete semantica

http://www.austlit.edu.au/

La gestione della conoscenza sul Web

Problemi aperti 1) esistono possibilità di interoperabilità

tra i due paradigmi RDF/OWL e TM? 2) come popolare una rete

concettuale/ontologia di vaste dimensioni?

La gestione della conoscenza sul Web

L’interoperabilità tra TM e RDF è oggetto di numerose proposte teoriche e tecniche

La risposta in generale è…. “Si anche se la cosa non è così semplice!!!”

Si veda il rapporto A Survey of RDF/Topic Maps Interoperability Proposals, http://www.w3.org/TR/rdftm-survey/

http://www.w3.org/TR/rdftm-survey/

La gestione della conoscenza sul Web

Sviluppare e popolare ontologie è faticoso e costoso, ma…. …se lo sviluppo del livello ontologico vero e proprio richiede

necessariamente un intervento umano di concettualizzazione e formalizzazione…

..la costituzione di relazioni di istanziazione tra risorse e concetti può essere parzialmente automatizzata 1) adozione di tecnologie di data mining, clustering e knowledge

discovery su vaste masse documentali (si veda il progetto NORA Web-based Text-Mining and Visualization for Humanities Digital Libraries della University of Illinois diretta da John Unsworth - http://www.noraproject.org/)

2) definizione di un vocabolario controllato di parole chiavi da adottare come descrittori semantici tradizionali che poi vengono collegati a una rete concettuale o a una ontologia formale in grado di fungere da base per processi inferenziali

3) integrazione di sistemi basati su schemi formali con Folksonomies... una strada la cui fattibilità tecnica resta da esplorare che presenta in particolare la criticità della gestione di inconsistenze su vasta scala

http://www.noraproject.org/

Top Related