Le nuove frontiere nella gestione della conoscenza sul Web
Fabio Ciotti
La gestione della conoscenza sul Web
Una delle conseguenze più rilevanti della diffusione del Web è il problema dell'information overload
I motori di ricerca full-text generalisti hanno successo perchè Richiedono un minimo sforzo dell’utente (inserire keyword in una
semplice form ed eventualmente raffinare la richiesta aggiungendo/cambiando parole)
Forniscono risultati rilevanti, numerosi e “pronti per l’uso” Ma la ricerca è un’attività costosa e inefficiente
l’information overload costringe l’utente ad una cernita manuale durante la quale possono sfuggire le informazioni maggiormente rilevanti
i risultati non garantiscono di essere esaustivi non sono gestite le problematiche del pluringuismo le omonimie e le
sinonimie In generale possiamo dire che la ricerca di informazioni sul attualmente
non è in grado di eseguire alcun filtraggio basato sui concetti
La gestione della conoscenza sul Web
Un'altra conseguenze della diffusione del Web è il passaggio dai sistemi informativi monade ai sistemi aperti e interoperabili
Nei ‘primordi’ del Web la semplicità dell’architettura (basata su HTTP/URL/HTML in modalità client side) forniva sufficienti garanzie per far interagire senza limiti gli agenti presenti nel sistema
L’introduzione dell’elaborazione server side…
…l’aumento della complessità dei servizi erogati
… la necessità di interazione tra sistemi informativi diversi ha richiesto soluzioni tecniche sempre più avanzate
L’interoperabilità è divenuta uno dei requirement principali di un sistema informativo Web
La gestione della conoscenza sul Web
Al fine di garantire l’interoperabilità possono adottare due strategie: standardizzazione a priori di architetture e
linguaggi (omogeneità dei sistemi) definizione di protocolli di interoperabilità tra
sistemi eterogenei
La gestione della conoscenza sul Web
Un ruolo centrale in entrambi i casi è svolto dall’introduzione di XML
XML è un formalismo per la modellizzazione di documenti digitali da pubblicare sul Web sottoforma di alberi etichettati
In virtù della sua flessibilità sintattica XML è stato ampiamente adottato come formato di serializzazione (cioè rappresentazione in forma di stringa lineare di caratteri codificati) per modelli di dati non intrinsecamente gerarchici (reti, grafi, tabelle, strutture relazionali)
La gestione della conoscenza sul Web
I vantaggi di XML in questo campo sono numerosi
standard aperto specifiche chiare, complete e abbastanza
semplici da implementare alto livello di portabilità possibilità di definire il proprio linguaggio di
rappresentazione formale dei dati possibilità controllo sintattico/strutturale
rigoroso dei dati codificati
La gestione della conoscenza sul Web
XML infatti si basa sulla associazione di etichette descrittive ai dati
Etichette e dati sono memorizzati in formato testuale (stringhe di caratteri codificati in Unicode)
Sia il vocabolario delle etichette utilizzabili sia la struttura sintattica che ne regola l’uso possono essere stabilite a priori mediante la definizione di uno schema
I dati possono essere validati automaticamente rispetto allo schema mediante un processo di parsing
La gestione della conoscenza sul Web
Queste caratteristiche hanno fatto si che XML assumesse un ruolo centrale nella costruzione di linguaggi standard per la rappresentazione di dati e metadati, divenendo una sorta di esperanto sintattico
Il problema è che XML di per sé non può giocare nessun ruolo nel garantire il trattamento semantico (automatica) dei dati, sebbene spesso si senta affermare il contrario
La gestione della conoscenza sul Web
“XML is a poor language for data modelling if the goal is to represent information objects in the problem domain such that they correspond transparently ("one-to-one") to the user's conceptual model of objects in this domain.” Robin Cover, XML and Semantic Transparency
XML permette esclusivamente di esprimere semplici relazioni strutturali: gerarchia (A contiene B) adiacenza (A seguito da B) co-occorrenza (se A allora [anche/non] B)
Con l’introduzione degli schema language si è aggiunta la possibilità di tipazione dei valori di elementi e attributi eguagliando la espressività semantica dei DBMS
La gestione della conoscenza sul Web
XML non aggiunge senso ai dati, almeno non lo aggiunge in modo computazionalmente accessibile/trattabile
L’errore deriva da una sorta di fallacia interpretazionale dovuta al fatto che le etichette XML sono leggibili e comprensibili da un
utente umano, di norma il vocabolario utilizzato nei linguaggi XML usa
termini sensati tratti da una lingua naturale Ma la semantica del vocabolario XML è del tutto
inaccessibile a un elaboratore XML
La gestione della conoscenza sul Web
Per un parser <title>Il fu Mattia Pascal</title> <blob>Il fu Mattia Pascal</blob>
sono entrambi frammenti perfettamente accettabili
È la mente dell’agente umano che legge il documento XML a fornire una semantica al markup…
… eventualmente associandovi una apposita documentazione in lingua naturale (come il manuale EAD, TEI, METS, MODS etc…)
La gestione della conoscenza sul Web
Si noti che anche i successivi livelli di elaborazione di un sistema basato su XML non risolvono il problema
Ad esempio una trasformazione XSLT è in grado di prendere in input un albero XML A e trasformarlo nell’albero B, ma di nuovo tutto avviene sulla base esclusiva di vincoli sintattici e strutturali
Nessuna trasformazione XSLT può introdurre complessità semantica ad esempio prendere i nomi unitari in un set di metadati DC e
dividerli in componenti come previsto da MODS… …a meno di complessi insiemi di regole ad hoc o dell’uso di
vocabolari controllati preesistenti
La gestione della conoscenza sul Web
Perché questo è un problema? Torniamo a considerare il discorso iniziale sulla centralità dell’interoperabilità e sulle strategie per conseguirla
Se si sceglie di percorrere la strada della standardizzazione a priori l’indifferenza semantica di XML (e di qualsiasi altro metalinguaggio di modellizzazione dati) non sarebbe un problema rilevante
In questo caso infatti una comunità di utenti decide di adottare un vocabolario condiviso definito a priori con una semantica chiara e prefissata
Chiunque può sviluppare delle applicazione di elaborazione e scambio dei dati consistenti a tale standard Si tratta di una pratica ben nota nel mondo delle biblioteche e degli
archivi che sin dai primordi dell’automazione hanno avvertito l’esigenza di definire modelli di descrizione (oggi le chiameremmo ontologie), formati, vocabolari controllati per la descrizione semantica tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD a FRBR, dal soggettario LC ai vari thesaura settoriali…..
La gestione della conoscenza sul Web
Tuttavia questa strategia è adottabile solo in ambienti chiusi e omogenei o in domini ristretti
Non appena il dominio applicativo si estende o l’ambiente si estende e diviene eterogeneo (come nel Web) l’uniformità a priori dei linguaggi descrittivi non è praticabile sia perché esistono numerosi standard diversi che
insistono sul medesimo dominio sia perché ci sono profili di adozione e applicazione
diversi del medesimo standard
La gestione della conoscenza sul Web
Si pone dunque l’esigenza di individuare dei sistemi di interoperabilità semantica che consentano l’integrazione di sistemi eterogenei l’erogazione servizi avanzati di descrizione ed
elaborazione semantica. In questa direzione si muovono le
sperimentazioni che complessivamente ricadono nell’area del Semantic Web
La gestione della conoscenza sul Web
Il termine ‘Semantic Web’ è stato coniato nel 2001 da Tim Berners Lee
Obiettivo: aumentare l’efficacia del World Wide Web come luogo di elaborazione e scambio di conoscenza attribuendo ad agenti software la capacità di analizzare il significato dei documenti in esso presenti, di selezionarli o confrontarli in modo semanticamente rilevante di inferirne conseguenze non esplicitate.
Questo obiettivo visto nella sua generalità richiede numerose e rilevanti innovazioni sia dal punto di vista tecnico, con la convergenza tra alcune tecnologie
sviluppate nell’ambito della rappresentazione e gestione della conoscenza in Intelligenza Artificiale e quelle create per implementare l’architettura del Web
sia da quello dei comportamenti sociali degli utenti, poiché il progetto richiederà il contributo diffuso dell’intera comunità della rete.
La gestione della conoscenza sul Web
L’idea alla base del Web Semantico consiste nell’associare alle risorse informative disponibili in varie forme sul Web una descrizione formale del loro significato
Tale descrizione può essere elaborata autonomamente da un agente software in modo significativo (cioè tenendo conto di che cosa essa significhi), così da dedurne conseguenze implicite e generare automaticamente nuova informazione
Le ricadute applicative di questo progetto sono numerose: creazione di sistemi di ricerca dell’informazione guidati dalla semantica interazione multilinguistica uomo-macchina e macchina-macchina creazione di applicazioni di e-commerce intelligenti sviluppo di agenti software autonomi …
La gestione della conoscenza sul Web
Nell’architettura disegnata da Berners-Lee e dai suoi collaboratori presso il W3C Consortium, le componenti tecnologiche che dovranno contribuire alla costruzione del Web Semantico sono le seguenti URI RDF ontologie formali (e relativi linguaggi) motori inferenziali
La gestione della conoscenza sul Web
Le URI, sono i formalismi che consentono di identificare le risorse sulla rete. Ogni risorsa – dal singolo documento, a sue parti, a oggetti ed
entità in essi menzionate, a collezioni di documenti – deve avere un suo identificativo URI, affinché possa essere univocamente individuata nello spazio informativo costituito dal Web.
Una volta che una risorsa sia identificata in modo univoco è possibile esprimere su di essa asserzioni che ne descrivono il contenuto o esprimono ciò che un utente pensa su tale contenuto in generale ne specificano proprietà da vari punti di vista
Queste asserzioni sono informazioni che si riferiscono ad altre informazioni, ovvero metadati semantici
La gestione della conoscenza sul Web
Naturalmente, affinché i metadati semantici siano utilizzabili non solo dagli esseri umani ma anche dai computer, è necessario che vengano espressi in un linguaggio che sia computazionalmente trattabile sia dal punto di vista sintattico sia da quello semantico
È questo il fine del Resource Description Framework (RDF)
Si tratta di un metalinguaggio dichiarativo per la formalizzare di asserti (predicati) che esprimono proprietà di e relazioni tra risorse
La gestione della conoscenza sul Web
L’architettura di RDF è basata su tre concetti: Risorse: tutto ciò che viene descritto. Ogni risorsa è
identificata da un URI (può essere anche un oggetto non accessibile dal Web)
Proprietà: una coppia attributo-valore associata alla risorsa. Ogni proprietà ha un significato specifico una serie di valori leciti è associabile ad uno o più tipi di risorsa Proprietà e i valori possono essere espresse da URI ma anche
da valori letterali Asserzioni (statement): l’associazione di una proprietà a una
risorsa Ogni asserzione ha una struttura “soggetto” - “predicato” -
“oggetto” In RDF sono consentite solo relazioni binarie
http://www.laterza.it/internet/leggi/internet2004/index.htm Fabio CiottiAutore
Risorsa Proprietà Letterale
La gestione della conoscenza sul Web
Fabio Ciotti è l’autore di “http://www.laterza.it/internet/leggi/internet2004/index.htm”:«La proprietà “Autore” della risorsa “http://www.laterza.it/internet/leggi/internet2004/index.htm” vale “Fabio Ciotti”»
La gestione della conoscenza sul Web
L’architettura prevista da RDF si divide in due parti: Resource Description Framework (RDF) Model and Syntax
Specification – le cui specifiche sono state rilasciate come raccomandazioni definitive nel febbraio 1999 – definisce il modello dei dati la sintassi di RDF, basato su XML (ma è stata sviluppata una notazione
più compatte per esprimere asserzioni RDF, Notation 3) RDF di per sé non fa alcuna assunzione circa il vocabolario
specifico o la tipologia delle proprietà che si possono attribuire e delle relazioni tra tali proprietà
A tale fine occorre definire un RDF Schema, la seconda parte dell’architettura RDF (RDF Vocabulary Description Language 1.0: RDF Schema)
Una volta che uno schema è stato definito formalmente e pubblicato, chiunque può adottarlo e utilizzarlo per costruire descrizioni RDF dei propri documenti
La gestione della conoscenza sul Web
Potranno esistere numerosi schemi, basati su diverse concettualizzazioni di particolari domini, su diverse nomenclature e su diverse lingue
Occorre un sistema per specificare le relazioni logico-semantiche (equivalenza, specificazione, generalizzazione, istanziazione, cardinalità etc.) tra oggetti e proprietà di un medesimo schema e di schemi diversi
Ad esempio, in un schema la relazione di ‘autorialità’ potrà essere indicata con il termine ‘author’ – che fa parte della classe ‘creator’ – in funzione di soggetto, il cui oggetto è una certa risorsa
In un altro potremmo avere che il soggetto è il documento di cui si predica la proprietà ‘essere scritto da’ un esponente della classe ‘responsabili intellettuali’ caratterizzato dalla proprietà ‘primario’
Evidentemente si sta parlando dello stesso insieme di individui e relazioni (un dominio), ma in modo diverso
La gestione della conoscenza sul Web
Le ontologie formali sono un sistema ideato per definire formalmente domini concettuali e indicare in che modo essi sono espressi da schemi logici e nomenclature differenti
Esistono numerosi linguaggi formali per specificare ontologie. In particolare nel contesto del progetto Web Semantico è stato sviluppato il Web Ontology Language (OWL), derivato dal DARPA Agent Markup Language (DAML+OIL)
La gestione della conoscenza sul Web
OWL si divide in tre livelli a seconda della capacità espressiva OWL Lite
principalmente rivolto alla formalizzazione di tassonomie gerarchiche e thesaura permette di esprimere solo cardinalità zero o uno esclude alcuni costrutti che esprimono relazioni tra classi (disgiunzione, unione,
istanziazione…) facilmente implementabile in sistemi inferenziali
OWL Description Logic basato sul modello delle description logic (una formalizzazione logica decidibile e
computabile del concetto informale di rete semantica e frame dotata di una semantica formale completa)
include tutti i costrutti di OWL, ma fornisce alcuni vincoli sul loro uso. • una classe può essere sottoclasse di una classe, ma non istanza di una classe; non si possono
esprimere restrizioni di cardinalità per proprietà transitive notevole espressività mantenendo la completezza computazionale e la trattabilità
OWL Full OWL Full serve per quegli usi in cui è necessaria la massima espressività e la libertà
sintattica di RDF senza nessuna garanzia computazionale. in OWL Full i livelli si mescolano, ed è lecito trattare una classe simultaneamente come
una collezione di individui e come un individuo a sé stante. attraverso OWL Full un’ontologia può arricchire il modello semantico predefinito dai
vocabolari di RDF e OWL. non è decidibile (equivalente a logica dei predicati) e dunque difficilmente
implementabile
La gestione della conoscenza sul Web
Una architettura alternativa a RDF/S-OWL, ma dotata di funzioni e scopi simili, è quella delle Topic Map
Topic Map è uno standard definito dalla ISO (ISO 13250)
Nasce come meccanismo per la rappresentazione di tassonomie e reti concettuali cui associare come istanze risorse informative sia off-line sia on-line
La gestione della conoscenza sul Web
Una topic map è costituita da un insieme di soggetti (i concetti astratti) che vengono rappresentati sottoforma di topic (i concetti oggettivati o reificati)
Ogni topic ha uno o più nomi ma esprime uno e un solo soggetto (cui può essere formalmente collegato)
Ogni topic può essere istanziato da una o più risorse informative (occorrenze)
Ogni topic può essere inserito in diverse relazioni (associazioni) con altri topic
La gestione della conoscenza sul Web
A differenza di RDF in TM le associazioni (relazioni) possono
essere n-arie ci sono delle relazioni predefinite in TM che
consentono di esprimere rapporti classe/sottoclasse rapporti tipo/istanza
ci sono costrutti per esprimere direttamente il tipo di una topic o il ruolo che svolge in una associazione
La gestione della conoscenza sul Web
Una TM costituisce dunque la formalizzazione di una rete concettuale collegata all’insieme delle risorse informative che veicolano tali concetti.
Anche le TM hanno una sintassi di serializzazione XML (XTM) e una non XML (Linear Topic Map)
È in corso di sviluppo un linguaggio per le espressione di restrizioni ontologiche su topic e associazioni (TMCL) e uno per l’interrogazioni di Topic Map (TMQL)
La gestione della conoscenza sul Web
Molti esperti nutrono non pochi dubbi sul fatto che l’architettura del Web Semantico, almeno nella sua versione più ambiziosa e universale, potrà mai trasformarsi da sogno a realtà
Diverso il discorso relativo all’applicazione di tecnologie di Semantic Web a domini circoscritti e limitati, che già iniziano a essere sperimentate e implementate
Tra queste applicazioni locali di particolare interesse possono essere quelle nel dominio della biblioteche e degli archivi digitali
La gestione della conoscenza sul Web
sistemi di organizzazione e reperimento su collezioni locali o distribuite basati sulla semantica si veda AustLit http://www.austlit.edu.au/ il progetto di una ontologia della letteratura Italiana di
Bibit per generi, temi, cronologia integrazione di metadati da fonti informative
distribuite che adottano schemi descrittivi o semantici diversi (OAI + semantic web)
estensione della funzione dell’authority control authority file come rete semantica
La gestione della conoscenza sul Web
Problemi aperti 1) esistono possibilità di interoperabilità
tra i due paradigmi RDF/OWL e TM? 2) come popolare una rete
concettuale/ontologia di vaste dimensioni?
La gestione della conoscenza sul Web
L’interoperabilità tra TM e RDF è oggetto di numerose proposte teoriche e tecniche
La risposta in generale è…. “Si anche se la cosa non è così semplice!!!”
Si veda il rapporto A Survey of RDF/Topic Maps Interoperability Proposals, http://www.w3.org/TR/rdftm-survey/
La gestione della conoscenza sul Web
Sviluppare e popolare ontologie è faticoso e costoso, ma…. …se lo sviluppo del livello ontologico vero e proprio richiede
necessariamente un intervento umano di concettualizzazione e formalizzazione…
..la costituzione di relazioni di istanziazione tra risorse e concetti può essere parzialmente automatizzata 1) adozione di tecnologie di data mining, clustering e knowledge
discovery su vaste masse documentali (si veda il progetto NORA Web-based Text-Mining and Visualization for Humanities Digital Libraries della University of Illinois diretta da John Unsworth - http://www.noraproject.org/)
2) definizione di un vocabolario controllato di parole chiavi da adottare come descrittori semantici tradizionali che poi vengono collegati a una rete concettuale o a una ontologia formale in grado di fungere da base per processi inferenziali
3) integrazione di sistemi basati su schemi formali con Folksonomies... una strada la cui fattibilità tecnica resta da esplorare che presenta in particolare la criticità della gestione di inconsistenze su vasta scala
Top Related