Charla Biblioteca Nacional, 24 de julio de 2014

61
Conceptos de datos abiertos, datos enlazados y ontologías 24 de julio de 2014 Christian Sifaqui

description

Presentación realizada en Salón Ercilla de la Biblioteca Nacional, Santiago, 24 de julio de 2014

Transcript of Charla Biblioteca Nacional, 24 de julio de 2014

Page 1: Charla Biblioteca Nacional, 24 de julio de 2014

Conceptos de datos abiertos, datos enlazados y ontologías

24 de julio de 2014Christian Sifaqui

Page 2: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Estamos en el año 2014

Celulares, computadores…Web, internet…

Mucha información está disponible…

Page 3: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

WebRepleta de información

Orientada al ser humano:para comprender el contenido de una páginapara relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)

Page 4: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Si quiero saber algo (y estoy solito)...wikipediaalgún blogalgún foro

¿Calidad de la información? ¿es confiable?¿Licencia de la información? ¿es

reutilizable?

Page 5: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Originalmente la webfue creada paracompartir“documentos”

Page 6: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Estándares:Documento “Bolsa” de palabrasLinks entre documentosPalabras y enlaces como el centro del universoLenguajes y protocolos:

HTML y HTTP

Page 7: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

WebBuscadores actuales funcionan bien, pero orientados al keywordAnálisis de palabras y textosAnálisis de los enlaces

¿y la semántica?Ejemplo: “diputados o senadores cuyos

hermanos hayan sido jueces”

Page 8: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Lo que “entiende” Lo que “entiende”un programa un ser humano

Page 9: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Un problema es la heterogeneidad de la información incluso en las diferentes capas

• Codificación (ASCII, UNICODE, etc.)• Lenguaje natural utilizado• Disposición de la información en la página

web

Page 10: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Soluciones• ad hoc: usar métodos de IA para analizar

la información no estructurada existente en la Web

• a priori: estructurar la información en la Web para facilitar el análisis automático Web Semántica

Page 11: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Estándares

Grafos

Árboles

Page 12: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Tablas Árboles Grafos--------------------- ------------- -------------BD relacional XML RDF

SQL XQUERY SPARQL

Page 13: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Datos abiertos (open data)

es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo

Page 14: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Datos enlazados (linked data):

es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica

Page 15: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Modelo web clásica

Use HTTPUse URIUse HTMLNavegue y siga links

Buscador: proveedor lo hace por usted

Page 16: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Modelo datos abiertos

Publique datos en formatos estándares para que sean asequibles

Indique licencias

Y nada más

Page 17: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

Modelo datos enlazados

Use URIs para expresar “cosas”Use HTTP URIs para que estas “cosas” puedan

ser referenciadas por personas y programasProporcione información útil acerca de la “cosa”

(cuando se acceda a la URI) usando estándares como RDF o SPARQL

Incluya enlaces a otras “cosas” (usando sus URIs)

Page 18: Charla Biblioteca Nacional, 24 de julio de 2014

Introducción

★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta

★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada

★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel

★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas

★★★★★ enlace sus datos a otros datos para proveer contexto

Esquema de las 5 estrellas

Page 19: Charla Biblioteca Nacional, 24 de julio de 2014

Ejemplos

Buenos ejemplos:

http://datos.gob.cl (septiembre 2011)http://datos.bcn.cl (mayo 2011)http://data.worldbank.org/ (abril 2010)http://data.gov.uk/ (enero 2010)http://www.data.gov/ (mayo 2009)

Page 20: Charla Biblioteca Nacional, 24 de julio de 2014

Ejemplos

Mal ejemplo:

http://opendata.congreso.cl/ (julio 2014)

No hay licencia explícitaNo hay manualesUsa diversas variedades de tecnologías (algunas

ya arcaicas)No hay posibilidad de contactoEstamos en Chile… ¿porqué “opendata”?

Page 21: Charla Biblioteca Nacional, 24 de julio de 2014
Page 22: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Pero la web originalmente fue concebida para documentos…

¿cómo llegar a una web de datos?

Page 23: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Algunos caminos:Agregar metadatos a los documentos, y que

estos metadatos estén en el modelo de datos enlazados, o

Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o

Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u

Otra manera

Page 24: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente

Ejemplo:El <Río>Mapocho</Río> es el principal curso de

agua de <Ciudad>Santiago</Ciudad>.

Page 25: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Una forma de lograr lo anterior es mediante la “representación del conocimiento”

Page 26: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias

Ontología: define los objetos, que existen en un dominio particular

Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real

Page 27: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente

Page 28: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos

Page 29: Charla Biblioteca Nacional, 24 de julio de 2014

StringStringArtista

Obra

EsculturaEscultor

Pintor Cuadro

Técnica

Museo

Cubista Flamenca

StringString

StringString

StringString

StringString

nombre

nombre

nombre

utilizapintado_por

pinta

talla

tallado_por

producida_por

produce

expuesta_ennombre

apellido

Page 30: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Conceptos, clasesTiposInstanciasRelacionesHerenciaAxiomas

Page 31: Charla Biblioteca Nacional, 24 de julio de 2014

PabloPabloGarçon à la pipeGarçon à la pipe

PicassoPicasso utiliza

talla

pintanombre

apellido

Óleo sobre lienzoÓleo sobre lienzonombre

TizianoTiziano

VecelliVecelli

nombre

apellidopinta

Fuga in EgittoFuga in Egittonombre

Miguel ÁngelMiguel Ángel

Buonarroti Buonarroti

nombre

apellido

Museo del HermitageMuseo del Hermitage

Joven en cuclillasJoven en cuclillas

nombre

expuesta_en

expuesta_en

nombre

Pintor:I1

nombre

Cuadro:I2

Pintor:I4

Escultor:I7

Técnica:I3

Cuadro:I5

Museo:I6

Escultura:I8

utiliza

Page 32: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Lenguajes para ontologías:RDF-Schema (extiende RDF con un vocabulario

de esquema y permite inferencias)OWL (añade mayor expresividad)DAML+OILTopic MapsF-LogicWSMLKIF…

Page 33: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

RDFResource Description Framework (1998)

Descripción de recursosRecurso = identificado por una URISe basa en tripletas

Sujeto Predicado Objeto

Page 34: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Tripletas RDF

Sujeto•URI•Nodo anónimo

Sujeto•URI•Nodo anónimo

Predicado•URIPredicado•URI

Objeto•URI•Literal•Nodo anónimo

Objeto•URI•Literal•Nodo anónimo

Un colegioUn colegio Tiene como nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

Page 35: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

Page 36: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

Tiene como nombre/etiquetaTiene como nombre/etiqueta

“Cardiff High School”“Cardiff High School”

Page 37: Charla Biblioteca Nacional, 24 de julio de 2014

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

Tiene como nombre/etiquetaTiene como nombre/etiqueta

“Cardiff High School”“Cardiff High School”

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

http://www.w3.org/2000/01/rdf-schema#label

http://www.w3.org/2000/01/rdf-schema#label

“Cardiff High School”“Cardiff High School”

Page 38: Charla Biblioteca Nacional, 24 de julio de 2014
Page 39: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

LeyChile, liberado en 2008

Idea: añadirle Datos abiertos enlazados (linked open data)

- http://dl.acm.org/citation.cfm?id=2063529- h

ttp://conference.ifla.org/conference/past/ifla78/214-sifaqui-en.pdf

Page 40: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Paso 1:Use URIs para expresar “cosas”¿Cómo definir estas URIs?

Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000¿Decretos?

Se requiere: número, fecha y organismoDecreto 341 del 11 de noviembre de 2008 del Ministerio de Educación

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341

Page 41: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial

Page 42: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Paso 3:Recurso

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341

Versión originalhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07

Última versiónhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20

Page 43: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Ontología

Page 44: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Paso 4:Relaciones a otros datasets: países

(tratados internacionales)DBPedia, Geonames

Reutilizar vocabularios/ontologíasSKOS, DC, FOAF, DBPedia, ORG

Page 45: Charla Biblioteca Nacional, 24 de julio de 2014

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

Aplicación

Consulta compleja usando SPARQLEncontrar todas las normas emitidas por una municipalidad entre

los años 1995 y 2000, pero que fueron modificadas después del año 2005

Page 46: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Visualizaciones

Page 47: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Visualizaciones

Page 48: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Reseñas biográficas

Page 49: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Reseñas biográficas

Page 50: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

http://datos.bcn.cl/recurso/persona/2376

Page 51: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Visualizaciones

Page 52: Charla Biblioteca Nacional, 24 de julio de 2014

Aplicación

Visualizaciones

Page 53: Charla Biblioteca Nacional, 24 de julio de 2014
Page 54: Charla Biblioteca Nacional, 24 de julio de 2014

Bibliotecas

Kungliga biblioteket https://github.com/libris/librisxl/

Library of CongressBritish LibraryBibliothèque nationale de FranceDeutsche NationalbibliothekBiblioteca Nacional de España

Page 55: Charla Biblioteca Nacional, 24 de julio de 2014

Bibliotecas

Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned.

Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.

Page 56: Charla Biblioteca Nacional, 24 de julio de 2014

Bibliotecas

Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico

Page 57: Charla Biblioteca Nacional, 24 de julio de 2014

Bibliotecas

Oferta de acervo desde el punto de vista literario

Sarah Bartlett, 2010Sarah Bartlett, 2010

Page 58: Charla Biblioteca Nacional, 24 de julio de 2014

Bibliotecas

Pablo Neruda

http://datos.bcn.cl/recurso/persona/2559http://id.worldcat.org/fast/34660http://dbpedia.org/page/Pablo_Nerudahttps://www.freebase.com/m/066c_http://viaf.org/viaf/95126958/http://d-nb.info/gnd/118587005http://www.idref.fr/027337960

Page 59: Charla Biblioteca Nacional, 24 de julio de 2014

Finalmente

Dos mundos• Mundo de documentos para el ser

humano• Mundo de datos para las máquinas

Page 60: Charla Biblioteca Nacional, 24 de julio de 2014

¿Futuro?

Documentos• OCR• aplicación de algoritmos Named-entity

Recognition• Enlaces a ontologías

• Ejemplo: proyecto Historia de la Ley y Labor Parlamentaria

Page 61: Charla Biblioteca Nacional, 24 de julio de 2014

Referencias

http://users.dcc.uchile.cl/~cgutierr/sw/

http://manzanamecanica.org/2014/07/open_data_en_el_congreso_chileno_lo_bueno_lo_malo_y_lo_feo.html

http://de.wikipedia.org/wiki/Ontologie_(Informatik)

http://www.slideshare.net/der42

http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/