语义互操作与关联数据

37
ID: [email protected] URI: http://www.kevenlw.name/foaf.rdf 数数数数数数 数数数数数数数数 数数 2008

description

Semantic Interoperability of Linked Data

Transcript of 语义互操作与关联数据

Page 1: 语义互操作与关联数据

ID: [email protected]: http://www.kevenlw.name/foaf.rdf

数字环境下图书馆前沿问题研讨班上海 2008

Page 2: 语义互操作与关联数据

我为什么介绍这个主题 ?

DC-2009 theme: Semantic Interoperability of Linked Data

“ 元数据运动”的现状和趋势?

敬请关注: http://dublincore.org

Page 3: 语义互操作与关联数据

我们是否因为元数据,而使信息的查找更为容易?

Page 4: 语义互操作与关联数据

图书馆技术服务:元数据加工厂,建设语义仓储…

From: http://www.wayland.ma.us/library/images/tech%20services2.jpg

Page 5: 语义互操作与关联数据
Page 6: 语义互操作与关联数据
Page 7: 语义互操作与关联数据

未来 ( 数字 ) 图书馆技术服务:数字资源的书目控制

Page 8: 语义互操作与关联数据

未来 ( 数字 ) 图书馆的技术服务 元数据服务:用于资源描述,包括资源集合、

保存性 / 管理性需求等; 本体服务:知识组织; 资源整合:跨库 / 联邦检索、个性化门户创建

;基于标准协议的整合与”强行”整合; 服务整合: Web2.0 ,无所不在的服务,业务

流程重组。

技术基础:语义描述与互操作技术 ( 目前是战国纷争 )

Page 9: 语义互操作与关联数据

走向 Web

走向语义

Page 10: 语义互操作与关联数据

什么是语义 (Semantics)

语义:“表达 (representation) 的含义”;

元数据 ( 关于数据的数据 ) 就是语义; RDF 就是表达机器可理解语义的基本格式

; 在 Web 环境下,任何非 RDF 表达的语义

,都无法被看做是全局语义。

Page 11: 语义互操作与关联数据

什么是互操作? “ 互操作性”指不同系统平台或系统之间

交换和共享数据的能力。 互操作解决信息系统之间的”异构”问题

。 不同的技术架构、数据库形式、媒体、以

及不断产生的多语种数字内容使异构也呈现出丰富多彩、无穷无尽的形式。

Page 12: 语义互操作与关联数据

Web 语义互操作的实现

语义描述层面 ( 静态 ) :元数据和本体方法;

协议层面 ( 动态 ) : (Z39.50, CORBA, COM/DCOM, SDARTS) , ZING, WS, REST, Linked Data…

Page 13: 语义互操作与关联数据

Record (encoded as html, XML, or RDF/XML

Description set

Resource Description (URI)Resource Description (URI)Resource Description (URI)

Statement

Statement

Statement

language

(pt-BR)

DCAM 图示 ( 来自 Andy Powell)

value string

value URIproperty (URI)

syntax encodingscheme

Vocabulary encoding scheme

Page 14: 语义互操作与关联数据

应用指南

功能需求 领域模型 元素集描述

编码指南与数据格式

社区领域模型 元素词表 DCMI

抽象模型DCMI

句法指南

RDF/S RDF

标注 Annotate

建立基础

建立基础

建立基础

使用 使用 建立基础

建立基础

建立基础

建立基础

建立基础

建立基础基础标准

领域标准

DC 应用纲要

新加坡框架图示 ( 来自 Tom Baker)

Page 15: 语义互操作与关联数据

元数据方案的互操作程度

第一级 共享元素语义( Shared Term Definitions ):共享对于术语的自然语言理解;只要采用了 DC 的元素即可;

第二级 正式语义互操作( Formal Semantic Interoperability ):共享对于术语的形式化语义。需要每个术语的 RDF 参考;需要符合值域限制;需要符合子元素的限制;

第三级 语法描述级互操作( Description Set Syntactic Interoperability ):共享术语的形式化语义以及语法(达成语义互操作)。抽象模型层面的语义互操作;形式化语义 + 语法限定的一致性,并保证交换。

第四级 描述纲要级互操作( Description Set Profile Interoperability ):整套元数据方案的形式化和互操作。保证了最严格的语义互操作。

Page 16: 语义互操作与关联数据
Page 17: 语义互操作与关联数据

At this point I have to say that I wish DCAM would just die. It has been more of a hindrance than help, so far. If you could use it for good rather than for berating people, you might get further.

----Karen Coyle(此时此刻我不得不说:让 DCAM去死吧!到目前为止,它真是累赘多于帮助,如果你想因为有用而用而是因为想让人出丑,你真应该抛弃它!

Page 18: 语义互操作与关联数据

目的:元数据方案的机读化

只有机器会操作,才能彻底解放全世界图书馆员

Page 19: 语义互操作与关联数据

语义互操作的实现:协议

基于页面分析的 (HTTP/DOM) :一站式检索平台;

基于 API 的: Web Services, Mashup ; 基于 HTTP/XML-RPC 的: OAI-PMH ; 基于 HTTP/RDF 的:语义互操作

Page 20: 语义互操作与关联数据

从开放应用程序接口到开放数据

Page 21: 语义互操作与关联数据

网管眼中的 Web : The Web of Linked Computers

Page 22: 语义互操作与关联数据

Google眼中的Web : The Web of Documents

Page 23: 语义互操作与关联数据

The Web of Data

http://richard.cyganiak.de/2007/10/lod/

Page 24: 语义互操作与关联数据

My document can point at your document on the Web, but my database can't point at something in your database without writing special purpose code. The Semantic Web aims at fixing that.

——Jim Hendler (我在网上的文件能够很容易指向你的文件,但是我的

数据库中的数据如果不写一些特别的代码,就无法指向你的数据。语义 Web 就是要解决这个问题。)

Page 25: 语义互操作与关联数据

Document Web vs. Data Web

Document Web Glued by hyperlinks Data are HTML pages Query result is HTML

pages, which can not be further processed

Data are just interlinked, but not integrated

Data access through different APIs

Data Web Glued by RDF links Data are RDF triples Query result is RDF triples

which can be easily further processed (e.g., web services)

Data are interlinked and integrated, and links are typed

Data access through a single and standardized access mechanism (maybe it will called in the future LOD API?)

Page 26: 语义互操作与关联数据

什么是关联数据 (Linked Data)? 由 Web 的发明人 Tim Berners-Lee提出; 定义了一种 URI规范,使得人们可以通过 HTTP/URI

机制,直接获得数字资源 (Thing) ; A richer Linking mechanism for the Web that takes

us from Hypertext Links (Document to Document) to Hyperdata Links (across things that documents are about)

关联数据是实现 Data Web 的关键技术。

Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html

Page 27: 语义互操作与关联数据

关联数据的四项基本原则:

使用 URI 作为任何事物的标识名称 Use URIs as names for things

使用 HTTP URI 使任何人都可以访问名称 Use HTTP URIs so that people can look up those

names

当有人访问名称时,提供有用的信息 When someone looks up a name, provide useful

information

尽可能提供相关的 URI 以使人们发现更多的信息 Include links to other URIs so that they can

discover more things

Page 28: 语义互操作与关联数据

关联数据举例:关联数据举例:

http://dewey.info/class/338.4

http://dewey.info/class/338.4/about

Thing

Generic Document

303 See Other

RDF HTML

Content-Location:http://dewey.info/class/338.4/about.de.skos http://dewey.info/class/338.4/about.de.html

content negotiation

application/rdf+xml wins text/html wins

200 OK

[300 Multiple Choices]

From : Michael Panzer, DDC, SKOS, and Linked Data on the Web

From: Michael Panzer’s presentation “DDC, SKOS, and Linked Data on the Web”

Page 29: 语义互操作与关联数据

A Few Words on Linked Data

“Linked Data on the Web” is a collection of best practices for publishing data on the semantic web. Distinguishing between Information and non-information

resources. 303 redirects and content negotiation. HTTP URIs for everything on Earth. owl:sameAs

重新定义“语义 Web” ( rebranding of the semantic web). Much more emphasis on links amongst datasets. Much less emphasis on formal semantics.

任意的数据浏览 Linked data can be browsed, in much the same way we browse the traditional web. So we can find data either by searching for it (with

Swoogle/Tripleshop) or by surfing our way to it.

Page 30: 语义互操作与关联数据

值得关注: RDF OWL SKOS RDFa Linked Data/Cool URL GRDDL SPARQL REST

大量的过渡技术已经 / 注定倒在沙滩上: unAPI Microformat …

Page 31: 语义互操作与关联数据

Google 的元数据公理 Web 对象应该实现自描述 World wide web

objects should describe themselves 不能相信隐藏的、用户产生的元数据 You can’t

trust “hidden,” user generated information 通过链接可以提高Web 对象之间的相关性 The

more world wide web objects that link to your world wide web object the more relevant your object must be.

注:相关性即反映了“元数据”所要反映的内容

Page 32: 语义互操作与关联数据

图书馆员的元数据公理

信息对象并不总是能够说明自己Information objects don’t always describe themselves (images, audio, movies, technical writing)

信息专家是可以信赖的 You can trust information provided by information experts

页面排序并不总能精确反映相关性,而语义内容则可以 Pagerank does not accurately denote relevance, meaning does

Page 33: 语义互操作与关联数据

中国元数据发展:我们处在什么位置? 元数据运动:“元数据!元数据!!”

理念普及 概念普及

规范逐步出台,从行业规范到国家标准 研究众多,培训频繁 数字化资源普遍采用元数据,虽然解决方

案并不能发挥元数据的潜能; 共识:“ MARC已死, Meta当立!”

Page 34: 语义互操作与关联数据
Page 35: 语义互操作与关联数据

中国元数据发展:我们有什么问题?

全民元数据:“让元数据走开!” 认识理解不一:“元数据最终应该是为机

器而做,不是为人而做。” 缺乏领域应用的应用指南和操作手册 缺乏“最佳实践”:行业评比? 应用效果不显著:平台?工具? 缺乏权威机构的更新维护:民间机构能否承担此任?

没有必要的软件工具

Page 36: 语义互操作与关联数据

中国元数据发展:当前我们最需要什么?

建立元数据 ( 术语 )登记注册体系; 建立基于 Web 的知识组织体系; 开发提供资源描述与编码的平台、软件和

工具; 建立可供测试和应用的规范数据仓储; 建立保障上述设施运行的行业性的更新维护机制。

Page 37: 语义互操作与关联数据

谢谢!