资源整合与Web2.0

64
刘刘

description

2008年1月16日 上海交通大学图书馆

Transcript of 资源整合与Web2.0

Page 1: 资源整合与Web2.0

刘炜

Page 2: 资源整合与Web2.0

主要内容

资源整合 Web2.0 情报检索前沿技术

Page 3: 资源整合与Web2.0

数字图书馆 1.0

用户

网站建设

人员培训

参考

咨询

读者

管理 纸质资源

ILS

Page 4: 资源整合与Web2.0

数字图书馆 2.0

社区

用户

知识组织

资源整合

门户

建设

Web

服务

Page 5: 资源整合与Web2.0

为什么要资源整合?

参照美国肯特州立大学的曾蕾教授摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004”改编。原文 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt

Page 6: 资源整合与Web2.0

Synthesise, Local

CSUSM, David Walker

From: Lorcan Dempsey’s presentation

Page 7: 资源整合与Web2.0

From: Lorcan Dempsey’s presentation

Page 8: 资源整合与Web2.0

资源整合 ( 互操作 ) 三个方面

技术方面:模型,格式,协议,安全 内容方面:数据,元数据,语义表达 社会方面:版权,存取规定,支付,认证

Page 9: 资源整合与Web2.0

资源整合 ( 互操作 ) 三种方式

联邦搜索( Federation ) Z39.50/ZING 非标准 ( 页面分析 )

元数据收割( Harvesting ) OAI/ORE

本地获取( Gathering ) Google 等搜索引擎 其它方式:聚合 (RSS) 、登记注册

一种特例 ( 并非整合,只是链接 ) OpenURL

Page 10: 资源整合与Web2.0

资源整合

基于协议标准 Z39.50/ZING OAI-PMH/ORE OpenURL Web Services

非标准的整合 页面分析 “ 前”标准: Web2.0 方法

Page 11: 资源整合与Web2.0
Page 12: 资源整合与Web2.0

Z39.50/ZING

SRW/SRU : SRW ( Search/Retrieve for the Web )和 SRU ( Search/Retrieve URL Service )

CQL : Common Query Language 通用查询语言

ZOOM : Z39.50 Object-Orientation Model Z39.50 面向对象模型

ez3950 : Simple Implementation of Z39.50 over SOAP using XML Encoding Rule (XER)

ZeeRex

Page 13: 资源整合与Web2.0
Page 14: 资源整合与Web2.0

ORE

对象重用和交换 Object Reuse and Exchange

2006 年 10 月提出,计划 2008 年 9 月完成 梅隆基金会和 NSF 共同资助

Page 15: 资源整合与Web2.0

与 OAI-PMH 的关系

ORE 并非 OAI-PMH 的替代 OAI-PMH 以元数据 为核心, ORE 以对象

(资源)为核心

Page 16: 资源整合与Web2.0

ORE 项目组成

Coordinators: Carl Lagoze (Cornell) Herbert Van de Sompel (LANL)

ORE Advisory Committee UK representatives include Liz Lyon (UKOLN)

ORE Technical Committee 6 out of 14 members from the UK

ORE Liaison Group UK representatives include Rachel Heery

(UKOLN)

Page 17: 资源整合与Web2.0

ORE 目标

开发一种标准和协议,使得复合数字对象能够跨越它们所属的资源库、代理或服务进行互操作。

Develop, identify, and profile extensible standards and protocols to allow repositories, agents, and services to interoperate in the context of use and reuse of compound digital objects beyond the boundaries of the holding repositories.

Page 18: 资源整合与Web2.0

主要概念

复合数字对象 Compound digital objects 具有一定联系的资源的聚集 (bounded aggregations of resources and their relationships)

复合数字对象包括 : 视图( Views ) ( 即“表现 (presentations)” ) 组件( Components )

上述复合数字对象、视图及组件都必须明确地标识或参照 (unambiguously identified and referenced) ,即它们都是“资源”。

Page 19: 资源整合与Web2.0

复合数字对象举例

Page 20: 资源整合与Web2.0

如何被 ORE 表示

ORE resource “the first-class identifiable object” acts as the access point for service requests upon the

aggregation formally expresses the boundaries of the aggregation

ORE aggregation has a defined boundary, as expressed by the ORE resource and may have relationships to resources external to the

aggregation the ORE aggregation is described by the

ORE representation a formal description of the members of the ORE

aggregation that makes up the ORE resource “second-class objects” identifiable only via the ORE

resource that they represent

Page 21: 资源整合与Web2.0

ORE 数字对象模型

Page 22: 资源整合与Web2.0

关系

内部关系 hasPart hasView

相互关系 hasRelationshipTo 允许在领域应用中进一步定义,如:并列关系、派

生关系、引用关系等

Page 23: 资源整合与Web2.0

举例:外部关系

Page 24: 资源整合与Web2.0

数据模型

Page 25: 资源整合与Web2.0

ORE 服务

OAI-ORE 服务是 ORE 模型的交换实例 三种类型:

收割 Harvest :请求对于一组 ORE 资源中 ORE模型的批量响应实例;

获取 Obtain :请求某一 ORE 资源的一个实例响应; 注册 Register :请求对一个 ORE 聚合增加新节点

或者关系。 其它服务

Page 26: 资源整合与Web2.0
Page 27: 资源整合与Web2.0

OpenURL

在 Web 间传递信息的机制 定义

应用于 Web 超链接的一种语法标准。 通过预先定义的标签( Tag ),增进 Web 超链接

能力。 规范

定义一个标准的因特网数据链接语法。 让标靶( Target )可以轻易解析数据源( Sourc

e )所传送的请求。 而数据源( Source )能够很容易地对服务提供者

( Target )送出深度链接服务要求。

Page 28: 资源整合与Web2.0

北京大学研究生课程进修班 2005 上海

OpenURL

Page 29: 资源整合与Web2.0

示例:国内全文库整合情况

来自:潘晓玲 2007硕士毕业论文《数字图书馆非标准数据资源整合检索系统的研究与实现》

Page 30: 资源整合与Web2.0

一个理想的数图互操作模型元数据与本体系统的建立

元数据登记注册系统 MDRS

8. 元数据元素 / 集查询(REST/SOAP)

主体 ( 代理 )

数据元素 映射规则

XMLRDF/S

查询接口

元数据元素( 应用纲要 )

(AP) 注册 / 登记

/ 建库

查询接口

查询接口

7. 查询A 的元

数据方案

10. 获得 A 的元数据

9.

获得

A的

元数

据方

案4. 本体查询

(REST/SOAP)

5a.5b. 提问式处理

主体 ( 代理 )

1.整

合查

读者 / 用户

用户对本体互操作系统的使用

实体关系 领域词表

RDF/SOWL

应用本体

基于本体的元数据登记注册系统

领域应用规范

登记 / 注册/ 建库

登记

B的

元数

据方

查询接口

3. 安全认证

元数据库 MDR

元数据系统 A 元数据系统 B

对象库 A 对象库 B

本体映射 / 转换

图书馆

6b. 获得元数据

11a.11b. 获得数字对象

6a. 直接提问 / 获得元数据 (SRW/U)

2. 用户信息查

询OAI 收割

查询接口

Page 31: 资源整合与Web2.0
Page 32: 资源整合与Web2.0

What We Do Online

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

93%e-mail

Search

Browse/ purchase items

Browsed / purchase books

IM

Browsing

85%

77%

56%

51%

Online banking

Read a blog

Online question service

Used chat rooms

Search/borrow from library site

Read e-books

Dating site

Interacting58%

45%

40%

21%

20%

15%

10%

Total General Public

Social networking

Social media

Created Web page/site

Contributed other's site

Blogged or online diary/journal

Business-related social networking

Creating28%

28%

20%

20%

17%

6%

From: Lorcan Dempsey’s presentation

Page 33: 资源整合与Web2.0

libraryConsumer environmentsManagement environment

Licensed

Bought

Faculty&students

Digitized AggregationsResource sharing

Institutional WorkflowPortals, CMS, IR, …

PersonalWorkflowRSS, toolbars, ..

Network level workflowGoogle, …

Integratedlocal user environment?Library web presenceResource sharing, …

From: Lorcan Dempsey’s presentation

Page 34: 资源整合与Web2.0

Web2.0下的个人信息环境

From: Lorcan Dempsey’s presentation

Page 35: 资源整合与Web2.0

图书馆的职能在数字网络时代并没有改变

作为一个场所 有固定的咨询专家

宏富的资源馆藏 各类服务

系统的支持

From: Lorcan Dempsey’s presentation

Page 36: 资源整合与Web2.0

Web 2.0 主要“原则”

Web 作为平台 获得集体智慧 Collective Intelligence 以数据为核心 Data is the next “Intel

Inside” 永远的测试版(由于定位于服务而非软件) 轻型商务模式 Lightweight business models 软件独立于设备 Software above the level

of a single device 丰富的用户体验 RUE

Page 37: 资源整合与Web2.0

Web2.0与资源整合相关的技术

Microformat Tag/Folksonomy Mashup Greasemonkey CoINS unAPI Wedget/gadget OpenID REST

Page 38: 资源整合与Web2.0

Web/ 语义 Web 的结构

该图片创建者为 Tim Berners-Lee

Page 39: 资源整合与Web2.0

数字图书馆微观结构: KWF

资源创建者

数字对象

数据

句柄 / 调度码

仓储

RAP( 仓储存取协议 )

句柄服务器

创建包含

由句柄 (调度)系统创建包含在

被存取 句柄注册于

下图: Warwick 结构

左图: Kahn/Wilensky结构

Page 40: 资源整合与Web2.0

元数据的描述层次

Page 41: 资源整合与Web2.0

为特殊应用而制定的特殊格式;为特殊应用而制定的特殊格式; 可以插入网页或可以插入网页或 XMLXML 元数据中,被收割和索引;元数据中,被收割和索引; 数据可被重用、与具体应用无关;也可自定义,完全取决于应数据可被重用、与具体应用无关;也可自定义,完全取决于应

用;用; 例如:例如: XFN, hcalendar, hcard, rel tags, rel license, lists and XFN, hcalendar, hcard, rel tags, rel license, lists and

outlines, outlines, 等等等等…… http://microformats.org/

MicroformatMicroformat微格式微格式

Page 42: 资源整合与Web2.0

微格式举例 People and Organizations

hCard Calendars and Events

hCalendar Opinions, Ratings and Reviews

VoteLinks, hReview Social Networks

XFN Licenses:

rel-license Tags, Keywords, Categories

rel-tag Lists and Outlines

XOXO

http://microformats.org/about/http://microformats.org/wiki/Main_Page

Page 43: 资源整合与Web2.0

<div class="vcard"> <img style="float:left; margin-right:4px" src="http://www.flickr.com/photos/kevenlw/" alt="photo" class="photo"/> <a class="url fn" href="http://my.donews.com/keven/">Keven Liu</a> <div class="org">Shanghai Library</div> <a class="email" href="mailto:[email protected]">[email protected]</a> <div class="adr"> <div class="street-address">Huai Hai Zhong Road</div> <span class="locality">Shanghai</span>, <span class="region">Shanghai</span>, <span class="postal-code">200031</span> <span class="country-name">China</span> </div> <div class="tel">64455555-8311</div> <a class="url" href="aim:goim?screenname=kevenlw">AIM</a> <a class="url" href="ymsgr:sendIM?kevenlw">YIM</a><p style="font-size:smaller;">This <a href="http://microformats.org/wiki/hcard">hCard</a> created with the <a href="http://microformats.org/code/hcard/creator">hCard creator</a>.</p></div>

微格式举例

显示形式:Keven Liu

Shanghai [email protected] Huai Hai Zhong Road

Shanghai , Shanghai , 200031 China

64455555-8311AIM YIM

Page 44: 资源整合与Web2.0

微内容 Microcontent

‘Microcontent’ 由 Jakob Nielsen 提出,指一小段包含元数据的文本,有特定的内容,与微格式的区别是不一定有特定的编码。

microcontent is a finite collection of metadata and data that has at least one unique identity and at least one unique address on the network, and that encapsulates no more than a small number of central ideas, where the number of central ideas encapsulated is usually 1. http://novaspivack.typepad.com/nova_spivacks_weblog/2003/12/defining_microc.html

Page 45: 资源整合与Web2.0

微资源的功能需求

微资源的产生(例如:做网络书签?); 微资源需要标识( permanent id ?); 微资源需要描述( metadata ); 微资源需要重组(聚合); 微资源的重用; 微资源的呈现( tag cloud ?); 微资源的管理和利用需要工具( flickr/

del.icio.us/blinklist/365key… )。

Page 46: 资源整合与Web2.0

标签 Tag 的作用

标示,为了查找。专指度高好还是低好?每个人都回折中。

指代,索引中指代原件 聚类,为了关联。 分面标引 集体智慧。

Page 47: 资源整合与Web2.0

民俗分类法 Folksonomy

Folksonomy 由 tag 组成。 Tag 在 folksonomy 中是微资源的指代物。

通过检出 tag而检出微资源。 Tag 是平面的。 Tag 是随意的。 Tag云图反映了 tag 的权重。

Page 48: 资源整合与Web2.0

Tag 可能的发展方向

Tag 可以排序(除了目前的字顺和权重,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数、甚至类 pagerank 等);

Tag 可以层级化(层次关系,例如del.icio.us 目前支持的 tag 类目);

Tag 可以聚类(反映了资源之间的关系;经常在一起的 tag 具有较为密切的关系,等等);

Tag 可以规范化(同义词、反义词归并指代;用代属分参关系标注等)。

Page 49: 资源整合与Web2.0

讨论

这些发展,与应用的成本 /边际效用 /方便性有关。

这些发展,到了一定程度,就不是folksonomy了。

Folksonomy 并非绝对“自由”,并非没有体系,只是做标注( tagging )的人没有意识到(自己的体系)而已。

Folksonomy 的一个极端形式是 Topic Maps ( ISO13250 );

Page 50: 资源整合与Web2.0

Topic Maps/Taxonomy/Folksonomy

Topic Maps 可以看成一种 Ontology 。 Taxonomy 是一类概念体系分类方法的总称,不具有严格的规定。但也可以看成一种不完整的 Ontology 。

对应于极端自由的 Folksonomy ,极端规范的、形式化的概念体系是 Ontology 。

Page 51: 资源整合与Web2.0

Mashup融合 / 混搭 / 跨界合作

什么是 Mashup Mashup 举例

Page 52: 资源整合与Web2.0

什么是 "mashup"?

一项网络应用其数据内容来自多个不同的站点

通过第三方提供的公共应用程序接口 API动态组合提供服务

一般采用轻型的 Web 服务 ( 基于 REST 或SOAP)

Page 53: 资源整合与Web2.0

内容协同 Mashup

基于 XML 的多种内容格式和基于这些格式的互操作 /通信协议。包括 RSS, RDF (RSS 1.1), Atom以及大量的微格式;

FOAF XFN等特别设计的格式和协议 ( 主要是基于社会型网络 social networking) 扩展了 2.0 网站的功能,允许用户分布式地交互。

Page 54: 资源整合与Web2.0

地图 Mashup 应用十分普遍

GPS 接收十分普遍且费用低廉 直观、新颖、实用 成熟技术,低技术门槛 数据免费 (google maps) 应用扩展性好 动态性好 直接用于手持设备 具有社会性应用前景 ……

Page 55: 资源整合与Web2.0

潜在问题

一致性问题 潜在的法律问题 盈利模式 竞争 可性度问题

Page 56: 资源整合与Web2.0

未来发展

统一的 Mashup 应用程序接口注册服务(便于服务发现);

Mashup 工具的开发 桌面门户的出现消灭门户:在你的客户端

Mashup 杀手级应用的出现使得应用迅速普及 RSS 成为数据 mashup 的标准格式 知识产权问题的合理妥善解决

Page 57: 资源整合与Web2.0

利用现成的应用建立 mashup

寻找现成应用的 API ( 到 2006 年 8 月 13 日 23:30 共有 251个 ) http://www.programmableweb.com/apis http://www.mashupfeed.com

获得应用 ID (API key) 有时并不需要 通常都有免费许可,免费服务通常有一定约束

仔细阅读文档 服务限制 (次数 /地点 /使用等方面 ) 关于提问式的特殊规定

编写简单代码(甚至不需要),开始Mashup!

Page 58: 资源整合与Web2.0

unAPI

在不同的 Web 应用之间拷贝 /粘贴数据标准方式;

实现一种简便的、普适的微格式应用的传输机制

Page 59: 资源整合与Web2.0

Mashup 的参考教程

http://www.programmableweb.com/howto http://www.theurer.cc/blog/2005/11/03/how-

to-build-a-maps-mash-up/ Jon Udell's screencast Java for Google Maps Mashups Charlottetown Transit Map explanation

(php) http://www.flickrmap.com/tutorials/

google_earth.php

Page 60: 资源整合与Web2.0

趋势

任何东西都有地址 Everything URL(URI) addressable

走向社会化Go Social 随处无线接入Wifi everywhere 普遍计算 Ubiquitous computing 集成、专指、移动 (synthesise, specialise,

mobilise) 服务于长尾 语义描述是数字图书馆服务的基础

Page 61: 资源整合与Web2.0

Synthesize - to combine often diverse conceptions into a coherent whole.

Synthesize

Web services

Patron services

Content

Policies

Registries

Forward knowledge

Fulfillment services

Mobilize

Specialize - involve specific knowledge in order to serve a particular purpose; to apply or direct to specific end or use.

Specialize

Mobilize - to put into action

Workplace applications - points of need

Profiles

• Local service• Local added value• Local context• Local knowledge

Robin Murray

From: Lorcan Dempsey’s presentation

Page 62: 资源整合与Web2.0

Synthesise, network

From: Lorcan Dempsey’s presentation

Page 63: 资源整合与Web2.0

以“上海年华”的设计为例

一部有关上海历史发展的百科全书 多方面的内容组织和内容揭示 一大批格式、微格式、元数据、本体描述

规范 多种规范控制工具和权威档作为辅助,包

括人名、事件、时间、地理位置的规范以及城市经济人文本体

通过各种方式 (RSS/METS) 开放数据和API ,可供数据调用、嵌入和 Mashup

Page 64: 资源整合与Web2.0