资源整合与Web2.0
-
Upload
keven-liu -
Category
Technology
-
view
4.530 -
download
1
description
Transcript of 资源整合与Web2.0
刘炜
主要内容
资源整合 Web2.0 情报检索前沿技术
数字图书馆 1.0
用户
网站建设
人员培训
参考
咨询
读者
管理 纸质资源
ILS
数字图书馆 2.0
社区
用户
知识组织
资源整合
门户
建设
Web
服务
为什么要资源整合?
参照美国肯特州立大学的曾蕾教授摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004”改编。原文 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt
Synthesise, Local
CSUSM, David Walker
From: Lorcan Dempsey’s presentation
From: Lorcan Dempsey’s presentation
资源整合 ( 互操作 ) 三个方面
技术方面:模型,格式,协议,安全 内容方面:数据,元数据,语义表达 社会方面:版权,存取规定,支付,认证
资源整合 ( 互操作 ) 三种方式
联邦搜索( Federation ) Z39.50/ZING 非标准 ( 页面分析 )
元数据收割( Harvesting ) OAI/ORE
本地获取( Gathering ) Google 等搜索引擎 其它方式:聚合 (RSS) 、登记注册
一种特例 ( 并非整合,只是链接 ) OpenURL
资源整合
基于协议标准 Z39.50/ZING OAI-PMH/ORE OpenURL Web Services
非标准的整合 页面分析 “ 前”标准: Web2.0 方法
Z39.50/ZING
SRW/SRU : SRW ( Search/Retrieve for the Web )和 SRU ( Search/Retrieve URL Service )
CQL : Common Query Language 通用查询语言
ZOOM : Z39.50 Object-Orientation Model Z39.50 面向对象模型
ez3950 : Simple Implementation of Z39.50 over SOAP using XML Encoding Rule (XER)
ZeeRex
ORE
对象重用和交换 Object Reuse and Exchange
2006 年 10 月提出,计划 2008 年 9 月完成 梅隆基金会和 NSF 共同资助
与 OAI-PMH 的关系
ORE 并非 OAI-PMH 的替代 OAI-PMH 以元数据 为核心, ORE 以对象
(资源)为核心
ORE 项目组成
Coordinators: Carl Lagoze (Cornell) Herbert Van de Sompel (LANL)
ORE Advisory Committee UK representatives include Liz Lyon (UKOLN)
ORE Technical Committee 6 out of 14 members from the UK
ORE Liaison Group UK representatives include Rachel Heery
(UKOLN)
ORE 目标
开发一种标准和协议,使得复合数字对象能够跨越它们所属的资源库、代理或服务进行互操作。
Develop, identify, and profile extensible standards and protocols to allow repositories, agents, and services to interoperate in the context of use and reuse of compound digital objects beyond the boundaries of the holding repositories.
主要概念
复合数字对象 Compound digital objects 具有一定联系的资源的聚集 (bounded aggregations of resources and their relationships)
复合数字对象包括 : 视图( Views ) ( 即“表现 (presentations)” ) 组件( Components )
上述复合数字对象、视图及组件都必须明确地标识或参照 (unambiguously identified and referenced) ,即它们都是“资源”。
复合数字对象举例
如何被 ORE 表示
ORE resource “the first-class identifiable object” acts as the access point for service requests upon the
aggregation formally expresses the boundaries of the aggregation
ORE aggregation has a defined boundary, as expressed by the ORE resource and may have relationships to resources external to the
aggregation the ORE aggregation is described by the
ORE representation a formal description of the members of the ORE
aggregation that makes up the ORE resource “second-class objects” identifiable only via the ORE
resource that they represent
ORE 数字对象模型
关系
内部关系 hasPart hasView
相互关系 hasRelationshipTo 允许在领域应用中进一步定义,如:并列关系、派
生关系、引用关系等
举例:外部关系
数据模型
ORE 服务
OAI-ORE 服务是 ORE 模型的交换实例 三种类型:
收割 Harvest :请求对于一组 ORE 资源中 ORE模型的批量响应实例;
获取 Obtain :请求某一 ORE 资源的一个实例响应; 注册 Register :请求对一个 ORE 聚合增加新节点
或者关系。 其它服务
OpenURL
在 Web 间传递信息的机制 定义
应用于 Web 超链接的一种语法标准。 通过预先定义的标签( Tag ),增进 Web 超链接
能力。 规范
定义一个标准的因特网数据链接语法。 让标靶( Target )可以轻易解析数据源( Sourc
e )所传送的请求。 而数据源( Source )能够很容易地对服务提供者
( Target )送出深度链接服务要求。
北京大学研究生课程进修班 2005 上海
OpenURL
示例:国内全文库整合情况
来自:潘晓玲 2007硕士毕业论文《数字图书馆非标准数据资源整合检索系统的研究与实现》
一个理想的数图互操作模型元数据与本体系统的建立
元数据登记注册系统 MDRS
8. 元数据元素 / 集查询(REST/SOAP)
主体 ( 代理 )
数据元素 映射规则
XMLRDF/S
查询接口
元数据元素( 应用纲要 )
(AP) 注册 / 登记
/ 建库
查询接口
查询接口
7. 查询A 的元
数据方案
10. 获得 A 的元数据
9.
获得
A的
元数
据方
案4. 本体查询
(REST/SOAP)
5a.5b. 提问式处理
主体 ( 代理 )
1.整
合查
询
读者 / 用户
用户对本体互操作系统的使用
实体关系 领域词表
RDF/SOWL
应用本体
基于本体的元数据登记注册系统
领域应用规范
登记 / 注册/ 建库
登记
B的
元数
据方
案
查询接口
3. 安全认证
元数据库 MDR
元数据系统 A 元数据系统 B
对象库 A 对象库 B
本体映射 / 转换
图书馆
6b. 获得元数据
11a.11b. 获得数字对象
6a. 直接提问 / 获得元数据 (SRW/U)
2. 用户信息查
询OAI 收割
查询接口
What We Do Online
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
93%e-mail
Search
Browse/ purchase items
Browsed / purchase books
IM
Browsing
85%
77%
56%
51%
Online banking
Read a blog
Online question service
Used chat rooms
Search/borrow from library site
Read e-books
Dating site
Interacting58%
45%
40%
21%
20%
15%
10%
Total General Public
Social networking
Social media
Created Web page/site
Contributed other's site
Blogged or online diary/journal
Business-related social networking
Creating28%
28%
20%
20%
17%
6%
From: Lorcan Dempsey’s presentation
libraryConsumer environmentsManagement environment
Licensed
Bought
Faculty&students
Digitized AggregationsResource sharing
…
Institutional WorkflowPortals, CMS, IR, …
PersonalWorkflowRSS, toolbars, ..
Network level workflowGoogle, …
Integratedlocal user environment?Library web presenceResource sharing, …
From: Lorcan Dempsey’s presentation
Web2.0下的个人信息环境
From: Lorcan Dempsey’s presentation
图书馆的职能在数字网络时代并没有改变
作为一个场所 有固定的咨询专家
宏富的资源馆藏 各类服务
系统的支持
From: Lorcan Dempsey’s presentation
Web 2.0 主要“原则”
Web 作为平台 获得集体智慧 Collective Intelligence 以数据为核心 Data is the next “Intel
Inside” 永远的测试版(由于定位于服务而非软件) 轻型商务模式 Lightweight business models 软件独立于设备 Software above the level
of a single device 丰富的用户体验 RUE
Web2.0与资源整合相关的技术
Microformat Tag/Folksonomy Mashup Greasemonkey CoINS unAPI Wedget/gadget OpenID REST
Web/ 语义 Web 的结构
该图片创建者为 Tim Berners-Lee
数字图书馆微观结构: KWF
资源创建者
数字对象
数据
句柄 / 调度码
仓储
RAP( 仓储存取协议 )
句柄服务器
创建包含
由句柄 (调度)系统创建包含在
被存取 句柄注册于
下图: Warwick 结构
左图: Kahn/Wilensky结构
元数据的描述层次
为特殊应用而制定的特殊格式;为特殊应用而制定的特殊格式; 可以插入网页或可以插入网页或 XMLXML 元数据中,被收割和索引;元数据中,被收割和索引; 数据可被重用、与具体应用无关;也可自定义,完全取决于应数据可被重用、与具体应用无关;也可自定义,完全取决于应
用;用; 例如:例如: XFN, hcalendar, hcard, rel tags, rel license, lists and XFN, hcalendar, hcard, rel tags, rel license, lists and
outlines, outlines, 等等等等…… http://microformats.org/
MicroformatMicroformat微格式微格式
微格式举例 People and Organizations
hCard Calendars and Events
hCalendar Opinions, Ratings and Reviews
VoteLinks, hReview Social Networks
XFN Licenses:
rel-license Tags, Keywords, Categories
rel-tag Lists and Outlines
XOXO
http://microformats.org/about/http://microformats.org/wiki/Main_Page
<div class="vcard"> <img style="float:left; margin-right:4px" src="http://www.flickr.com/photos/kevenlw/" alt="photo" class="photo"/> <a class="url fn" href="http://my.donews.com/keven/">Keven Liu</a> <div class="org">Shanghai Library</div> <a class="email" href="mailto:[email protected]">[email protected]</a> <div class="adr"> <div class="street-address">Huai Hai Zhong Road</div> <span class="locality">Shanghai</span>, <span class="region">Shanghai</span>, <span class="postal-code">200031</span> <span class="country-name">China</span> </div> <div class="tel">64455555-8311</div> <a class="url" href="aim:goim?screenname=kevenlw">AIM</a> <a class="url" href="ymsgr:sendIM?kevenlw">YIM</a><p style="font-size:smaller;">This <a href="http://microformats.org/wiki/hcard">hCard</a> created with the <a href="http://microformats.org/code/hcard/creator">hCard creator</a>.</p></div>
微格式举例
显示形式:Keven Liu
Shanghai [email protected] Huai Hai Zhong Road
Shanghai , Shanghai , 200031 China
64455555-8311AIM YIM
微内容 Microcontent
‘Microcontent’ 由 Jakob Nielsen 提出,指一小段包含元数据的文本,有特定的内容,与微格式的区别是不一定有特定的编码。
microcontent is a finite collection of metadata and data that has at least one unique identity and at least one unique address on the network, and that encapsulates no more than a small number of central ideas, where the number of central ideas encapsulated is usually 1. http://novaspivack.typepad.com/nova_spivacks_weblog/2003/12/defining_microc.html
微资源的功能需求
微资源的产生(例如:做网络书签?); 微资源需要标识( permanent id ?); 微资源需要描述( metadata ); 微资源需要重组(聚合); 微资源的重用; 微资源的呈现( tag cloud ?); 微资源的管理和利用需要工具( flickr/
del.icio.us/blinklist/365key… )。
标签 Tag 的作用
标示,为了查找。专指度高好还是低好?每个人都回折中。
指代,索引中指代原件 聚类,为了关联。 分面标引 集体智慧。
民俗分类法 Folksonomy
Folksonomy 由 tag 组成。 Tag 在 folksonomy 中是微资源的指代物。
通过检出 tag而检出微资源。 Tag 是平面的。 Tag 是随意的。 Tag云图反映了 tag 的权重。
Tag 可能的发展方向
Tag 可以排序(除了目前的字顺和权重,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数、甚至类 pagerank 等);
Tag 可以层级化(层次关系,例如del.icio.us 目前支持的 tag 类目);
Tag 可以聚类(反映了资源之间的关系;经常在一起的 tag 具有较为密切的关系,等等);
Tag 可以规范化(同义词、反义词归并指代;用代属分参关系标注等)。
讨论
这些发展,与应用的成本 /边际效用 /方便性有关。
这些发展,到了一定程度,就不是folksonomy了。
Folksonomy 并非绝对“自由”,并非没有体系,只是做标注( tagging )的人没有意识到(自己的体系)而已。
Folksonomy 的一个极端形式是 Topic Maps ( ISO13250 );
Topic Maps/Taxonomy/Folksonomy
Topic Maps 可以看成一种 Ontology 。 Taxonomy 是一类概念体系分类方法的总称,不具有严格的规定。但也可以看成一种不完整的 Ontology 。
对应于极端自由的 Folksonomy ,极端规范的、形式化的概念体系是 Ontology 。
Mashup融合 / 混搭 / 跨界合作
什么是 Mashup Mashup 举例
什么是 "mashup"?
一项网络应用其数据内容来自多个不同的站点
通过第三方提供的公共应用程序接口 API动态组合提供服务
一般采用轻型的 Web 服务 ( 基于 REST 或SOAP)
内容协同 Mashup
基于 XML 的多种内容格式和基于这些格式的互操作 /通信协议。包括 RSS, RDF (RSS 1.1), Atom以及大量的微格式;
FOAF XFN等特别设计的格式和协议 ( 主要是基于社会型网络 social networking) 扩展了 2.0 网站的功能,允许用户分布式地交互。
地图 Mashup 应用十分普遍
GPS 接收十分普遍且费用低廉 直观、新颖、实用 成熟技术,低技术门槛 数据免费 (google maps) 应用扩展性好 动态性好 直接用于手持设备 具有社会性应用前景 ……
潜在问题
一致性问题 潜在的法律问题 盈利模式 竞争 可性度问题
未来发展
统一的 Mashup 应用程序接口注册服务(便于服务发现);
Mashup 工具的开发 桌面门户的出现消灭门户:在你的客户端
Mashup 杀手级应用的出现使得应用迅速普及 RSS 成为数据 mashup 的标准格式 知识产权问题的合理妥善解决
利用现成的应用建立 mashup
寻找现成应用的 API ( 到 2006 年 8 月 13 日 23:30 共有 251个 ) http://www.programmableweb.com/apis http://www.mashupfeed.com
获得应用 ID (API key) 有时并不需要 通常都有免费许可,免费服务通常有一定约束
仔细阅读文档 服务限制 (次数 /地点 /使用等方面 ) 关于提问式的特殊规定
编写简单代码(甚至不需要),开始Mashup!
unAPI
在不同的 Web 应用之间拷贝 /粘贴数据标准方式;
实现一种简便的、普适的微格式应用的传输机制
Mashup 的参考教程
http://www.programmableweb.com/howto http://www.theurer.cc/blog/2005/11/03/how-
to-build-a-maps-mash-up/ Jon Udell's screencast Java for Google Maps Mashups Charlottetown Transit Map explanation
(php) http://www.flickrmap.com/tutorials/
google_earth.php
趋势
任何东西都有地址 Everything URL(URI) addressable
走向社会化Go Social 随处无线接入Wifi everywhere 普遍计算 Ubiquitous computing 集成、专指、移动 (synthesise, specialise,
mobilise) 服务于长尾 语义描述是数字图书馆服务的基础
Synthesize - to combine often diverse conceptions into a coherent whole.
Synthesize
Web services
Patron services
Content
Policies
Registries
Forward knowledge
Fulfillment services
Mobilize
Specialize - involve specific knowledge in order to serve a particular purpose; to apply or direct to specific end or use.
Specialize
…
Mobilize - to put into action
Workplace applications - points of need
Profiles
• Local service• Local added value• Local context• Local knowledge
Robin Murray
From: Lorcan Dempsey’s presentation
Synthesise, network
From: Lorcan Dempsey’s presentation
以“上海年华”的设计为例
一部有关上海历史发展的百科全书 多方面的内容组织和内容揭示 一大批格式、微格式、元数据、本体描述
规范 多种规范控制工具和权威档作为辅助,包
括人名、事件、时间、地理位置的规范以及城市经济人文本体
通过各种方式 (RSS/METS) 开放数据和API ,可供数据调用、嵌入和 Mashup