关于馆藏资源语义聚合及相关标准规范的思考
description
Transcript of 关于馆藏资源语义聚合及相关标准规范的思考
关于馆藏资源语义聚合的思考 及相关标准规范
上海图书馆
“全国数字文献资源语义化、深度聚合与可视化研究”会议·2014.6·武汉
来⾃自OCLC ⾸首席科学家 Lorcan Dempsey http://www.paradigm.ac.uk/projectdocs/papers/collection_grid.gif
“馆藏”的多样性
“馆藏” 现代图书馆所收集整理和提供服务的一切信息资源,包括以传统的纸质载体、胶片或其它物理载体形式存在的信息资源,和负载于磁光介质、或独立于介质而存在(例如:云存储)的数字和网络资源;也包括真实存在于图书馆内的实际馆藏和仅提供访问及存取权利的虚拟(网络)资源。
其共同特点是都需要被纳入到图书馆保存和服务的完整体系中,进行统一的组织、查询、揭示、浏览、导航、获取等服务。因此这里所说的“馆藏”虽然不包括未纳入图书馆保管和服务体系内,而仅仅是通过图书馆设施进行访问的资源,但不排除通过元数据的整合,而纳入到馆藏体系中(可通过馆际互借原文提供获得)的资源。
“文献” 在数字时代,知识的内容独立于载体而存在已成为普遍现象,作为“记录有知识的一切载体”的“文献”已不再是“馆藏资源”的全部,因此关于文献的深度聚合,特别是
• •
基于语义、根据其引用情况而进行的聚合,将只是馆藏聚合的一个特例。
“聚合”的复杂性
深度聚合• 基于内容的聚合(元数据)而不是基于载体的聚合
• 联合目录
• 资源发现
• 基于语义的聚合而不是基于形式的聚合
• 数据关联
• 内容融合
• 动态聚合
聚合环境:Web
语义技术• 语义与知识:
• 语义具有客观性,可以客观传输;知识具有主观性,必须通过个体认知过程而获得;
• 语义是知识的客观表达,形式化之后,可利用计算机作为知识(单元)的编码方式和传输的载体。
• 语义化
• 利用语义万维网(Semantic Web)协议和标准规范,对馆藏资源进行形式化,以方便描述、呈现、组织、管理、聚合、可视化的过程
• 语义万维网是以现有万维网为基础的扩展,其核心是协议堆栈:HTTP+URI(IRI)+HTML(RDF/OWL)等
语义技术
问题域
• 信息资源的形式:从文献到数据
• 聚合的核心问题:基于Web的语义互操作
• 深度聚合:超越知识发现而达到知识关联
• 标准规范:是一个体系
资源、馆藏资源
• 资源:网络中有URI/IRI的一切东西
• 与文献和相关概念的关系:文献是记录有知识的一切载体,本课题的信息资源通常是“文献”的一种数字化的虚拟存在。
• 馆藏资源的进一步限定:图书情报等社会文化信息机构为保存传播利用等目的而收集存储组织提供服务的、以各种形式和载体存在、能通过互联网获取的有价值的信息。
• 从语义技术的角度,任何馆藏资源都是一种经过描述的、能够满足语义互操作功能的“数据”。
知识单元、聚合、颗粒度
• 明确馆藏的类型和馆藏对象(知识)的结构单元或逻辑单元,是对其进行聚合的前提。以数字形式存在的知识单元通常是以一定格式的文件形式存在,例如PDF、DOC、EPUB、JPG、MOV等,新的基于网络的格式大量采用XML,也越来越多地使用开放格式,例如XHTML、CSV。可以说任何文件格式都是知识的载体。
• 聚合其实是提供一定的概念视图,实现不同知识库之间的统一浏览、统一查询、统一管理等互操作功能。可以同时有多个视图。
• 概念的颗粒度取决于馆藏的颗粒度决定,馆藏的颗粒度可由管理和服务(馆员和读者)两个方面的需求共同决定,但也不是一层不变的。
互联⺴⽹网⽂文件格式
子课题概况
• 研究目的
• 课题定位
研究目的
从语义层面深化图书馆各类馆藏资源的知识组织,强化知识聚合,以期达到提高图书馆知识服务的能力和利用率的目的。
课题定位
本子课题定位于筛选和梳理与总项目有关的语义描述、编码、互操作、整合、揭示和服务规范,以及相关的可视化规范,对其进行评介、推荐并提供图书情报领域的应用说明,探讨其本地化和具体实施路径,以及应用于本项目中的可行性。
内容范围
本子课题所涉及的规范主要包括网络环境(指Web环境)下的相关技术,一般不涉及早期的人工智能或语言学领域的语义技术。但本子课题对相关领域的发展历史和未来趋势需有全面的把握。
内容范围
本子课题所涉及的规范主要包括网络环境(指Web环境)下的相关技术,一般不涉及早期的人工智能或语言学领域的语义技术。但本子课题对相关领域的发展历史和未来趋势需有全面的把握。
标准规范 本课题所讨论的标准规范,大多是指在馆藏资源生命周期过程中,对其进行收集、组织、保存、加工、处理、传递和服务等工作所应满足的一切技术性要求的规定,包括操作、方法和特性指标等。
制定标准规范的目的在于通过重用而获得最佳的互通性,达到领域知识的传播与共享,并取得最佳的经济效益和社会效益。信息技术有关的标准规范有许多并不是由国际组织或国家颁布的,而是起源于民间团体、IT企业甚至个人,以技术的传播利用和共享为目的,有时是一些约定俗成的“最佳实践”。
标准规范• 标识规范
• 描述规范(元数据)
• 领域本体
• 编码规范
• 交换(互操作)规范
• 发布规范(登记注册系统)
• 最佳实践
• SPARQL: Querying RDF data
• RDF Schema: Documenting the meaning of RDF data
• OWL: Formalizing the meaning of RDF data
• RDF/XML: Writing RDF data in XML
• RDFa: Embed RDF data in HTML
• R2RML: Mapping relational data to RDF
• GRDDL: Mapping XML data to RDF
• DC, Org, FOAF, SIOC, DCAT, VoID, …:Describe particular domains as RDF data
基础标准
• RDF is not a language but a model
• RDF is written in XML
• RDF is a W3C standard
• RDF is for describing resources on the web
• RDF is designed to be read by computers
• RDF is not designed for being displayed to people
• RDF uses URIs to identify web resources
• RDF uses property values to describe web resources
• RDF uses the terms resources, properties, and values
• RDF also uses the terms subject, predicates and objects
RDF:Resource Description Framework
成果形式
• 研究报告
• 标准规范谱系图
• 主要标准规范说明
• 实施建议
应用展望
• 试验性开发
• 标准规范建议
• 宣传推广
• 成立联盟
• 培训推介
“全国数字文献资源语义化、深度聚合与可视化研究”会议·2014.6·武汉