CNKI 知识仓库建设与服务标准
description
Transcript of CNKI 知识仓库建设与服务标准
CNKI 知识仓库建设与服务标准
张振海
清华同方光盘股份有限公司软件研发中心
2001-12-21
珠海
什么知识仓库?• 是面向一类具有相同知识信息需求的机构,根据其需求的知识结构特征和层次范围,从指定的信息源中筛选、分类、编辑而成的,通过各种媒体进行动态更新的数据库。
知识仓库的目标?
• 实现知识资源共享• 提高知识传播的速度• 降低知识使用成本• 支持知识创新• 为开展规模化知识服务提供支持
知识仓库的结构
知识元库
教材专著库
专业知识库
领域专家
知识元库专著教材
工具书
专业知识库
专业知识库
专业知识库
专业知识库
知识元 知识元
知识仓库结构图
• 知识元– 对某一知识的完整描述叫知识元,如概念、定理、定律、事实、历史人物、历史事件
• 相关知识元关联• 知识元引用自动关联• 通过知识元关联使知识仓库成为有机整体
知识库知识元关联
• 快速实现资源共享• 提高资源开发利用层次• 实现“沉浸式”学习与研究环境• 加快资源开发速度• 提高知识交流速度
知识仓库的优势
• 元数据—描述数据的数据( strutured data about data )
• 主要元数据标准:– CDWA(27), DC(15), EAD(TEI)(21),FGDC(460), GIL
S(22-43), TEI(20),VRA(17-38)
• 元数据描述的层次– 很简单:传统搜索引擎– 中间: Dubin Core , 15 元素– 复杂: Marc , FGDC
元数据
• 国际接轨• 简单和复杂兼顾• 可扩展• 以 Dulin Core 为基础的面向对象的 CNKI
元数据方案– 简单– 扩展性好– 应用适应性好
• 在文献对象描述上可以和 DC 较好的对应
CNKI 元数据
XMLXML 是 eXtensible Markup Language (可扩展的置标语言)的缩写,是 W3C 组织发布的标准。 W3C 组织制定 XML 标准的初衷是,定义一种互联网上交换数据的标准。 W3C 采取了简化 SGML 的策略。不仅可以通过 XML 来创建标记语言,而且能够创建高度结构化的标记语言,其采用纯文本格式,具有很好的交换性,使其成为开展以内容为核心的元数据应用的首选描述语言
DTD: Document Type Definition XML Schema
支持多种数据类型
XML :资源交换格式
• RDF 的数据模型可以用有向图描述:– Ora Lassila is the creator of the resource http:/
/www.w3.org/Home/Lassila. – 三元组( S ( Subject),P(Predicate),O(Objec
t))– Subject :http://www.w3.org/Home/Lassila – Predicate: Creator– Object :Ora Lassila
RDF 的描述结构
• 资源发现:提供更好的搜索引擎性能 • 智能代理软件:可以促进知识共享和交
换的自动化• 内容分级 • 知识产权• 电子商务• 协同工作
RDF 优势
• 传统资源开发模式– 一种资源 + 一种软件的模式
• CNKI 知识仓库开发模式– 软件资源分离模式– 统一软件平台– 各种知识库
• 优点– 降低开发成本,缩短开发周期– 提供集成服务,方便用户使用– 提高服务品质
CNKI 知识仓库服务平台目标
对象管理系统
知识元库
专著教材
专业知识库
自然语言处理
搜索引擎
内容挖掘
安全管理用户管理
网上交流:网络视
频会议系统
Web Gate 内容创建管理 互连协议
服务平台结构—支持知识协作
• 知识仓库管理:面向对象的知识库管理系统– 知识库创建,知识元创建– 多种类型对象支持:文本,音频,视频等
• 传统检索– 精确检索
• 智能全文检索支持相关度排序,多语言扩展。
• 面向对象的检索• 自然语言检索接口
服务平台功能
模式驱动的知识需求的描述—问题视图
• 研究背景• 著名研究人员• 资料出处:期刊,报纸,会议• 行业重要活动• 行业重要基金• 活要研究人员• 最近两年进展• 相关知识准备
• 动态聚类 – 对查询结果进行动态划分
• 自动分类 – 对文本对象进行归类
• 概念关联分析– 分析概念间的关联关系, 如共现关系
• 自动标引 • 自动文摘
– 为文本对象产生文摘
内容挖掘
• 用户模式分析– 分析用户在知识仓库中的行为模式
• 用户需求定制– 用户提出自己的知识需求描述
• 内容推送服务– 根据用户行为模式,以及用户定制的
需求
个性化服务
• 词典管理– 汉语分词词典
• 自动分词– 自动分词算法– 自定义分词算法
• 主题词表管理– 汉语主题词表– 行业主题词表
• 多语言词典管理– 中英自动翻译:单词,专业 词汇, 120万英汉字典支持
工具服务
目标:分布式异构数据库互连。提供集成知识服务
• ANSI/NISO Z39.50– Information Retrieval Application Service Defi
nition and Protocol Specification
• OAI – The Open Archives Initiative Protocol for Meta
data Harvesting
• XML –Query• Open URL
支持开放系统互连协议
感谢各位专家!