CNKI 知识资源组织与管理平台的构建

35
CNKI CNKI 知知知知知知知知知知知知知知 知知知知知知知知知知知知知知 知知知 知知知 知知知知知知知知知知知知知知 知知知知知知知知知知知知知知 知知知知知知 知知知 知知知知知知 () 知知知知知知 知知知 知知知知知知 ()

description

CNKI 知识资源组织与管理平台的构建. 张振海 中国学术期刊光盘版电子杂志社 清华同方知网(北京)技术有限公司. 知识组织管理平台的要素. 知识资源平台 知识处理技术平台 用户利用平台. 知识资源的结构. 核心知识. CKD. 词典 / 知识元 / 百科. 工具书数据库. 一般知识. GKD. 年鉴数据库. 学者总索引. 引文数据库. 期刊评价数据库. 正式出版物. SPD. 期刊数据库. 图书数据库. 报纸数据库. 专利 / 标准. 非出版物. 学位论文. GPD. 会议论文. - PowerPoint PPT Presentation

Transcript of CNKI 知识资源组织与管理平台的构建

Page 1: CNKI 知识资源组织与管理平台的构建

CNKICNKI知识资源组织与管理平台的构建知识资源组织与管理平台的构建

张振海张振海中国学术期刊光盘版电子杂志社中国学术期刊光盘版电子杂志社

清华同方知网(北京)技术有限公司清华同方知网(北京)技术有限公司

Page 2: CNKI 知识资源组织与管理平台的构建

知识组织管理平台的要素知识组织管理平台的要素• 知识资源平台• 知识处理技术平台• 用户利用平台

Page 3: CNKI 知识资源组织与管理平台的构建

知知识识资资源源的的结结构构

词典 / 知识元 / 百科

工具书数据库

年鉴数据库

学者总索引

引文数据库

期刊评价数据库

期刊数据库

图书数据库

学位论文

会议论文

报纸数据库

核心知

核心知

识识

一般知识

一般知识

正式出版物

正式出版物

非出版

非出版

物物

CK

DC

KD

GK

DG

KD

SP

DS

PD

GP

DG

PD

专利 / 标准

Page 4: CNKI 知识资源组织与管理平台的构建

基于对象关系的资源组织分析基于对象关系的资源组织分析---- 关系就是对空间的划分关系就是对空间的划分

• 分类• 聚类

– 主题词– 关键词 /tag

• 著者• 引用• 机构• 基金• 相似• 应用• 媒体

资源

分类作者

读者 媒体

资源 聚类

Page 5: CNKI 知识资源组织与管理平台的构建

知识网络设计知识网络设计• 知识系统可以看作是一个知识交互的网络系统。

知识本身是一个有着自身发展规律的”社会化有机体“。知识与知识之间有着交流的需求。知识要发展、要生长、到成熟稳定都如同一个有机体一样。知识与知识的关系正如人与人之间的关系对人的发展有着重要影响一样,知识关系对于知识系统的发展也是至关重要的。

• 知识关系的设计为“知识网络设计“。• 核心: 关系,有序

Page 6: CNKI 知识资源组织与管理平台的构建

引证网络引证网络• 参考文献• 引证文献• 共引文献

– 与本文引用相同文献的文献,揭示有共同研究背景的相关文献信息。

• 二次参考文献– 本文参考文献的参考

文献• 二次引证文献

– 本文引证文献的引证文献

• 同被引文献 – 与本文同时被其它文

献引用的文献

A 参考引证

同被引

共引

二次参考

二次引证

术语的引用

证据的引用

法规依据的引用

实施的引用

数据的引用

Page 7: CNKI 知识资源组织与管理平台的构建

著者著者• 学术活动• 合作者• 同类作者• 导师• 同学• 毕业学校• 发表文献• 文献引用 / 被引• 媒体评价 / 反馈• 父子 / 夫妻

Page 8: CNKI 知识资源组织与管理平台的构建

读者读者• 共同阅读者• 同地区读者• 同年龄• 同层次的读者• 共同兴趣读者• 阅读排名• 文献利用排名• 同组其他人阅读的文献• 读者 -- 〉作者

Page 9: CNKI 知识资源组织与管理平台的构建

聚类聚类• 主题词• 关键词• Tag

– Blog– Wiki

• 动态聚类

Page 10: CNKI 知识资源组织与管理平台的构建

资源要求资源要求• 主题定为准确• 用户定为清晰• 资源权威• 资源要全• 资源组织关系要丰富(全?),越多越好 !

• 资源要合法

Page 11: CNKI 知识资源组织与管理平台的构建

CCNNKKI I 技技术术平平台台

自然语言处理NLPE

全文检索引擎FTE

知识挖掘引擎KME

KBASE

KNS源数据库平台

GRID平台

知识仓库平台

多媒体平台

TPI数字图书馆平台

CAJVIEWER

电子加工平台

E TP 引擎

Page 12: CNKI 知识资源组织与管理平台的构建

相关技术相关技术• 概念关系词典• 相似文献分析技术• 全文句法检索• 网格共享技术• 学术搜索引擎技术• 知网节出版技术• 统一导 航统一检索技术• 引文链接识别分析技术• 蚁群挖掘技术

Page 13: CNKI 知识资源组织与管理平台的构建

引文链接接分析技术引文链接接分析技术引文连接是引文连接是 CNKICNKI 出版平台基 础之出版平台基 础之

一一• 引文条目切分、引文元数据项分析• 引文链接分析

– 链接准确率达到 98%

• 引证关系分析– 参考、引证、二次参考、二次引证、共引、同被

引。– 难点:引用数据量非常大。 7000万引文条目。速度,准确性,是关键。

• 图书链接(本月发布)• 外文期刊链接(年底发布)

Page 14: CNKI 知识资源组织与管理平台的构建

概念关系词典概念关系词典CNKICNKI 自然语言智能处理的基础自然语言智能处理的基础

• 概念之间的潜在知识关系– 同义,近义关系– 相关 /耦合关系– 200万条目

• 关系挖掘– 潜在语义标引技术( LSI )。

• 检索扩展– 提高查全、查准

• 提高自动分类的准确度• 新概念识别• 篇章分析

Page 15: CNKI 知识资源组织与管理平台的构建

相似检索技术相似检索技术• 基于文章内容的相似性分析技术

– 文档向量抽取– 多维向量索引– 多维向量检索– 1 百万文档,进行相似检索, 1秒内完成

• 突破了关键词单一特征检索的局限– 以文章为单位来实施检索。以篇章、段落、句法特征

为基础,检索的控制深度、内容涉及的广度大幅度提高。

• 应用到个性化服务、信息过滤、信息监控等领域

Page 16: CNKI 知识资源组织与管理平台的构建

文档快照技术文档快照技术• 条件摘要 /快照

–根据用户输入的检索词,对文章进行分析处理,抽取最相关内容。

–直接反映目标文献与检索提问的相关性,帮助读者快速判断目标文献的价值。

–直接检索内容本身– “ 文档的CT技术”

• 机器文摘– 自动摘要

Page 17: CNKI 知识资源组织与管理平台的构建

网格共享技术网格共享技术• 网格数据共享

– 存储虚拟化技术,实现分布式海 量数据统一管理• 网格数据分发( CDS )

– 利用 P2P 技术,实现基于网格的海量数据更新分发。• WEB 网格镜像技术

– Web 与数据库分离,数据库实现虚拟化,原文分布式管理获取。

• 价值– 提高数据分发速度– 提高数据库安全性– 减少用户存储要求– 提高系统性能

Page 18: CNKI 知识资源组织与管理平台的构建

学术搜索引擎技术学术搜索引擎技术• 学术文档排序技术

– 引文– 参考文献– 用户使用(下载情况)– 来源影响因子– 关键词分布(篇名,摘要,小标题,正文,参考文

献)• 未来影响分析预测

– 引用预测– 下载预测

Page 19: CNKI 知识资源组织与管理平台的构建

知识网络知识网络 // 知网节整合出版技术知网节整合出版技术• 引证网络(6种)• 学者网络• 来源机构网络• 知识元网络• 读者推荐• 相似文献(4种)• 相关媒体• 分类• 相关学者

Page 20: CNKI 知识资源组织与管理平台的构建

交互信息挖掘技术交互信息挖掘技术• 中心网 站一天下载超过100万篇文献。总下载约10亿(一年)。

• 检索习惯、阅读习惯– 检索词– 读者推荐文献– 期刊、会议

• 用户需求• 关系分析

– 期刊-期刊– 期刊-博硕,期刊-会议,期刊-报纸,博硕-会议,博硕-报纸,会议-报纸

Page 21: CNKI 知识资源组织与管理平台的构建

统一导 航统一检索技术统一导 航统一检索技术• CNKI 源数据库实现统一导 航

– 10大专辑– 168 的专题

• 统一元数据表示– 统一检索– 统一排序

• 应用价值– 在不同资源类型间实现同主题资源的汇聚、推荐– 改善跨库检索的控制,提高查准率。

Page 22: CNKI 知识资源组织与管理平台的构建

其他技术其他技术• 个性化服务

– 用户兴趣识别– 自动内容推送

• 自动聚类技术实用化 (ACB)

• 检索结果多重排序技术 (QMS)

• 检索结果多维分组技术 (MDG)

• 社区技术(SNS)

Page 23: CNKI 知识资源组织与管理平台的构建

智能活动文档技术智能活动文档技术• 每一本期刊, 每一篇文章,每一个知网 节

都可以单独存盘与收藏。下次可以直接打开期刊,文章,知网节。同时实现与 CNKI数据库关联,动态更新相关信息。

• CAJ 文档与知网节关联• CAJ 文档与知识元关联

Page 24: CNKI 知识资源组织与管理平台的构建

用户平台要求用户平台要求• 检索功能齐全• 使用简单• 浏览与检索结合• 人性化设计(个性化?)• 评价机制

– 用户评价– 技术分析

Page 25: CNKI 知识资源组织与管理平台的构建

用户平台用户平台 -- 交互挖掘交互挖掘• 实现资源自组织• 实现用户的自组织• 用户反馈

Page 26: CNKI 知识资源组织与管理平台的构建
Page 27: CNKI 知识资源组织与管理平台的构建
Page 28: CNKI 知识资源组织与管理平台的构建
Page 29: CNKI 知识资源组织与管理平台的构建
Page 30: CNKI 知识资源组织与管理平台的构建
Page 31: CNKI 知识资源组织与管理平台的构建

““ 知识网络”效果知识网络”效果• KNS50升级后

– 期刊库 访问量 增长 60%– 学位论文库 访问量 增长 300%– 会议论文库 访问量 增长 1200%– 报纸数据库 访问量 增长 1500%

Page 32: CNKI 知识资源组织与管理平台的构建
Page 33: CNKI 知识资源组织与管理平台的构建
Page 34: CNKI 知识资源组织与管理平台的构建
Page 35: CNKI 知识资源组织与管理平台的构建

感谢!感谢!

张振海张振海[email protected]@cnki.net