科学数据分类与编码标准

37
1 科科科科科科科科科科科科科科 科科科科科科科科科科科科科科 科科科科科科科科科科科 科科科科科科科科科科科 讲讲讲 讲讲讲讲 讲讲讲 :, 2006 讲 5 讲 24 讲

description

科学数据分类与编码标准. 讲课人:何建邦,曹彦荣 时 间: 2006 年 5 月 24 日. 主要内容. 编制背景 标准总体结构 标准内容要点解析 标准使用. 简介. 科学数据分类与编码方案. 1  范围 2  规范性引用文件 3  术语和定义 4  分类原则 5  分类方法 6  编码规则 7  分类与编码的使用 8 分类代码表. 分类类目释义. 6 大门类、 31 亚门类、 234 大类和 1008 中类,共 1279 条类目的释义. 电子词典. 主要功能 分类类目的管理 分类类目的查询 数据集标引 分类映射 … …. - PowerPoint PPT Presentation

Transcript of 科学数据分类与编码标准

Page 1: 科学数据分类与编码标准

1

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

科学数据分类与编码标准科学数据分类与编码标准

讲课人:何建邦,曹彦荣时 间: 2006年 5 月 24日

Page 2: 科学数据分类与编码标准

2

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

主要内容

一. 编制背景二. 标准总体结构三. 标准内容要点解析四. 标准使用

Page 3: 科学数据分类与编码标准

3

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

简介

Page 4: 科学数据分类与编码标准

4

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

科学数据分类与编码方案 1  范围 2  规范性引用文件 3  术语和定义 4  分类原则 5  分类方法 6  编码规则 7  分类与编码的使用 8 分类代码表

Page 5: 科学数据分类与编码标准

5

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

分类类目释义

6 大门类、 31亚门类、 234

大类和 1008中类,共 1279

条类目的释义

Page 6: 科学数据分类与编码标准

6

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

电子词典

主要功能 分类类目的管理 分类类目的查询 数据集标引 分类映射 … …

Page 7: 科学数据分类与编码标准

7

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

转换实例—— mapping机制

分别对每个试点的分类作相

应的 Crosswalk,实现标准

之间的映射;

试点已有的标引结果可以通

过软件直接映射。

Page 8: 科学数据分类与编码标准

8

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

一、编制背景

Page 9: 科学数据分类与编码标准

9

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

背景

海量科学数据的共享需求

海量科学数据需要有序组织、管理

科学数据共享工程门户网站需要按照分类来组织数据

目录

数据用户需要从分类编码中查询数据

Page 10: 科学数据分类与编码标准

10

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

解决的问题

多学科、跨行业部门科学数据的分类

分类编码如何应用

如何支持网络信息化的数据集分类和共享

与已有科学数据共享工程中诸多试点的分类标准之间

如何交互

Page 11: 科学数据分类与编码标准

11

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

二、标准总体结构

Page 12: 科学数据分类与编码标准

12

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

标准目次 1  范围 2  规范性引用文件 3  术语和定义 4  分类原则 5  分类方法 6  编码规则 7  分类编码的使用 8 分类代码表

附录 A 资料性附录 科学数据共享工程分类编码标准的使用实例

附录 B 资料性附录 本标准与科学数据共享工程中试点单位的分类标准之间的映射

附录 C 资料性附录 科学数据共享工程数据分类编码标准 XML 文件

Page 13: 科学数据分类与编码标准

13

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

门类

门类 代码

基础科学 F

资源环境科学 R

农业科学 A

工程技术科学 T

医药卫生科学 H

区域与综合领域 C

Page 14: 科学数据分类与编码标准

14

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

亚门类(资源环境科学为例)

资源环境

亚门类 代码气象气候 W

水文水资源 H

海洋 S

地矿与土地资源科学 L

… … … …

Page 15: 科学数据分类与编码标准

15

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

大类

门类 亚门类 大类 代码

资源环境科学

海洋科学

海洋资源 11

海洋经济 12

海洋环境 13

海洋生态 14

海洋灾害 15

…… ……

Page 16: 科学数据分类与编码标准

16

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

中类

门类 亚门类

大类 中类 代码 总代码

资源环境科学

海洋科学

海洋资源

海洋自然资源 11 RS1111

海洋生物资源 12 RS1112

大洋矿产资源 13 RS1113

海水化学资源 14 RS1114

…… …… ……

Page 17: 科学数据分类与编码标准

17

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

编码规则

门类、亚门类各为 1 位英文字母码,大类、中类各 2 位数字码。采用线分类按门类、亚门类、大类、中类的从属关系顺序编码。

第 1 位 第 2 位 第 3 位 第 4 位 第 5 位 第 6 位

门类 亚门类 大类 中类字母码 字母码 数字码 数字码

Page 18: 科学数据分类与编码标准

18

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

三、标准内容要点解析

Page 19: 科学数据分类与编码标准

19

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

分类依据( 1 )

遵循“数据分类与编码基本原则与方法”标准 数据分类的基本单元(或者说分类的对象)是数据集 保证高层数据分类统一,低层数据分类由各单位自行研制

以数据中心有效管理、组织数据,最终用户快捷地查找数据为目的

Page 20: 科学数据分类与编码标准

20

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

分类依据( 2 )

以科学数据共享工程的规划为依托

充分考虑各个数据共享中心的分类编码

结合学科分类标准、行业分类标准

Page 21: 科学数据分类与编码标准

21

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

分类编码标准的应用

该标准只适用于数据集的分类,并将分类结果组织形

成数据目录。该标准不适用于数据库的改造,数据项

的改造,数据项内容的代码填写等。

Page 22: 科学数据分类与编码标准

22

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

分类编码标准的维护

随着科学数据共享工程的不断推进,该分类编码标准

必定会不断扩展和修订。

这种扩展必须是在遵从“数据分类与编码基本原则与

方法”的基础上的扩充。

Page 23: 科学数据分类与编码标准

23

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

数据集的分类标引

分类标引的对象是数据集

分类标引是在数据集外部进行的

分类标引的最终结果是标引结果集(数据库)

Page 24: 科学数据分类与编码标准

24

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

标引过程中组配方法的应用

在分类标引时,针对数据集的内容,从类目中找出与

数据集内容相对应的各个类目,用它们的编码组配表

达所标引的数据集内容。

Page 25: 科学数据分类与编码标准

25

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

标准的映射及标引结果集的转换

把各个数据中心采用的分类编码标准中的类目和科学

数据分类编码标准中的类目对应起来。

把用数据中心分类编码标准标引的结果集,直接导入

到以科学数据分类编码标准为依据的标引结果集中。

Page 26: 科学数据分类与编码标准

26

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

四、标准的使用

Page 27: 科学数据分类与编码标准

27

科学数据共享工程通用标准培训科学数据共享工程通用标准培训示例一:林业科学数据中心的“森林资源概况表”数据集

通过分析该数据集的内容,应该属于“农业科学—林业科学—森林资源数据”,在“森林资源数据”这个大类下,有“全国森林资源数据”、“省级森林资源数据”等小类,可以根据查阅数据集的具体内容,得出应该属于哪个小类。如,这个数据集是全国范围内的森林资源概况,则最后的类就是“农业科学—林业科学—森林资源数据—全国森林资源数据”,具体编码为:AF1112。

Page 28: 科学数据分类与编码标准

28

科学数据共享工程通用标准培训科学数据共享工程通用标准培训示例二:农业科学数据中心的“主要农作物种质资源评价数据库”

通过分析该数据集的内容,应该属于“农业科学—农业科学数据—作物科学 - 主要农作物种质资源评价数据”,则具体编码为: AS1211。

Page 29: 科学数据分类与编码标准

29

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

示例三:农业科学数据中心的“中国湖泊数据库”

通过分析该数据集的内容,发现其既可以属于“农业科学—农业科学数据—水产科学”(编码为: AS2113 ),又可以属于“资源环境科学—水文水资源科学—水资源—水资源调查”(编码为: RH1211)。因此,可以采用组配的方式,将这两个类目的代码,全部标注在这个数据集上。

Page 30: 科学数据分类与编码标准

30

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

示例四 : 医药卫生科学数据集使用范例

序号 数据集名称 编码

1 病原细菌数据集 HB111111

2 单基因遗传病数据集 HB111312

3 脑干图像数据集 HB141211

4 最新国际心血管病临床试验 HC151311

5 数字人脑图片数据集 HC111314

6 卫生经济学数据 HC151200

Page 31: 科学数据分类与编码标准

31

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

科学数据分类编码工具软件

Page 32: 科学数据分类与编码标准

32

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

电子词典软件框架

Page 33: 科学数据分类与编码标准

33

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

电子词典功能

标准的管理和维护 查询

以类名查询,以代码查询,以释义查询; 精确查询,模糊查询。

标引 映射

Page 34: 科学数据分类与编码标准

34

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

标引——保证标准和数据之间的关系

SDCC

数据集A

数据集A

标引数据

库用户 1

用户 2

检索 1

检索 2

得到数据集 A标引

系统轮排

从外部进行标引,数据集本身无需任何变动

Page 35: 科学数据分类与编码标准

35

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

关键技术 (1)

高效的信息管理和查询 灵活地管理机制,可实现多层次的分类树的高效存储; 实现了类目和代码的双向查询采用了高效的算法,可以支持10万级别以上,乃至 100万级别的类目的快速查询;

可快速提取分类树的信息及标引结果集信息。

Page 36: 科学数据分类与编码标准

36

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

关键技术 (2)

数据的标引 电子词典及辅助编码器使得用户对数据的分类可以不再依赖

于文件系统,可以在后台数据库的支持下直接完成,最后打

包提交即可。

Page 37: 科学数据分类与编码标准

37

科学数据共享工程通用标准培训科学数据共享工程通用标准培训

演示