BICOMB 《用户操作使用说明书》 -...
Transcript of BICOMB 《用户操作使用说明书》 -...
BICOMB:Bibliographic Item Co-Occurrence Matrix Builder
《用户操作使用说明书》
开发者: 中国医科大学医学信息学系 崔雷
沈阳市弘盛计算机技术有限公司 协作开发
2010年 2月
1
目录
前言 „„„„„„„„„„„„„„„„„„„ 1
安装 „„„„„„„„„„„„„„„„„„„ 2
运行 „„„„„„„„„„„„„„„„„„„ 3
数据收集 „„„„„„„„„„„„„„„„„ 4
建立项目 „„„„„„„„„„„„„„„„„17
提取字段 „„„„„„„„„„„„„„„„„19
频数统计 „„„„„„„„„„„„„„„„„22
矩阵生成 „„„„„„„„„„„„„„„„„28
词篇矩阵 „„„„„„„„„„„„„„„„28
共现矩阵 „„„„„„„„„„„„„„„„29
聚类分析 „„„„„„„„„„„„„„„„„31
附录 „„„„„„„„„„„„„„„„„„„34
1
前言
生物医学文献正在爆炸式的增长,同时伴随着计算机网络技术的发展,期刊网络版的出现,医学书
目数据库中收集了巨大数量的生物医学文献。单凭人工在浩瀚的文献海洋中发现和获得感兴趣的知识变
得困难重重,但这也同时为生物医学文本挖掘提供了广阔的舞台。
《书目共现分析系统》(Bibliographic Item Co-Occurrence Matrix Builder,BICOMB)便是在此背景
下应运而生。该软件系统由中国卫生政策支持项目(HPSP)资助,采用目前技术成熟、流行的数据库
语言开发,主要目标是对以生物医学文献数据库中的书目文献信息进行快速扫描,准确提取并归类存储、
统计计算、矩阵分析等等,为进一步研究提供全面、准确的基础数据。
本软件系统可对国际上权威的生物医学文献数据库 PubMed、科学引文索引(Science Citation Index,
SCI)数据库的网络格式(Web of Science,WOS)和光盘格式(SCI CD-ROM)以及中国知网(CNKI)
的记录进行读取分析,并允许用户对某些功能进行修改、增加等拓展(见附录),具备较强的适应性和
一定的扩展性。
主要功能包括:
共现矩阵生成功能:对文献数据库中存在多个条目的字段统计并生成共现矩阵,如作者合著、引文
同被引、主题词共现等。
文献计量分析功能:对常用文献计量分析的指标进行频次统计,如来源文献的作者、期刊、主题词、
发表年代的统计;被引文献的引文、作者、期刊、年代等统计。
输入到系统的数据为来源数据库(如 WOS、PubMed 等)中检索并下载的书目文献记录,下载时
需要按照本软件规定选择文献记录的格式。
对于输入到本系统的文献数据数据,总体按照如下步骤分析处理:
(1) 抽取字段:对于从来源数据库下载的文献记录,指定要统计分析的字段(如主题词)进行
抽取。
(2) 频次统计:对于抽取出来的条目(如具体的主题词)统计出现频次,并根据频次分布情况
确定阈值,截取要进一步分析的部分条目(如高频主题词)。
(3) 共现矩阵生成:对于截取出来的条目,根据它们在同一文献记录中共同出现的次数生成共
现矩阵。
本软件系统作为文本挖掘的基础工具,所生成的矩阵可以进一步应用于聚类分析和社会网络分析等,
希望用户在使用中提出进一步修改的建议。
2
安装
电脑的准备:
软件系统在安装了 Windows 98/2000/NT/XP/Visat 等操作系统的电脑上均可正常运行。不建议使用
Windows ME/2003 等特殊版本。
另外,电脑中需要具备 MicroSoft Office 办公软件系统。软件系统在统计功能中,其结果将利用
MicroSoft Excel 生成报表。
软件系统的界面包含 Flash 动画,要求操作系统中 Flash 版本在 8 以上。(浏览如新浪网,可以正常
看到网页中的动画,就说明是在 Flash 8 以上)。
软件的安装:
运行光盘中的安装文件。
3
运行
运行“桌面”上的快捷方式,也可直接在安装的软件系统目录中选择“bicomb.exe”文件运行。
系统主界面(见图 2-1)包括:系统引导区(左侧)以及工作区(右侧)。
图 2-1
1、系统引导区包括:系统名称、开发方信息以及动画形式的主功能(项目、提取、统计、矩阵等
4 项)菜单等内容。
2、工作区以步骤形式分页显示各主功能对应的详细功能内容。
在接下来的章节将详细介绍各主功能项的详细功能内容以及操作方法。
4
数据收集
数据收集分为检索和下载两个步骤。检索过程即为找到切题的文献。目前按照业务需求,软件系统
可对<xml>、<txt>这两种格式的文件类型进行指定内容的提取工作。<xml>格式类型的文件(图 3-1)
是一种以“树”状结构形式存储数据的纯文本格式文件。软件系统要提取的就是“树”上指定“节点”
上的“叶子”。而<txt>格式类型的文件是标准的 ANSI 编码的纯文本格式文件,软件系统通过遍历查找
每行文字的前面的特征字符来提取其后面的内容信息。因此下载数据时要选择规定的格式,以便符合软
件系统的要求。
图 3-1
PubMed、WOS 数据库、SCI-CDROM、CNKI 数据库的数据收集及下载过程:
PubMed
1.进入检索页面:网址为 http://www.ncbi.nlm.nih.gov/pubmed/。
2.在检索框中输入预先拟定的检索策略进行文献检索,可通过点击检索框右侧的 ,
可以限定检索文献的出版年限、语种、文献类型等内容(如图 3-2,3-3)。
5
图 3-2
图 3-3
输入检索策略
6
3.结果显示
点击 Display Settings,选择 XML 格式显示检索到的文献。
图 3-4
4.结果保存
点击 选择 File,再点击 Create File. 创建保存路径和文件名称,将文献以文本文档的形式
保存到本地磁盘中。
图 3-5
7
图 3-6
WOS 引文:
数据检索:
进入 ISI的主页 www.isiknowledge.com,选择“Web of Science”。在检索范围下拉列表中选择要
检索的字段,之后在检索框中输入拟定的检索策略,在网页下方设定要检索的年限并勾选相应的数据库
(图 3-7)。
图 3-7
检索后得到的结果如下图所示
检索策略 检索范围
选择检索时间
段和数据库
8
图 3-8
在该页面下方的输出结果(output records)栏目中填入或勾选相关内容
Step 1 选择记录(record)[ ] to [ ]。填入 1和 500
Step 2 勾选全纪录(full record)和包含引用的参考文献 (plus cited references)
Step 3 点击 (add to marked list)
图 3-9
结果保存
此时,网页上方的的标记结果列表(marked list)之后的括号内数字由原来的 0变为 500。
9
图 3-10
点击该处,进入 Web of Science 的标记记录(Marked Records)页面
图 3-11
在 step 1输出字段中,保留缺省的作者、标题和来源文献等标记,选中被引参考文献(cited references),
去掉 ISSN前面的标记
图 3-12
在 step 2中,在保存到文件(save to file)的下拉列表中选择纯文本(plain text),点击
一段等待之后将弹出下载提示,输入文件名和路径后下载到本地机器中。
勾去该项 勾选该项
10
图 3-13
点击 ,回到 marked list中,点击 (delete this list),确认后删除掉 list
中的纪录。
图 3-14
点击退出结果标记列表(leave marked list),回到上述步骤 3,输入 501-1000,进行下一组结果的保
存。
图 3-15
SCI-CDROM
1. 进入 SCI 光盘版界面
① 准备阶段:双击桌面 ,打开虚拟光驱管理器,点击桌面右下角 选择 SCI.ISO,
在弹出的窗口中选择检索所需的映像文件,收录 1995 年—2007 年。
11
图 3-16
② 点击开始菜单→→ISI CD Editions,进入 SCI-CDROM 检索界面。
2. 数据检索
在检索范围下拉列表中选择要检索的字段,之后在检索框中输入拟定的检索策略。(图 3-17)
图 3-17
检索策略
检索字段
12
在该界面右边“Limits”中限定语种、文献类型、更新时间内容。(图 3-18)
图 3-18
3. 结果显示
检索后得到的结果如下图所示
图 3-19
点击“Results”,显示详细结果,点击 进行逐条查看。(图 3-20)
检索结果
13
图 3-20
4. 保存结果
File→Save Records,进入保存界面。(图 3-21)选择全记录保存格式和文件类型:Dialog-Medline,
输入文件名和路径后下载到本地机器中。
图 3-21
5. 检索完这一年的数据后,更换下一年的光盘进行检索。返回到第一步,选择要检索的年限,点击 File
下的 Change Compact Disc。重复上述步骤继续检索。(图 3-22)
14
图 3-22
CNKI
1.进入检索页面:网址为 http://www.cnki.net/。选择并进入“学术文献总库”。
2.选择进入《中国学术期刊网络出版总库》。(图 3-23)
图 3-23
3.在检索控制条件中限定期刊年限、来源期刊、来源类别、支持基金,作者、作者单位等内容,在检索
范围下拉列表中选择要检索的字段,之后在检索框中输入拟定的检索策略,在网页右边可以选择学科领
域 (图 3-24)。
15
图 3-24
4.检索后得到的结果如下图所示
图 3-25
5.结果保存
①在该页面右边“每页记录数”选择“50”
②在检索结果记录右上方点击“全选”和“存盘”
检索策略
检索字段
限定条件
16
图 3-26
③在弹出的保存页面右侧保存形式中选择“自定义”,在保存字段中勾选题名、作者、关键词、摘要、
刊名等标记。
图 3-27
④点击 ,一段等待之后将弹出下载提示,输入文件名和路径后下载到本地机器
中。
⑤返回到检索结果页面,点击结果记录右上方的 ,清除列表勾选过的记录,进入下一页,
回到②步的做法,保存 51-100条记录,直至保存全部记录。
17
建立项目
在上一章节介绍了数据的收集。下面开始对文献文档进行数据的提取、统计分析、矩阵计算等实际
操作。
首先建立一个新的项目。见图 4-1。
图 4-1
1. 选择“增加”功能,然后给这个新项目命名一个编号,编号可以包含数字或字母,但不可包含
数字或字母以外的其他字符。
2. 根据项目选择特定的格式类型。如对从 PubMed 中获得的数据分析时应选 PubMed· PubMed·<
xml>格式类型。
3. 为区分各项目,方便管理,可以在“项目说明”中录入一些关于新项目的说明。
图 4-2
4. 新项目建成后,软件系统将在其目录下自动创建一个以“项目编号”为名的文件夹(见图 4-2)。
18
它将在以后的工作中存储所选取的文献文档及提取、统计的结果等。
图 4-3
5. 选择“删除”功能,可以删除已建成的项目。同时软件系统将给出提示(见图 4-3),提醒操作
的严重性,以避免误操作。因为在确定删除后,项目所包含的所有提取、统计数据都将被删除,
包括项目文件夹,且不可恢复回收!
19
提取字段
项目建立完成后,即可选择文献文档,对其进行关键字段数据的提取,汇总统计,生成词篇矩阵、
共现矩阵等一系列工作。
“提取”功能(见图 5-1),即完成文献文档文件的选择以及关键字段数据的提取。
图 5-1
图 5-2
对一篇文
档的选择
对一个文
件的选择
20
图 5-3
图 5-4
图 5-5
图 5-6
双击此处打
开文件夹
21
图 5-7
1、文献文档文件的选择与移除:
(1)对于一个项目,可以选择一篇文件或多篇文件,也可以是一个文件夹下的所有文件。
如果是一篇文件,选择“选择文档”功能,根据项目的格式类型(<xml>或<txt>)准确选择相应
文件(见图 5-2)。经软件系统提示(见图 5-3)确认后,即完成一篇文件的选择。如果是多篇文件,重
复上面的选择工作即可。
如果是一个文件夹,可以选择“选择目录”功能,选择存有多篇文档文件的文件夹,并指定文件
扩展名(见图 5-4)。完成一个文件夹的选择。在接下来的提取工作中,软件系统有能力在选择的文件
夹中,自动从其中的所有符合指定扩展名的文件中提取关键字数据。
(2)选择“移除文档”,可以将当前所选择的文档文件删除(见图 5-5)。应注意如果移除,相应
的提取数据也将一并被移除。
2、提取:
正确选择文件或文件夹后,即可进行“提取”工作(见图 5-6)。
3、提取结果:
提取完成后,选择“选关键字段”,软件系统将显示从相应文件或目录中提取的相应关键字段的全
部数据内容(见图 5-7)。
22
频数统计
软件系统可以将一个项目中提取的所有关键字段数据进行汇总统计,并可将其统计结果全部或部分
(通过“频次阈值”控制导出数据的范围)导出至 Microsoft Excel 格式表格文件(见图 6-3)。图 6-1,
6-2 是对主要主题词+副主题词进行统计,图 6-4、6-5、6-6、6-7、6-8、6-9、6-10、6-11、6-12 分别是
对国家、年代、作者、语种、期刊、引文、引文作者、引文年代、引文期刊进行统计。
图 6-1
图 6-2
根据需要设定阈
值,将统计结果
导出至 Excel
23
图 6-3
图 6-4
24
图 6-5
图 6-6
25
图 6-7
图 6-8
26
图 6-9
图 6-10
27
图 6-11
图 6-12
28
矩阵生成
根据统计结果,软件系统可以按照需求,对关键字段中出现一定频次的词(通过“频次阀值”设定
频次范围)在每篇文献中的出现情况或共现情况进行搜索统计,生成矩阵,供进一步研究使用。
1、词篇矩阵:
生成:
对关键字段中出现一定频次的主题词等字段在每篇文献中的出现情况进行搜索,最终生成“词篇矩
阵”。(见图 7-1)
图 7-1
导出矩阵至 TXT:
由于“词篇矩阵”的行、列数量往往比较大,要远大与 Excel 所能显示的 256 列的数量,所以,系
统提供了将矩阵数据导出至 TXT 文本文件的功能(导出结果见图 7-2),这样再通过有能力读取大矩阵
的数据处理系统(例如:SPSS)进行读取以及进一步计算分析。
29
图 7-2
2、共现矩阵:
共现是指两个或者两个以上标目在同一个字段中出现。可以进行共现分析的标目有:作者、单位、
主题词或关键词、引文。可进行合著、合作、共词、同被引分析。
生成:
对于关键字段中出现一定频次的词,对其中任何两个词在文献中同时出现(共现)次数进行统计,
最终生成“共现矩阵”。(见图 7-3)
其结果也可以导出至 TXT 文本文件。这里不再重复说明。
图 7-3
导出共现文献信息:
对于“共现矩阵”中的数据是两个一定频次的词在文献中同时出现的次数,通过“导出共现文献信
30
息”功能,可以掌握这些数据相应的文献的具体信息。
对于“xml”格式(PubMed)的项目:通过“导出共现文献信息”功能,可以获得所选择的两个一
定频次词(见图 7-4)共现文献的<文章号>(UID)信息(见图 7-5),以供在相应的网站做更为详细的
查询。
图 7-4
图 7-5
对于“txt”格式(WOS)的项目:通过“导出共现文献信息”功能,可以获得所选择的两个高频
词(见图 7-6)共现文献的详细信息(以 Microsoft Excel 文件形式,见图 7-7)。
图 7-6
图 7-7
31
聚类分析
聚类分析(cluster analysis)是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据
对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性
的取值来确定的。通常就是利用(各对象间)距离来进行表示的。SPSS、SAS、Cluster 3.0 等软件均可
进行聚类分析。
这里简单介绍一下,用 SPSS 进行聚类的过程:(以 spss for windows 11.5 英文版本为例)
1、选择下的“open”下的“data…”菜单;或者直接选择“File”下的“open text data”。
2、在弹出的打开文件窗口中,“文件类型”选择“Text(*.txt)”,然后选择要读取的文本文件。
3、在弹出的“Text Import Wizard”窗口中进行逐步操作,特别注意“第 4 步”(见图 8-1)。
图 8-1
4、注意图 8-1 中的提示,只选中“Tab”。然后继续“下一步”操作,直至“完成”。
5、其最终的读取结果如图 8-2。其中的第一个变量(第一列)为高频主题词或者高被引论文,其
余各列代表 PubMed 记录或者引用文献,单元格中的 0,1 代表该主题词或者论文是否在对应的 PubMed
记录或者引用文献的引文中出现过。分析中可以将第一行删除。
图 8-2
32
6.聚类分析
在工具菜单中依次选择 Analyze → Classify → Hierarchical Cluster。
图 8-3
采用样本聚类(即在图 8-4 的 Cluster 核选框中选择 Cases),将第一列设为 Label Cases,其余各列
(变量)设为 Variable(s),即变量。
图 8-4
主要参数选择有:
Plots:选择 dendrogram 以生成聚类树图。
Methods:
Cluster:类间距离的计算可以尝试选择平均距离算法(Between group linkage, Within group linkage),
最大距离(Furthest neighbor),最小距离(Nearest neighbor)等,比较聚类效果后选择其中合适的方法。
33
图 8-5
Measure:选择 Binary 中的 Ochiai 系数。
7.生成聚类树图
图 8-6
8.聚类结果的语义分析
首先找出聚类树中各个类别的核心,然后逐层累加语义信息。根据聚类分析的原理,同一类内找相
同点,不同类间找相异处,由此总结归纳出各个类别的含义。
34
附录
软件系统允许增加、修改、删除关键字信息。而有些已定义的关键字信息系统将不允许修改。
选择“管理员”(图 9-1),增加、修改的界面见图 9-1。
图 9-1
图 9-2
软件系统已定义的关键字说明:
PubMed 格式:
1、<文章节点>:通过此信息标识文档中的每篇文章。名称不可修改。
2、<文章号>:每篇文章的唯一标识值。名称不可修改。
3、国家、语种、作者、年代、期刊:这些关键通过指定的“节点路径”即可取得相应的数值(一
片叶子)。其名称及“节点路径”均可修改。对于“年代”,之所以出现两个,是因为其相同“节点路径”
下的“叶子”数值不同,需要做不同的数据处理。
在这里,对于“叶子节点”还有如下约定:
35
(1)“|||”:这种情况是,将提取的数值按照指定位置进行截取,作为最终提取结果。例如图 3-1
中第 2 个年代的“叶子节点”为“MedlineDate|||1,4”,其表示为:将提取的 MedlineDate 的数值从第 1
位开始截取 4 位作为最终提取结果。
(2)“\\\”:这种情况是,将“\\\”前后的两个“叶子节点”的提取结果组合为最终的提取结果。
例如图 3-3 中的“叶子节点”为“LastName\\\Initials”,其表示为:提取的 LastName 数值与 Initials 数值
组合成最终提取结果。
4、<主题词>:系统约定的特殊关键字,名称不可改,其节点设置也比较特殊(见图 3-4)。其提
取内容不象其他关键字只提取一片“叶子”,而是多片,且要根据“主/次”关系进行组合。最终取得并
组合成“全部主题词+副主题词”、“全部主题词-副主题词”、“主要主题词+副主题词”、“主要主题词
-副主题词”、“次要主题词+副主题词”、“次要主题词-副主题词”等约定的关键字数据。
图 9-3
WOS(Web Of Science)格式:
1、<文章节点>:通过此信息标识文档中的每篇文章。名称不可修改。
2、<文章号>:目前 WOS 格式的文档中的内容没有一个可以唯一标识每篇文章的数据信息,所
以软件系统目前采用在提取过程中,根据<文章节点>按照流水号形式自动生成一个 10 位的数字编号作
为<文章号>。
3、作者、标题、期刊、年代、卷、期、起始页、终止页:由于在计算矩阵功能中要用到这些关
键字,所以其名称均不可修改。
4、<引文>:系统约定的特殊关键字,名称不可改。出现<引文>信息后,系统不止提取其后的一
行数据,还将向下继续提取,直至出现其他关键字标识。
这里约定,在<引文>出现后,其后的每一行<引文>信息前面都应存在空格,直至有字符的行出
现,即表示<引文>信息终止。
关于<引文>还有其他约定:
(1)<引文>数据包含并按照:作者、年代、期刊顺序出现。
(2)出现“, DOI”,其值及其后面的数据均不作为<引文>数据(之所以前面加了“,”,是因为
有时候作者姓名也会出现 DOI,而产生歧义)。
(3)首位出现 4 位数字,视为年代,而无作者姓名(匿名 Anonymous)。
(4)首位为大写字母“V”后面为数字,视为期刊信息,无作者、年代信息。
注意:软件系统目前已定义的 PubMed 以及 WOS 两种文件格式的关键字信息,已全面包含并
准确表达了文献文档的数据信息。建议要慎重进行修改和删除,以免影响数据的提取以及统计分析结果。
“管理员”中有两个文档格式,具体的名称、说明以及节点设置,如有不正确的地方,可进行修改。
对于“cnki”(中文文档)格式,需要事先用“记事本”打开,通过“另存为”功能,将其“编码”
格式设定为“ASCI”,然后保存同名文件即可。目前系统只能对“ASCI 码”中文文档进行读取。