如何使用CiteSpace进行中文的 文献分 …如何使用CiteSpace进行中文的 文献分析(II):CSSCI部分 李杰 首都经济贸易大学安全与环境工程学院
Citespace文献计量软件工具功能概览 - Renmin University of...
Transcript of Citespace文献计量软件工具功能概览 - Renmin University of...
目录
01
02
03
04
05
常用的文献计量软件
Citespace的基本概念和原理
Citespace下载和数据采集
Citespace界面及功能
Citespace网络类型介绍
06 学习资料
01 常用的文献计量软件
常用的文献计量软件工具
中国知网数据库中,文献计量软件工具名称出现的频率
文献计量软件工具对比
Bibexcel Citespace Ucinet
数据处理功能 导入数据格式 文本、 数据关联 文本、 数据关联 数据关联
数据清洗 无 有 无
数据分析功能
分析对象 论文、专利 论文、专利 关联数据
分析方法 计量分析、共词分析、共被引分析、引文耦合分析等
作者合作、共词分析、机构合作、共被引分析、引文耦合分析、时间序列、
突发监测等
中心性分析、子群分析、角色分析、聚类
分析等
可视化展示 聚类展示 有,但比较弱 有 有
图谱类型 节点链接图 节点链接图 节点链接图
Bibexcel适合为可视化工具提供辅助
Ucinet是一款社会网络分析工具,适合分析较大的数据集
Citespace是一款功能比计较完善的文献计量专用软件
02 Citespace的基本概念和原理
Citespace的概念
• Citespace= Citation Space “引文空间”
• Citespace是一款着眼于分析科学文献中蕴含的知识,并在科学计量学(Scientometrics)、数据和信息可视化(Data and information visualization)背景下逐渐发展起来的一款多元、分时、动态的引文可视化分析软件
• 由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”
——《Citespace:科技文本挖掘及可视化(第二版)》
Citespace的作用
基于文献、专利等数据开展:
1.研究热点分析:利用关键词、主题词共现分析寻找学科热点;
2.研究前沿探测:对于“前沿”的定义不一,用到的方法包括:共被引、耦合、共词、突发性监测等;
3.研究演进路径分析:将时序维度与主题聚类结合;
4.研究群体发现:国家、机构和作者之间的合著网络;
5.学科/领域/知识交叉和流动分析:包括期刊和学科的共现网络等。
适用于所有希望自主学习的人,无论是青年教师、博士生、硕士生、本科生,只要想利用CiteSpace软件进行知识梳理、文献分析、论文写作,就可以学习。
理论基础:
1.托马斯库恩的科学发展模式理论
2.普莱斯的科学前沿理论
3.结构洞和克莱因伯格突发探测技术
4.科学传播的最佳信息觅食理论
5.知识单元离散和重组理论
Citespace可以处理的数据源及可用功能
功能数据源
合作网络 共现分析 共被引
文献耦合 双图叠加
作者 机构 国家/
地区 关键词 术语 领域 文献 作者 期刊
WOS √ √ √ √ √ √ √ √ √ √ √
Scopus* √ √ √ √ √ × √ √ √ √ √
Derwent* √ × × √ √ √ √ √ √ × ×
CNKI* √ √ × √ × × × × × × ×
CSSCI* √ √ × √ × √ √ √ √ × ×
CSCD √ √ × √ √ × √ √ √ √ ×
RCI × × × √ √ × × × × × ×
KCI × × × √ √ × × × × × ×
注:表中×为不能分析的功能或不推荐分析的功能,*的数据需要通过Citespace进行数据格式转换
Citespace分析流程
《Citespace中文指南》——李杰博士
共被引分析和耦合分析
• 引文即论文后面的参考文献,被引用的文献叫作被引文献,引用的文献叫作施引文献。
• 论文的引证行为是知识单元在不同主题之间游离、重组的过程,记录了科学研究不断推进的过程。引文分析就是对科学期刊、论文、作者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。
• 共被引关系是指两篇文献共同出现在第三篇施引文献的参考文献目录中,则这两篇文献形成共被引关系。
• 耦合关系是指两篇文献共同应用参考文献的情况,两篇文章引用了同一篇文献,则两篇文献之间就存在耦合关系。
• 共被引分析挖掘参考文献之间的关系,耦合分析挖掘施引文献之间的关系。
共词分析
• 词频分析指在文献信息中提取能够表达文献核心内容的关键词和主题词频次高低分布,来研究该领域发展动向和研究热点的方法。
• 共词分析是在词频分析基础上,对一组词两两统计它们在同一组文献中出现的次数,通过这种共现次数来测度他们之间的关联强度,进而确定这些词所代表的学科或领域的研究热点、组成与范式,横向和纵向分析学科领域的发展过程和结构演化。
• 该方法前提假设是:词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。
其它常用的名词解释
• 突发性探测:基于Kleinberg.J于2002年提出的突发检测算法对节点的突发性进行探测,获
取突发词(出现频次在短时间内突然增加的术语)以此确定某个时期内的研究热点,突发期一直延续到当前的节点可以认为在未来一定时间内还会延续这种态势,从而推测研究趋势。
• 聚类分析:指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,以分析对象的相似性为基础。
• 文献半衰期:衡量文献老化速度的指标,文献半衰期越长代表文献越经典。
• 中介中心性:测量的是一个点在多大程度上位于图中其他“点对”的“中间”。
• 特征向量中心性:一个节点的中心性是相邻节点中心性的函数。也就是说,与某点连接的点越重要,这个点也就越重要。
• PageRank:PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。
• Sigma:结合了中介中心性和突发性指标,定义该参数Sigma=Math.pow(Centrality+1,
Burtness)
03 Citespace下载和数据采集
软件下载 • 下载地址:
http://cluster.ischool.drexel.edu/~cchen/citespace/download/
• 前期配置:Java+Citespace
下载Citespace 下载Java
首次运行先运行.bat文件
第一次开启速度较慢
FAQ:若提示“应用程序已被Java安全阻止”可以将Java安全配置调至高级以下,或者
添加“例外站点”列表
数据采集及数据处理—英文(以WOS为例)
下载的.txt文件以“download_XXX”命名
数据采集及数据处理—中文(以CNKI为例)
下载的.txt文件以“download_XXX”命名
数据采集及数据处理
“Data-Import/Export”数据格式转换、数据过滤、数据除重
“download_XXX”
04 Citespace界面及功能
Citespace界面及功能
Projects区:
项目建立、编辑和删除
时区分割:默认1年1分割
文本处理:Term
source提取的共词类型。Term
Type是对共词类
型的补充,包括名词性术语和突
发性监测
数据分析的过程和状态
网络参数的设置
网络参数的设置
合作网络分析:主体不一样
共现网络分析:名词性术语、关键词、学科
领域等
文献耦合分析
基金分析
共被引分析
强度计算算法选择
算法应用于“时间切片内”或
“时间切片之间”
数据阈值的设定
网络裁剪功能区
可视化结果设置
可视化界面功能
可视化菜单功能
可视化常用快捷功能
1 节点信息列表区域
2
保存可视化文件
保存可视化图片
开始或终止网络布局过程
修改颜色
修改背景颜色
3
快速聚类
聚类的命名属于从施引文献标题、关键词或摘要中提取
聚类时间分析
聚类三种算法展示
提取聚类标签的三种算法
4 节点年轮展示
节点中介中心性展示
节点特征向量中心性展示
节点Sigma指数展示
节点page rank展示
节点同一尺寸展示
节点聚类类别展示
节点WOS引证总量展示方式等
可视化常用快捷功能
5
聚类视图、时间线图、时区图
连接线形状选择
6
关键路径识别 在网络中逐年显示信息 得到聚类数量
突发性监测(要等网络运行静止后才有效) 放大或缩小图形 网络中节点信息检索框
7
• Labels:对标签字号、强度、覆盖等问题的设置。
• Layout:修改可视化布局。
• Views:对时间线图视图的调整。
• Burstness:节点突发性探测参数修改。
• Search:在网络图中选中节点文献并选择检索后,显示文献的网络链接。
• Clusters:点击一个聚类主题演化信息的显示面板。
• Colormap:颜色和透明度的调整。
05 Citespace网络类型介绍
关键词共现网络-建立新项目
关键词共现网络-设置参数
关键词共现网络-可视化
另存为.graphml文件,可以用
其他社会网络分析软件打开并美化,例如Gephi
关键词共现网络-知识图谱解读
看节点年轮图:节点越大代表频次越高
看突发性监测:
红色代表突发值较高的点
连接线颜色代表聚类
紫色代表中介中心性较高的
点
关键词共现网络-聚类
关键词共现网络-查看聚类信息
关键词共现网络-节点信息查询
Citation History List Cluster Members
关键词共现网络-节点信息查询
关键词共现网络-时间线试图、时区图
关键词共现网络-突发性探测
论文共被引分析
Node Type:Cited References
建议使用节点年轮样式,可以查看节点的时间变化特征。
领域的共现网络
• Node Type:Category
• 展现分析文献所在领域和学科结构
科研合作网络分析
• 宏观国家地区的合作;中观机构的合作;微观学者的合作
• Citespace得到的合作网络中,节点的大小代表了作者、机构或者国家发表论文数量的多少
• Node:Author;Institution;Country
06 学习资料
Citespace网络选择 根据自身的研究目的来选择相应的节点类型
(1)研究目的:研究前沿+知识基础
• 节点类型:Article;Cited reference
• 知识基础是由共被引文献集合组成的,而研究前沿是由引用这些知识基础的施引文献集合组成的,可以通过文献耦合分析。
(2)研究目的:研究热点+研究趋势+知识结构
• 节点类型:Keyword;Term
• 研究热点可以认为是在某个领域中学者共同关注的一个或多个话题,Citespace提供了对研究主题的词频、词语时间趋势、词汇的突发性、词汇的网络属性等分析的功能。
(3)研究目的:科研领域结构
• 节点类型:Category
• 关于科学领域结构的探索研究,使用Citespace提供的科学领域共现网络进行分析,还可以结合期刊的共被引聚类进行分析。
(4)除了生成1模网络外(节点含义相同),还可以生成多模网络。Author-Reference(表示作者与引用文献);Author-Category(表示作者在某学科领域发表论文);Category-Reference(表示论文被哪些领域引用)
Citespace 年轮和裁剪说明
1 年轮图代表某篇文章引文历史,年轮的整体大小反映论文被引用的次数。引文年轮的颜色代表相应的引文时间。一个年轮的厚度和相应时间分区内引文数量成正比。
2 • 网络裁剪分为两种方法。第一种通过网络某些指标的阈值裁剪。第二种通过拓扑算法来裁剪,
citespace内置两种算法:Pathfinder和MST。
• Pathfinder依据三角不等式原则在临近的网络中选取显著的关系,经过寻径网络算法处理的网络节
点数量不会发生变化,而连线数量会大大减少,可以简化网络并突出其重要的结构特征,具有唯一解。
• MST通过原始图,来构造一个包含所有顶点、权值之和最小的生成树。它可以很快得到结果,但是不具有唯一解。
• 裁剪可能对网络指标参数有影响。
参考Chen Chaomei “Visualizing evolving networks: minimum spanning trees versus pathfinder networks”
学习资料
• 陈超美博士博客:http://blog.sciencenet.cn/home.php?mod=space&uid=496649&do=bl
og&view=me&from=space
• 李杰博士博客:http://blog.sciencenet.cn/home.php?mod=space&uid=554179
• 图书:《CiteSpace:科技文本挖掘及可视化》李杰,陈超美著(图书馆可借)
Q&A