i学堂:文献可视化分析软件CiteSpace介绍与导用.pdf
CiteSpace 介绍及导用 主讲人:聂茶庚 0 扫码签到,累积图书馆积分,获取定制纪念品 1 讲座预告——微信公众号“i学堂XMU” 2 课件下载 https://lecture.xmu.edu.cn 提示: 1.请先连接校外访问VPN 2.校外用户可通过图书馆主页获取 (主页-文档-讲座课件) 3 视频回放 • 哔哩哔哩网站(https://www.bilibili.com)搜索“厦大图书馆”, 可学习往期课程 4 加入我们! 联系人:李显辉(i学堂负责人) 邮箱:shining@xmu.edu.cn 一 CiteSpace介绍 二 CiteSpace理论基础 三 CiteSpace进行文献分析步骤 四 CiteSpace图谱解读 目录 传统的研究模式 主要研究问题 研究人员 寻找获取 分析 相关文献 演绎、归纳 奠基式的研究 学术领域 里程碑的研究 最关键的理论、 方法和技巧 挑战、前沿 海量的文献 时间有限 知识基础 传统的研究模式 主要研究问题 奠基式的研究 系统综述 里程碑的研究 知识基础 最关键的理论、 方法和技术 挑战、前沿 没有系统综述(新兴研究领域) 问题 替代方法 已有的系统综述已过时 与文献同步 已有的系统综述不涉及你的研究兴趣 科学文献计量 CiteSpace 2 1 从大数据的角度归纳现有的 从时间维度展现学术演变的 国内外研究文献 动态进程 4 3 突出核心作者和关键词 呈现研究者和机构的发文及 合作的地理空间分布 一 CiteSpace介绍 01 CiteSpace开发 • 由美国德雷克赛尔大学(费城)信息科学与技术学院(The College of Information Science and Technology, Drexel University)Dr. ChaomMei Chen研究开发 http://blog.sciencenet.cn/home.php?mod=space&uid=496649 • 基于JAVA的应用软件 02 CiteSpace的获取与安装 获取http://cluster.ischool.drexel.edu/~cchen/citespace/download/ 03 CiteSpace特点 • CiteSpace是近年来信息分析领域最具影响力的信息可视化软件 • 强大的文献共被引分析功能,且随着不断的发展算法,功能不断优化 • 被广泛应用于WoS分类类别的研究领域 04 使用CiteSpace进行文献研究发表的论文及引用 05 使用CiteSpace进行文献研究发表的论文及引用 06 使用CiteSpace进行文献研究的论文 07 CiteSpace的用户在全球的分布 二 CiteSpace理论基础 01 CiteSpace理论基础 1 库恩的科学革命的范式转换理论 托马斯·库恩认为,科学推进是建立在不断的科学革命过程之中,人们通过 科学革命而接纳新观点——新旧科学范式的交替和兴衰。 CiteSpace中体现 为一个又一个时间段所出现的聚类。 KUHN T S. The Structure of Scientific Revolutions [M]. Chicago: University of Chicago Press, 1962. 2 Burt的结构洞理论 芝加哥大学罗纳德·Burt在研究社会网络和社会价值时提出——人们在社会 网络中的位置在于他们的意见和创意的质量。 CiteSpace中体现为寻找具有 高度中介中心性。 BURT R S. Structural holes and good ideas [J]. American Journal of Sociology, 2004, 110(2): 349-99. BURT R S. Structural Holes: The Social Structure of Competition [M]. Cambridge, Massachusetts: Harvard University Press, 1992. 3 Pirolli提出的最优信息觅食理论 解释信息搜索中人们如何做出决定 PIROLLI P. Information Foraging Theory: Adaptive Interaction with Information [M]. Oxford, England: Oxford University Press, 2007. 4 Kleinberg的探测频率突增的算法 一篇论文的引文频次突然呈现急速增长——最合理的解释就是这篇论文切中了学术领 域这个复杂系统中的某个关键点 KLEINBERG J. Bursty and hierarchical structure in streams [M]. Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Edmonton, Alberta, Canada; ACM Press. 2002: 91-101. 5 结构变异理论 网络的模块化是对其整体结构的一个全局性量度。局部结构的变化可能会引起全局的 改变,但是也同样可能不会引起任何全局上的改变。 CHEN C M. Predictive Effects of Structural Variation on Citation Counts [J]. Journal of the American Society for Information Science and Technology, 2012, 63(3): 431-49. CHEN C. The Fitness of Information: Quantitative Assessments of Critical Evidence [M]. Hoboken, New Jersey, USA:Wiley, 2014. 02 CiteSpace概念模型 03 科学知识图谱可视化表达-CiteSpace 04 CiteSpace分析结果 三 CiteSpace进行文献分析步骤 01 CiteSpace分析流程 02 数据来源 • Web of Scienc • CSSCI(Chinese Social Science Citation Index) • Pubmed • NSF • Derwent • Scopus • arxiv e-Print • CNKI • SDSS(Sloan Digital Sky Survey) 03 CiteSpace分析的对象——文献题录信息 03 CiteSpace分析的对象——文献题录信息 03 CiteSpace分析的对象——文献题录信息 03 CiteSpace分析的对象——小结 04 数据采集及预处理 数据采集 • Web of Scienc • CSSCI(Chinese Social Science Citation Index) • CNKI 04 数据采集及预处理 无需无止境地优化搜索查询以剔除无关主题的文章,相反,CiteSpace可 以在聚类过程中区分这些论文。 Chen C. 2018. How to use CiteSpace. Available at http://leanpub.com/howtousecitespace. 04 数据采集及预处理 Web of Science 04 数据采集及预处理 Download*.txt 必须以此方式命名文件 04 数据采集及预处理 数据去重 数据去重或转换 04 数据采集及预处理 CSSCI 1、登录cssci 04 数据采集及预处理 2、进入检索页面 以《科学学研究》为例,收集其2013-2014年的数据 04 数据采集及预处理 3、检索结果 检索条件及精炼结果444条 精炼只选择论文 04 数据采集及预处理 4、选择并下载数据 点击全部选择按钮,cssci一次最多下载100条记录,点 击下载,直到下载完所有记录444条 04 数据采集及预处理 5、打开所下载的数据文本并另存为UTF-8格式,以download*.txt命名 04 数据采集及预处理 6、数据转换 1、为原始数据和转换后 数据分别建立文件夹 2、导入数据 3、选择cssci 4、选择原始数据夹和转换后数据夹 5、点击“Format Conversion”, 完成转换后会显示“Finished” 04 数据采集及预处理 7、数据转换结果 转换后 转换前 04 数据采集及预处理 CNKI 1、登录CNKI 2、进入期刊检索页面 以《科学学研究》为例,收集其2013-2014年的数据 需要注意的是CNKI 没有文献类型的分 类,而检索的结果 中新闻、会议通知 等信息需要在数据 收集时删除。 因此需要进行手工 删除,建议可以在 下载时逐页检查。 04 数据采集及预处理 3、导出数据 筛选出433篇 04 数据采集及预处理 选择所有筛选出的433篇文献,再点击“导出/参考文献”,进入文献输入界面,此时需要选择输入数据的 类型。 使用CiteSpace进行分析的文献类型输入为“Refworks” 。建议输入“Refworks” 和“Endnote”两种格式。 前者可以进行文献可视化分析,而后者可以用于进行论文写作时使用。 04 数据采集及预处理 点击“导出”下载数据。CNKI可以一次下载500条数据 04 数据采集及预处理 4、保存数据以download*.txt命名 04 数据采集及预处理 5、数据转换 转换完成后的数据 即可用于CiteSpace 转换完成 05 Citespace操作界面 运行CiteSpace 05 时间区域 时间切片 节点类型 阈值选择 连线修剪 1、尋径 2、最小生成树 3、修剪切片网 4、修剪合并网 视图显示形式 06 文献共被引分析 文献共被引分析 van Raan A F J. Advances in bibliometric analysis: Research performance assessment and science mapping[J]. Bibliometrics. Use and Abuse in the Review of Research Performance, 2014: 17-28. 06 文献共被引分析 分析结果保存 数据文件夹 06 文献共被引分析 按照预设条件运行的情况 将所生成的网络存为图表文件 可视化 网络基本参数 及运行过程 06 文献共被引分析 可视化结果 当网络布局稳定 06 文献共被引分析 聚类 对共被引网络进行聚类 用标题词标 记聚类 06 文献共被引分析 对聚类的标签进行调整(按照聚类规模进行显示) 06 文献共被引分析 对聚类的标签进行调整(按照聚类规模进行显示) 对聚类标签 进行调整 06 文献共被引分析 对节点属性进行调整 对节点属性 进行调整 06 文献共被引分析 对聚类的轮廓显示进行调整 06 文献共被引分析 得到较为满意的图谱后,使用有三种不同的算法对聚类进行命名。通常情况下陈 教授推荐使用LLR算法得到的结果。 LLR 06 文献共被引分析 对文献被引的突变进行检测 06 文献共被引分析 计算节点的中介中心性 06 文献共被引分析 Timeline 呈现方式 研究进展时间图 按年代显示研究前沿 06 文献共被引分析 Timeline 呈现方式 07 主题共现分析——关键词和名词性术语共现分析 词频和共词分析 07 主题共现分析——关键词和名词性术语共现分析 Whittaker最早提出共词分析的假设前提(Whittaker,1989) a)作者是很认真的选择技术术语; b)当在同一篇文章中使用不同的术语时,就意味着这些术语之间的关系并不 是微不足道,且一定是被作者认可和认同; c)如果有足够多的作者对同一种关系认可,那么这种关系可以认为在他们所 关注的科学领域中具有一定意义; d)当针对关键词时,经过专业学习的学者,在其论文中标引出来的关键词是 能够反映文章的内容的,是值得信赖的指标。在作者标引关键词时,通常也 会受到其他学者成果的影响,而在论文中使用相同或者类似的关键词标引自 己的论文。 07 主题共现分析——关键词共现分析 07 主题共现分析——关键词共现分析 07 主题共现分析——名词性术语共现分析 1. 点击Term type中的“Noun Phrases”。再点击“Create POS Tags” 07 主题共现分析——名词性术语共现分析 2. 在Space status中出现主题提取的years…Uniquesource records,表示提取过程结束 07 主题共现分析——名词性术语共现分析 3.节点类型选择Term,并点击GO 07 主题共现分析——名词性术语共现分析 4.可视化结果 08 Dual-map overlay——Journal 08 Dual-map overlay——Journal Citing journals Cited journals 08 Dual-map overlay——Journal Citing journals Cited journals 四 CiteSpace图谱解读 08 Dual-map overlay——Journal Citing journals Cited journals 01 Dual-map overlay——Journal Citing journals Cited journals 02 CiteSpace相关术语和参数 ➢ the modularity Q and the mean silhouette scores :这两个参数体现分析所形成的网络的质 量。 ➢ Q=[0, 1]。体现所获得的聚类网络是否合理,一般在0.3~1之间是合理的 ➢ the mean silhouette =[0, 1]。体现聚类的同质性(均一性),越大,聚类成员的一致性越 好,各个聚类的大小相对比较合理。但是,如果某个聚类较小,则其该参数值越高并不 能说明什么。 02 CiteSpace相关术语和参数 ➢ Betweenness centrality:中介中心性是测度节点在网络中重要性的一个指标。 CiteSpace 中使用此指标来发现和衡量文献的重要性,并用紫色圈对该类文献(或作者、 期刊以及机构等)进行重点进行标注。 02 CiteSpace相关术语和参数 ➢ Burst 检测:突发主题(或文献、作者以及期刊引证信息等)。在 CiteSpace 中使用 Kleinberg, J(2002)年提出的算法进行检测。(图中红色节点) 02 CiteSpace中几个重要的分析指标 ➢ Citation tree-rings :引文年环–代表着某篇文章的引文历史。引文年轮的颜色与时间切片 的颜色相对应,一个年轮厚度和与相应时间分区内引文数量成正比。 ➢ 共引线的颜色与首次发生共引的时间切片的颜色相对应 02 CiteSpace相关术语和参数 Term Description Co-citation network • A knowledge network represents how frequently two references are cited by other articles simultaneously. For instance, if two referen ces are cited by a third or different articles, there may be a stronger correlation between them (Chen et al., 2014, https://doi.org/10.1517/14712598.2014.920813; Small, 1973, https://doi.org/10.1002/asi.4630240406). • Co-citation literature represents the knowledge foundation and development of the given field ( Chen et al., 2010, https://doi.org/10.1002/asi.21309; Small, 1973, https://doi.org/10.1002/asi.4630240406). • The synthesized network is divided into clusters of cited references. • Thematic patterns of each cluster are identified based on noun phrases extracted from citing articles’ titles and abstracts; then, the most representative noun phrasesare further computed to identify the label of the cluster C ( hen & Song, 2019, https://doi.org/10.1002/asi.4630240406). • Modularity Q > 0.3 means that the separated social structures in the given field are clearly defined in terms of co-citation clusters ( Chen, 2016, CiteSpace: A Practical Guide for Mapping Scientific Literature . Nova Science ; Chen et al., 2010, https://doi.org/10.1002/asi.21309). • Silhouette > 0.5 means that the clustering effects are reasonable, and the level ofhomogeneity is relatively high, suggesting that each cluster is well matched witheach other (Chen, 2016; Chen et al., 2010). • The LLR tests are considered to recognize labels effec tively within the cluster; these labels are used to name clusters with better representativeness (Chen et al., 2010, 2012) • Size denotes the number of cited references in each cluster. • Clusters with few members tend to be less representative than larger ones, since small clusters are susceptible to the citing behavior of a small number of articles (Chen, 2012, https://doi.org/10.1517/14712598.2012.674507). • BC value is commonly used as structural metric for qualifying the academic impact of one reference in citation networks (Li & Chen, 2016, CiteSpace: Text mining and visualization in scientific literature. Capital University of Economics and Business Press.). • Nodes with high BC (whose BC value > 0.1) tend to identify boundary spanning potentials that may lead to transformative discoveries ( Chen, 2017 , https://doi.org/10.1515/jdis-2017–0006; Chen et al., 2009, https://doi. org/10.1016/j.joi.2009.03.004; Schierz et al., 2010, https://doi. org/10.1016/j.joi.2009.03.004). • CB is a computational technique that has been used to identi fy references attracting increased attention to the underlying research and to trace the development of study focus ( Chen, 2017; Kleinberg, 2003 , https://doi.org/10.1515/jdis-2017–0006). • The sigma score is a combinant metric of the BC and the citation burstness of thecited reference (Chen, 2017). • A cited reference with high sigma score reflects its structural and temporalsignificance (Chen, 2017). Cluster Modularity Q Silhouette Log-likelihood ratio (LLR) tests Size Betweenness centrality (BC) Citation Burstness (CB) Sigma 03 文献共被引图谱 03 文献共被引图谱 03 文献共被引分析 详细信息查询 03 文献共被引分析 详细信息查询 03 文献共被引分析 以下将对获得的三个重要的窗口进行解释 03 文献共被引分析 CiteSpace概念模型与软件提供的信息查询比较 2 1 1 2 3 3 03 文献共被引分析 该窗口显示的是通过三种方法得到的聚类命名(反映研究领域涵盖的主题) 该窗口信息还可以通过菜单“Cluster”,“Summary Table /Whitelists”得到 03 文献共被引分析 该窗口显示的施引文献(这些文献代表了研究前沿)。标题中着重 标识的词汇正是通过相关方法提取的聚类命名 03 文献共被引分析 该窗口显示的是被引文献(反映的是知识基础),这些文献也是 直接在图谱中显示的节点信息 03 文献共被引分析 Timeline 呈现方式 研究进展时间图 按年代显示研究前沿 03 文献共被引分析 引用突变文献信息 04 CiteSpace分析结果 5 扫码填写反馈问卷,有机会获取图书馆纪念品! 讲座签到 反馈问卷 谢谢大家! 主讲人:聂茶庚 邮箱:ncg@xmu.edu.cn

i学堂:文献可视化分析软件CiteSpace介绍与导用.pdf




