PDF文库 - 千万精品文档,你想要的都能搜到,下载即用。

优化关键词利用策略的共词分析研究V1.pdf

Paled8 页 3.189 MB下载文档
优化关键词利用策略的共词分析研究V1.pdf优化关键词利用策略的共词分析研究V1.pdf优化关键词利用策略的共词分析研究V1.pdf优化关键词利用策略的共词分析研究V1.pdf优化关键词利用策略的共词分析研究V1.pdf优化关键词利用策略的共词分析研究V1.pdf
当前文档共8页 2.88
下载后继续阅读

优化关键词利用策略的共词分析研究V1.pdf

台 中 发 2 * 3 文 文 集 集 1 马宇驰 ,牟冬梅 ,杨鑫禹 布 平 台 平 布 中 发 优化关键词利用策略的共词分析研究 家 科 共卫生学院,吉林 长春,130021) 科 摘要: 【研究目标】提出关键词利用策略的优化方案,解决小数量级概念失焦、关键词组概念缺失等问题,优 国 家 国 研 论 研 论 (1.吉林财经大学图书馆,吉林 长春,130117;2.吉林大学第一医院,吉林 长春,130021;3.吉林大学公 化共词分析结果,拓展了研究热点主题识别的广度与深度。 【研究方法】关键词利用策略优化方案在高频词共 词分析的基础上,引入关键词与关键词组相结合的处理方案,通过调整数据集范围,实现共词分析结果优化。 实证部分以“主动健康”主题为例,使用 DDA 软件,完成基于关键词利用策略优化方案的共词分析,探测主 动健康的学科主题热点。 【研究结论】提出了关键词利用策略优化方案,通过调整数据集范围和引入关键词组 台 台 识别,优化共词分析。实证研究部分在初始发现的 5 类研究领域、12 个热点之外,基于关键词利用策略优化 中 中 关键词:优化方案;共词分析;关键词;关键词组;主动健康;DDA 集 文 论 论 文 集 分类号:G250.252 研 研 1 引言 学科知识结构揭示模型将学科知识结构模块分为低中高三个层级,其中对关键词、主题词、标题词、特 家 科 家 科 平 发 布 案令小数量级概念聚焦形成类团,在聚类过程中得到表达,令关键词组代表的概念得到完整呈现。 发 布 平 方案的共词分析扩展识别了 7 个热点话题,补充发现 5 个复合词组表达的研究概念。关键词利用策略优化方 国 国 征词等结点的共词分析是揭示中层级知识结构的主要技术方法,在数据整合与智慧服务领域起到发现学科研 究热点、探究学科发展进程的作用[1]。结合时间轴属性,共词分析能在纵向上反映一段时间内专业领域的动态 发展演化历程,在横向上反映某个时间节点静态知识单元分布结构[2],揭示了领域的基本特征,对该领域的研 [3] 究人员有重要的指导作用 。共词分析方法基本分为六个环节:确定分析问题、术语词源选择、高频词的选定、 [4] 台 台 术语相关计算、多元统计分析及统计结果分析 。结果通过聚类树、战略坐标及社会网络图谱等多种方式进行 布 平 布 平 展示,聚类树图谱展现学科领域的主题结构、战略坐标展现各主题在整个学科结构上的重要性或特性、社会 中 发 中 发 网络图谱展现各主题内部关系[5]。 集 集 对于共词分析的改良优化,学者们从多个环节进行了探索,积累了丰厚的研究成果。李纲等通过在关键 [6] 文 论 论 文 词统计和计数过程中使用改进加权算法,实现了为关键词重要性加权 ,而后采取混合关键词策略,选取低频 [7] 研 科 家 取词与全文自动标引取词的研究现状,就术语规范化问题述评了基于受控词典与基于人工方式的方案[8]。杨丽 国 国 家 科 研 关键词和突发词,优化了共词聚类效果以及关键词网络共现效果 。傅柱等就共词分析词源选择述评了元数据 等应用自然语言的处理方法,考察了关键词以外的分析单元,提取了提名、摘要及全文的高频词,识别动物 学领域的研究热点[9]。李锋提出了在选词个数范围内的高频区全部采纳、中低频区按 2:1 实行配额采纳的兼顾 中低频关键词的选词方案 [10] 。徐坤等提出次高频词概念,利用次高频词进行了领域研究内容的聚类分析,在 揭示领域研究热点上具有较好效果 [11] 。余本功等针对文献层面和词层面“同量不同质”、高频孤立词等问题, 台 平 平 台 提出基于文献多属性加权的共词分析方法[12]。唐晓波等抽取并融合文本的词语特征和词权重特征,对文本聚 布 布 类,提取关键词识别主题并进行分析[13]。滕广青等对科技信息多维复合分析演进过程进行归纳,总结通过多 发 中 中 发 数据源,更全面地识别出领域知识或技术前沿[14]。 集 文 论 论 研 基金项目:本文系国家自然科学基金项目“信息链视域下电子病历数据驱动健康服务供给侧决策的路径与模式研究”(项目编 研 * 文 集 但现有共词分析研究仍然存在一定的局限。胡昌平指出,传统的词源选定、关键词提取方法忽略了关键 科 家 研究成果之一。 国 国 家 科 号:71974074)和吉林省科技发展计划项目“面向精准医疗的多模态医学数据融合与挖掘团队”(项目编号:20200301004RQ) 台 中 发 布 平 台 平 布 中 发 词本身的特征,未充分发挥共词分析的优势,大量的强共现关系由中频词与高频词或中频词与中频词构成, 集 文 文 集 截取高频词进行共词分析对重要关系的保留情况不能令人满意[15]。词语可以是关键词、主题词或自然语言处 研 论 [16] 。牺牲低频关键词,基于高频词进 家 行共词分析可以发现主题热点,但不能很好的探查学科全貌;针对低频词分析有助于探查隐含主题或前沿热 国 国 家 科 和的局限,导致共词分析在发现热点与全面概括两项目标难以达到平衡 科 研 论 理下的全文标引等不同元数据,不论来自何种分析单元,关键词词频及共现强度的幂律分布都带来的难以调 点,然而人工降低截取关键词的词频阈值受人为影响大,也无法在发现重点和认识全貌二者中求得合理的平 衡。 针对上述问题,研究团队将关口前移,在聚类前,提出关键词利用策略优化方案,从而拓展研究热点主 台 台 题识别的广度与深度,以期实现对共词分析理论的进一步完善和方法的进一步优化。 平 发 布 发 布 平 2 关键词利用策略优化方案 中 中 2.1 关键词分析问题梳理 集 文 文 集 高频词阈值选取方法主要有:自定义选取法(频次选取法、前 N 位选取法、中心度选取法) 、高低频词界 论 研 研 论 定公式选取法、普赖斯公式选取法及混合选取法[17]。然而无论采取何种方法,现有的共词分析都位于截取关 家 科 国 往往存在如下缺陷。 2.1.1 高频关键词聚类效果不足,在类团划分过程中出现“马太效应” 国 家 科 键词步骤与聚类分析步骤之间,囿于聚类分析中类形成的客观过程以及关键词表义能力的局限,关键词分析 概念(Concept)是学科领域内科学共同体共享的基本知识单元,通过术语的形式被语言符号限定或表达 出来,这些术语之间的相关强度决定了共词分析聚类的结果与形态。观察聚类过程可知,起初不存在明显确 定的聚类中心,各组分在逐步形成类团时倾向发生强者愈强的吸引效应[4]。致使与某个个体相关密切的其他成 台 布 平 布 平 台 员都会被吞噬纳入“超级类团”,强大的类团变得愈发强大,弱小类团地位愈加无法突出,导致小数量级的类 中 发 中 发 团无法脱出,失去表达信息的机会,最终使得以这些术语为载体的概念得不到有效的呈现。 集 集 2.1.2 关键词表达不完整,关键词组表达的复杂概念缺失 文 文 概念被术语表达,具有语义信息的术语按一定的逻辑结构组成文献,这些逻辑不仅包含物理顺序的先后 论 研 研 论 关系,还存在句法篇章上的支配从属关系与隐含的语义联系[18]。关键词分析中以词组形式凝练的概念,被拆 科 家 终的分析结果不全面。 国 国 家 科 分成单独的单词归档统计,导致词组切割,语义呈现不完善,重要信息不完整,概念的完整性受限,使得最 2.2 关键词利用策略优化方案构建 针对关键词分析的主要问题,提出关键词利用策略优化方案,实现对关键词的深入开发和对其携带的信 息的充分挖掘。关键词利用策略优化方案是指在获取数据集步骤之后、执行聚类分析步骤之前,在挖掘超级 台 平 平 台 类团核心概念的一次分析基础上,通过多粒度、多角度的透视,调整数据集范围,进行二次聚类分析,聚焦 布 发 发 布 小数量级关键词所代表的概念;引入关键词组,进行三次分析,增加由词组单元呈现的科学概念。 中 集 文 文 集 中 2.2.1 调整数据集范围,聚焦小数量级关键词所代表的概念 论 研 科 家 国 国 家 科 研 论 关键词、热点都来自于论文作者的实际工作,并非在科技论文写作时预先固定,因此“关键词-文献数据 台 中 发 布 平 台 平 布 中 发 记录-热点”组成的网络往往是立体的,具有高自由度高复杂度的特性,并不严格遵循一对一关系或一对多关 集 文 文 集 系。在考虑去掉高频关键词时,研究团队提出“最大化去除”的原则,以文献数据记录为最小单位,在文献 研 论 研 论 数据集层面进行调整。其优势在于去掉引起超级类团的高频关键词的同时,同样移除了其来源文献数据记录 科 家 加彻底。进而更多地让位给前期被吸入“超级类团”中,未得到体现的关键词及其代表的研究热点,使整个 发掘过程更加充分深入 国 国 家 科 中包含的其他关键词,做到了与“超级类团”高度相关的其他关键词亦受到限制,使“超级类团”的清除更 将关口前移,在聚类开始之前进行优化操作,对于位于头部超级类团的核心概念所对应的文献数据集进 行删除,使其余弱势类团得以免于吸纳进“超级类团” ,小数量级关键词所代表的概念有机会在聚类过程中被 台 发 布 发 布 平 科研究热点。 平 台 充分表达,弱化了聚类过程里量级较大关键词引起的“马太效应”,使聚类结果能够更加丰富和全面地展示学 中 中 2.2.2 引入关键词组,增加由词组单元呈现的科学概念的表达 集 文 文 集 关键词组以多角度、更全面反映领域主题为目的,可以是作者关键词的组合,也可以是关键词与其他词 论 论 的组合;可由数据库商提供、计算机程序自动标引、也可由作者及领域专家人工组配。引入关键词组的共词 研 2.3 基于关键词利用策略优化方案的学科热点探测 家 科 国 信息,以最贴近研究者本意的形式多维度地全面描述研究主题。 国 家 科 研 分析能够利用关键词组类似于主题词组配的特性,通过词组的形态保留研究核心主题,从不同视角补充主题 关键词利用策略优化方案在标准的共词分析的基础上,遵循“数据导入 ->优化关键词数据处理->聚类分 析、识别热点->整合热点、形成最终探测结果”的过程,其最终结果由三个识别结果汇总而成:①对检索获 得的原始数据集执行普遍采用的高频词共词分析,所获得的初步发现的热点;②调整数据集范围,在高频关 台 布 平 布 平 台 键词共词分析之外,剥离原始数据集中词频数排行靠前概念对应的文献数据集,对剩余文献数据集内的关键 中 发 中 发 词执行第二次分析,聚焦相对小数量级概念所代表的细节热点;③引入关键词组视角,对来自原始数据集的 关键词组执行第三次聚类分析,通过不破坏概念的方案,透视作者在选题、构思、实验、分析等各环节的研 集 文 文 集 究思维,发现主题脉络,获得补充热点信息。将三步的探测结果相结合,使全部文献数据集蕴含的科学信息 论 研 研 论 得到更为充分地体现。最终填补聚类过程中超级类团导致的潜在信息遗漏,提供更多细节、还原作者科研意 科 家 3 基于关键词利用策略优化方案的研究热点探测实证研究-以“主动健康”主题为例 国 国 家 科 图的信息发现与学科热点探测服务。 3.1 数据收集 我国自 2016 年至今陆续发布《“健康中国 2030”规划纲要》、 《“十三五”卫生与健康科技创新专项规划》、 《健康中国行动(2019—2030 年) 》等文件,以增进健康为导向,推动以疾病治疗为中心向健康提升为中心的 [19-21] 平 平 台 。主动健康 台 转变,研发健康管理解决方案,从注重“治已病”向“治未病”过度,制定实施主动健康计划 布 布 的研究是实施健康中国行动专项行动的重要组成部分,着眼当前是为人民谋幸福、谋健康,展望长远是为民 发 中 中 发 族谋复兴、谋发展。实证评测关键词利用策略优化方案对共词分析的提升效果,同时分析国外主动健康相关 集 文 文 集 研究进展,以期为我国提供参考借鉴。 论 研 科 家 国 国 家 科 研 论 选取数据来自 Web of Science(简称 WoS)核心合集,以 “AK=(“health self-management” OR 台 中 发 布 平 台 平 布 中 发 “proactive medicine” OR “ proactive intervention” OR “ proactive health” OR “ preventive 集 文 文 集 treatment of disease” OR “ positive health” OR “ health promotion behavior” OR “self-care”)” 研 论 研 论 为检索式,限制语种为英语,时间跨度: 1900-2020,索引包含 SCI-EXPANDED, SSCI, A&HCI, CPCI-S, CPCI-SSH, 科 家 3.2 关键词利用策略优化处理 国 国 家 科 ESCI。共检索导文献 4493 篇,构成研究原始数据。 3.2.1 确定词源截取高频词 在分析之前对原始数据进行清洗,除去可能导致分析结果失准的“DEAN”四类数据:数据库内重复或多 个数据库检索结果合并之后的重复记录(Duplicates),不符合检索需求的文献类型记录(Errors),不同数 台 台 据分类和标引规范下的相同概念关键词(Alias) ,对研究热点造成干扰的低频关键词或子网络(Noises)[22]。 平 发 布 发 布 平 本次实验应用的工具 Derwent Data Analyzer(简称 DDA)是由科睿唯安和乔治亚理工学院共同研发的信 中 中 息情报分析和挖掘软件。统计“WoS 入藏号”,确保该字段内的每个对象出现次数为且仅为 1,结果中不存在 集 集 重复记录。统计“文献类型”字段,确保记录的文献均为学术信息本身,不包含书目、传记、案例报告或数 文 论 论 文 据集等,符合本次实验需求。处理近义关键词和同义关键词,清洗“关键词(作者)”字段,得到关键词 6786 记录 关键词 数量 序号 研 记录 关键词 数量 序号 记录 38 45 trial 87 27 injuries 2 692 diabetes 39 43 symptom management 88 26 Iran 3 466 heart failure 40 42 empowerment 89 26 Mobile health 4 269 nursing 41 42 qualitative 90 25 behavior 5 206 quality of life 42 42 well-being 91 25 hospitalization 191 chronic disease 43 41 primary care 92 25 oral self-care 7 180 self-efficacy 44 41 resilience 93 25 review 8 170 education 45 40 glycemic control 94 24 decision making 9 165 adherence 46 39 compassion fatigue 95 24 focus groups 中 发 集 文 论 研 科 布 平 中 发 科 家 国 家 patient 10 165 education 47 39 health behavior 96 24 Humans …… …… …… …… …… …… …… …… …… 最终采取混合选取法 台 self-care 台 4076 文 论 cord 1 6 研 spinal 集 randomized controlled 国 关键词 数量 布 平 序号 国 国 表 1 原始数据集作者关键词(部分) 家 科 家 科 研 个,频次为 1 的关键词 4701 个。见表 1。 [17] [23] :按高低频词分界公式 确定高频词范围,计算截取关键词降序排列的前 96 个, 台 台 考虑研究需要及结果易读性,经多次预实验,应用前 N 位选取法截取排名前 40 的关键词进行分析。 平 布 布 平 3.3 关键词利用策略优化处理 发 中 中 发 观察预处理数据,首位关键词“自我护理/自我医疗” (self-care)频次 4037,数量和时间维度优势突出, 集 集 其余高频关键词所代表的概念难以在其覆盖之下的分析中得到充分体现,因此考虑截去包含“self-care”关 文 论 研 科 家 国 国 家 科 研 论 文 键词的部分文献数据集。 台 中 发 布 平 台 平 布 中 发 ⑴调整数据集范围 集 文 文 集 利用 DDA 调整数据集范围的功能,在原始数据集(包含关键词“self-care”的文献记录)基础之上调整 研 论 研 论 生成子数据集(不包含关键词“self-care”的文献记录),为调整数据集范围的共词分析提供数据准备。 科 家 关键词组提取自WoS数据集中的“Keywords Plus”字段。该字段是由计算机程序对每篇文章参考文献的 国 国 家 科 ⑵引入关键词组 标题内容进行自动标引而生成,数量多、涵义广,可以有效探讨学科领域的知识结构[24],能够从方法、技术 等视角补充领域主题信息 [25] 。将其写入DDA特定字段。移除其中“rights reserved”、 “current study”等无 实义类型词组以及“control group” 、“descriptive statistics”等描述实验操作的语义类型的词组,进行 台 3.4 结果与讨论 台 引入关键词组的共词分析。 平 发 布 发 布 平 3.4.1 主动健康领域研究概览 中 中 关键词利用策略优化方案下实证研究共执行了三次分析。第一次对原始数据集执行未经优化的高频词共 集 文 文 集 词分析方法,确定了 5 类基本研究领域,对应识别了共 12 个研究热点(见表 2) :①护理学研究领域识别出“自 论 论 主锻炼活动”、 “症状和体征监测”、 “ 症状和体征应对”三个热点;②临床医学研究领域识别出“糖尿病症状 研 家 科 家 科 研 管理”、“ 心血管症状管理”两个热点;③医学信息学研究领域识别出“远程医疗” 、“移动医疗”两个热点; 护人员自身属性”、 “ 社区患者/家属健康教育”两个热点。 国 国 ④心理学研究领域识别出“抑郁症状”、“焦虑”、“职业倦怠”三个热点;⑤公共卫生学研究领域识别出“医 3.4.2 关键词利用策略优化方案的优势 第二次分析是基于关键词利用策略优化方案的调整数据集范围的实验。对比第一次共词分析的热点识别 效果,它移除了“self-care”关键词所代表超级类团所对应的文献数据集,弱化了聚类过程里“self-care” 台 布 平 布 平 台 超级类团对诸如“戒烟主动干预” 、 “感知健康状况”、 “口腔保健干预”等小数量级概念的吸引效应,聚焦了 7 中 发 中 发 个小数量级关键词所代表的概念,令其成功地在聚类过程形成类团,在结果中得到表达(见表 2) 。在原始数 据固定的前提下,关键词利用策略优化方案发挥了聚焦小数量级概念,拓展学科热点探测广度的优势。 集 文 文 集 第三次的分析是基于关键词利用策略优化方案的引入关键词组的实验。对比第一次共词分析的热点识别 论 研 研 论 效果,优势体现在:引入了“COGNITIVE IMPARMENT”、 “ GLYCEMIC CONTROL”、“psychometric properties” 科 家 单独的单词归档统计,以致语义信息不完善、重要信息不完整。在识别出研究对象之外,捕获了更多关于热 国 国 家 科 等关键词组的方案,不分解、不破坏作者科研概念的完整度,避免了以词组形式凝练表现出的概念被拆分成 点的侧重方向、应用技术、发生场景等起补充作用的信息,发现了健康自主管理的“认知障碍”侧重、糖尿 病研究的“血糖控制与主动干预”、医学信息学的“心理计量学应用”等 5 个热点补充(见表 2)。在原始数 据固定的前提下,关键词利用策略优化方案发挥了保留关键词组概念,明晰学科热点侧重方向,扩展学科热 点探测深度的优势。 台 平 平 台 如表 2 示,本次实证分析在第一次共词分析初始发现的 5 类研究领域、12 个热点之外,经的关键词利用 布 发 发 布 策略优化方案处理后第二次及第三次共词分析扩展识别了 7 热点话题,补充发现了 5 个复合词组表达的研究 中 集 论 经过关键词利用策略优化方案处理的共词分析新增 科 家 国 科 家 国 研 单一就高频关键词共词分析发现 文 表 2 热点发现结果对比 研 论 文 集 中 概念。对领域主题热点的拓展,扩充了概念数目,使之达到原有的两倍。 台 引入关键词组 拓展研究广度 明晰热点侧重方向 戒烟主动干预 健康自主管理的“认知障碍”侧 感知健康状况 重 家 国 心血管症状管理 远程医疗 焦虑 同情疲劳 抑郁症状的“健康相关生活质 量”方面 职业倦怠 护理人员素养 社区患者/家属健康教育 营养与运动康复 专业护理人员的工作策略方面 论 研 研 论 文 医护人员自身属性 文 集 中 公共卫生学 抑郁症状 医学信息学的心理计量学应用 发 布 发 布 平 心理学 个人健康记录 动干预” 中 台 移动医疗 糖尿病研究的“血糖控制与主 集 医学信息学 口腔保健干预 家 科 4 结论 针对共词分析研究中高频词分析聚类不足,类团划分过程中“马太效应”突出和独立关键词分裂了词组 国 家 科 台 糖尿病症状管理 平 国 家 症状和体征应对 研 论 症状和体征监测 科 护理学 文 集 中 发 调整数据集范围 科 文 研 论 自主锻炼活动 临床医学 国 布 平 台 平 布 中 发 热点主题 集 研究领域 表达信息,使主题不完整的问题,提出了关键词利用策略优化方案。通过调整数据集范围削弱了聚类过程中 类团间的马太效应。在原始数据集高频词共词分析的基础上,基于调整之后的数据集成功聚焦小数量级概念, 发现多个研究主题,拓展了识别出的研究热点的广度。引入关键词组具有热点补充作用。通过词组间携带的 台 台 组配特性,从语义的层面保留了作者的科研意图,在研究对象范围不变的情况下补充得出更多研究热点信息, 布 平 布 平 扩展了识别的深度。综上,关键词利用策略优化方案令小数量级关键词代表的概念聚焦,关键词组代表的概 中 发 中 发 念呈现完整。从多维度多角度丰富了共词分析结果。通过调整数据集范围,借助软件 DDA 的创建数据子集功 集 集 能,分析人员能够自由选择过滤某些“干扰”强的关键词,放大知识单元分析的细节,进一步增益了对知识 文 文 全貌的还原。引入关键词组有助于获得隐含的主题信息,在相当数量的高频关键词处理的基础上,融入表意 论 研 研 论 更丰富的关键词组,是对共词分析的有益增补。本文仍然存在一定局限:①对于剥离靠前概念对应的文献集, 科 家 文中进行学科领域认知与内容分析。此间对与内容的概括与认知程度,或仍取决于研究执行者的学术经验。 国 国 家 科 仍需以预实验结合人工经验的模式判断剥离分界程度;②共词分析在得到研究热点主题后,需要返回原始论 5 参考文献 [1] 牟冬梅,郑晓月,琚沅红,等.学科知识结构揭示模型构建[J].图书情报工作, 2017, 61(12): 6-13. [2] 钟伟金,李佳.共词分析法研究(一)——共词分析的过程与方式[J].情报杂志, 2008, 05): 70-72. 台 台 [3] 黄月,王鑫.基于高维稀疏聚类的知识结构识别研究[J].现代情报, 2019, 39(12): 72-80. 平 平 [4] 李纲,巴志超.共词分析过程中的若干问题研究[J].中国图书馆学报, 2017, 43(04): 93-113. 布 中 中 [6] 李纲,李轶.一种基于关键词加权的共词分析方法[J].情报科学, 2011, 29(03): 321-324+332. 发 发 布 [5] 杨颖. 基于共词分析的学科结构可视化研究[D]. 中国医科大学,2010. 集 集 [7] 李纲,李昱瑶,谢子霖,等.混合关键词选择策略对共词分析效果的影响研究[J].情报理论与实践, 2017, 文 论 论 文 40(11): 110-116. 研 科 家 国 国 家 科 研 [8] 傅柱,王曰芬.共词分析中术语收集阶段的若干问题研究[J].情报学报, 2016, 35(7): 704-713. 台 中 发 布 平 台 平 布 中 发 [9] 杨丽,张彤彤,周文杰.共词分析识别研究热点的效标关联效度研究:基于自然语言处理[J].图书与情报, 集 集 2018, 01): 15-19. 文 研 论 研 论 文 [10] 李锋.兼顾中低频关键词的共词分析实践——以图书情报学高被引文章为例[J].图书馆杂志, 2018, 37(04): 34-42. 科 家 [12] 余本功,王龙飞,陈杨楠,等.基于文献多属性加权的共词分析方法研究[J].情报科学, 2019, 37(01): 国 国 家 科 [11] 徐坤,毕强.次高频关键词的选择及在共词分析中的应用[J].情报理论与实践, 2019, 42(05): 148-152. 122-128. [13] 唐晓波,李津.在线健康社区信息需求主题分析[J].数字图书馆论坛, 2019, 02): 12-17. [14] 滕广青,叶心,郭思月,等.科技信息分析从单一维度到多维复合的演进[J].数字图书馆论坛, 2019, 12): 2-8. 台 台 [15] 胡昌平,陈果.科技论文关键词特征及其对共词分析的影响[J].情报学报, 2014, 33(01): 23-32. 平 平 [16] 杨建林.关键词选择策略及其对共词分析的影响[J].情报学报, 2014, 33(10): 1083-1090. 发 布 发 布 [17] 刘奕杉,王玉琳,李明鑫.词频分析法中高频词阈值界定方法适用性的实证分析[J].数字图书馆论坛, 中 中 2017, 09): 42-49. 集 中 央 国 务 院 印 发 《 “ 健 康 中 国 2030” 规 纲 要 》 [EB/OL].http://www.most.gov.cn/tztg/201706/t20170613_133484.htm. 家 科 关 于 印 发 《 “ 十 三 五 ” 卫 生 与 健 康 科 技 创 新 专 项 规 划 》 的 通 知 国 家 科 国 划 研 研 [EB/OL].http://www.gov.cn/zhengce/2016-10/25/content_5124174.htm. [20] 文 共 论 中 论 [19] 文 集 [18] 郭红梅,张智雄.基于图挖掘的文本主题识别方法研究综述[J].中国图书馆学报, 2015, 41(06): 97-108. [21] 新华社.聚焦“治未病” 健康指标纳入政府考核——权威解读健康中国行动有关文件[J], 2019, [22] 潘玮,郑鹏,黄锦泉,等.基于数据清洗“DEAN”流程的健康信息领域研究热点探测[J].现代情报, 2018, 38(10): 73-77. [23] Donohue J C.Understanding Scientific Literatures: A Bibliometric Approach[J], 1973, 台 台 [24] 章娟,卢祖洵,段志光. Web of Science 数据库中 Keywords Plus 的准确性研究--以患者依从性研究论文 布 平 布 平 为例[C].第一届两岸三地科学计量学与信息计量学研讨会,中国科学学与科技政策研究会,2013. 中 发 中 发 [25] Zhang J,Yu Q,Zheng F,等.Comparing keywords plus of WOS and author keywords: A case study of patient adherence research[J].Journal of the Association for Information Science and Technology, 集 文 论 论 文 集 2016, 67(4): 967-972. 研 科 家 马宇驰,男,1989 年生,硕士研究生,助理馆员,研究方向:数据整合与智慧服务。 国 国 家 科 研 作者简介 牟冬梅,女,1970 年生,博士,教授,博士生导师,研究方向:医学数据整合与智慧服务,通讯作者, E-mail:moudm@jlu.edu.cn。 杨鑫禹,女,1996 年生,博士研究生,研究方向:医学数据整合与智慧服务。 台 平 布 MU DongMei2, YANG XinYu3 发 MA YuChi1, 发 布 平 台 Research on Co-word Analysis Based on Keyword Optimization 中 中 (1. Library of Jilin University of Finance and Economics,Changchun 130117,China; 2. The First Hospital of Jilin 集 文 文 集 University,Changchun 130021,China; 3. School of Public Health,Jilin University,Changchun 130021,China) 论 研 科 家 国 国 家 科 研 论 Abstract: 台 布 平 台 平 布 中 发 中 发 [Purpose/Meaning] Propose a keyword optimization plan to solve the problems of small-scale concept defocus and 集 文 文 集 keyword group concept missing, optimize the results of co-word analysis, and expand the breadth and depth of 研 论 研 论 research hotspots recognition. 科 家 the processing method of combining keywords and keyword groups, and obtains the optimization of the co-word 国 国 家 科 [Method/Process] The keyword optimization mode is based on the high-frequency word co-word analysis, introduces analysis results by adjusting the range of the data set. The empirical part takes the topic of " proactive health " as an example, uses DDA software to complete a co-word analysis based on the keyword optimization plan, and detects the research hotspots of proactive health. [Results/Conclusions] A keyword optimization plan is proposed, which optimizes the co-word analysis by adjusting 台 台 the scope of the data set and introducing keyword group recognition. In the empirical research part, in addition to the 平 发 布 发 布 平 5 types of research fields and 12 hotspots initially discovered, the co-word analysis based on the keyword 中 中 optimization plan expanded to identify 7 hotspots and supplemented the discovery of 5 research concepts expressed 集 集 by compound phrases. The keyword optimization mode enables small-scale concepts to focus on forming clusters, 文 论 论 文 which can be expressed in the clustering process, and also enables the concepts represented by keyword groups to be 研 家 科 家 科 研 fully presented. 科 研 论 文 集 中 发 布 平 台 国 家 科 研 论 文 集 中 发 布 平 台 国 家 国 国 家 科 研 论 文 集 中 发 布 平 台 国 家 科 研 论 文 集 中 发 布 平 台 国 Keywords: optimization plan , co-word analysis, keywords, keyword groups, proactive health, DDA

相关文章