当前位置:主页 > 社科论文 > 图书档案论文 >

共词分析中高频词阈值确定方法的实证研究——以新冠肺炎文献高频词选取为例

发布时间:2020-10-15 02:20
   【目的/意义】高频词选取是共词分析中重要一环,高频词阈值选取结果会直接影响共词分析的效果。目前图书情报领域研究人员做共词分析时主要有自主确定法、高低频词分界公式法、普赖斯公式法等。笔者以词频g指数为基础构建了一种确定高频词阈值的方法,对上述高频词阈值确定方法进行实证研究,探究了不同高频词阈值确定方法选词的实际效果。【方法/过程】本文以中国知网中收录的新型冠状病毒肺炎主题论文为数据来源,利用不同高频词阈值确定方法选取对应高频词。利用excel统计数据并构造共词矩阵,借助spss软件对矩阵进行聚类分析。【结果/结论】笔者发现基于词频g指数的方法取得了良好的共词聚类效果,为该方法的实际应用做了有益的尝试。
【部分图文】:

聚类,高频词,普赖斯,冠状病毒


情报科学第38卷第9期2020年9月·业务研究业务研究·图1普赖斯公式法确定的高频词聚类分析树状图(阈值取22.5)将相异矩阵导入spss进行聚类分析,聚类方法采用组间联接法,度量方式为欧氏距离,聚类结果如图1、图2所示。在阈值22.5处划分相应类别,可以发现普莱斯法和基于词频g指数法均获得5个类团。从图1中可以发现,类团1、类团3及类团5描述的内容均以新型冠状病毒为主,三大类团中内容并无特别明显差异。若将阈值设为23.5,如图3所示,可得四个类团,但类团1与类团4内容依旧差别不大。从图2可以发现基于词频g指数法确定的高频词可以划分为以下5大研究大类:第一类词同网络药理学关系较为密切,第二类词多与新型冠状病毒相关联,第三类词由新型冠状病毒感染、体层摄影术等词组成。因新型冠状病毒会感染患者肺部,针对患者CT影像进行分析的论文也较多。第四类可归纳为新型冠状病毒核酸检测及儿童病例诊断与治疗。第五类词主要包含新型冠状病毒肺炎、药学监护、中药、诊疗方案、防护等词汇,可归结为新冠肺炎的防控与治疗。图3普赖斯公式法确定的高频词聚类分析树状图(阈值取23.5)图1和图3表明在本次研究中普赖斯公式法选取的词数目尚可,但聚类效果一般。因为普赖斯公式所确定的高频词主题多集中于新型冠状病毒这一个概念,与新冠肺炎相关的近义词约占其全部提取高频词的82%,对于其他方面内容的词汇并未涉及太多,导致类团内容倾向于一个主题方向。图2中的高频词进行共词聚类分析后共获得了五个不同方面表2普赖斯法所确定的高频词相异矩阵(局部)表3基于词频g指数法所确定的高频词相异矩阵(局部)肺?

树状图,词频,指数法,热点


谌范ǜ咂荡抒兄凳保?渲挡挥傻ヒ槐淞?决定,而是由关键词累加总频次和单一关键词频次两个变量共同决定,两变量间联系较为密切,而变量与整体集合间亦存在关联,其确定的高频词阈值不容易失真。该法既不会遗漏超高频次词,也可较好保留了次高频次词,可较好得获得热点研究趋势中具体的热点内容。与词频g指数确定法相比,基于词频g指数确定法计算所得阈值不容易溢出,在不同的数据中具有更好的适用性。在本次实证研究中,我们对共词分析中若干高频词阈值确定方法及基于词频g指数法进行了实证研究,发现基于词图2基于词频g指数法确定的高频词聚类分析树状图(阈值取22.5)--94
【相似文献】

相关期刊论文 前1条

1 费晓璐;江澜;陈鹏宇;李嘉;魏岚;江瑞;闾海荣;;基于自然语言处理进行新冠肺炎确诊患者流行病学史的变化趋势分析的探索[J];中国数字医学;2020年05期



本文编号:2841542

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2841542.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aecf0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com