基于文本挖掘的5G技术研究热点分析
发布时间:2021-02-02 12:41
针对5G技术,提出一种基于文本挖掘的研究热点识别的新方法。从web of science数据库中检索2013至2018年间以5G技术为主题的11 429篇科研论文,基于文本关联规则挖掘构建关键词网络,以信息熵和组合力作为指标对论文的高频关键词进行聚类分析,在此基础上识别出5G领域的三类热点技术。
【文章来源】:科技管理研究. 2020,40(19)北大核心CSSCI
【文章页数】:6 页
【部分图文】:
文献分布图11文献分布
018年间以5G技术为主题的文章,共11429篇。图1显示了各年的文献数量分布情况。从图中可以看出,2013年与5G技术相关的文献还非常少,随后逐年增加,到2017年文献数量达到最多。图11文献分布22.2关键词网络构建本文所提出的组合力概念的计算要基于关键词网络。本文所收集的11429篇文献共包年份文献数量/个2.2关键词网络构建本文所提出的组合力概念的计算要基于关键词网络。本文所收集的11…429篇文献共包括18…077个关键词。为筛选出重要的关键词,我们首先对关键词出现的频率特征进行分析。图2显示了关键词的频率分布情况。图中横轴是关键词出现的次数,纵轴是对应的频率在所有出现频率中的比例。从图中可以看出,绝大多数的关键词出现的次数都非常少。具体来讲,有13…595个关键词只出现了一次。图2中黑色的虚线是对散点图进行拟合的幂函数趋势线。拟合优度R2的值为0.871…4,表明趋势线能够很好地拟合各点的分布。由此可知,关键词出现的频率成幂律分布。幂律分布是信息计量中典型的统计分布,揭示了“重要的少数,次要的多数”的思想[18]。基于关键词幂律分布的特征,我们选择少数重要的关键词进行分析,把目标确定在出现频率在10次以上的567个关键词。图2关键词幂律分布为避免信息重复,我们首先对567个关键词进行预处理,缩写词和原词、单复数形式根据具体情形只保留一个,并在文档中做对应的处理,最终获得489个关键词。图3显示了出现频率最高的100个关键词。关键词在图中的字号越大,表示出现次数越多。图3关键词词云5GmilimeterwavemassiveMIMOenergyefficiencySDNLTEMIMOInternetofThingsNFVNOMAresourceallocationOFDMsm
…30…Massive…MIMO=>antenna1.461…%66.269…%3.135…75根据关联规则挖掘的结果,我们构建关键词网络。如果两个关键词出现在同一条关联规则中,则将这两个关键词相连。在初步构建的网络中有237个孤立节点。也就是说,有237个关键词在关联规则结果中未发现有与之进行组合的其它关键词。由于这237个节点不满足核心技术要素应具有的高组合性的特征,将其从网络中去除。关键词的程度中心度是计算组合力的基础,为准确地反映知识要素的组合力,排除非技术要素对计算结果的干扰,我们对剩余的252个关键词进行进一步筛图4关键词网络2.3聚类分析为从173个代表知识要素的关键词中识别出技术研究热点,我们首先根据本文第一节提出的公式计算出173个关键词的组合力和信息熵,然后以组合力和信息熵作为指标,使用K均值聚类法来把这些关键词划归到不同的类别。由于聚类指标的数值有较大的方差,在聚类前先对聚类指标进行了标准眩一些介绍性的高频关键词(如5G、5G…mobile…communication、5G…systems)、体现性能的关键词(如performance,…energy…efficiency,reliability)等,都从关键词网络中去除,最终保留具有技术含义的关键词173个,进而构建如图4所示的包括173个节点的关键词网络。这个关键词网络反映了5G领域的技术要素间的组合关系和技术邻近性。我们需要从这173个关键词中识别出能代表5G领域技术研究热点的关键词。化处理。我们采用轮廓系数(silhouette…width)来确定合适的聚合类数[20]。由于聚类指标数为2,一般来讲可以把关键词聚为2-4类,对应的轮廓系数分别为0.450…5、0.546…9、0.470…1。可见聚类数为3时,轮廓系数最大。因此,本文把173个关键词聚为图5所示的三类。
【参考文献】:
期刊论文
[1]稀土产业中游专利技术研发热点分析[J]. 许振亮,陈曦,刘喜美. 稀土. 2020(01)
[2]基于专利计量的技术融合研究:判定、现状与趋势——以物联网与人工智能领域为例[J]. 吕一博,韦明,林歌歌. 科学学与科学技术管理. 2019(04)
[3]核心技术解构与突破:“清华-绿控”AMT技术2000~2016年纵向案例研究[J]. 孟东晖,李显君,梅亮,齐兴达. 科研管理. 2018(06)
[4]基于专利计量与信息可视化的技术热点监测分析——以风力涡轮机技术领域为例[J]. 侯剑华,都佳妮. 现代情报. 2015(02)
本文编号:3014714
【文章来源】:科技管理研究. 2020,40(19)北大核心CSSCI
【文章页数】:6 页
【部分图文】:
文献分布图11文献分布
018年间以5G技术为主题的文章,共11429篇。图1显示了各年的文献数量分布情况。从图中可以看出,2013年与5G技术相关的文献还非常少,随后逐年增加,到2017年文献数量达到最多。图11文献分布22.2关键词网络构建本文所提出的组合力概念的计算要基于关键词网络。本文所收集的11429篇文献共包年份文献数量/个2.2关键词网络构建本文所提出的组合力概念的计算要基于关键词网络。本文所收集的11…429篇文献共包括18…077个关键词。为筛选出重要的关键词,我们首先对关键词出现的频率特征进行分析。图2显示了关键词的频率分布情况。图中横轴是关键词出现的次数,纵轴是对应的频率在所有出现频率中的比例。从图中可以看出,绝大多数的关键词出现的次数都非常少。具体来讲,有13…595个关键词只出现了一次。图2中黑色的虚线是对散点图进行拟合的幂函数趋势线。拟合优度R2的值为0.871…4,表明趋势线能够很好地拟合各点的分布。由此可知,关键词出现的频率成幂律分布。幂律分布是信息计量中典型的统计分布,揭示了“重要的少数,次要的多数”的思想[18]。基于关键词幂律分布的特征,我们选择少数重要的关键词进行分析,把目标确定在出现频率在10次以上的567个关键词。图2关键词幂律分布为避免信息重复,我们首先对567个关键词进行预处理,缩写词和原词、单复数形式根据具体情形只保留一个,并在文档中做对应的处理,最终获得489个关键词。图3显示了出现频率最高的100个关键词。关键词在图中的字号越大,表示出现次数越多。图3关键词词云5GmilimeterwavemassiveMIMOenergyefficiencySDNLTEMIMOInternetofThingsNFVNOMAresourceallocationOFDMsm
…30…Massive…MIMO=>antenna1.461…%66.269…%3.135…75根据关联规则挖掘的结果,我们构建关键词网络。如果两个关键词出现在同一条关联规则中,则将这两个关键词相连。在初步构建的网络中有237个孤立节点。也就是说,有237个关键词在关联规则结果中未发现有与之进行组合的其它关键词。由于这237个节点不满足核心技术要素应具有的高组合性的特征,将其从网络中去除。关键词的程度中心度是计算组合力的基础,为准确地反映知识要素的组合力,排除非技术要素对计算结果的干扰,我们对剩余的252个关键词进行进一步筛图4关键词网络2.3聚类分析为从173个代表知识要素的关键词中识别出技术研究热点,我们首先根据本文第一节提出的公式计算出173个关键词的组合力和信息熵,然后以组合力和信息熵作为指标,使用K均值聚类法来把这些关键词划归到不同的类别。由于聚类指标的数值有较大的方差,在聚类前先对聚类指标进行了标准眩一些介绍性的高频关键词(如5G、5G…mobile…communication、5G…systems)、体现性能的关键词(如performance,…energy…efficiency,reliability)等,都从关键词网络中去除,最终保留具有技术含义的关键词173个,进而构建如图4所示的包括173个节点的关键词网络。这个关键词网络反映了5G领域的技术要素间的组合关系和技术邻近性。我们需要从这173个关键词中识别出能代表5G领域技术研究热点的关键词。化处理。我们采用轮廓系数(silhouette…width)来确定合适的聚合类数[20]。由于聚类指标数为2,一般来讲可以把关键词聚为2-4类,对应的轮廓系数分别为0.450…5、0.546…9、0.470…1。可见聚类数为3时,轮廓系数最大。因此,本文把173个关键词聚为图5所示的三类。
【参考文献】:
期刊论文
[1]稀土产业中游专利技术研发热点分析[J]. 许振亮,陈曦,刘喜美. 稀土. 2020(01)
[2]基于专利计量的技术融合研究:判定、现状与趋势——以物联网与人工智能领域为例[J]. 吕一博,韦明,林歌歌. 科学学与科学技术管理. 2019(04)
[3]核心技术解构与突破:“清华-绿控”AMT技术2000~2016年纵向案例研究[J]. 孟东晖,李显君,梅亮,齐兴达. 科研管理. 2018(06)
[4]基于专利计量与信息可视化的技术热点监测分析——以风力涡轮机技术领域为例[J]. 侯剑华,都佳妮. 现代情报. 2015(02)
本文编号:3014714
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3014714.html