面向趋势预测的热点主题演化分析方法研究
发布时间:2024-04-19 02:25
【目的】从外部数量特征和内部文本特征两个层面,构建科学的数理模型和内容预测模型,进而对热点研究主题演化趋势进行预测分析。【方法】基于LDA模型进行主题识别并构建主题时间序列,结合均值与线性回归拟合确定热点主题;利用ARIMA模型和Word2Vec模型从主题强度和主题内容两个层面预测分析热点主题趋势。【结果】对美国干细胞领域进行实证研究,筛选出造血干细胞移植技术、癌症干细胞和干细胞抑制作用、干细胞诱导分化、衍生配子技术、造血干细胞5个热点主题并预测其发展趋势。【局限】基于Word2Vec模型对主题内容趋势进行分析主要以单个词汇为基础,解读过程中可能存在歧义。【结论】与人工解读为主的主题趋势预测分析方法相比,本研究所提方法能在一定程度上提高预测分析的效率与科学性。
【文章页数】:13 页
【部分图文】:
本文编号:3958089
【文章页数】:13 页
【部分图文】:
图1CBOW模型和Skip-Gram模型示意图[29]
作为生成词向量的经典模型之一,Word2Vec模型[28-29]得到众多学者的认可,并且集成在Python的Gensim工具包中,使用方式简洁、高效。Word2Vec中训练神经网络模型具体可以分为两种:CBOW模型和Skip-Gram模型,基本原理如图1所示。CBOW模型(Con....
图2论文数量年度分布
在干细胞(StemCell)领域进行实证研究,由于美国是干细胞研究的领先国家,主要以美国干细胞研究论文作为数据来源。具体选择WebofScience数据库收录的干细胞领域相关文献,检索策略为:以“stemcell*”作为检索词进行题名检索,时间跨度为2000年1月1日-2....
图3最优主题个数确定
由图3可知,当主题个数位于25和40时一致性分数变化发生明显转折,并且在40之后趋于稳定,即当主题个数在25之后随着主题个数的增多,一致性分数只增加了0.05,因此选取25~40之间的主题个数,结合人工判读结果最终确定主题个数为32,根据选定的最优主题个数进行LDA主题识别。32....
图4干细胞领域主题时间序列(2000年-2018年)
根据研究方法所述步骤对5个热点主题进行ARIMA模型构建,其中ARIMA模型的构建中参数确定和模型检验是十分重要的步骤,具体实验过程中利用BIC指标确定模型参数,即遍历所有可能参数计算模型BIC值,其中最小值为最优参数,从而可确定最后模型参数,结果如表3所示。确定模型参数之后,对....
本文编号:3958089
本文链接:https://www.wllwen.com/tushudanganlunwen/3958089.html