基于LSTM和LDA的可再生能源领域主题分类研究
发布时间:2021-08-19 18:04
如今,各学科的科研文献数量都呈现快速增长的趋势,并且学科之间日益深化交叉,呈现出研究主题分支众多,发展不平衡的状态,这种情况加重了科研人员精准搜索信息的难度,也不利于科研人员理清学科的研究进展和跟踪领域前沿。本文以研究电气电子学科可再生能源领域的文献为例,作为这个重要领域的一个新尝试,将隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)和长短期记忆网络(Long Short-Term Memory,LSTM)方法运用到该领域的主题分布探测中,旨在为学术研究人员提供该领域最清晰的发展背景和组织结构。首先,本文通过应用统计分析,LDA主题模型和自回归整合移动平均模型(AutoRegressive Integrated Moving Average,ARIMA),将电气电子学科可再生能源领域文献划分为29个不同的主题,并在两个时间段内分析主题的增长特征。在此基础上,根据每个主题的发展轨迹,预测它们未来的发展热度,并分类为冷,热和稳定三种。本文还汇总了每个主题中最受欢迎的期刊和引文的统计数据,从而使研究人员和期刊编辑易于欣赏和应用,进而本文结合现有技术和文献分析...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
图2-1连续词袋模型的训练框架??CBOW模型是具有三层结构的神经网络:输入层,投影层和输出层[35]
?yp{zx\dD)?■■■?p{zK\dD)y??每个主题i由大小为V的词汇表(所有文档中的单词集合)的概率分布??确定,表示以主题T为条件在词汇表中检测单词v的可能性。LDA??模型认为一篇文档是通过以下过程生成的:??第一步:从泊松分布中抽取文档长度??第二步:通过狄利克雷分布获取文档的主题分布0??第三步:生成一篇文档的每一个词时for?n=l?to?N:??(a):从文档的主题分布中,抽取一个特定主题脑omz_a/(<9);??(b):从概率,约抽取一个单词wn。??图2-2为LDA概率模型图,分为三层级别,参数a和户是语料库级的??参数,在生成语料库的时采样一次。变量&是文档级的变量,更薪每篇文档??时采样一次。\?和%?是单词级变量,更新每个单词时采样一次。??a-ofo^tn??a?〇?z?w?n??D??图2-2?LDA概率模型图??10??
?山东大学硕士学位论文???根据图2-2,可知户(4?|?a)表示以a为条件观察文档d的主题分布&的概??率。;?(7,??丨&)表示在文档的主题分布条件概率下,文档d中单词XI的主题??是的概率。最终在和/?的条件概率下,第d篇文章第n个单词的概??率是通过计算所有可能的主题分配、文档中所有单词的乘??积和文本中所有文档的乘积之和,语料库生成的概率为公式P-5)。??D?f?N,?)??Y[p^ed?I??)?nZ^,??I?&j)P(Wd,n?I?■?(2-5)??j=i?Vn=l?Zd-??y????LDA建模的目标是找到每篇文档中每个单词的最佳主题分配,以及最??大化每个主题的最佳单词概率,若直接求解需要将所有文档中所有单词的所??有可能主题分配相加,然而计算上无法实现,因此,LDA的核心推理问题??是确定给定文档的潜在变量的后验分布[9],如公式(2-6)。??p^Z\W,a,P)?=?P^zMa^)?(2-6)??p{w\a,P)??David?Blie提出的利用变分推理方法为近似似然和后验分布求解提供了??一种确定性方法[37]。变分推理的基础是基于凸函数Jensen不等式的性质,??通过近似LDA后验分布从而将计算问题重新表述为一个优化问题,近似后??验分布的变分分布概率模型图如图2-3所示,近似分布的分布特征为式P-7):??q{0,?z\/,</>)?=?q{61?r)Yl^zn?1(2-7)??'.爾?.???D_??图2-3近似LDA后验的变分分布概率模型图??最后利用EM算法在E步中找到变分参数最优化值。在M步中最??大化对数似然,求解模型的a和0参数。?
【参考文献】:
期刊论文
[1]转型时代能源安全问题思考与中国方案[J]. 李俊峰,江思羽. 中国能源. 2020(01)
[2]专业社交媒体中的主题知识元抽取方法研究[J]. 林杰,苗润生,张振宇. 图书情报工作. 2019(14)
[3]整合主题的学科知识网络构建与演化分析框架研究[J]. 关鹏,王曰芬,曹嘉君. 情报科学. 2018(09)
[4]基于CTM模型的观点挖掘和可视化[J]. 马长林,谢罗迪,陈梦丽. 计算机工程与科学. 2018(04)
[5]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松. 农业机械学报. 2017(10)
[6]时间序列数据挖掘综述[J]. 贾澎涛,何华灿,刘丽,孙涛. 计算机应用研究. 2007(11)
本文编号:3351883
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
图2-1连续词袋模型的训练框架??CBOW模型是具有三层结构的神经网络:输入层,投影层和输出层[35]
?yp{zx\dD)?■■■?p{zK\dD)y??每个主题i由大小为V的词汇表(所有文档中的单词集合)的概率分布??确定,表示以主题T为条件在词汇表中检测单词v的可能性。LDA??模型认为一篇文档是通过以下过程生成的:??第一步:从泊松分布中抽取文档长度??第二步:通过狄利克雷分布获取文档的主题分布0??第三步:生成一篇文档的每一个词时for?n=l?to?N:??(a):从文档的主题分布中,抽取一个特定主题脑omz_a/(<9);??(b):从概率,约抽取一个单词wn。??图2-2为LDA概率模型图,分为三层级别,参数a和户是语料库级的??参数,在生成语料库的时采样一次。变量&是文档级的变量,更薪每篇文档??时采样一次。\?和%?是单词级变量,更新每个单词时采样一次。??a-ofo^tn??a?〇?z?w?n??D??图2-2?LDA概率模型图??10??
?山东大学硕士学位论文???根据图2-2,可知户(4?|?a)表示以a为条件观察文档d的主题分布&的概??率。;?(7,??丨&)表示在文档的主题分布条件概率下,文档d中单词XI的主题??是的概率。最终在和/?的条件概率下,第d篇文章第n个单词的概??率是通过计算所有可能的主题分配、文档中所有单词的乘??积和文本中所有文档的乘积之和,语料库生成的概率为公式P-5)。??D?f?N,?)??Y[p^ed?I??)?nZ^,??I?&j)P(Wd,n?I?■?(2-5)??j=i?Vn=l?Zd-??y????LDA建模的目标是找到每篇文档中每个单词的最佳主题分配,以及最??大化每个主题的最佳单词概率,若直接求解需要将所有文档中所有单词的所??有可能主题分配相加,然而计算上无法实现,因此,LDA的核心推理问题??是确定给定文档的潜在变量的后验分布[9],如公式(2-6)。??p^Z\W,a,P)?=?P^zMa^)?(2-6)??p{w\a,P)??David?Blie提出的利用变分推理方法为近似似然和后验分布求解提供了??一种确定性方法[37]。变分推理的基础是基于凸函数Jensen不等式的性质,??通过近似LDA后验分布从而将计算问题重新表述为一个优化问题,近似后??验分布的变分分布概率模型图如图2-3所示,近似分布的分布特征为式P-7):??q{0,?z\/,</>)?=?q{61?r)Yl^zn?1(2-7)??'.爾?.???D_??图2-3近似LDA后验的变分分布概率模型图??最后利用EM算法在E步中找到变分参数最优化值。在M步中最??大化对数似然,求解模型的a和0参数。?
【参考文献】:
期刊论文
[1]转型时代能源安全问题思考与中国方案[J]. 李俊峰,江思羽. 中国能源. 2020(01)
[2]专业社交媒体中的主题知识元抽取方法研究[J]. 林杰,苗润生,张振宇. 图书情报工作. 2019(14)
[3]整合主题的学科知识网络构建与演化分析框架研究[J]. 关鹏,王曰芬,曹嘉君. 情报科学. 2018(09)
[4]基于CTM模型的观点挖掘和可视化[J]. 马长林,谢罗迪,陈梦丽. 计算机工程与科学. 2018(04)
[5]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松. 农业机械学报. 2017(10)
[6]时间序列数据挖掘综述[J]. 贾澎涛,何华灿,刘丽,孙涛. 计算机应用研究. 2007(11)
本文编号:3351883
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3351883.html