基于LSTM和LDA的可再生能源领域主题分类研究

发布时间：2021-08-19 18:04

　　如今,各学科的科研文献数量都呈现快速增长的趋势,并且学科之间日益深化交叉,呈现出研究主题分支众多,发展不平衡的状态,这种情况加重了科研人员精准搜索信息的难度,也不利于科研人员理清学科的研究进展和跟踪领域前沿。本文以研究电气电子学科可再生能源领域的文献为例,作为这个重要领域的一个新尝试,将隐含狄利克雷分布（Latent Dirichlet Allocation,LDA）和长短期记忆网络（Long Short-Term Memory,LSTM）方法运用到该领域的主题分布探测中,旨在为学术研究人员提供该领域最清晰的发展背景和组织结构。首先,本文通过应用统计分析,LDA主题模型和自回归整合移动平均模型（AutoRegressive Integrated Moving Average,ARIMA）,将电气电子学科可再生能源领域文献划分为29个不同的主题,并在两个时间段内分析主题的增长特征。在此基础上,根据每个主题的发展轨迹,预测它们未来的发展热度,并分类为冷,热和稳定三种。本文还汇总了每个主题中最受欢迎的期刊和引文的统计数据,从而使研究人员和期刊编辑易于欣赏和应用,进而本文结合现有技术和文献分析...

【文章来源】：山东大学山东省 211工程院校 985工程院校教育部直属院校

【文章页数】：82 页

【学位级别】：硕士

【部分图文】：

图２－１连续词袋模型的训练框架??ＣＢＯＷ模型是具有三层结构的神经网络：输入层，投影层和输出层［３５］

概率模型,文档,单词,主题

?ｙｐ｛ｚｘ＼ｄＤ）?■■■?ｐ｛ｚＫ＼ｄＤ）ｙ??每个主题ｉ由大小为Ｖ的词汇表（所有文档中的单词集合）的概率分布??确定，表示以主题Ｔ为条件在词汇表中检测单词ｖ的可能性。ＬＤＡ??模型认为一篇文档是通过以下过程生成的：??第一步：从泊松分布中抽取文档长度??第二步：通过狄利克雷分布获取文档的主题分布０??第三步：生成一篇文档的每一个词时ｆｏｒ?ｎ＝ｌ?ｔｏ?Ｎ：??（ａ）：从文档的主题分布中，抽取一个特定主题脑ｏｍｚ＿ａ／（＜９）；??（ｂ）：从概率，约抽取一个单词ｗｎ。??图２－２为ＬＤＡ概率模型图，分为三层级别，参数ａ和户是语料库级的??参数，在生成语料库的时采样一次。变量＆是文档级的变量，更薪每篇文档??时采样一次。＼？和％？是单词级变量，更新每个单词时采样一次。??ａ－ｏｆｏ＾ｔｎ??ａ?〇?ｚ?ｗ?ｎ??Ｄ??图２－２?ＬＤＡ概率模型图??１０??

变分,概率模型,最优化,文档

?山东大学硕士学位论文???根据图２－２，可知户（４?｜?ａ）表示以ａ为条件观察文档ｄ的主题分布＆的概??率。；？（７，?？丨＆）表示在文档的主题分布条件概率下，文档ｄ中单词ＸＩ的主题??是的概率。最终在和／？的条件概率下，第ｄ篇文章第ｎ个单词的概??率是通过计算所有可能的主题分配、文档中所有单词的乘??积和文本中所有文档的乘积之和，语料库生成的概率为公式Ｐ－５）。??Ｄ?ｆ?Ｎ，?）??Ｙ［ｐ＾ｅｄ?Ｉ?？）?ｎＺ＾，？?Ｉ?＆ｊ）Ｐ（Ｗｄ，ｎ?Ｉ?■?（２－５）??ｊ＝ｉ?Ｖｎ＝ｌ?Ｚｄ－？?ｙ?？??ＬＤＡ建模的目标是找到每篇文档中每个单词的最佳主题分配，以及最??大化每个主题的最佳单词概率，若直接求解需要将所有文档中所有单词的所??有可能主题分配相加，然而计算上无法实现，因此，ＬＤＡ的核心推理问题??是确定给定文档的潜在变量的后验分布［９］，如公式（２－６）。??ｐ＾Ｚ＼Ｗ，ａ，Ｐ）?＝?Ｐ＾ｚＭａ＾）?（２－６）??ｐ｛ｗ＼ａ，Ｐ）??Ｄａｖｉｄ?Ｂｌｉｅ提出的利用变分推理方法为近似似然和后验分布求解提供了??一种确定性方法［３７］。变分推理的基础是基于凸函数Ｊｅｎｓｅｎ不等式的性质，??通过近似ＬＤＡ后验分布从而将计算问题重新表述为一个优化问题，近似后??验分布的变分分布概率模型图如图２－３所示，近似分布的分布特征为式Ｐ－７）：??ｑ｛０，?ｚ＼／，＜／＞）?＝?ｑ｛６１?ｒ）Ｙｌ＾ｚｎ?１（２－７）??＇．爾?．???Ｄ＿??图２－３近似ＬＤＡ后验的变分分布概率模型图??最后利用ＥＭ算法在Ｅ步中找到变分参数最优化值。在Ｍ步中最??大化对数似然，求解模型的ａ和０参数。?

【参考文献】：
期刊论文
[1]转型时代能源安全问题思考与中国方案[J]. 李俊峰,江思羽.  中国能源. 2020(01)
[2]专业社交媒体中的主题知识元抽取方法研究[J]. 林杰,苗润生,张振宇.  图书情报工作. 2019(14)
[3]整合主题的学科知识网络构建与演化分析框架研究[J]. 关鹏,王曰芬,曹嘉君.  情报科学. 2018(09)
[4]基于CTM模型的观点挖掘和可视化[J]. 马长林,谢罗迪,陈梦丽.  计算机工程与科学. 2018(04)
[5]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松.  农业机械学报. 2017(10)
[6]时间序列数据挖掘综述[J]. 贾澎涛,何华灿,刘丽,孙涛.  计算机应用研究. 2007(11)

本文编号：3351883

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3351883.html

上一篇：基于自适应终端滑模的模块化机械臂分散轨迹跟踪控制方法研究
下一篇：“夸夸群”互动仪式链中的情感呈现研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|