基于深度学习的文本情感分析
本文关键词: 文本情感分析 深度学习 卷积神经网络 循环神经网络 出处:《吉林大学》2016年硕士论文 论文类型:学位论文
【摘要】:随着Web 2.0时代的蓬勃发展,互联网上出现了大量的数据。人们在博客,微博,产品评论,电影评论,网络讨论群等区域留下了非常多的文本信息。这些非结构化的文本中包含了作者的思想,情感,观点以及看法。如果能够从这些非结构化的数据中提取出情感数据,将会推动自动抉择支持、网络舆情风险分析、信息预警、商品销售的发展,在科研以及实际应用中具有非常大的价值。传统的用于解决文本情感分析问题的方法包括基于知识的方法,基于统计的方法以及混合的方法。在数据量不大或者语义不够丰富的时候,这些方法能够取得一定的效果。但是随着数据量越来越大,表达方式越来越丰富,传统的方法已经无法有效地解决这一类问题,新的方法亟待提出。深度学习自2006年以来获得了人学术界以及工业界广泛的关注。虽然在整体架构上,基于深度学习的方法与传统的神经网络相似,但是由于采用了不同的数据表示方式以及训练方式,梯度扩散、过拟合等问题得到了有效地解决。目前,在图像识别,语音识别等领域,基于深度学习的方法已经取得了比传统的机器学习方法更好的效果。卷积神经网络和循环神经网络是深度学习中两个比较有效的模型,前者适合从数据中提取出局部特征,而后者能够有效地分析时序数据。单独地使用这两个模型中的一个难以在文本情感分析任务中取得令人满意的效果,因此出现了由二者共同构成的混合模型。本文针对混合模型中存在的缺陷做出了三点改进:优化输入向量序列,将文本转化为等长的输入向量序列;提出一种新的激活函数,有效缓解了梯度消失的问题并提高了模型的泛化能力;使用Max Pooling技术提取局部特征的最大值。从Yelp2015数据集的实验结果可以看出,本文提出的三点改进是有效的。此外,本文针对模型中比较重要的参数做了多组对比实验,研究了这些参数对于模型的影响。
[Abstract]:With the rapid development of the Web 2.0 era, there is a lot of data on the Internet. People on blogs, Weibo, product reviews, movie reviews, Web discussion groups and other areas leave a lot of text information. These unstructured texts contain the author's thoughts, feelings, opinions and opinions. If emotional data can be extracted from these unstructured data, Will promote the development of automatic choice support, network public opinion risk analysis, information early warning, commodity sales, It has great value in scientific research and practical application. The traditional methods used to solve the problem of text emotion analysis include knowledge-based methods. Methods based on statistics and mixed methods. When the amount of data is small or semantic is not rich enough, these methods can achieve certain results. But as the amount of data increases, the expression becomes more and more abundant. Traditional methods have not been able to solve such problems effectively, and new methods need to be proposed. Since 2006, in-depth learning has received extensive attention in both academia and industry, although in the overall framework, The method based on depth learning is similar to the traditional neural network, but the problems such as different data representation and training, gradient diffusion and over-fitting are solved effectively. In the field of speech recognition, the method based on depth learning has achieved better results than traditional machine learning methods. Convolution neural network and cyclic neural network are two more effective models in depth learning. The former is suitable for extracting local features from the data, while the latter can effectively analyze temporal data. In this paper, three improvements are made to the defects of the mixed model: optimizing the input vector sequence, transforming the text into the equal length input vector sequence, and proposing a new activation function. The problem of gradient disappearance is effectively alleviated and the generalization ability of the model is improved. The maximum value of local feature is extracted by using Max Pooling technique. The experimental results of Yelp2015 dataset show that the three improvements proposed in this paper are effective. In this paper, the effects of these parameters on the model are studied.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
7 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
8 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
9 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
10 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
相关硕士学位论文 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:1549211
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1549211.html