当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的文本分类研究

发布时间:2020-05-31 22:51
【摘要】:随着互联网的发展,产生了大量的非结构化数据,尤其是每天更新的新闻文本。本文从两个方面对新闻文本进行研究,分别是文本的主题分类和文本的情感分析。根据文本的主题内容对文本进行分类,可以使复杂多样的文本变得容易管理,也可以方便学校、公司、医院、以及各类需要处理文本数据的组织机构依照特定的分类准则对源源不断产生的各种文本类数据进行分类。通过对文本的情感倾向性进行分析研究,在电商平台中的商品用户评论中可以反映出某商品受顾客的满意程度;在博客中可以反映群众对于某类事件的情感态度,以及社会舆论的走向;在影视评论中,可以反映出某些影视作品受观众的喜爱程度等。而对于新闻类文本的情感分析可以反映出某行业领域或某些企业的前景是利好还是隐患,或者某些社会热点新闻事件是正能量还是负能量等等。在文本主题分类模型的研究中,利用长短时记忆神经网络(LSTM神经网络)训练文本主题分类模型。首先爬取带有文本主题类别标签的新闻语料,根据语料的特征进行相应的数据清洗工作,之后经过分词、去停用词、将类别标签映射为数字等数据预处理工作,再将文本转化为词向量作为LSTM神经网络的输入,研究了训练神经网络过程中主要的超参数,通过多组基于不同超参数值的对比实验,确定了合适的超参数训练模型,最终还实现了文本主题分类的前端界面设计及应用。在文本情感分析模型的研究中,使用的是fastText神经网络训练文本情感分析模型。首先根据文本特征进行数据清洗,如去除广告类噪音数据、过长过短以及不规范的新闻文本,再经过分词等数据预处理后作为fastText神经网络的输入,训练文本情感分析模型。基于文本情感分析模型研究的基础上又引进了集成学习的思想,通过对训练样本的重采样,训练多个弱分类器,之后再通过基于结合策略为加权投票的bagging集成学习算法联合成为一个强分类器,将弱分类器联合后的强分类器有更高的准确率,而且能适应更多不同的数据集,有更强的泛化性,在文本情感分析的研究中有很大的理论意义和实用价值。
【图文】:

袋模


图 2.1 词袋模型Fig. 2.1 Word bag model画词与词之间的相似性(词汇鸿沟)。因为使用一点何语义联系,,词向量之间都是独立的。词向量作为神经网络的输入,为了使计算过程不过于

原理图,原理,神经网络训练,输入向量


图 2.2 词向量的生成原理Fig. 2.2 Generation principle of word vector是神经网络训练过程的中间产物[38]。输入层是一个 V 维的一点式向个输入向量[x1,x2,……,xv],该向量视为 V 个单元,其中一个单元的
【学位授予单位】:沈阳工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP181

【相似文献】

相关期刊论文 前10条

1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期

2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期

4 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期

5 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期

6 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期

7 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期

8 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期

9 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期

10 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期

相关会议论文 前10条

1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年

3 周纯洁;黎]

本文编号:2690581


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2690581.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8054e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com