当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的新闻文本分类模型研究

发布时间:2020-06-08 15:39
【摘要】:在自然语言处理领域,文本分类作为一种信息处理的基础技术一直是热门的研究方向。文本分类中的每一个环节都会影响最终分类的效果,包括文本预处理、文本表示、特征选择和分类算法,这些过程中所涉及到的诸多算法都是学者们研究的焦点。随着深度学习的兴起,许多网络模型在文本分类领域表现优异。新闻文本数据具有易获取、数据量大等特点,新闻文本分类技术研究成本相对较低且属于一种支撑类的基础技术。因此,对新闻文本做自动分类技术的研究对于新闻推荐、数据新闻、广告推送等领域也都具有十分重要的影响。为了提高对新闻文本分类精度,本文主要工作以及创新点如下:1.深入研究并介绍了自然语言处理领域文本分类的基本过程,详细解释了过程中所涉及到的机器学习技术和深度学习技术。在文本表示和特征选择过程中,针对新闻文本的特点,选择词嵌入方法,借助Word2Vec工具表示文本数据,该模型既可以保证词向量的语义关系又能避免维度灾难问题,提高分类性能。2.基于已有工作,分别研究并改进了 SRB文本简化模型和嵌套LSTM模型,提出了一种基于文本简化方法的混合模型。首先,该模型通过SRB网络逐句简化新闻文本,并生成具有高语义相关性的简单句子,既简化后面句子层面的模型训练难度,又不丢失语义信息。其次,将句子向量输入到嵌套LSTM网络以学习句子间的相关性及其特征表示。3.混合模型采用了注意机制来突出关键句子的特征表达,既能适应新闻文本的特点将句子简化,又能在获取上下文特征相关性的同时突出关键句的作用,运用混合模型的思想将各个模型优势结合。4.将本文提出的模型与五种典型的深度学习模型进行比较,在三个流行的不同中文新闻数据集上设计多组对比实验,实验表明,本文所提出的模型实现了最先进的分类精度。最后,通过参数调整,探究了参数对结果的影响。
【图文】:

流程图,文本分类,测试过程,流程图


测试逡逑图2-1文本分类流程图逡逑文本分类过程主要由训练过程和测试过程两部分组成,如图2-1所示。训练过程和测逡逑试过程都需要进行文本处理中包含的步骤,这些步骤是分类的基础。随后分类器通过训练逡逑样本学习,完成之后将测试样本输入分类器进行分类预测。逡逑2.1.1文本预处理逡逑预处理是信息检索和文本挖掘中的重要任务和关键步骤。主要分三步完成:文档切分,,逡逑文本分词和去除停用词。文档切分步骤是可选操作,根据获得的文本数据形式来判断。如逡逑果数据集中的每一篇文章都属于独立的文档,则可以省略此步骤。相反,文档集只有一个逡逑文件,文章集合都存储在此文件中,则需要提取每一篇文章并将它们分别存储在单独的文逡逑件中以供将来操作。通常,如果多篇文章同属一篇文档中,则有一些标签会用于区分每一逡逑篇文章

原理图,决策树算法,原理


支(从根结点到叶结点)表示。决策树算法主要是根据决策规则将原本复杂的分类问题细逡逑化成若干个小的分类问题,自上至下递归建树,将它们转化为预测未知实例的树模型,原逡逑理如图2-3所示。逡逑有自己的房子逡逑_逦_有工作逡逑是/\逡逑n逦n逡逑是逦否逡逑图2-3决策树算法原理逡逑由图2-3可以看出,决策树思想最主要的就是选取测试属性和剪枝问题,前者实际上逡逑就是按照规则构造特征空间的方法,不同的决策树使用不同的决策规则,比如ID3算法用逡逑的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数。剪枝问题为了修复决逡逑13逡逑
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【参考文献】

相关期刊论文 前10条

1 唐亚娟;张德贤;杨琳;;基于方差分析的χ~2统计特征选择改进算法研究[J];电脑知识与技术;2015年11期

2 王锦波;王莲芝;高万林;喻健;;一种改进的朴素贝叶斯关键词提取算法研究[J];计算机应用与软件;2014年02期

3 邸鹏;段利国;;一种新型朴素贝叶斯文本分类算法[J];数据采集与处理;2014年01期

4 孙光福;吴乐;刘淇;朱琛;陈恩红;;基于时序行为的协同过滤推荐算法[J];软件学报;2013年11期

5 欧阳纯萍;阳小华;雷龙艳;徐强;余颖;刘志明;;多策略中文微博细粒度情绪分析研究[J];北京大学学报(自然科学版);2014年01期

6 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期

7 曾俊;;结合SVM和KNN的Web日志挖掘技术研究方法[J];计算机应用研究;2012年05期

8 刘伍颖;王挺;;结构化集成学习垃圾邮件过滤[J];计算机研究与发展;2012年03期

9 姜蓓蓓;吴斐;;图式理论与新闻翻译研究[J];科技信息;2011年31期

10 胡泽文;王效岳;白如江;;国内外文本分类研究计量分析与综述[J];图书情报工作;2011年06期

相关硕士学位论文 前3条

1 杨晶;基于领域词库的新闻提取技术的研究及应用[D];湖北大学;2018年

2 赵柯;面向离散属性的决策树分类方法研究[D];大连海事大学;2017年

3 张建明;基于数据挖掘的高校贫困生认定系统设计和分析[D];东南大学;2015年



本文编号:2703292

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2703292.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2b833***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com