基于深度学习的新闻文本分类模型研究
【图文】:
测试逡逑图2-1文本分类流程图逡逑文本分类过程主要由训练过程和测试过程两部分组成,如图2-1所示。训练过程和测逡逑试过程都需要进行文本处理中包含的步骤,这些步骤是分类的基础。随后分类器通过训练逡逑样本学习,完成之后将测试样本输入分类器进行分类预测。逡逑2.1.1文本预处理逡逑预处理是信息检索和文本挖掘中的重要任务和关键步骤。主要分三步完成:文档切分,,逡逑文本分词和去除停用词。文档切分步骤是可选操作,根据获得的文本数据形式来判断。如逡逑果数据集中的每一篇文章都属于独立的文档,则可以省略此步骤。相反,文档集只有一个逡逑文件,文章集合都存储在此文件中,则需要提取每一篇文章并将它们分别存储在单独的文逡逑件中以供将来操作。通常,如果多篇文章同属一篇文档中,则有一些标签会用于区分每一逡逑篇文章
支(从根结点到叶结点)表示。决策树算法主要是根据决策规则将原本复杂的分类问题细逡逑化成若干个小的分类问题,自上至下递归建树,将它们转化为预测未知实例的树模型,原逡逑理如图2-3所示。逡逑有自己的房子逡逑_逦_有工作逡逑是/\逡逑n逦n逡逑是逦否逡逑图2-3决策树算法原理逡逑由图2-3可以看出,决策树思想最主要的就是选取测试属性和剪枝问题,前者实际上逡逑就是按照规则构造特征空间的方法,不同的决策树使用不同的决策规则,比如ID3算法用逡逑的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数。剪枝问题为了修复决逡逑13逡逑
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
【参考文献】
相关期刊论文 前10条
1 唐亚娟;张德贤;杨琳;;基于方差分析的χ~2统计特征选择改进算法研究[J];电脑知识与技术;2015年11期
2 王锦波;王莲芝;高万林;喻健;;一种改进的朴素贝叶斯关键词提取算法研究[J];计算机应用与软件;2014年02期
3 邸鹏;段利国;;一种新型朴素贝叶斯文本分类算法[J];数据采集与处理;2014年01期
4 孙光福;吴乐;刘淇;朱琛;陈恩红;;基于时序行为的协同过滤推荐算法[J];软件学报;2013年11期
5 欧阳纯萍;阳小华;雷龙艳;徐强;余颖;刘志明;;多策略中文微博细粒度情绪分析研究[J];北京大学学报(自然科学版);2014年01期
6 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期
7 曾俊;;结合SVM和KNN的Web日志挖掘技术研究方法[J];计算机应用研究;2012年05期
8 刘伍颖;王挺;;结构化集成学习垃圾邮件过滤[J];计算机研究与发展;2012年03期
9 姜蓓蓓;吴斐;;图式理论与新闻翻译研究[J];科技信息;2011年31期
10 胡泽文;王效岳;白如江;;国内外文本分类研究计量分析与综述[J];图书情报工作;2011年06期
相关硕士学位论文 前3条
1 杨晶;基于领域词库的新闻提取技术的研究及应用[D];湖北大学;2018年
2 赵柯;面向离散属性的决策树分类方法研究[D];大连海事大学;2017年
3 张建明;基于数据挖掘的高校贫困生认定系统设计和分析[D];东南大学;2015年
本文编号:2703292
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2703292.html