当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习的中文文本分类算法的研究与实现

发布时间:2020-05-23 01:49
【摘要】:随着大数据时代的快速发展,文本信息数据量急剧增加,为了获取有价值的信息,提升信息获取效率,就需对这些文本信息进行分类。因此,文本分类系统的研究与实现具有重要意义。新闻文本是文本信息的一个重要组成部分,也是人们获取信息的重要方式。本文以新闻文本分类为依托,对当下文本分类算法进行改进,以新闻文本分类系统为实例对文本分类系统的设计与实现进行说明,完成文本分类算法的研究工作。本文以大数据时代背景及分类技术的发展为背景,对贝叶斯分类算法以及卷积神经网络分类算法进行了改进,以提升分类的准确度,主要工作内容有以下几个方面:第一,本文针对不同种类的文本分类方法做了调研,通过阅读文献资料,了解了文本分类的发展历史,分析了贝叶斯、KNN、SVM、决策树、Fasttext及CNN等各分类算法的利与弊;第二,对朴素贝叶斯分类算法进行了改进,提出了一种结合特征词分布情况的k-Bayes分类算法,增加了意义突出的特征词的权重,提升文本分类效率;第三,对卷积神经网络分类算法进行了改进,加入了注意力层的特征提取操作,形成基于注意力层的卷积神将网络,重新分配特征词权重值,将特征词进行进一步提炼,符合人们对于分类的理解——专注于有意义的某些词语,这对提升文本分类的准确度有较好的效果;第四,本文以新闻文本分类系统为例说明了文本分类系统的设计与实现。系统可以为用户展示直观的分类结果。分类算法的改进都是从精炼特征词的角度出发,通过实验验证,本文的分类算法确实提升了分类的准确率。
【图文】:

示意图,基本结构,示意图,分类结果


(Convolutional邋Layer)、池化层(Pooling邋Layer)和全连接层(Connection邋Layer)。输逡逑入层接收数据,卷积层和池化层主要负责复杂的特征提取工作,,全连接层负责进逡逑行文本分类操作,然后输出层展示分类结果。基本结构如图2-5所示:逡逑i逦n=L,邋!逦|逦;逡逑;逦,邋rp.,逦?逦;邋逦邋:逡逑;Convolutional邋rh逦[邋Max-Pooling]Pooling邋layer邋:逡逑.邋layer逦—逦_逦—逦.逦;邋I逦1逦:逡逑二二亚:二:逡逑 ̄J邋:逦;逦Connection邋?逡逑;逦逦;逦丨丨邋soft ̄maK邋—邋j逡逑■邋Input邋layer逦-k'逦逦逦逦逦逦^逦?逡逑!邋逦;逡逑逦—1-逦1逦1邋i邋j邋?逦Result逡逑i逦1逦:逦逦逦逦逡逑1?邋合逡逑Data邋Source逡逑图2-5邋CNN基本结构示意图逡逑2.3分类算法评价方法逡逑利用分类算法得到分类结果后,需要对结果进行评估,再对分类算法的设计逡逑进行评价,文本自动化分类的目的就是希望快速高效地得到较为正确的分类结果。逡逑常见的分类算法评价方法|57]有个方面:准确率、召回率以及?!值。根据分类预逡逑测可能发生的情况,设TP代表实际为正类且预测也为正类的文档数目,FN代逡逑表实际为正类而预测为反类的文档数目,FP代表实际为反类而预测为正类的文逡逑档数目

基于机器学习的中文文本分类算法的研究与实现


计脚
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP181

【相似文献】

相关期刊论文 前10条

1 景宁,刘雨,彭甫阳;一种实用外分类算法—快速分类-折半插入算法的研究及实现[J];小型微型计算机系统;1988年09期

2 刘隆和;许俊刚;朱平云;;一种复合自适应分类算法[J];自动化学报;1989年03期

3 段凡丁;;O(n)时间复杂性的超快速分类算法[J];西南交通大学学报;1992年03期

4 孙梦梦;唐旭清;;基于粒度空间的最小生成树分类算法[J];南京大学学报(自然科学);2017年05期

5 董贺;荣光怡;;数据挖掘中数据分类算法的比较分析[J];吉林师范大学学报(自然科学版);2008年04期

6 程建华;;数据挖掘分类算法研究综述[J];中国高新技术企业;2008年24期

7 郑智捷;幻序合并分类算法[J];计算机学报;1984年05期

8 刘红岩,陈剑,陈国青;数据挖掘中的数据分类算法综述[J];清华大学学报(自然科学版);2002年06期

9 张杰鑫;张铮;;包分类算法研究综述[J];计算机工程;2015年12期

10 刘文娟;;基于贝叶斯理论的分类算法研究[J];计算机光盘软件与应用;2014年16期

相关会议论文 前10条

1 肖健华;孙德山;吴今培;;基于支持向量数据描述的多类分类算法及其在人脸识别中的应用[A];2005年中国智能自动化会议论文集[C];2005年

2 高红霞;蔡锦龙;;基于支持向量机的印刷电路板焊点分类算法[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年

3 赵波;唐常杰;朱明放;魏大刚;左R

本文编号:2676943


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2676943.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2a150***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com