当前位置:主页 > 管理论文 > 统计学论文 >

基于统计方法的中文文本分类

发布时间:2020-08-04 21:29
【摘要】:文本分类就得利用待分类文本的模型特征来进行匹配。其过程有:文本的表达、建立分类器、评价预测结果等。目前,有一些比较成熟的分类算法,比如朴素贝叶斯、神经网络等,用到英文文本分类时效果较好,但在中文文本分类上,有时效果并不理想,原因在于英文单词与中文词语的区别。在英文文档里,单词之间都是有空格间隔开的,这样在进行分词处理时很容易就能完成;而中文文档里,字与字之间没有间隔,而且字之间不同的组合,其意思也会有很大的差别。现在,基于理解的分词、基于字符串匹配的分词和基于统计的分词是解决中文分词常用的方法。本文对中文文本的分类进行了研究,尝试了一些提高分类准确度的设想,并做了相应的实验。本文从搜狗实验室(http://www.sogou.com/labs/)下载了 480个中文文本文档,其中400个文档的类别已知,分别为财经类、健康类、教育类和军事类;另外80个文本的类别需要通过计算机来自动分类。本文首先系统阐述了几种分类算法的原理以及特点,接着对中文文本文档进行基于统计方法的分词处理,在去除停止词之后,基于TF-IDF提取了特征项,根据特征项进行分类,并比较各种分类方法的好坏。本文运用了 KNN分类算法、SVM分类算法和组合学习方法来进行文本分类,并比较了各种分类算法的好坏。各种算法模型的分类准确率均能达到80%以上,以组合学习方法里的随机森林模型的分类准确率最高,达到了 92.5%。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:C81
【图文】:

算法,样本点,类别,多数表决


…l逡逑图1邋KNN算法逡逑图1中的方形与三角形表示已知类别的样本点,圆点是待分类点。现在若取/C=3,即逡逑圈出与待分类样本点最相近的3个样本点,然后查看它们的类别。如图中的实线圆中,逡逑此时与圆点最相近的三个点分别是一个方形点和两个三角形点,这样,就将待分类的样逡逑本点归为三角形点类别;若取K=5,即圈出与待分类样本点最相近的5个样本点,然后逡逑查看它们的类别。如图中的虚线圆中,此时与圆点最相近的五个点分别是三个方形点和逡逑两个三角形点,这样,就将待分类的样本点归为方形点类别。逡逑数学描述如下,对每一个测试样例2邋=(允,;/),计算它和所有训练样例(尤>0ez)之间逡逑的距离,以确定其最近邻列表02。然后,利用多数表决来进行分类:逡逑多数表决:J邋=argmax邋^邋/(v邋=邋y

线性可分,数据集,超平面,边界


怎样找到这种最大边缘超平面;最后,将此方法推广到非线性可分的数据上。逡逑2.2.2最大边缘超平面逡逑图2里是有两个类别的样本点的数据集,分别用空心圆点和实心方格来表示。这个数逡逑据集是线性可分的,因为可以找到如此一个超平面,把这两类样本点完全分开。然而,逡逑如图2所示,这样的超平面可能有无穷个。这些超平面都没有训练误差,但是在未知的逡逑实例上能不能都有好的效果呢?答案是否定的。逡逑5逡逑

参考图,最大边缘,超平面


~柊吨袘。湛煎义贤迹插濉鱿咝钥煞质菁系目赡芫霾弑呓珏义喜慰纪迹忱铮停κ橇礁鼍霾弑呓纾扛龀矫娑加邢嘤Φ木霾弑呓缬胫杂Γ义戏直鹞汀ⅰF渲校桓銎叫杏诰霾弑呓绲某矫嫫揭频阶罱氖敌姆礁竦玫街诲义侠嗨频模硪桓銎叫杏诰霾弑呓绲某矫嫫揭频阶罱目招脑驳愕玫剑叮唬病7掷嗥鞯谋咤义显稻褪钦饬礁龀矫娴木嗬搿O匀唬傻谋咴迪灾笥冢Φ谋咴怠M迹持校畲蟊咴党义掀矫婢褪窃小e义襄危蓿玻卞澹蓿玻插邋五五义稀鲥巍鲥澹觯觯惧澹赍

本文编号:2781103

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2781103.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fd3cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com