面向中文资讯文本的分类算法研究及应用
发布时间:2017-10-19 03:47
本文关键词:面向中文资讯文本的分类算法研究及应用
更多相关文章: 贝叶斯分类算法 K最邻近分类算法 支持向量机算法 关联规则 属性简约
【摘要】:在信息以及科技高速发展的今天,互联网已经成为正常的工作和生活中不可缺少的部分,由于每时每刻都会产生来自各个领域的,纷繁复杂的新闻信息、图片以及视频信息等等,这些数据正呈现着飞速的增长状态。如何在繁杂的信息资源中寻找自己需要的,把它们分门别类的归置好,己经成为当今研究的一个热门。本文是面向中文资讯文本的分类算法的研究及应用,首先,就要了解这些分类算法,在本文中,主要介绍并实现了几种算法,包括朴素贝叶斯分类算法、K最邻近分类算法以及支持向量机分类算法,在此之前就有很多来自不同学科的人们对这些算法进行了各式各样的探索和研究,也应用在不同的环境模式中。本文通过研究和分析这几种算法的数学原理,然后再与本文的环境所结合,最终使得这几种算法都能够很好的适用于本文中对于资讯文本的分类。同时还对朴素贝叶斯分类算法进行了增加关联规则和属性简约的方式来改进其分类的准确率,经过实验证明,该算法在本文所对应的模型下,提高了对本文中中文文本分类的准确率。本文所研究的环境是一款名为圆橙高考的手机APP,这款手机APP是可以以家长或者考生的身份来做高考方面的相关咨询,还可以查看各个城市的各个学校在不同的年份中的高考分数线等等方面的信息。而在其中有资讯这一栏,这一栏就是一些相应的资讯,其中有报考、就业、留学和校园几个部分。如何把一个新闻或者文本资讯按照内容分到相应的类中去,由于每天可能会有成千上万的数据,如果单凭手工去分类,那样的工作量会非常大,几乎也是不可能的,所以采用自动分类的算法来代替繁琐的人工操作,这样不仅减少人力,物力,也能提高效率。
【关键词】:贝叶斯分类算法 K最邻近分类算法 支持向量机算法 关联规则 属性简约
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18;TP391.1
【目录】:
- 摘要5-6
- Abstract6-12
- 引言12-14
- 1 绪论14-19
- 1.1 国内外研究现状14-16
- 1.1.1 国外研究现状14-15
- 1.1.2 国内研究现状15
- 1.1.3 中文文本分类的现状15-16
- 1.2 选题背景及意义16-17
- 1.2.1 课题的背景16-17
- 1.2.2 课题的目的和意义17
- 1.3 论文的组织结构17-18
- 1.4 本章小结18-19
- 2 中文文本自动分类技术及算法19-30
- 2.1 文本分类定义19-20
- 2.2 文本分类流程20-21
- 2.3 文本的预处理21-24
- 2.3.1 文本标记预处理21-22
- 2.3.2 特征选择22-23
- 2.3.3 文本的分词方法23-24
- 2.3.4 拓展词24
- 2.4 K最近邻算法24-26
- 2.4.1 K最近邻分类算法的背景和基础24-26
- 2.4.2 K最近邻算法工作流程26
- 2.4.3 KNN算法的优缺点26
- 2.5 支持向量机分类算法26-29
- 2.5.1 支持向量机分类算法的背景和基础26-27
- 2.5.2 支持向量机分类算法的流程27-29
- 2.6 本章小结29-30
- 3 分类算法的研究及改进30-41
- 3.1 朴素贝叶斯分类算法30-34
- 3.1.1 贝叶斯分类算法背景和基础30-31
- 3.1.2 贝叶斯定理31-34
- 3.2 改进的朴素贝叶斯分类算法34-36
- 3.2.1 朴素贝叶斯分类器缺点34-35
- 3.2.2 改进思想35
- 3.2.3 粗糙集对属性约简35-36
- 3.3 关联规则36-39
- 3.4 RWNBC模型和算法39-40
- 3.5 本章小结40-41
- 4 实验结果及分析41-46
- 4.1 实验环境41
- 4.2 实验数据41-42
- 4.3 实验方法及分析42-45
- 4.4 本章小结45-46
- 5 总结和展望46-47
- 参考文献47-51
- 附录A 朴素贝叶斯分类算法实现51-57
- 致谢57-58
- 作者简介及读研期间主要科研成果58
【参考文献】
中国期刊全文数据库 前10条
1 张翔;周明全;董丽丽;闫清波;;结合粗糙集与集成学习的中文文本分类方法研究[J];计算机应用与软件;2011年01期
2 李凯齐;刁兴春;曹建军;李峰;;基于改进蚁群算法的高精度文本特征选择方法[J];解放军理工大学学报(自然科学版);2010年06期
3 王卫玲;刘培玉;初建崇;;一种改进的基于条件互信息的特征选择算法[J];计算机应用;2007年02期
4 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
5 田凤占,黄丽,于剑,黄厚宽;包含隐变量的贝叶斯网络增量学习方法[J];电子学报;2005年11期
6 马光志,陈凤华;基于关联规则的ABN分类器构造[J];计算机工程与科学;2005年05期
7 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
8 王双成,苑森淼;具有丢失数据的贝叶斯网络结构学习研究[J];软件学报;2004年07期
9 周茜,赵明生,扈e,
本文编号:1058890
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1058890.html