随着信息技术的快速发展,信息海量增长,如何从大量数据中获取有用信息是人们急需解决的问题。信息多数是以文本的形式出现,而中文是世界上使用人数最多的语言,所以研究中文文本分类具有重要意义。文本分类可以高效的组织和管理信息,实现快速、准确的定位信息,有效的缓解了信息混乱无序的现象。文本分类的问题是维数高、稀疏性大和特征关联度高,而支持向量机在解决这些问题上具有很大的优势,因此,支持向量机广泛应用于文本分类中。但是,支持向量机也有一些缺点,例如,样本数量增多导致分类速度变慢,参数对算法的学习性能和泛化能力影响较大。目前传统的支持向量机参数的寻优方法存在一些缺陷,比如搜索能力较弱和准确率不高等问题。本文针对以上问题,在优化支持向量机参数方面进行了详细的研究,以达到提高文本分类的准确率和减少分类时间的效果。本文的主要研究内容如下:首先,论文系统的概述了文本分类的研究背景及意义,海内外研究和未来的发展前景,介绍了文本分类的相关理论和关键技术,对比了文本分类中常用的算法。通过实验证明,SVM是分类效果相对较好的算法。然后,针对支持向量机参数选取困难的现象,本文引入了萤火虫算法,并对其进行改进,将改进后的算法来优化支持向量机参数。通过实验进行对比,验证了改进后的萤火虫算法在早期全局搜索能力增强,在后期收敛速度加快,提高了算法的性能。其次,将改进后的萤火虫算法应用于SVM参数优化中,并将优化后的参数应用于训练SVM模型中。最后,通过实验对比标准支持向量机和改进后萤火虫算法优化的支持向量机在文本分类中的效果。实验结果显示,改进的支持向量机模型应用在文本分类时,分类速度加快,分类的精准率明显提高,增强了支持向量机的分类性能,验证了改进算法的有效性。
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP18;TP391.1
文章目录
摘要
Abstract
第1章 绪论
1.1 选题背景及意义
1.2 国内外研究现状
1.2.1 文本分类概述
1.2.2 SVM概述
1.3 本文工作
1.4 论文的组织安排
第2章 文本分类相关理论与技术
2.1 文本分类一般过程
2.2 文本预处理
2.2.1 处理文本标记
2.2.2 中文分词
2.2.3 过滤停用词
2.3 文本表示
2.4 特征处理
2.4.1 特征提取
2.4.2 特征加权
2.5 分类性能评价标准
2.6 本章小结
第3章 文本分类方法对比研究
3.1 朴素贝叶斯算法
3.2 k近邻算法
3.3 支持向量机算法
3.3.1 线性可分支持向量
3.3.2 线性不可分
3.3.3 核函数
3.4 实验结果与分析
3.5 本章小结
第4章 改进的SVM参数优化方法
4.1 SVM参数
4.2 SVM参数优化方法
4.2.1 交叉验证法
4.2.2 网格搜索法
4.3 萤火虫算法优化SVM参数
4.3.1 标准萤火虫算法
4.3.2 算法原理
4.3.3 萤火虫算法优化SVM参数
4.4 改进的萤火虫算法优化SVM参数
4.4.1 改进的萤火虫算法
4.4.2 SVM参数优化
4.4.3 实验对比与分析
4.5 本章小结
第5章 文本分类实验及结果分析
5.1 实验说明
5.2 文本分类测试语料
5.3 文本分类实验过程
5.4 实验结果与分析
5.5 本章小结
第6章 总结与展望
6.1 本文总结
6.2 研究展望
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
【参考文献】
相关期刊论文 前10条
1 王振武;孙佳骏;尹成峰;;改进粒子群算法优化的支持向量机及其应用[J];哈尔滨工程大学学报;2016年12期
2 赵宇;陈锐;刘蔚;;集成特征选择的最优化支持向量机分类器模型研究[J];计算机科学;2016年08期
3 冯晓琳;宁芊;雷印杰;陈思羽;;基于改进型人工鱼群算法的支持向量机参数优化[J];计算机测量与控制;2016年05期
4 张进;丁胜;李波;;改进的基于粒子群优化的支持向量机特征选择和参数联合优化算法[J];计算机应用;2016年05期
5 陈健飞;蒋刚;杨剑锋;;改进ABC-SVM的参数优化及应用[J];机械设计与制造;2016年01期
6 詹增荣;曾青松;;基于径向基函数插值与SVM的协同过滤算法[J];计算机与现代化;2015年08期
7 杨海;丁毅;沈海斌;;基于改进萤火虫算法的SVM核参数选取[J];计算机应用与软件;2015年06期
8 李琼;陈利;;一种改进的支持向量机文本分类方法[J];计算机技术与发展;2015年05期
9 朱书伟;周治平;张道文;;基于改进多目标萤火虫算法的模糊聚类[J];计算机应用;2015年03期
10 王超学;张涛;马春森;;改进SVM-KNN的不平衡数据分类[J];计算机工程与应用;2016年04期
相关硕士学位论文 前10条
1 任倚天;基于支持向量机的海量文本分类并行化技术研究[D];北京理工大学;2016年
2 王蕾;一种人工萤火虫群优化算法改进的研究[D];青岛理工大学;2015年
3 李瑞青;改进的萤火虫算法及应用[D];吉林大学;2015年
4 薛松;基于机器学习的文本处理技术研究与应用[D];北京邮电大学;2015年
5 徐晓明;SVM参数寻优及其在分类中的应用[D];大连海事大学;2014年
6 杜芳华;基于半监督学习的文本分类算法研究[D];北京工业大学;2014年
7 王影;基于最近邻子空间搜索的文本分类算法[D];北京工业大学;2014年
8 李学学;基于数据预处理和回归分析技术的数据挖掘算法及其应用研究[D];兰州交通大学;2014年
9 辛竹;文本分类中的特征提取算法研究与改进[D];北京邮电大学;2014年
10 杨海;SVM核参数优化研究与应用[D];浙江大学;2014年
本文编号:
2023746
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2023746.html