当前位置:主页 > 科技论文 > 自动化论文 >

基于改进支持向量机的数据挖掘分类算法研究

发布时间:2017-09-12 15:36

  本文关键词:基于改进支持向量机的数据挖掘分类算法研究


  更多相关文章: 数据挖掘 分类 支持向量机 隶属度函数 不平衡数据集 旋转森林算法 核SMOTE方法


【摘要】:随着信息技术与计算机技术的飞速发展,数据出现爆炸式增长。而这些海量的数据中隐藏着丰富的深具价值的信息和知识,如何对这些信息和知识进行有效的提取并加以利用,成为研究的重点。近年来不断发展的数据挖掘技术就是一种能够帮助人们发掘潜在有用信息的重要手段。支持向量机(SVM)作为一种有效的数据挖掘分类算法,它以统计学习理论为基础引入结构风险最小化,通过在属性空间中构建最优分类超平面获得分类器实现对未知样本的分类,具有泛化能力强,较好的非线性数据处理等优点,但也存在一些不足。本文主要围绕SVM算法展开分析与研究,主要研究成果如下:1.针对FSVM应用于数据挖掘分类中存在对大样本集训练速度慢及对噪声点敏感影响分类正确率的问题,提出了一种基于改进FSVM的数据挖掘分类算法,该算法首先利用预选候选支持向量的方法减少训练样本数目;其次定义一种新的隶属度函数增强支持向量作用,并将近邻样本密度运用于隶属度函数设计中,降低噪声点对分类的影响。试验通过与FSVM和基于类向心度的模糊支持向量机(CCD-FSVM)算法的结果对比,验证提出算法的有效性。此外针对FSVM算法进行数据挖掘分类时分类速度慢的问题,在保证分类正确率的前提下,提出了一种改进的数据挖掘FSVM分类算法。该算法使用预选候选支持向量的方法减少训练样本数目,并训练FSVM得到支持向量集;其次将粒子群优化运用到选择最优支持向量子集中,减少支持向量数目从而提高分类速度。仿真结果表明该算法在保证分类正确率的前提下,相比SVM和FSVM训练速度和分类速度更快。2.针对球向量机(BVM)虽然相较SVM具有较快的训练速度,但是当样本数目不均衡时存在分类性能较差的问题,提出了一种基于改进BVM的不平衡数据集分类算法。该算法先利用训练集分解思想对负类样本进行分解,并分别与正类样本组成平衡训练样本集,然后用旋转森林算法对得到的平衡训练样本集进行预处理并训练基分类器,最后利用集成技术对基分类器的分类结果进行集成,提高BVM的分类性能。试验通过对UCI数据集进行测试,与BVM、ESt SVM、Ada Boost-SVM-OBMS和En SVM算法进行对比,表明该算法对于不同的不平衡数据集分类结果相对稳定分类性能较高,验证了其有效性。3.针对现实生活中存在大量高维不平衡数据,但传统数据挖掘分类算法处理该分类问题时由于受到样本分布和维数的影响导致分类性能不高的问题,提出了一种基于SVM的高维不平衡数据集分类算法。该算法利用改进的核SMOTE算法合成正类样本解决样本分布不均衡的问题,然后在特征空间中运用稀疏表示的特征选择算法对高维数据集进行降维,最后寻找合成样本在输入空间的原像,运用SVM进行分类。对UCI数据集的测试结果表明,该算法能有效提高对高维不平衡数据集的分类性能。
【关键词】:数据挖掘 分类 支持向量机 隶属度函数 不平衡数据集 旋转森林算法 核SMOTE方法
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18;TP311.13
【目录】:
  • 摘要7-9
  • Abstract9-13
  • 第1章 绪论13-18
  • 1.1 研究背景和意义13-14
  • 1.2 数据挖掘的研究概况14
  • 1.3 数据挖掘中分类算法的发展14-16
  • 1.3.1 数据挖掘分类算法14-15
  • 1.3.2 新型支持向量机15-16
  • 1.4 本文研究主要内容16-17
  • 1.5 本文组织结构17-18
  • 第2章 支持向量机及模糊支持向量机18-23
  • 2.1 支持向量机18-21
  • 2.1.1 统计学习理论18-19
  • 2.1.2 SVM理论19-21
  • 2.2 模糊支持向量机21-22
  • 2.3 本章小结22-23
  • 第3章 基于改进FSVM的数据挖掘分类算法23-35
  • 3.1 引言23-24
  • 3.2 基于改进FSVM的数据挖掘分类算法24-28
  • 3.2.1 预选有效的候选支持向量24-25
  • 3.2.2 一种新的模糊隶属度函数25-26
  • 3.2.3 基于近邻样本密度的模糊隶属度函数设计26-27
  • 3.2.4 算法步骤27-28
  • 3.3 一种改进的数据挖掘FSVM分类算法28-30
  • 3.3.1 基本思想28
  • 3.3.2 粒子群优化算法28
  • 3.3.3 编码方式28-29
  • 3.3.4 适应度函数29
  • 3.3.5 算法步骤29-30
  • 3.4 仿真实验和结果分析30-34
  • 3.4.1 基于改进FSVM的数据挖掘分类算法的测试30-32
  • 3.4.2 一种改进的数据挖掘FSVM分类算法的测试32-34
  • 3.5 本章小结34-35
  • 第4章 基于改进球向量机的不平衡数据集分类算法35-45
  • 4.1 引言35-36
  • 4.2 球向量机(BVM)36-38
  • 4.2.1 相关概念36-37
  • 4.2.2 球向量机实现原理37
  • 4.2.3 BVM基本算法步骤37-38
  • 4.3 旋转森林算法38-39
  • 4.4 基于改进BVM的不平衡数据集分类算法39-41
  • 4.4.1 基于改进BVM的不平衡数据集分类算法基本思想39
  • 4.4.2 基于改进BVM的不平衡数据集分类算法基本步骤39-41
  • 4.5 仿真实验及结果分析41-44
  • 4.5.1 评价标准41-42
  • 4.5.2 仿真实验结果及分析42-44
  • 4.6 本章小结44-45
  • 第5章 基于SVM的高维不平衡数据集分类算法45-55
  • 5.1 引言45-46
  • 5.2 改进的核SMOTE算法46-47
  • 5.3 核稀疏表示特征选择算法47-48
  • 5.4 寻找合成样本原像48-50
  • 5.5 基于SVM的高维不平衡数据集分类算法基本步骤50-52
  • 5.6 仿真实验和结果分析52-54
  • 5.7 本章小结54-55
  • 第6章 结论与展望55-57
  • 6.1 结论55-56
  • 6.2 展望56-57
  • 参考文献57-63
  • 致谢63-64
  • 附录 攻读学位期间所发表的学术论文64

【参考文献】

中国期刊全文数据库 前10条

1 李洪成;吴晓平;陈燕;;MapReduce框架下支持差分隐私保护的k-means聚类方法[J];通信学报;2016年02期

2 王平;吴剑;;基于模糊加权近似支持向量机的Web文本分类[J];计算机应用与软件;2015年05期

3 高智勇;霍伟汉;高建民;姜洪权;;化工系统海量数据的扩散映射和异常辨识[J];计算机集成制造系统;2014年12期

4 尹华;胡玉平;;基于随机森林的不平衡特征选择算法[J];中山大学学报(自然科学版);2014年05期

5 古平;欧阳源怞;;基于混合采样的非平衡数据集分类研究[J];计算机应用研究;2015年02期

6 许翠云;业宁;;基于类向心度的模糊支持向量机[J];计算机工程与科学;2014年08期

7 饶萍;王建力;王勇;;基于多特征决策树的建设用地信息提取[J];农业工程学报;2014年12期

8 汪海燕;黎建辉;杨风雷;;支持向量机理论及算法研究综述[J];计算机应用研究;2014年05期

9 何清;李宁;罗文娟;史忠植;;大数据下的机器学习算法综述[J];模式识别与人工智能;2014年04期

10 强彦;裴博;赵涓涓;路景贵;;模糊支持向量机在肺结节良恶性分类中的应用[J];清华大学学报(自然科学版);2014年03期

中国博士学位论文全文数据库 前1条

1 朱林;基于特征加权与特征选择的数据挖掘算法研究[D];上海交通大学;2013年

中国硕士学位论文全文数据库 前2条

1 杨二伟;基于改进非平衡策略的入侵检测系统研究[D];郑州大学;2014年

2 王国才;朴素贝叶斯分类器的研究与应用[D];重庆交通大学;2010年



本文编号:838063

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/838063.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ccc0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com