当前位置:主页 > 科技论文 > 数学论文 >

几种分类问题的研究

发布时间:2017-10-19 21:41

  本文关键词:几种分类问题的研究


  更多相关文章: 分类问题 线性判别分析法 Logistic回归 费舍尔判别分析法 支持向量机 决策树 bagging 随机森林


【摘要】:本文着重部分常用线性回归方法与非线性方法关于分类问题的比较。关于线性方法,主要探讨普通线性回归模型的最小二乘法(OLS:ordinary least squares),线性判别分析(LDA:linear discriminant analysis)与logistic回归的效果的比较,同时尝试PCA与FDA两种降维方法,并将OLS与LDA结合降维后的数据进行分类效果的比较分析。OLS是最基本的线性模型,除了处理回归问题,也可以处理分类问题,只是此时的因变量不再是单一向量,而是变成了指示矩阵,即行表示观测,列表示分类,每行只在其所归属分类下为1,其余位置为0。对于线性分类问题,OLS一般都会有比较好的分类效率,然而当类别之间平行排布的话,OLS时常会忽视其中的某一分类,这是其非常严重的劣势所在。LDA与OLS一样对线性边界有很好的分类效率,并且避免了OLS关于平行类别的忽视问题,一般来讲较OLS的分类效率高一些。Logistic回归最初就是用来处0-1两个类别作为因变量的模型,其运用概率比的方式将本来只有两个取值的类别因变量变成在0-1之间的连续数值型变量,很好地解决了分类问题,此处将其拓展为对多于两个类别的分类问题的探索;由于其模型的特点,对分类问题常常都有很好的分类效率。关于非线性方法,主要探讨SVM(support vector machine), Tree,Bagging(Bootstrap aggregating),随机森林的效率。SVM通过对参数的调整使得其对于各种线型,高阶曲线型乃至放射型边界都有很好的适应性,是通用性很强的分类方法。单一决策树由于其将数据分块处理的机制,使得其对线性边界的分类问题产生很高的错误率,并且饱受高方差低准确率的困扰。Bagging通过随机产生大量决策树并将它们的判别结果“取”均值的办法基本消除了单一决策树的高方差低准确率的缺点。随机森林则进一步通过强制选择随机选择变量的方法弥补了当某一变量在该分类问题起主导作用时候Bagging无法消除相关决策树的高方差的不足。最后本文选取“单个字母识别”数据,采用以上方法构建分类模型并比较。
【关键词】:分类问题 线性判别分析法 Logistic回归 费舍尔判别分析法 支持向量机 决策树 bagging 随机森林
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O212.1
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第一章 绪论10-13
  • 1.1. 研究背景10
  • 1.2. 问题的提出10-11
  • 1.3. 本文内容与结构11-13
  • 第二章 几种常用线性方法简介13-20
  • 2.1. 线性回归模型及最小二乘法13-14
  • 2.1.1. 模型及参数估计13
  • 2.1.2. 预测13-14
  • 2.2. Logistic回归14-16
  • 2.2.1. 模型及参数估计14-16
  • 2.2.2. 预测16
  • 2.3. 线性判别分析法16-17
  • 2.3.1. 模型及参数估计16-17
  • 2.4. 线性模型小结17-20
  • 第三章 两种降维方法20-22
  • 3.1. 主成分分析20
  • 3.2. 费舍尔判别分析20-22
  • 第四章 几种非线性方法简介22-29
  • 4.1. SVM(support vector machine支持向量机)22-25
  • 4.1.1. Support Vector Classifier22-23
  • 4.1.2. Kernel简介23
  • 4.1.3. SVM (s upport vector machine)23-25
  • 4.2. 以树为基础的几种分类方法25-29
  • 4.2.1. 决策树25-27
  • 4.2.2. Bagging (Bootstrap Aggregating)27
  • 4.2.3. 随机森林27-29
  • 第五章 实例应用及方法比较分析29-35
  • 5.1 数据分析29-33
  • 5.2 结论及展望33-35
  • 参考文献35-37
  • 附录:R语言程序代码37-52
  • 第一部分:测试数据R程序37-43
  • 第二部分:实例数据R程序43-52
  • 后记和致谢52

【参考文献】

中国期刊全文数据库 前3条

1 唐华松,姚耀文;数据挖掘中决策树算法的探讨[J];计算机应用研究;2001年08期

2 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期

3 周大可,杨新,彭宁嵩;改进的线性判别分析算法及其在人脸识别中的应用[J];上海交通大学学报;2005年04期



本文编号:1063488

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/1063488.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户88d76***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com