当前位置:主页 > 科技论文 > 自动化论文 >

机器学习方法和统计建模方法的预测比较研究

发布时间:2017-10-17 17:31

  本文关键词:机器学习方法和统计建模方法的预测比较研究


  更多相关文章: 统计建模方法 随机森林 mboost 神经网络 交叉验证 标准均方误差


【摘要】:本文旨在用近年较经典流行的三种机器学习算法:随机森林,神经网络,mboost与统计建模方法对多元时间序列数据(气温数据)、纵向数据(帕金森病数据)、多重共线性数据(糖尿病数据)做预测对比.针对世界16个城市的最低温度和最高温度为变量的多元时间序列数据,运用VARX模型预测和四种主要的针对横截面数据的机器学习算法做预测比较,并作出对比分析,结果表明无论是在长期预测还是短期预测,VARX模型的预测效果大都不如这些机器学习算法中的一些模型.对于对各个变量中选择出来的不同因变量,预测结果最优的模型也不同.被预测的时间区间越短(相应的训练集越大),则VARX模型预测的效果越好,这说明专门为时间序列设计的方法在该数据上的预测不如为横截面数据设计的机器学习算法,因而在做多元时间序列预测的时候,必须根据数据和变量的各种实际情况来选择最优的预测模型.对一个帕金森病的纵向数据和一个糖尿病的横截面数据做了机器学习方法及统计建模方法对预测的比较.关于第一个数据,对于训练集不同的样本量,分别用线性随机效应混合模型和随机森林、mboost、神经网络做了预测,并对比标准化均方误差.发现无论是长期预测还是短期预测,线性随机效应混合模型在该数据上的预测效果都显著不如神经网络.对于第二个数据:具有多重共线性,分别用岭回归,lasso回归,适应性lasso回归,偏最小二乘回归(PLS),逐步回归,线性回归及机器学习算法做十折交叉验证预测对比.结果显示,神经网络在处理此多重共线性数据时远远好于其他的传统统计建模方法,而不那么传统的PLS方法也全面优于其它几种传统方法,但远不如神经网络方法.本文为比较研究的案例库贡献新的、有重要参考价值的比较案例,同时对实际工作者提供有益的参考.本文的所有计算基于R软件.
【关键词】:统计建模方法 随机森林 mboost 神经网络 交叉验证 标准均方误差
【学位授予单位】:云南师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181;O212.1
【目录】:
  • 摘要3-4
  • Abstract4-7
  • 第1章 绪论7-11
  • 1.1 研究背景和研究现状7-9
  • 1.2 数据说明9-10
  • 1.3 论文结构10-11
  • 第2章 模型及评估方法11-22
  • 2.1 机器学习算法11-17
  • 2.1.1 随机森林12-14
  • 2.1.2 神经网络14-16
  • 2.1.3 mboost16-17
  • 2.2 统计学方法17-20
  • 2.2.1 VARX模型17
  • 2.2.2 线性随机效应混合模型17
  • 2.2.3 岭回归、lasso回归、适应性lasso回归、偏最小二乘回归17-20
  • 2.3 评估方法20-22
  • 2.3.1 交叉验证20
  • 2.3.2 标准均方误差20-22
  • 第3章 机器学习算法与统计学方法在复杂数据上的预测对比22-36
  • 3.1 机器学习算法与VARX模型对多元时间序列预测上的对比22-28
  • 3.1.1 五种模型对固定因变量及变化训练集的预测22-25
  • 3.1.2 五种模型对不同因变量及变化训练集的预测25-27
  • 3.1.3 五种模型对32个变量轮流作为因变量时的总体预测效果27-28
  • 3.2 在纵向数据上机器学习算法与线性随机效应混合模型对预测的比较28-32
  • 3.2.1 纵向数据的分析28-30
  • 3.2.2 线性随机效应混合模型与机器学习法的预测对比30-32
  • 3.3 具有多重共线性的数据上机器学习算法和统计建模方法预测的对比32-36
  • 3.3.1 机器学习算法对多重共线性数据的预测33
  • 3.3.2 统计建模方法与机器学习算法在该数据的预测对比33-36
  • 第4章 总结与进一步的工作36-38
  • 4.1 总结36
  • 4.2 进一步的工作36-38
  • 参考文献38-40
  • 附录40-47
  • 附录A 气温数据分析的R程序40-43
  • 附录B 帕金森病数据分析的R程序43-44
  • 附录C 糖尿病数据分析的R程序44-47
  • 攻读学位期间发表的学术论文和研究成果47-48
  • 致谢48

【相似文献】

中国期刊全文数据库 前10条

1 王珏,石纯一;机器学习研究[J];广西师范大学学报(自然科学版);2003年02期

2 张震;李军利;;机器学习方法及其在生物信息学中的应用[J];吉首大学学报(自然科学版);2006年04期

3 许程;;机器学习的主要策略与基本结构[J];科技资讯;2010年03期

4 黄蔚;;浅析机器学习及其在教育中的应用[J];科技信息;2011年18期

5 曹加恒;汤怡群;姚唐;;机器学习研究[J];武汉大学学报(自然科学版);1988年01期

6 林士敏;机器学习概况[J];广西师范大学学报(自然科学版);1989年02期

7 卢美律;张渡;;机器学习:理论、方法及应用[J];科学;1995年02期

8 罗芳;李志亮;;基于分类的机器学习方法中的决策树算法[J];宁德师专学报(自然科学版);2009年01期

9 李钧涛;杨瑞峰;左红亮;;统计机器学习研究[J];河南师范大学学报(自然科学版);2010年06期

10 黄健;;何清:挖掘数据开启新知[J];科学中国人;2013年12期

中国重要会议论文全文数据库 前10条

1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年

2 王昊;李银波;纪志梁;;利用机器学习方法预测严重药物不良反应-呼吸困难[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年

3 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

4 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年

5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年

7 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

8 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年

9 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年

10 张钹;张铃;;统计学习理论及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年

中国重要报纸全文数据库 前10条

1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年

2 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年

3 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年

4 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年

5 百度公司技术副总监 多媒体部负责人 余凯;深度学习与多媒体搜索技术演进[N];中国信息化周报;2013年

6 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年

7 本报记者 张晔邋通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年

8 记者  彭德倩;机器学习精度提升近6个百分点[N];解放日报;2006年

9 本报记者 闵杰;大数据热 高端人才缺[N];中国电子报;2013年

10 沈建苗 编译;如何成为大数据科学家[N];计算机世界;2013年

中国博士学位论文全文数据库 前10条

1 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年

2 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年

3 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年

4 胡巍;面向格结构的机器学习[D];上海交通大学;2009年

5 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年

6 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年

7 梁锡军;稀疏优化在机器学习中的若干应用[D];大连理工大学;2013年

8 蒋刚;核机器学习方法若干问题研究[D];西南交通大学;2006年

9 陈慧灵;面向智能决策问题的机器学习方法研究[D];吉林大学;2012年

10 周伟达;核机器学习方法研究[D];西安电子科技大学;2003年

中国硕士学位论文全文数据库 前10条

1 毛海斌;基于半监督机器学习的情感分类领域适应问题研究[D];南京理工大学;2015年

2 安军辉;基于微博数据的微博用户性别判断研究[D];华中师范大学;2015年

3 陈召阳;基于机器学习的改性麦槽吸附重金属构效关系模型研究[D];江西理工大学;2014年

4 王成;基于半监督机器学习的文本情感分析技术[D];南京理工大学;2015年

5 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年

6 刘江龙;基于机器学习的射频指纹定位方法研究[D];电子科技大学;2015年

7 张蕾;基于机器学习的网络舆情采集技术研究与设计[D];电子科技大学;2014年

8 施宇;基于数据挖掘和机器学习的木马检测系统设计与实现[D];电子科技大学;2014年

9 施应敏;基于机器学习的Femtocell信道频谱与功率资源分配算法的研究[D];南京邮电大学;2015年

10 张柯;基于机器学习的错误定位方法研究[D];南京航空航天大学;2015年



本文编号:1050120

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1050120.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a0228***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com