集成回归问题若干关键技术研究
本文关键词:集成回归问题若干关键技术研究,由笔耕文化传播整理发布。
【摘要】:作为机器学习领域的四大研究方向之一,集成学习通过训练多个学习器并将其结果进行组合,从而在大多数情况下显著提升了学习器的泛化能力。因此,集成学习的基础理论、集成学习算法及应用是近年来机器学习领域的研究重点和热点。作为机器学习研究领域所要解决的两大核心问题(分类问题和回归问题)之一,回归问题已经被广泛应用于气象、水文、医学、金融、电力、交通等诸多领域。针对回归问题,国内外研究者已经提出了许多学习算法,如人工神经网络、分类回归树、支持向量机回归等等。集成学习在分类问题中已经取得了丰硕的理论和应用研究成果。然而,对于回归问题,集成学习的研究起步相对较晚,研究成果相对于分类问题也要少很多。相关的理论和应用研究还很不成熟,还存在大量尚未很好解决的技术问题。为此,本文围绕集成学习在回归问题中所要解决的算法框架、个体学习器生成、个体学习器的集成剪枝和结果组合、算法并行化等四个关键技术进行了深入地分析和研究。最后,基于本文的研究成果,设计并实现了一个基于公共卫生大数据的传染病集成预测系统。概括起来,本文的主要研究内容和创新性研究成果包括以下几个方面:(1)提出了基于学习过程模型的集成回归学习算法框架,基于本文提出的集成回归学习算法框架,进一步分析和讨论了如何设计一个有效的集成回归学习算法。以往集成回归学习算法的设计过程多借鉴集成学习在分类问题中的两阶段设计过程,即集成生成和集成组合,尚不存在专门针对回归问题的通用集成学习算法框架。针对这一问题,本文从学习的角度提出了基于学习过程模型的集成回归学习算法框架,并分析了如何基于所提出的算法框架设计有效的集成回归学习算法。(2)提出了基于多重扰动的异质集成回归学习算法,并从提高个体学习器的准确度和个体学习器之间的差异度两方面对算法进行了实验验证。以往的集成学习算法大多采用单一扰动和同质学习算法来构建集成学习器,所生成的学习器在差异度方面很难得到保证。针对这一问题,本文提出了基于多重扰动的异质集成回归学习算法。在生成差异性个体学习器方面,算法同时从训练数据集、基学习算法、算法参数三个方面进行扰动。在提高准确度方面,算法通过同时减小偏差和方差来减小泛化误差,同时使用重采样后剩余的样本作为验证数据集来避免学习器发生过拟合。该算法同时提高了个体学习器的准确度和差异度,因此进一步提升了集成学习器的整体泛化能力。(3)提出了基于后剪枝的自适应动态加权集成算法,并用于解决动态环境下非平稳时间序列数据的回归问题。现实世界中的很多系统都具有一定的非平稳性,动态适应变化的样本数据是集成学习所面临的关键技术难题之一。以往基于静态前剪枝和静态集成组合的集成学习算法难以有效地处理非平稳时间序列数据。针对这一问题,本文提出了基于后剪枝的自适应动态加权集成算法。算法采用后剪枝的方式在新样本数据的局域空间中选择学习器子集,然后基于学习器子集在局域空间上的预测性能动态计算各学习器的组合权值。同时,引入极限学习机作为基学习算法来加速学习过程。本文基于该算法对非平稳时间序列数据进行了实验验证,取得了令人满意的效果。(4)提出了集成回归学习算法的并行化框架及MapReduce实现,用于解决大规模数据集回归学习时算法的并行性和可扩展性问题。本文第二章提出的多重扰动异质集成回归学习算法是基于AdaBoost.RT算法的,其内嵌的序列迭代式学习过程使其难以通过并行化来加速学习过程。针对这一问题,本文提出了集成回归学习算法的并行化框架并基于MapReduce进行了并行化实现。并行化算法不仅保持了原有算法在单机环境下的性能,还有效地利用集群环境来加速其学习。基于所实现的并行化集成学习算法解决大规模数据集的回归问题,获得了很好的泛化能力和可扩展性。(5)设计并实现了基于公共卫生大数据的传染病集成预测系统,解决了公共卫生大数据的存储管理、传染病预测模型构建及预测等问题。公共卫生领域巨大的数据量、多样的数据类型和结构,已经无法靠单一预测模型来进行有效的处理。针对这一问题,本文设计并实现了基于公共卫生大数据的传染病集成预测系统。在领域知识的指导下,通过分析公共卫生领域海量数据的特征,设计并实现了高效的公共卫生大数据存储管理技术。在此基础上,研究了多维数据下的传染病预测模型,构建了机器学习元算法库和基于元算法库的预测模型库,实现对传染病的短期定量预测。系通过上海地区近10年的腹泻病例和气象数据进行示范应用,验证了系统的有效性和实用性。
【关键词】:集成学习 回归问题 异质集成 集成剪枝 传染病预测
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP181
【目录】:
- 摘要5-7
- ABSTRACT7-15
- 第一章 绪论15-34
- 1.1 研究背景15-17
- 1.2 研究综述17-32
- 1.2.1 回归问题概述17-20
- 1.2.2 集成学习产生的背景20-22
- 1.2.3 集成学习的理论依据、概念和思想22-24
- 1.2.4 集成学习框架24-27
- 1.2.5 其他集成学习框架27-30
- 1.2.6 集成学习应用研究30-31
- 1.2.7 问题和不足31-32
- 1.3 研究内容和结构安排32-34
- 第二章 基于学习过程模型的集成回归学习算法框架34-47
- 2.1 回归问题定义34-36
- 2.2 集成学习解决回归问题的途径36-37
- 2.3 集成学习与个体学习的关系37-38
- 2.4 集成回归学习38-40
- 2.4.1 个体学习器的构建过程38
- 2.4.2 个体学习器之间的交互38-39
- 2.4.3 集成组合39
- 2.4.4 存在的问题39-40
- 2.5 集成回归学习算法框架40-46
- 2.5.1 学习过程模型40-42
- 2.5.2 基于学习过程模型的集成回归学习算法框架42-44
- 2.5.3 设计有效的集成回归学习算法44-46
- 2.6 本章小结46-47
- 第三章 基于多重扰动的异质集成回归学习算法47-75
- 3.1 引言47-48
- 3.2 问题的提出48-49
- 3.3 相关理论与研究49-57
- 3.3.1 集成学习差异度49-53
- 3.3.2 经典集成回归学习算法53-55
- 3.3.3 相关研究55-57
- 3.4 AdaBoost.RT算法及其改进57-60
- 3.5 基于多重扰动的异质集成回归学习算法60-66
- 3.5.1 问题定义60-62
- 3.5.2 算法思想62-64
- 3.5.3 算法描述64-65
- 3.5.4 基于多核学习的算法实现65-66
- 3.6 仿真实验与结果分析66-73
- 3.6.1 实验环境与数据集66-68
- 3.6.2 实验设置68
- 3.6.3 实验结果对比分析68-73
- 3.7 本章小结73-75
- 第四章 基于后剪枝的自适应动态加权集成算法75-101
- 4.1 引言75-76
- 4.2 问题的提出76-77
- 4.3 相关理论与研究77-88
- 4.3.1 集成剪枝的必要性77-78
- 4.3.2 集成剪枝原理78-80
- 4.3.3 集成剪枝策略80-83
- 4.3.4 集成剪枝评价标准83-84
- 4.3.5 集成组合方法84-86
- 4.3.6 相关研究86-88
- 4.4 基于后剪枝的自适应动态加权集成算法88-95
- 4.4.1 问题定义89
- 4.4.2 算法思想89-92
- 4.4.3 算法描述92-93
- 4.4.4 基于极限学习机的算法实现93-95
- 4.5 仿真实验和结果分析95-99
- 4.5.1 实验环境和数据集95-96
- 4.5.2 实验设置96-97
- 4.5.3 实验结果对比分析97-99
- 4.6 本章小结99-101
- 第五章 集成学习算法并行化及MapReduce实现101-113
- 5.1 引言101-102
- 5.2 问题的提出102
- 5.3 相关技术102-105
- 5.3.1 MapReduce并行计算技术102-104
- 5.3.2 并行化算法性能评估104-105
- 5.4 集成学习算法并行化105-108
- 5.4.1 集成学习算法并行化框架106-107
- 5.4.2 集成学习算法并行化实现107-108
- 5.5 仿真实验和结果分析108-112
- 5.5.1 实验环境和数据集109-110
- 5.5.2 实验设置110
- 5.5.3 实验结果对比分析110-112
- 5.6 本章小结112-113
- 第六章 基于公共卫生大数据的传染病集成预测系统113-128
- 6.1 引言113-115
- 6.2 系统架构设计115-117
- 6.2.1 系统总体架构115-116
- 6.2.2 系统架构说明116-117
- 6.3 系统功能模块设计117-121
- 6.3.1 公共卫生大数据存储管理117-120
- 6.3.2 机器学习元算法库和预测模型库120-121
- 6.4 系统功能实现121-122
- 6.5 示范应用与结果分析122-126
- 6.5.1 应用数据集122-124
- 6.5.2 应用效果分析124-126
- 6.6 本章小结126-128
- 第七章 总结与展望128-131
- 7.1 工作总结128-129
- 7.2 未来工作展望129-131
- 参考文献131-142
- 附录一 攻读博士期间发表的学术论文142-143
- 附录二 攻读博士期间参与的科研项目143-144
- 附录三 攻读博士期间申请的发明专利144-145
- 致谢145
【相似文献】
中国期刊全文数据库 前10条
1 袁汉宁;;双层多示例集成学习[J];武汉理工大学学报(信息与管理工程版);2011年05期
2 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
3 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期
4 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
5 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
6 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
7 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
8 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
9 张燕平;曹振田;赵姝;郑尧军;杜玲;窦蓉蓉;;一种新的决策树选择性集成学习方法[J];计算机工程与应用;2010年17期
10 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年
2 王永明;集成回归问题若干关键技术研究[D];华东师范大学;2015年
3 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
4 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
5 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
6 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
7 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
8 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年
9 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
10 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
2 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年
3 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年
4 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年
5 丘桥云;结合文本倾向性分析的股评可信度计算研究[D];哈尔滨工业大学;2014年
6 张妤;支持向量机集成学习方法研究[D];山西大学;2008年
7 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
8 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
9 曹振田;基于Q统计量的选择性集成学习研究[D];安徽大学;2010年
10 王丽丽;集成学习算法研究[D];广西大学;2006年
本文关键词:集成回归问题若干关键技术研究,由笔耕文化传播整理发布。
,本文编号:405582
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/405582.html