基于二元人工鱼群算法的属性选择与集成剪枝及应用研究
发布时间:2020-03-23 14:55
【摘要】:数据预处理与数据挖掘技术是挖掘复杂数据中有价值的知识和信息的关键环节,其中属性选择是数据预处理环节中的重要技术之一,集成学习也是数据挖掘环节中的关键技术之一。属性选择可以在保持原始数据信息不丢失的条件下,保留原始数据中关键属性,约简冗余、不相关的属性,避免数据挖掘过程中出现维数灾难,从而提高数据处理的效率。集成学习是机器学习中的一种范式,其通过某种规则组合多个基分类器,从而获得比单个分类器分类性能更优的集成分类器,有效地解决数据挖掘中的分类预测问题。集成学习被广泛应用在诸多领域,但随着基分类器数目和分类预测问题数据规模的快速增长,带来了大量的计算开销。为了有效地解决上述缺陷,学者们提出了集成剪枝技术,并且进一步提升了集成分类器性能。属性选择主要包括四个方面:属性子集评估度量准则、搜索策略、终止条件和验证过程,其中评估度量准则和搜索策略的选取是两个关键问题。针对属性子集评估度量准则的选择问题,需要寻找一种较为有效的准则,发现原始数据中的本质特征,使得所选择的属性子集与原始数据集保持极大的相似性,提高数据集的分类效果,提升数据处理的效率;针对搜索策略的选取问题,搜索策略需要具有易实现、鲁棒性强和搜索能力强等特点。鉴于上述特点,本文选择分形理论作为属性子集评估度量准则,二元人工鱼群算法作为搜索策略,求解属性选择问题;本文针对二元人工鱼群算法中存在的缺陷,进行了一系列的改进,并结合分形理论应用于求解属性选择问题中。集成剪枝旨在从集成系统中选取基分类器最优子集合,并采用某种规则进行集成,以提高集成分类器的性能,同时大幅减少计算开销。目前国内外主流的集成剪枝方法通常单独采用差异性测度或者启发式搜索算法,进行集成剪枝。基于差异性测度的集成剪枝方法,辅以不同的策略,难以准确地找到集成系统中的最优子集成;基于启发式搜索算法的集成剪枝方法,无法对数目庞大基分类器子集合进行穷尽搜索,难以搜索到最优子集成。为了克服上述缺陷,本文提出了融合差异性测度和启发式搜索算法的集成剪枝思想,其先采用差异性测度对集成系统中的基分类器进行预剪枝,大幅降低集成剪枝问题的计算复杂度,再运用启发式搜索算法进行二次剪枝。考虑到双错测度在衡量基分类器差异性方面的突出性能,以及二元人工鱼群算法在搜索效率方面的优势,将二者结合起来,应用于集成剪枝问题中。本文的主要研究工作和成果总结如下:(1)将一种位置更新策略引入人工鱼群算法中,并改进其聚群、觅食行为,同时引入跳出局部最优策略和并行机制,避免算法陷入局部最优,并增加种群多样性,提高算法的收敛速度和精度,提出了并行二元人工鱼群算法,然后结合分形维数,对雾霾数据集中的属性进行选择,保留关键属性,大幅降低雾霾数据集的维数,提高雾霾数据集的处理效率。在北京、上海和广州三地区的雾霾数据上进行测试,结果表明了该方法的有效性和可行性。(2)采用佳点集初始化人工鱼群算法的种群,使其均匀分布在二元解空间中,并赋予每条人工鱼一定的游速,使其更加符合自然界鱼类的行为,同时引入种群间的竞争和合作机制,增加种群的多样性,提高算法的搜索效率,提出了协同进化二元人工鱼群算法,结合多重分形维数,对雾霾数据集进行约简,避免了维数灾难,节约了大量的资源,并使用极限学习机对约简后的雾霾数据集进行预测。在北京、上海和广州三地区雾霾数据集进行实验,实验结果表明了所提出方法的有效性和可信性。(3)计算已构建的基分类器池中基分类器的双错测度,并得出整体平均值,剔除双错测度大于平均值的基分类器,实现基分类器池的预剪枝,降低集成剪枝的计算复杂度;改进人工鱼的移动方式,引入种群内的竞争和协作机制,提升了算法的搜索效率,提出了改进二元人工鱼群算法;运用改进二元人工鱼群算法对预剪枝后的基分类器进行二次剪枝,以达到集成剪枝的目的。在16个UCI数据集上的实验结果验证了该方法的稳定性和有效性,并应用于北京、上海和广州地区的雾霾预测中。(4)先计算基分类器池中每一个基分类器的双错测度,并保留前25个双错测度较小的基分类器,完成基分类器池的预剪枝过程,大幅降低集成剪枝的计算开销;改进人工鱼的移动方式,引入反向搜索行为、竞争行为和跳跃行为,增加了种群的多样性,避免算法陷入局部最优,提出了反向二元人工鱼算法;采用二元人工鱼群算法对预剪枝后剩余的25个基分类器进行二次剪枝,以达到精确剪枝的目的。在25个UCI数据上的实验结果验证了方法的有效性和显著性,并应用于北京、上海和广州地区的雾霾预测中。
【图文】:
逦第一章绪论逦逡逑论文提出了协同进化二元人工鱼群算法,增加了种群多样性,提高了算法收敛速逡逑度和精度。结合多重分形维数,进行求解属性选择问题,并应用于北京、上海和逡逑广州地区雾霾数据集中,并使用极限学习机进行雾霾预测,表明了该方法的有效逡逑性和可信性。为雾霾数据的属性选择和预测问题提供了一种新的方法;逡逑3、针对目前主流集成剪枝方法难以搜索到较优的子集成等问题,论文提出了逡逑基于改进二元人工鱼群算法和双错测度的集成剪枝方法,先采用双错测度预剪枝逡逑双错测度大于均值的基分类器;再运用改进二元人工鱼群算法进行二次剪枝。在逡逑16个UCI数据集上进行性能测试后,应用于北京、上海和广州地区的雾霾预测问逡逑题中。为雾霾预测问题提供了一种重要的方法;逡逑4、针对目前主流集成剪枝方法无法实现精确剪枝等问题,论文提出了基于反逡逑向二元人工鱼算法和双错测度的集成剪枝方法,先采用双错测度保留了前25个双逡逑错测度较小的基分类器;再采用反向二元人工鱼群算法进行精确剪枝。在25个逡逑UC丨数据上进行性能测试后,应用于北京、上海和广州地区的雾霾预测问题中。逡逑为雾霾预测问题提供了一种新颖的解决思路。逡逑
本章方法参数P>>Pz分析
【学位授予单位】:合肥工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP18
本文编号:2596883
【图文】:
逦第一章绪论逦逡逑论文提出了协同进化二元人工鱼群算法,增加了种群多样性,提高了算法收敛速逡逑度和精度。结合多重分形维数,进行求解属性选择问题,并应用于北京、上海和逡逑广州地区雾霾数据集中,并使用极限学习机进行雾霾预测,表明了该方法的有效逡逑性和可信性。为雾霾数据的属性选择和预测问题提供了一种新的方法;逡逑3、针对目前主流集成剪枝方法难以搜索到较优的子集成等问题,论文提出了逡逑基于改进二元人工鱼群算法和双错测度的集成剪枝方法,先采用双错测度预剪枝逡逑双错测度大于均值的基分类器;再运用改进二元人工鱼群算法进行二次剪枝。在逡逑16个UCI数据集上进行性能测试后,应用于北京、上海和广州地区的雾霾预测问逡逑题中。为雾霾预测问题提供了一种重要的方法;逡逑4、针对目前主流集成剪枝方法无法实现精确剪枝等问题,论文提出了基于反逡逑向二元人工鱼算法和双错测度的集成剪枝方法,先采用双错测度保留了前25个双逡逑错测度较小的基分类器;再采用反向二元人工鱼群算法进行精确剪枝。在25个逡逑UC丨数据上进行性能测试后,应用于北京、上海和广州地区的雾霾预测问题中。逡逑为雾霾预测问题提供了一种新颖的解决思路。逡逑
本章方法参数P>>Pz分析
【学位授予单位】:合肥工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP18
【参考文献】
相关期刊论文 前10条
1 胡静;华俊;姜羽;宋铁成;刘世栋;郭经红;;一种基于属性关系的特征选择算法[J];控制与决策;2015年10期
2 刘双印;徐龙琴;李道亮;;基于粗糙集融合支持向量机的水质预警模型[J];系统工程理论与实践;2015年06期
3 马骊;李阳;樊锁海;;改进人工鱼群算法在外汇预测和投资组合中的应用[J];系统工程理论与实践;2015年05期
4 刘家辰;苗启广;曹莹;宋建锋;权义宁;;基于混合多样性生成与修剪的集成单类分类算法[J];电子与信息学报;2015年02期
5 朱旭辉;倪志伟;程美英;;变步长自适应的改进人工鱼群算法[J];计算机科学;2015年02期
6 程美英;倪志伟;朱旭辉;;基于生命周期的二元蚁群优化算法[J];模式识别与人工智能;2014年11期
7 杨春;殷绪成;郝红卫;闫琰;王志彬;;基于差异性的分类器集成:有效性分析及优化集成[J];自动化学报;2014年04期
8 倪志伟;肖宏旺;伍章俊;薛永坚;;基于改进离散型萤火虫群优化算法和分形维数的属性选择方法[J];模式识别与人工智能;2013年12期
9 夏建明;杨俊安;;一种基于最大边界投影和l_(2,1)范数正则化的属性选择算法[J];控制与决策;2013年10期
10 段其昌;唐若笠;徐宏英;李文;;粒子群优化鱼群算法仿真分析[J];控制与决策;2013年09期
,本文编号:2596883
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2596883.html