当前位置:主页 > 科技论文 > 软件论文 >

基于遗传算法的分布式数据挖掘MapReduce架构研究

发布时间:2018-09-08 17:26
【摘要】:近年来,随着信息技术的快速发展,直接或间接的产生了难以估量的海量数据,这对传统数据挖掘算法提出了新的挑战,如何提高海量数据环境下传统数据挖掘算法的通用性和性能成为当前的研究热点。为了解决这一问题,研究人员将传统数据挖掘算法与新兴技术如云计算平台等融合,利用分布式计算能力提高算法的性能,取得了良好效果。但是由于数据挖掘算法种类繁多,单一的数据挖掘算法需要特定的实现模式,没有通用的架构满足数据挖掘算法的多样性,并能同时提高算法的性能。本文在前人经验的基础上,提出了一种基于遗传算法的分布式数据挖掘MapReduce架构,旨在帮助用户更通用的处理数据挖掘算法并提升算法的性能。架构要素之一的MapReduce提供良好的分布式计算能力,另一要素遗传算法具有良好的全局搜索和优化能力,通过模拟种群进化的方式搜索到最优解,使得用户只需要实现遗传算法而不必担心算法的并行化。本文的主要贡献如下,提出了一种基于遗传算法的分布式数据挖掘MapRed uce架构,架构分为核心层和用户层,核心层封装了MapReduce的操作,用户层提供给用户扩展接口,通过具体问题实现具体的遗传算法,可以有效的处理数据挖掘算法在海量数据方面的应用。架构包括六个组件,其中Diver组件是框架的主要部分,主要功能是实现用户交互并负责启动集群上的Jobs;Generator组件主要作用是通过调用用户层的遗传算法实现,然后配合Driver启动Job完成种群的进化;Terminator组件的作用是在Generator过程中判断是否满足终止条件;Initialiser组件负责初始化种群,该组件是可选的;Migrator组件负责种群迁移策略的实现,由用户层实现;最后的SolutionFilter组件则是将符合条件的个体筛选出来,每个组件相互协作完成架构的功能。本文用三个算法对架构性能进行验证,首先设计实现了针对K-Medoids的遗传算法,以聚类准确率为个体适应度值,利用MapReduce加强聚类计算,实验显示得到良好的聚类效果。其次设计实现了针对旅行商问题(Traveling Salesman Problem)的遗传算法,以个体所经过城市距离的倒数作为适应度函数,距离越短个体的适应度值越高,实验结果表明,在架构中运行的TSP算法能有效处理大数据并且比同等级的算法能更快发现最优解。最后,设计实现了针对特征子集选择(Feature Subset Selection)问题的遗传算法,以特征选择的分类准确率作为适应度值,实验结果表明,运行在架构下的FSS算法能更快速收敛并提高了准确率。综上,本文提出的基于遗传算法的分布是数据挖掘MapReduce架构在处理海量数据环境下的数据挖掘算法时具有良好的表现,通过特定问题的遗传算法实现,利用分布式计算提高算法性能,同时利用遗传算法的全局搜索优化能力快速找到最优解,研究表明,该架构帮助数据挖掘算法在处理海量数据时效果和性能得到提升。
[Abstract]:In recent years, with the rapid development of information technology, incalculable mass data is produced directly or indirectly, which brings new challenges to traditional data mining algorithms. How to improve the generality and performance of traditional data mining algorithms in mass data environment has become a hot research topic. In order to solve this problem, researchers combine traditional data mining algorithms with emerging technologies such as cloud computing platform, and improve the performance of the algorithm by using distributed computing power, and obtain good results. However, because there are many kinds of data mining algorithms, a single data mining algorithm needs a specific implementation pattern, there is no universal architecture to meet the diversity of data mining algorithms, and can improve the performance of the algorithm at the same time. Based on the previous experience, this paper proposes a distributed data mining MapReduce architecture based on genetic algorithm, which aims to help users process data mining algorithms more generally and improve the performance of the algorithms. MapReduce, one of the architectural elements, provides good distributed computing power, while the other element genetic algorithm has a good global search and optimization capability, and the optimal solution can be found by simulating population evolution. Users only need to implement genetic algorithm and do not have to worry about the parallelization of the algorithm. The main contributions of this paper are as follows: a distributed data mining MapRed uce architecture based on genetic algorithm is proposed. The architecture is divided into core layer and user layer. The core layer encapsulates the operation of MapReduce, and the user layer provides the user with extended interface. The application of data mining algorithm in mass data can be effectively processed by implementing specific genetic algorithm. The architecture consists of six components, in which the Diver component is the main part of the framework. The main function of the architecture is to realize user interaction and start the Jobs;Generator component on the cluster by calling the genetic algorithm in the user layer. Then the role of the evolutionary Terminator component to start the Job complete population with Driver is to determine whether the terminating condition is satisfied or not and initialize the population in the Generator process. The component is the optional Job component which is responsible for the implementation of the population migration strategy, which is implemented by the user layer. The final SolutionFilter component is to filter out qualified individuals, and each component collaborates with each other to complete the architectural functions. In this paper, three algorithms are used to verify the performance of the architecture. Firstly, the genetic algorithm for K-Medoids is designed and implemented. The clustering accuracy is taken as the individual fitness value, and the clustering calculation is strengthened by MapReduce. The experimental results show that the clustering effect is good. Secondly, a genetic algorithm for traveling salesman problem (Traveling Salesman Problem) is designed and implemented. The reciprocal of the city distance is taken as the fitness function. The shorter the distance is, the higher the fitness is. The experimental results show that, The TSP algorithm running in the architecture can deal with big data effectively and can find the optimal solution faster than the same level algorithm. Finally, a genetic algorithm for feature subset selection (Feature Subset Selection) problem is designed and implemented. The classification accuracy of feature selection is taken as the fitness value. The experimental results show that the FSS algorithm running in the framework can converge faster and improve the accuracy. In summary, the distribution based on genetic algorithm proposed in this paper is that the data mining MapReduce architecture has a good performance in dealing with the data mining algorithm under the massive data environment, which is realized by the genetic algorithm with specific problems. Distributed computing is used to improve the performance of the algorithm, and the global search optimization ability of genetic algorithm is used to quickly find the optimal solution. The research shows that the architecture can improve the efficiency and performance of the data mining algorithm in processing massive data.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 王兴成,郑紫微,贾欣乐;模糊遗传算法及其应用研究[J];计算技术与自动化;2000年02期

2 吴瑞镛,徐大纹;具有年龄结构的遗传算法[J];桂林电子工业学院学报;2001年04期

3 杨艳丽,史维祥;一种新的优化算法—遗传算法的设计[J];液压气动与密封;2001年02期

4 杨宜康,李雪,彭勤科,黄永宣;具有年龄结构的遗传算法[J];计算机工程与应用;2002年11期

5 谷峰,吴勇,唐俊;遗传算法的改进[J];微机发展;2003年06期

6 ;遗传算法[J];计算机教育;2004年10期

7 赵义红,李正文,何其四;生物信息处理系统遗传算法探讨[J];成都理工大学学报(自然科学版);2004年05期

8 刘坤,刘伟波,吴忠强;基于模糊遗传算法的电液位置伺服系统控制[J];黑龙江科技学院学报;2005年04期

9 张英俐,刘弘 ,马金刚;遗传算法作曲系统研究[J];信息技术与信息化;2005年05期

10 丁发智;;浅谈遗传算法[J];乌鲁木齐成人教育学院学报;2005年04期

相关会议论文 前10条

1 陈家照;廖海涛;张中位;罗寅生;;一种改进的遗传算法及其在路径规划中的应用[A];2009系统仿真技术及其应用学术会议论文集[C];2009年

2 李国云;刘颖;薛梅;邬志敏;;遗传算法在高温空冷冷凝器优化设计中的应用[A];第五届全国制冷空调新技术研讨会论文集[C];2008年

3 王志军;李守春;张爽;;改进的遗传算法在反演问题中的应用[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年

4 任燕翔;姜立;刘连民;从滋庆;;改进遗传算法在三维日照方案优化中的应用[A];工程三维模型与虚拟现实表现——第二届工程建设计算机应用创新论坛论文集[C];2009年

5 韩娟;;遗传算法概述[A];第三届河南省汽车工程科技学术研讨会论文集[C];2006年

6 庞国仲;王元西;;基于遗传算法控制步长的定性仿真方法[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年

7 张忠华;杨淑莹;;基于遗传算法的聚类设计[A];全国第二届信号处理与应用学术会议专刊[C];2008年

8 何翠红;区益善;;遗传算法及其在计算机编程中的应用[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年

9 靳开岩;张乃尧;;几种实用遗传算法及其比较[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年

10 王宏刚;曾建潮;李志宏;;摄动遗传算法[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年

相关重要报纸文章 前10条

1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年

2 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

3 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

5 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

6 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

7 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

8 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

9 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

10 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

相关博士学位论文 前10条

1 Amjad Mahmood;半监督进化集成及其在网络视频分类中的应用[D];西南交通大学;2015年

2 李险峰;基于改进遗传算法的汽车装配生产线平衡问题研究[D];北京科技大学;2017年

3 周辉仁;递阶遗传算法理论及其应用研究[D];天津大学;2008年

4 郝国生;交互式遗传算法中用户的认知规律及其应用[D];中国矿业大学;2009年

5 侯格贤;遗传算法及其在跟踪系统中的应用研究[D];西安电子科技大学;1998年

6 马国田;遗传算法及其在电磁工程中的应用[D];西安电子科技大学;1998年

7 唐文艳;结构优化中的遗传算法研究和应用[D];大连理工大学;2002年

8 周激流;遗传算法理论及其在水问题中应用的研究[D];四川大学;2000年

9 刘冀成;基于改进遗传算法的生物电磁成像与磁场聚焦应用研究[D];四川大学;2005年

10 袁丽华;基于物种进化的遗传算法研究[D];南京航空航天大学;2009年

相关硕士学位论文 前10条

1 韩来明;基于遗传算法的分布式数据挖掘MapReduce架构研究[D];天津大学;2016年

2 张英俐;基于遗传算法的作曲系统研究[D];山东师范大学;2006年

3 钟海萍;原对偶遗传算法与蚁群算法的一种融合算法[D];暨南大学;2013年

4 李志添;模糊遗传算法与资源优化配置的预测控制[D];华南理工大学;2015年

5 王琳琳;新型双层液压轿运车车厢的设计研究[D];上海工程技术大学;2015年

6 李海全;基于遗传算法的建筑体形系数及迎风面积比优化方法研究[D];华南理工大学;2015年

7 彭骞;基于遗传算法的山区高等级公路纵断面智能优化方法研究[D];昆明理工大学;2015年

8 周玉林;基于小波分析和遗传算法的配电网故障检测[D];昆明理工大学;2015年

9 郭颂;基于粗糙集和遗传算法的数字管道生产管理系统研究[D];昆明理工大学;2015年

10 吴南;数值逼近遗传算法的研究应用[D];华南理工大学;2015年



本文编号:2231191

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2231191.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户70582***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com