基于遗传算法的分布式数据挖掘MapReduce架构研究
[Abstract]:In recent years, with the rapid development of information technology, incalculable mass data is produced directly or indirectly, which brings new challenges to traditional data mining algorithms. How to improve the generality and performance of traditional data mining algorithms in mass data environment has become a hot research topic. In order to solve this problem, researchers combine traditional data mining algorithms with emerging technologies such as cloud computing platform, and improve the performance of the algorithm by using distributed computing power, and obtain good results. However, because there are many kinds of data mining algorithms, a single data mining algorithm needs a specific implementation pattern, there is no universal architecture to meet the diversity of data mining algorithms, and can improve the performance of the algorithm at the same time. Based on the previous experience, this paper proposes a distributed data mining MapReduce architecture based on genetic algorithm, which aims to help users process data mining algorithms more generally and improve the performance of the algorithms. MapReduce, one of the architectural elements, provides good distributed computing power, while the other element genetic algorithm has a good global search and optimization capability, and the optimal solution can be found by simulating population evolution. Users only need to implement genetic algorithm and do not have to worry about the parallelization of the algorithm. The main contributions of this paper are as follows: a distributed data mining MapRed uce architecture based on genetic algorithm is proposed. The architecture is divided into core layer and user layer. The core layer encapsulates the operation of MapReduce, and the user layer provides the user with extended interface. The application of data mining algorithm in mass data can be effectively processed by implementing specific genetic algorithm. The architecture consists of six components, in which the Diver component is the main part of the framework. The main function of the architecture is to realize user interaction and start the Jobs;Generator component on the cluster by calling the genetic algorithm in the user layer. Then the role of the evolutionary Terminator component to start the Job complete population with Driver is to determine whether the terminating condition is satisfied or not and initialize the population in the Generator process. The component is the optional Job component which is responsible for the implementation of the population migration strategy, which is implemented by the user layer. The final SolutionFilter component is to filter out qualified individuals, and each component collaborates with each other to complete the architectural functions. In this paper, three algorithms are used to verify the performance of the architecture. Firstly, the genetic algorithm for K-Medoids is designed and implemented. The clustering accuracy is taken as the individual fitness value, and the clustering calculation is strengthened by MapReduce. The experimental results show that the clustering effect is good. Secondly, a genetic algorithm for traveling salesman problem (Traveling Salesman Problem) is designed and implemented. The reciprocal of the city distance is taken as the fitness function. The shorter the distance is, the higher the fitness is. The experimental results show that, The TSP algorithm running in the architecture can deal with big data effectively and can find the optimal solution faster than the same level algorithm. Finally, a genetic algorithm for feature subset selection (Feature Subset Selection) problem is designed and implemented. The classification accuracy of feature selection is taken as the fitness value. The experimental results show that the FSS algorithm running in the framework can converge faster and improve the accuracy. In summary, the distribution based on genetic algorithm proposed in this paper is that the data mining MapReduce architecture has a good performance in dealing with the data mining algorithm under the massive data environment, which is realized by the genetic algorithm with specific problems. Distributed computing is used to improve the performance of the algorithm, and the global search optimization ability of genetic algorithm is used to quickly find the optimal solution. The research shows that the architecture can improve the efficiency and performance of the data mining algorithm in processing massive data.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 王兴成,郑紫微,贾欣乐;模糊遗传算法及其应用研究[J];计算技术与自动化;2000年02期
2 吴瑞镛,徐大纹;具有年龄结构的遗传算法[J];桂林电子工业学院学报;2001年04期
3 杨艳丽,史维祥;一种新的优化算法—遗传算法的设计[J];液压气动与密封;2001年02期
4 杨宜康,李雪,彭勤科,黄永宣;具有年龄结构的遗传算法[J];计算机工程与应用;2002年11期
5 谷峰,吴勇,唐俊;遗传算法的改进[J];微机发展;2003年06期
6 ;遗传算法[J];计算机教育;2004年10期
7 赵义红,李正文,何其四;生物信息处理系统遗传算法探讨[J];成都理工大学学报(自然科学版);2004年05期
8 刘坤,刘伟波,吴忠强;基于模糊遗传算法的电液位置伺服系统控制[J];黑龙江科技学院学报;2005年04期
9 张英俐,刘弘 ,马金刚;遗传算法作曲系统研究[J];信息技术与信息化;2005年05期
10 丁发智;;浅谈遗传算法[J];乌鲁木齐成人教育学院学报;2005年04期
相关会议论文 前10条
1 陈家照;廖海涛;张中位;罗寅生;;一种改进的遗传算法及其在路径规划中的应用[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
2 李国云;刘颖;薛梅;邬志敏;;遗传算法在高温空冷冷凝器优化设计中的应用[A];第五届全国制冷空调新技术研讨会论文集[C];2008年
3 王志军;李守春;张爽;;改进的遗传算法在反演问题中的应用[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
4 任燕翔;姜立;刘连民;从滋庆;;改进遗传算法在三维日照方案优化中的应用[A];工程三维模型与虚拟现实表现——第二届工程建设计算机应用创新论坛论文集[C];2009年
5 韩娟;;遗传算法概述[A];第三届河南省汽车工程科技学术研讨会论文集[C];2006年
6 庞国仲;王元西;;基于遗传算法控制步长的定性仿真方法[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
7 张忠华;杨淑莹;;基于遗传算法的聚类设计[A];全国第二届信号处理与应用学术会议专刊[C];2008年
8 何翠红;区益善;;遗传算法及其在计算机编程中的应用[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年
9 靳开岩;张乃尧;;几种实用遗传算法及其比较[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年
10 王宏刚;曾建潮;李志宏;;摄动遗传算法[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年
相关重要报纸文章 前10条
1 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
2 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
3 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
6 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
7 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
8 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
9 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
10 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
相关博士学位论文 前10条
1 Amjad Mahmood;半监督进化集成及其在网络视频分类中的应用[D];西南交通大学;2015年
2 李险峰;基于改进遗传算法的汽车装配生产线平衡问题研究[D];北京科技大学;2017年
3 周辉仁;递阶遗传算法理论及其应用研究[D];天津大学;2008年
4 郝国生;交互式遗传算法中用户的认知规律及其应用[D];中国矿业大学;2009年
5 侯格贤;遗传算法及其在跟踪系统中的应用研究[D];西安电子科技大学;1998年
6 马国田;遗传算法及其在电磁工程中的应用[D];西安电子科技大学;1998年
7 唐文艳;结构优化中的遗传算法研究和应用[D];大连理工大学;2002年
8 周激流;遗传算法理论及其在水问题中应用的研究[D];四川大学;2000年
9 刘冀成;基于改进遗传算法的生物电磁成像与磁场聚焦应用研究[D];四川大学;2005年
10 袁丽华;基于物种进化的遗传算法研究[D];南京航空航天大学;2009年
相关硕士学位论文 前10条
1 韩来明;基于遗传算法的分布式数据挖掘MapReduce架构研究[D];天津大学;2016年
2 张英俐;基于遗传算法的作曲系统研究[D];山东师范大学;2006年
3 钟海萍;原对偶遗传算法与蚁群算法的一种融合算法[D];暨南大学;2013年
4 李志添;模糊遗传算法与资源优化配置的预测控制[D];华南理工大学;2015年
5 王琳琳;新型双层液压轿运车车厢的设计研究[D];上海工程技术大学;2015年
6 李海全;基于遗传算法的建筑体形系数及迎风面积比优化方法研究[D];华南理工大学;2015年
7 彭骞;基于遗传算法的山区高等级公路纵断面智能优化方法研究[D];昆明理工大学;2015年
8 周玉林;基于小波分析和遗传算法的配电网故障检测[D];昆明理工大学;2015年
9 郭颂;基于粗糙集和遗传算法的数字管道生产管理系统研究[D];昆明理工大学;2015年
10 吴南;数值逼近遗传算法的研究应用[D];华南理工大学;2015年
,本文编号:2231191
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2231191.html