Yarn架构下基于GA的Web日志挖掘技术
本文选题:Yarn架构 + 日志挖掘 ; 参考:《计算机应用研究》2014年11期
【摘要】:提出了一种面向TB级别日志文件挖掘需求的日志挖掘技术。采用MapReduce编程模型设计并实现了一种基于子种群联姻策略的GA,并部署到Yarn架构上,使Yarn架构与GA有效结合。在算法Partition阶段,采用Round-Robin策略代替原有的哈希方法,使各个子种群基因更加趋向均匀分布,增加了子种群收敛效率和结果准确性,同时均衡各个节点运行负载,提高了系统性能。经测试,应用该技术的挖掘结果平均准确度达到93%以上,效率提升接近33%。
[Abstract]:In this paper, a log mining technique for TB level log file mining is proposed. Using MapReduce programming model, a GA-based sub-population marriage strategy is designed and implemented, and deployed to Yarn architecture, which can effectively combine Yarn architecture with GA. In the phase of Partition, Round-Robin strategy is used to replace the original hash method, which makes the genes of each subpopulation more uniformly distributed, increases the convergence efficiency and accuracy of the sub-population, balances the running load of each node, and improves the system performance. The test results show that the average accuracy of the mining results is over 93%, and the efficiency is improved by nearly 33%.
【作者单位】: 哈尔滨工程大学计算机科学与技术学院;清华大学计算机系;
【基金】:国家自然科学基金资助项目(61003036) 黑龙江省自然科学基金资助项目(F201124) 黑龙江省教育厅科学技术研究基金资助项目(12513048)
【分类号】:TP393.09
【参考文献】
相关期刊论文 前3条
1 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期
2 赵龙;江荣安;;基于Hive的海量搜索日志分析系统研究[J];计算机应用研究;2013年11期
3 何翔;李仁发;唐卓;;一种异构环境下的基于MapReduce任务调度改进机制[J];计算机应用研究;2013年11期
【共引文献】
相关期刊论文 前10条
1 宋莹;沈奇威;王晶;;基于Hadoop的Web日志预处理的设计与实现[J];电信工程技术与标准化;2011年11期
2 林大云;;基于Hadoop的微博信息挖掘[J];计算机光盘软件与应用;2012年01期
3 刘永增;张晓景;李先毅;;基于Hadoop/Hive的web日志分析系统的设计[J];广西大学学报(自然科学版);2011年S1期
4 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期
5 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期
6 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期
7 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期
8 王鹏;黄焱;刘峰;安俊秀;;大数据技术中计算与数据的协作机制[J];成都信息工程学院学报;2014年01期
9 杜政颉;王鹏;黄焱;郎福通;;一种基于Storm编程模型的迭代Topology方案[J];成都信息工程学院学报;2014年01期
10 范飞;黄文明;邓珍荣;;Oozie工作流在Mahout分布式数据挖掘中的应用[J];桂林电子科技大学学报;2014年01期
相关会议论文 前6条
1 朱湘;金松昌;贾焰;;一种基于Hadoop平台的海量Web数据挖掘系统研究与实现[A];第九届中国通信学会学术年会论文集[C];2012年
2 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年
3 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年
4 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年
5 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年
6 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年
相关博士学位论文 前10条
1 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
2 李健;云计算环境下最小化运营开销的调度技术研究[D];北京邮电大学;2013年
3 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年
4 程祥;高效可靠的虚拟网络映射技术研究[D];北京邮电大学;2013年
5 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
6 卢风顺;面向CPU/GPU异构体系结构的并行计算关键技术研究[D];国防科学技术大学;2012年
7 孙鹏;动车组维修物联网及其关键技术研究[D];中国铁道科学研究院;2013年
8 肖奎;维基百科大数据的知识挖掘与管理方法研究[D];武汉大学;2013年
9 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
10 马冯;数据密集型计算环境下贝叶斯网的学习、推理及应用[D];云南大学;2013年
相关硕士学位论文 前10条
1 刘丛山;基于Hadoop的文本分类研究[D];上海交通大学;2012年
2 刘永增;基于Hadoop/Hive的海量web日志处理系统的设计与实现[D];大连理工大学;2011年
3 汪晶晶;基于MapReduce的天文数据处理方法与应用研究[D];昆明理工大学;2012年
4 郑天红;基于Hadoop的网络流量分流并行化设计与实现[D];内蒙古大学;2012年
5 张旭;基于模糊聚类的自组织神经网络的用户模式挖掘算法研究[D];南昌大学;2012年
6 王霁欣;一种基于Hadoop/MapReduce的可扩展存储系统架构研究[D];华中科技大学;2012年
7 冯伟;基于云计算的海量数据分析系统的研究与实现[D];上海交通大学;2012年
8 陶礼亮;基于云计算的BI处理技术研究[D];吉林大学;2013年
9 张啸宇;Web Server性能分析工具日志管理模块的设计与实现[D];南京大学;2013年
10 王雅光;基于Hadoop平台的DBSCAN算法应用研究[D];广东工业大学;2013年
【二级参考文献】
相关期刊论文 前8条
1 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期
2 王川;王大玲;于戈;马海涛;刘鑫钢;;基于用户行为模型的搜索引擎[J];计算机工程;2008年04期
3 郭本俊;王鹏;陈高云;黄健;;基于MPI的云计算模型[J];计算机工程;2009年24期
4 陈全;邓倩妮;;异构环境下自适应的Map-Reduce调度[J];计算机工程与科学;2009年S1期
5 邢东山,沈钧毅,宋擒豹;从Web日志中挖掘用户浏览偏爱路径[J];计算机学报;2003年11期
6 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
7 王文平;刘希玉;韩杰;;基于并行遗传算法的关联规则挖掘[J];山东师范大学学报(自然科学版);2006年04期
8 周勇;刘锋;;基于并行遗传算法的规则发现研究[J];计算机技术与发展;2008年08期
相关硕士学位论文 前2条
1 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
2 纪俊;一种基于云计算的数据挖掘平台架构设计与实现[D];青岛大学;2009年
【相似文献】
相关期刊论文 前10条
1 王媛媛;钟永恒;;基于SQL Server 2005的Web日志挖掘系统构建[J];现代图书情报技术;2006年05期
2 习慧丹;严晖;;概念格在Web日志挖掘中的应用[J];计算机系统应用;2006年09期
3 吕宗健;;利用Web日志挖掘技术构建自适应网站[J];山东师范大学学报(自然科学版);2007年01期
4 吕佳;;基于免疫聚类的Web日志挖掘[J];重庆师范大学学报(自然科学版);2007年02期
5 吴荣;;Web日志挖掘的用户识别算法研究[J];微型电脑应用;2007年09期
6 王洪伟;王彦丽;;应用Web日志挖掘技术改善企业客户关系[J];计算机与现代化;2007年10期
7 陈珍;;Web日志挖掘在个性化远程教育中的应用[J];福建电脑;2007年12期
8 邱伟江;;Web日志挖掘优化网站的研究[J];高职论丛;2008年04期
9 罗新;;基于SQL Server 2005的Web日志挖掘应用研究[J];现代计算机(专业版);2008年12期
10 李文媛;林克正;;Web日志挖掘研究[J];哈尔滨金融高等专科学校学报;2008年01期
相关会议论文 前3条
1 蔡丽萍;李茂青;;一种基于模糊聚类的日志挖掘方法及应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 王军;宋宝燕;于戈;;一种Web日志挖掘数据预处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 周莉;张勇;邢春晓;;ULMF:一种基于构件的通用日志挖掘框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
相关博士学位论文 前1条
1 鲍钰;WEB日志挖掘及其应用研究[D];华东师范大学;2010年
相关硕士学位论文 前10条
1 王燕;Web日志挖掘技术应用研究[D];贵州大学;2008年
2 刘世杰;基于Web日志挖掘的应用研究[D];天津财经大学;2009年
3 宦蕾;基于Web日志挖掘的页面推荐的研究[D];南京理工大学;2009年
4 陈晓春;基于关联规则的Web日志挖掘研究与应用[D];南京理工大学;2009年
5 王小姣;聚类分析及其在Web日志挖掘中的应用研究[D];山东师范大学;2011年
6 杨鹏;Web日志挖掘数据预处理算法研究与实现[D];北京邮电大学;2011年
7 刘维娜;Web日志挖掘相关技术研究[D];哈尔滨工程大学;2006年
8 刘鑫;基于Web日志挖掘系统的设计与实现[D];哈尔滨工程大学;2006年
9 李向云;Web日志挖掘技术的研究[D];大庆石油学院;2007年
10 吴佳楠;基于Web日志挖掘的个性化服务[D];吉林大学;2007年
,本文编号:2036850
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2036850.html