当前位置:主页 > 科技论文 > 计算机论文 >

PipelineJoin:一种新的基于MapReduce的多表连接算法

发布时间:2018-06-21 11:03

  本文选题:连接 + 多表 ; 参考:《中国科学技术大学学报》2015年10期


【摘要】:MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作.现有的基于MapReduce的多表连接算法,在处理链式连接时,不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低.为此提出了一种基于MapReduce的多表连接算法——PipelineJoin,高效地实现任意多个大表的链式连接.PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服链式多表连接算法的缺陷.最后,在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间.
[Abstract]:MapReduce is a parallel distributed computing model, which has been widely used to handle join operations of two or more large tables. The existing multi-table join algorithms based on MapReduce can not handle the join of multiple large tables or need to run more MapReduce tasks sequentially. In this paper, a MapReduce based multi-table join algorithm, PipelineJoin-based, is proposed to efficiently realize the chain connection of any number of large tables. PipelineJoin uses the pipeline model and scheduler to implement the pipelined execution of MapReduce tasks, thus effectively improving the efficiency of multi-table join. At the same time, it can overcome the defect of chain multi-list join algorithm. Finally, a large number of experiments are carried out on different data sets. The experimental results show that PipelineJoin algorithm can effectively reduce the connection time compared with the original chained multi-table join algorithm.
【作者单位】: 厦门大学信息科学与技术学院;厦门大学软件学院;
【基金】:国家自然科学基金(61303004,1202012) 国家科技支撑计划(863)(2015BAH16F00/F01/F02)资助
【分类号】:TP338.8

【相似文献】

相关期刊论文 前10条

1 刘波;;“算法设计与分析”教学探讨[J];高等理科教育;2007年04期

2 肖小克;陈莉;;《算法设计与分析》实践教学探讨[J];福建电脑;2009年10期

3 穆瑞辉;;计算机算法设计研究与思考[J];数字技术与应用;2012年12期

4 潘博;;构建“算法设计与分析”趣味课堂[J];科教文汇(下旬刊);2013年06期

5 王希常,杨志强;一类考场编排算法的设计[J];山东师范大学学报(自然科学版);2002年04期

6 龙腾芳,高金文;“分而治之”方法在算法设计中的应用[J];渤海大学学报(自然科学版);2004年01期

7 吕国英;;《算法设计与分析》教材建设的实施[J];计算机教育;2007年19期

8 徐子珊;;“算法设计与分析”教学中理论与技术的平衡[J];计算机教育;2008年10期

9 郑红;邵志清;符海波;;“算法设计与分析”课程教学改革初探[J];计算机教育;2008年14期

10 高尚;;“算法设计与分析”课程改革初探[J];计算机教育;2008年14期

相关会议论文 前10条

1 雷咏梅;;椭圆曲线密码体制的算法设计与实现[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

2 杨盘洪;朱军祥;赵建安;杨静;;机动目标跟踪的模糊变结构交互多模算法[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年

3 徐子珊;;《算法设计与分析》课程中的工程教育[A];2005年全国理论计算机科学学术年会论文集[C];2005年

4 王辉;刘治昌;;用一种新算法设计的安全系统[A];2007年中国智能自动化会议论文集[C];2007年

5 舒辉;柳清峰;杜祝平;周蓓;;实践教学模式在本科专业课程教学中的应用[A];中国电子教育学会高教分会2010年论文集[C];2010年

6 彭小宏;阳东升;刘忠;;基于聚类算法的组织协作网设计[A];2006中国控制与决策学术年会论文集[C];2006年

7 李皓;罗熊;;云存储部署优化的进化算法设计[A];2013年中国智能自动化学术会议论文集(第三分册)[C];2013年

8 罗长政;李熙莹;王镇波;罗东华;;一种大流量交叉路口的背景提取与更新算法[A];第十五届全国图象图形学学术会议论文集[C];2010年

9 杨利;李霖;昌月楼;阳国贵;;对称位向量及启发式并行散列连接算法[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年

10 张晋;;嵌入式电脑鼠运行算法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

相关重要报纸文章 前1条

1 ;算法设计的策略[N];电脑报;2003年

相关博士学位论文 前10条

1 谷伟哲;齐次光滑算法及其应用[D];天津大学;2010年

2 龙海侠;进化算法及其在生物信息中的应用[D];江南大学;2010年

3 谭跃;具有混沌局部搜索策略的粒子群优化算法研究[D];中南大学;2013年

4 尤海峰;求解隐式目标优化问题的交互式进化算法研究[D];中国科学技术大学;2011年

5 张常淳;基于MapReduce的大数据连接算法的设计与优化[D];中国科学技术大学;2014年

6 郭崇慧;地区中长期发展规划若干定量模型、算法及应用研究[D];大连理工大学;2002年

7 蒋蔚;粒子滤波改进算法研究与应用[D];哈尔滨工业大学;2010年

8 孙贺;算法设计中的若干前沿问题[D];复旦大学;2009年

9 陈宁涛;基于二分技术的高效算法设计及其应用[D];华中科技大学;2006年

10 娄晓文;无符号基因组切割再粘贴重组问题的算法研究[D];山东大学;2010年

相关硕士学位论文 前10条

1 李欣园;基于选择偏好的组合聚类算法研究与实现[D];内蒙古大学;2015年

2 杨潇;界约束非线性最小二乘问题的无导数算法[D];上海交通大学;2015年

3 王晓璐;基于Zynq的LS-SVM算法加速器设计[D];哈尔滨工业大学;2015年

4 楼磊磊;医疗保险数据异常行为检测算法和系统[D];浙江大学;2015年

5 陈艳琼;若干算法设计模式的研究与应用[D];江西师范大学;2008年

6 贺国华;交互变邻域微分进化群搜索优化算法[D];太原科技大学;2011年

7 房娟艳;混合群搜索优化算法及其应用研究[D];太原科技大学;2010年

8 刘文锦;双收缩人工植物算法[D];太原科技大学;2012年

9 张园;递推技术在算法设计中的应用研究[D];江西师范大学;2012年

10 李旭明;基于小世界模型的社会情感优化算法及应用研究[D];太原科技大学;2012年



本文编号:2048385

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2048385.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户60d2e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com