当前位置:主页 > 科技论文 > 软件论文 >

基于多核的细粒度并行的集合相似连接

发布时间:2018-05-05 08:47

  本文选题:相似连接 + 并行 ; 参考:《计算机学报》2017年10期


【摘要】:相似连接是指在给定的两个数据集中,根据给定的相似性度量函数来计算数据之间的相似度,并找出所有相似度不小于给定阈值的数据对的操作.相似连接作为一个基本的操作,被广泛地应用于各种领域.随着网络和移动应用等信息技术的不断发展,数据呈现爆炸式增长,海量数据的分析需要强大的计算能力.为了满足不断增长的计算需求,提高计算效率和计算性能,计算机的体系结构也不断升级,出现了多核多处理器架构.为了提高相似连接的效率和计算资源的利用率,文中提出了基于多核的并行相似连接方法.相似连接操作与传统关系数据库中结构化数据之间的连接操作不同,相似连接处理的是异构数据,每一条数据处理的代价与其结构有关.为了实现多核处理器之间的任务均衡,文中提出了适合相似连接操作特点的数据长度均衡的数据划分方法.根据相似连接操作遵循Filter-Refine两阶段框架的特点,结合现代计算机体系结构的多核特性,提出了基于共享索引的任务分解方法和基于独立索引的任务分解方法.文中利用提出的数据划分方法和任务分解方法,实现了基于多核的并行化相似连接算法,包括自连接和R-S连接.文中对两种不同的实现方式的时间代价进行了分析,其中包括索引更新、索引扫描以及集合交运算的代价,从理论分析的角度证明了数据长度均衡划分和独立索引的实现方式在执行效率上具有优势.文中实验部分利用不同的数据集在多核多处理器平台上对并行相似连接的不同实现方式的执行效率和可扩展性进行了验证.实验结果证明,文中提出的数据长度均衡的数据划分方法以及基于独立索引的任务分解方法可以有效地提高并行相似连接的执行效率,在16核平台上使用16个线程在DBLP数据集上执行并行的相似自连接以及在CiteSeer和DBLP两个数据集上执行并行的R-S连接都可以在1秒内完成.
[Abstract]:Similarity join is an operation that calculates the similarity between data according to the given similarity measure function in two given data sets and finds out all the data pairs whose similarity is not less than a given threshold. As a basic operation, similar join is widely used in various fields. With the development of information technology, such as network and mobile application, the data is increasing explosively. The analysis of massive data needs powerful computing power. In order to meet the increasing demand of computing and improve the computing efficiency and performance, the architecture of computer has been continuously upgraded, and a multi-core and multi-processor architecture has emerged. In order to improve the efficiency of similar join and the utilization of computing resources, a parallel similar join method based on multi-core is proposed in this paper. The similar join operation is different from the connection operation between the structured data in the traditional relational database. The similar join deals with the heterogeneous data, and the cost of each data processing is related to its structure. In order to realize the task equalization between multi-core processors, a data partition method of data length equalization suitable for the characteristics of similar connection operation is proposed in this paper. According to the characteristics of the similar join operation following the Filter-Refine two-stage framework and the multi-core characteristics of modern computer architecture, a task decomposition method based on shared index and a task decomposition method based on independent index are proposed. Using the proposed data partitioning method and task decomposition method, a parallel parallel similar join algorithm based on multi-core is implemented, including self-join and R-S connection. In this paper, the time cost of two different implementations is analyzed, including the cost of index update, index scan and set intersection. From the point of view of theoretical analysis, it is proved that the implementation of data length equilibrium partition and independent index has advantages in execution efficiency. In the experiment part, we use different data sets to verify the efficiency and expansibility of parallel similar connection implementation on multi-core and multi-processor platform. Experimental results show that the proposed data length equalization method and task decomposition method based on independent index can effectively improve the efficiency of parallel similar join execution. Using 16 threads on the 16-core platform to perform parallel similar self-join on DBLP dataset and parallel R-S connection on CiteSeer and DBLP data sets can be completed in one second.
【作者单位】: 天津工业大学计算机科学与软件学院;
【基金】:国家自然科学基金(61402329,61373104) 国家留学基金委资助~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 夏军,杨学军;基于数据空间融合的全局计算与数据划分方法[J];软件学报;2004年09期

2 贾婷;魏祖宽;唐曙光;金在弘;;一种面向并行空间查询的数据划分方法[J];计算机科学;2010年08期

3 董春丽;赵荣彩;杜澎;王峥;;基于线性不等式的数据划分方法的优化[J];计算机应用;2007年05期

4 杨小虎;王新宇;毛明;;基于数据划分的分布式模型及其负载均衡算法[J];浙江大学学报(工学版);2008年04期

5 丁强,臧斌宇,朱传琪;一种动态分布数组的数据划分模式[J];计算机工程与设计;2005年05期

6 丁强 ,臧斌宇 ,朱传琪;基于指针数组的数据划分模式[J];计算机工程与应用;2005年27期

7 钱辰;窦万峰;;面向离散点云并行插值数据划分方法研究[J];南京师范大学学报(工程技术版);2013年02期

8 吕成;金登男;;基于关系的并行数据仓库的数据划分和操作[J];计算机应用研究;2006年08期

9 仲跻冬,李晓明,方滨兴;HPF计算划分的算法实现[J];计算机工程与科学;1997年02期

10 宋效东;窦万峰;汤国安;江岭;赵菁;赵明伟;;分布式并行地形分析中数据划分机制研究[J];国防科技大学学报;2013年01期

相关会议论文 前4条

1 杨东华;李建中;张文平;;基于数据网格环境的连接操作算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 董光波;吴宁生;高效;曾庆虎;杨进;温京;;一种组件式多线程网络应用架构的设计与实现[A];2009年中国智能自动化会议论文集(第六分册)[中南大学学报(增刊)][C];2009年

3 肖静静;李双峰;彭智勇;;用多线程方式优化PostgreSQL的查询处理[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

4 高齐新;扬金柱;赵大哲;刘积仁;;基于多线程的三维医学影像的重建[A];第十四届全国图象图形学学术会议论文集[C];2008年

相关重要报纸文章 前1条

1 武汉 Tianyi;创建简单的多线程程序[N];电脑报;2001年

相关博士学位论文 前4条

1 逄龙;多线程程序中关联变量原子性验证关键技术研究[D];哈尔滨工业大学;2015年

2 吴振东;并行程序中bug检测技术研究[D];国防科学技术大学;2015年

3 赵荣彩;多线程低功耗编译优化技术研究[D];中国科学院研究生院(计算技术研究所);2002年

4 陈梅;面向复杂数据的聚类算法研究[D];兰州大学;2016年

相关硕士学位论文 前10条

1 朱振华;基于虚拟化部署的高能效数据库集群设计[D];哈尔滨工业大学;2015年

2 王倩;大图数据启发式划分与管理及在BC-BSP系统中的应用研究[D];东北大学;2014年

3 孙星宇;基于MapReduce的kNN-join算法的研究与设计[D];黑龙江大学;2016年

4 罗浩;分布式环境下Top-K计算问题研究[D];东南大学;2016年

5 郝峗;可扩展的面向关联的流式图数据划分方法研究[D];华中科技大学;2015年

6 钱辰;面向DEM点云数据的并行插值数据划分优化方法研究[D];南京师范大学;2013年

7 高峰;基于BSP模型的大图处理系统数据划分模块的设计与实现[D];东北大学;2012年

8 程佳;一种基于Hadoop的RDF数据划分与存储研究[D];南京大学;2013年

9 张雷;基于Spark系统的查询分析及优化研究[D];北京交通大学;2016年

10 李佳宁;GPU上基于Hadoop的高效连接操作算法研究[D];哈尔滨工业大学;2016年



本文编号:1847027

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1847027.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户57d20***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com