当前位置:主页 > 科技论文 > 计算机论文 >

基于多核的并行相似连接

发布时间:2018-05-06 20:22

  本文选题:多核 + 多线程 ; 参考:《天津工业大学》2017年硕士论文


【摘要】:相似连接(similarityjoin)是指在给定的数据集中,根据给定的相似度度量函数来衡量数据之间的相似度,并找出所有相似度不小于给定阈值的数据对的操作。相似连接有着广泛的应用领域,如,模糊的关键字匹配,文档聚类,系统推荐,协同过滤,数据集成与清洗等。随着网络和移动应用等信息技术的不断发展,数据呈现爆炸式增长,海量数据的分析需要强大的计算能力,相似连接成为大数据处理领域的热点方式之一。度量相似性的方法有很多种,如,Jaccard similarity,Cosine similarity,Overlap similarity,Hamming distance,Edit distance。本篇文章主要采用 Jaccard similarity的方法去量化数据对相似值。传统的单核计算机平台的处理能力已经很难满足海量数据处理的计算要求。为了提高计算效率和计算性能,利用基于多核平台的多线程并行编程发挥多核体系结构的优势,已经成为实现个人低成本并行计算和多核技术发展的趋势。为海量数据下的相似连接带来了曙光。实验中,本文基于提出的数据分解和任务分解策略实现了四种不同相似连接算法,以此来验证本文提出的基于多核的并行相似连接方法的性能和可扩展性。四种算法为:数据量均衡划分与共享索引的方法,等长数据划分与共享索引的方法,数据量均衡划分与独立索引的方法,等长数据划分与独立索引的方法。通过实验证明,本文提出的方法可以充分利用多核处理器架构的并行处理能力,可以显著的提高相似连接的效率。
[Abstract]:Similarity join is an operation that measures the similarity between data according to the given similarity measure function in a given data set and finds out all the data pairs whose similarity is not less than a given threshold. Similar join has a wide range of applications, such as fuzzy keyword matching, document clustering, system recommendation, collaborative filtering, data integration and cleaning. With the development of information technology, such as network and mobile application, the data is increasing explosively. The analysis of massive data needs powerful computing power. Similarity connection has become one of the hot methods in big data's processing field. There are many methods to measure similarity, such as Jaccard similarity and Cosine similarity / overlap similarity / hamming distance.Edit distance. This article mainly uses Jaccard similarity method to quantify the data pair similarity value. The processing ability of the traditional single-core computer platform has been difficult to meet the computing requirements of mass data processing. In order to improve computing efficiency and computing performance, it has become a trend to realize personal low-cost parallel computing and multi-core technology development by using multi-core multi-thread parallel programming based on multi-core platform to give play to the advantages of multi-core architecture. It brings the dawn to the similar connection under the massive data. In the experiment, four different similarity join algorithms are implemented based on the proposed data decomposition and task decomposition strategies to verify the performance and scalability of the proposed parallel similar join method based on multiple cores. The four algorithms are: the method of data equalization and sharing index, the method of equal-length data partition and shared index, the method of data balance partition and independent index, the method of equal-length data partition and independent index. The experiments show that the proposed method can make full use of the parallel processing ability of the multi-core processor architecture and can significantly improve the efficiency of similar connections.
【学位授予单位】:天津工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP332;TP311.13

【相似文献】

相关期刊论文 前10条

1 张云苑;Java多线程并发技术的实现[J];电脑开发与应用;2004年09期

2 白红;;浅议Java多线程程序设计[J];计算机光盘软件与应用;2013年02期

3 田晓红;国产多线程浏览器“七仙女”的靓点[J];电脑爱好者;2000年24期

4 谢谦,向国全;多线程串行通信实现技术[J];河南大学学报(自然科学版);2001年01期

5 margiex;;多线程中线程的同步及其应用[J];中文信息;2002年02期

6 肖烨;杨智勇;;Java多线程程序设计入门[J];中文信息;2003年06期

7 苏统华;;多线程串行通信系统的研究[J];中文信息;2003年07期

8 崔立剑;吴平;;Java多线程设计模式研究[J];计算机与现代化;2006年11期

9 甘群文;;C#多线程同步与异步的实现[J];电脑开发与应用;2009年09期

10 王沛礼;;高职学生如何掌握Java多线程同步技术[J];科技信息;2010年03期

相关会议论文 前10条

1 姚铎;刘亚萍;;一种基于多线程的BGP策略并行模型的研究方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

2 刘阳;李孝辉;;多线程版本的串口读写技术研究[A];第三届全国虚拟仪器大会论文集[C];2008年

3 董光波;吴宁生;高效;曾庆虎;杨进;温京;;一种组件式多线程网络应用架构的设计与实现[A];2009年中国智能自动化会议论文集(第六分册)[中南大学学报(增刊)][C];2009年

4 肖静静;李双峰;彭智勇;;用多线程方式优化PostgreSQL的查询处理[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

5 高齐新;扬金柱;赵大哲;刘积仁;;基于多线程的三维医学影像的重建[A];第十四届全国图象图形学学术会议论文集[C];2008年

6 闻建芬;何加铭;曾兴斌;陈静;;P2P网络资源多线程传输改进机制[A];浙江省电子学会2010学术年会论文集[C];2010年

7 王楠;慕晓冬;王宁燕;宋洪军;李佳晨;张阳子;;针对多线程架构的决策树查询算法优化及应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

8 梁志威;;用Java语言实现蓝牙聊天平台[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年

9 霍利锋;白凤娥;;基于多线程的移动短信平台设计[A];AECC专题学术研讨会论文集[C];2007年

10 袁小龙;刘增才;李晓霞;郭力;;基于XML的半结构化化学信息提取系统的重构与优化[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年

相关重要报纸文章 前10条

1 ;为何不能进行多线程下载文件?[N];电脑报;2001年

2 郭长佑;多核与多线程——差别到底在哪里?[N];电子资讯时报;2006年

3 ;网络业未来12件大事(下)[N];网络世界;2007年

4 nfy;IE6也能实现多线程下载[N];电脑报;2002年

5 武汉 Tianyi;创建简单的多线程程序[N];电脑报;2001年

6 CPW记者 凡妮;Sun年末奉硕果 预示复苏在即[N];电脑商报;2005年

7 张志刚;多线程走进网络[N];中国计算机报;2006年

8 凡妮;Sun 2009财年二季度财报总体好于预期[N];电脑商报;2009年

9 赵长林邋姜建华;Sun:“芯”如潮涌[N];中国计算机报;2007年

10 计算机世界实验室 吴挺;英特尔的8倍“核动力”[N];计算机世界;2007年

相关博士学位论文 前4条

1 逄龙;多线程程序中关联变量原子性验证关键技术研究[D];哈尔滨工业大学;2015年

2 赵荣彩;多线程低功耗编译优化技术研究[D];中国科学院研究生院(计算技术研究所);2002年

3 杨华;片上多线程体系结构资源分配策略的研究[D];哈尔滨工业大学;2006年

4 徐海峰;多线程的内存调度[D];浙江大学;2011年

相关硕士学位论文 前10条

1 张传勇;基于hadoop影视碎片云存储的设计与实现[D];山东大学;2015年

2 张龙;聊天系统的设计与实现[D];大连理工大学;2015年

3 刘丽;嵌入式WM8960音频驱动及多线程播放器的设计[D];哈尔滨工业大学;2015年

4 刘书健;基于协程的高并发的分析与研究[D];昆明理工大学;2016年

5 杨振;多线程程序数据竞争检测和验证方法研究[D];哈尔滨工业大学;2016年

6 王昭淼;面向多线程程序的确定性重演研究[D];大连理工大学;2016年

7 黄文豪;面向方面程序设计(AOP)在Web程序中的应用研究[D];武汉工程大学;2016年

8 冯林静;基于多核的并行相似连接[D];天津工业大学;2017年

9 陈结;同构多核环境下主从式多线程动态二进制翻译器[D];华中科技大学;2009年

10 殷绍剑;嵌入式多线程远程调试器研究与实现[D];电子科技大学;2013年



本文编号:1853741

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1853741.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1c4ac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com