基于相似连接的大数据集成系统的设计与实现

发布时间:2020-02-05 13:32
【摘要】:随着信息技术的迅猛发展,现代的互联网每天都产生大量的数据,引发了人们对大数据集成的需求。人们提出了新的分布式文件系统来存储海量数据,并在分布式文件系统之上提出了很多并行计算方法来解决大数据计算带来的挑战。其中最具有代表的是Google提出的MapReduce计算框架。相似连接是数据集成中的一个重要操作,是指在组数据源中寻找满足一定相似度阈值的记录对,常被用于数据清洗、去重和实体识别等数据集成操作中。然而随着数据规模的增长,检测这种相似记录对成为了一种挑战,因为越来越多的应用需要处理海量的数据通常不能在一台机器上实现。相似连接计算本身可以使用并行计算模型进行处理,因此使用MapReduce计算框架可以很好的解决大规模数据集上相似连接计算性能问题,提高计算效率。本文以海量论文数据为研究对象,基于相似连接技术设计了大数据集成系统,用于有效集成海量数据。系统基于MapReduce计算框架实现,用来解决实体识别的问题,核心功能包含三个处理阶段:首先从若干数据源中发现所有满足相似度阈值的记录对,这些工作是基于相似连接技术实现的。然后对相似记录对进行划分,得到相似子图。最后在子图上进行实体采样,完成实体识别。本文重点研究了分布式环境下的集合相似连接和MapReduce任务优化两个问题。针对MapReduce下相似连接,本文在前缀过滤和位置信息过滤的基础上,提出了全前缀过滤及扩展后缀过滤的过滤算法,设计了一种基于管道的混合过滤框架,通过降低候选对数量提高相似连接效率。对于MapReduce任务,本文从两个方面进行了优化:通过数据压缩降低了集群节点之间的网络开销;通过任务负载均衡提高了任务的并行效率。最后本文在大数据集成系统的基础上设计并实现了知识产权搜索原型系统。为了测试本文提出了基于MapReduce计算框架的相似连接算法和任务调度策略的性能,本文使用DBLP和Citeseerx真实数据集进行大量对比实验。通过实验,我们比较了不同相似连接算法的时间开销。实验结果表明本文提出的相似过滤框架和负载均衡算法随着数据规模的增加性能会有显著提高。本文提出的大数据集成系统能够很好地执行MapReduce任务调度,为用户提供直观友好的交互界面,可以高效地进行大数据集下的基于相似连接的数据集成。
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 钟昕;伏玉琛;;书籍搜索领域Deep Web数据集成系统[J];计算机技术与发展;2008年09期

2 谢兴生;张一鸣;余银;庄镇泉;;一种支持智能匹配检索的数据集成系统设计[J];模式识别与人工智能;2009年01期

3 肖瑞;张威;;基于云计算的数字化校园数据集成系统研究[J];中国科技信息;2013年22期

4 刘敏超;刘卫东;;数据集成系统关键问题研究[J];计算机应用;2006年07期

5 时俊苓;叶丹;;面向业务的数据集成系统设计与实现[J];计算机系统应用;2010年02期

6 王坛;;出版社书目数据集成系统的设计与实现[J];南阳师范学院学报;2010年12期

7 郭忠文;尚传进;管恩花;;面向服务构架的海洋数据集成系统的设计与实现[J];计算机应用研究;2006年02期

8 张仕;赖会霞;;基于轻映射的数据集成系统[J];计算机与数字工程;2009年09期

9 谢委员;叶枫;;医院区域医疗数据集成系统研究[J];现代物业(中旬刊);2010年06期

10 王硕;靳熙芳;;北海区海洋环境监测多源数据集成系统研究[J];科技信息;2010年29期

相关会议论文 前5条

1 ;生产调度数据集成系统[A];中国黄金协会科学技术奖表彰会暨新技术、新设备推广会议材料[C];2004年

2 谢丽聪;白清源;余建家;;数据集成系统的三层体系结构及查询改写算法的改进[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

3 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

4 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

5 张硕;李建中;熊蜀光;王春宇;;一种基于XML的Web数据集成系统查询分解和优化策略[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

相关重要报纸文章 前3条

1 ;BI困则思变[N];网络世界;2007年

2 《网络世界》记者 于翔;大数据高调唱响[N];网络世界;2012年

3 哈尔滨工业大学 王宏志;借XML高效管理数据之道[N];中国计算机报;2007年

相关博士学位论文 前3条

1 陈彤兵;LAV数据集成系统的查询处理[D];复旦大学;2005年

2 梅从立;过程工业数据显著误差检测技术研究[D];浙江大学;2007年

3 张永进;面向防汛抗旱指挥系统的应用集成中间件平台研究[D];西北大学;2007年

相关硕士学位论文 前10条

1 林建昌;电力行业分布式ETL数据集成系统研究与实现[D];电子科技大学;2015年

2 庞志强;基于相似连接的大数据集成系统的设计与实现[D];东北大学;2014年

3 姚源;地月日大系统研究中数据集成系统的构建和应用研究[D];中国航天第二研究院;2008年

4 郭军;Deep Web数据集成系统的设计与应用研究[D];西安电子科技大学;2011年

5 何岭嘉;数据集成系统中通信平台的研究与实现[D];暨南大学;2008年

6 李晶;基于产品生命周期的中小型企业数据集成系统的研究[D];合肥工业大学;2006年

7 张雷;社保数据集成系统的研究与应用[D];湖南大学;2006年

8 刘凯;远程教育评估系统中数据集成技术研究[D];西安电子科技大学;2006年

9 方成;托管银行数据集成系统的设计与实现[D];大连理工大学;2013年

10 陈跃国;电子政务数据集成系统的建模与实现[D];清华大学;2004年



本文编号:2576651

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/2576651.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae55c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com