云环境下海量数据查询处理与分析技术研究
本文关键词:云环境下海量数据查询处理与分析技术研究,由笔耕文化传播整理发布。
【摘要】:近年来,随着数据量的急剧增长,数据处理技术也同步获得非常巨大的发展。有别于过去传统的数据查询分析技术,借助于云计算技术的海量数据查询处理与分析技术有其本质特征。目前,云环境下的海量数据查询处理与分析技术仍处于不成熟阶段,但其先进性和实用价值已无可置疑。因此,研究云环境下的海量数据查询处理与分析技术具有重要意义。现有的研究已经解决了大部分简单的查询处理问题,对于一些更为复杂的查询处理分析问题,要么不能解决,要么效率不高。本文围绕云环境下海量数据的k近邻连接查询,和k Means聚类分析进行研究,主要研究工作如下:(1)根据云环境下大规模数据查询处理分析的特点,提出了一种适用于多个具有依赖关系的Map Reduce任务的计算框架——基于数据流的计算框架。由于Map Reduce任务均需要读写分布式文件系统,导致Map Reduce不能有效表达多个任务之间依赖关系。该框架将数据处理过程不再按照单任务建模,而是作为一种数据流图来处理,减少了多个具有依赖关系Map Reduce任务之间的文件存储。重新组合任务提高运行效率。(2)k-近邻连接(k NN Join)查询是空间数据库中一种常用操作,随着数据呈爆炸式增长,设计分布式k-近邻连接查询算法成为了目前急需解决的问题。由于现有的分布式k NN Join查询算法都包括了多轮串行的Map Reduce任务,因此提出了一种基于数据流计算框架上高效的k NN Join算法,利用空间填充曲线(z曲线)将多维数据映射为一维数据,从而将k-近邻连接查询转化为一维范围查询。(3)传统的集中式k Means算法已不能适应当前的数据规模。现有分布式k Means算法是基于Map Reduce计算框架而且没有考虑到初始聚类中心的影响。因此,在基于数据流框架基础上,提出了一种高效的k Means算法。该算法采用了基于多次采样的方式确定初始聚类中心实现负载均衡降低算法迭代次数。(4)对Hive进行了改进和扩充,针对空间数据查询处理分析的复杂性,云环境下大规模数据查询处理与分析出现的特点及需求,以Hive大规模数据查询处理与分析平台为基础,对现有系统进行了扩充,使其能够提供对更为复杂的查询处理分析的支持。
【关键词】:云环境 数据流 k近邻连接 kMeans聚类
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 绪论10-17
- 1.1 课题研究背景和意义10-11
- 1.2 国内外研究现状和分析11-14
- 1.3 本文的主要工作14-15
- 1.4 本文的组织结构15-17
- 第二章 相关技术背景17-28
- 2.1 MapReduce模型17-20
- 2.1.1 MapReduce产生背景17-18
- 2.1.2 MapReduce编程模型18-19
- 2.1.3 MapReduce实现机制19-20
- 2.2 kNN查询技术20-24
- 2.2.1 kNN查询的意义20
- 2.2.2 kNN查询方法简介20-22
- 2.2.3 基于R树的kNN查询22-23
- 2.2.4 基于Voronoi的kNN查询23-24
- 2.2.5 基于空间填充曲线的kNN查询24
- 2.3 聚类分析算法概况24-27
- 2.3.1 聚类分析方法分类24-26
- 2.3.2 几种常用聚类分析算法26-27
- 2.4 本章小结27-28
- 第三章 云环境下基于数据流的K近邻连接算法28-40
- 3.1 kNN join查询定义28-29
- 3.2 基于数据流的计算框架及IPO运行模型29-30
- 3.3 基于数据流的框架下kNN Join算法30-34
- 3.3.1 z-order曲线的划分算法31-33
- 3.3.2 基于数据流的kNNJ查询算法33-34
- 3.4 代价分析34-35
- 3.4.1 通信代价34-35
- 3.4.2 计算代价35
- 3.4.3 I/O代价35
- 3.5 实验结果与分析35-39
- 3.5.1 实验设置35-36
- 3.5.2 结果分析36-39
- 3.6 本章小结39-40
- 第四章 云环境下基于数据流的kMeans聚类算法40-49
- 4.1 传统的kMeans聚类算法40-41
- 4.2 基于MapReduce的kMeans聚类算法41-42
- 4.3 基于数据流的kMeans聚类算法42-45
- 4.3.1 基于数据流的初始聚类中心选择算法42-43
- 4.3.2 基于数据流的kMeans算法(DKmeans)43-45
- 4.4 代价分析45
- 4.5 实验与性能评估45-48
- 4.5.1 实验设置45-46
- 4.5.2 实验结果分析46-48
- 4.6 本章小结48-49
- 第五章 基于Hive改进的大数据查询分析系统49-63
- 5.1 改进Hive大数据查询分析系统的背景及目的49-50
- 5.2 Hive体系结构及改进部分介绍50-51
- 5.3 Hive改进模块的设计与实现51-62
- 5.3.1 词法语法分析模块51-55
- 5.3.2 语义分析模块55-57
- 5.3.3 逻辑计划生成与优化57-59
- 5.3.4 物理计划生成与优化59-61
- 5.3.5 kNN join与kMeans语句执行流程61-62
- 5.4 本章小结62-63
- 第六章 结束语63-65
- 6.1 本文小结63-64
- 6.2 本文的不足和未来的研究方向64-65
- 参考文献65-70
- 致谢70-71
- 在学期间的研究成果及发表的学术论文71
【相似文献】
中国期刊全文数据库 前10条
1 李北星;分布式数据库管理系统中的查询处理设计[J];计算机工程与设计;1987年03期
2 T.F.Keefe ,M.B.Thuraisingham ,W.T.Tsai ,范宏深;安全查询处理策略[J];计算机工程与科学;1991年01期
3 李芝棠,朱俭,殷军,张江陵;单关系查询处理机的任务生成[J];计算机应用;1992年02期
4 冯志林;分布式数据库系统中基于半连接的查询处理[J];计算机应用与软件;1989年03期
5 郝忠孝,,马宗民,胡春海;基于空值环境下扩展关系模型的查询处理研究[J];计算机研究与发展;1994年10期
6 冯玉才,张鹏程;基于近似查询的在线分组聚集及其应用[J];计算机工程;2005年16期
7 黄艳;朱会东;;一种基于移动Agent的查询处理策略[J];计算机工程;2007年01期
8 钱江波;徐宏炳;董逸生;刘学军;王永利;杨雪梅;;共享连接结果的连续查询处理[J];东南大学学报(自然科学版);2007年01期
9 肖予钦,张巨,景宁,李军;基于R树的方向关系查询处理[J];软件学报;2004年01期
10 李国禄;分布式数据库系统中的查询处理[J];青海师专学报.教育科学;2005年S3期
中国重要会议论文全文数据库 前10条
1 韩璐;王朝坤;邹鹏;徐亚军;;不确定图数据上的不确定查询处理[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 陈红;王珊;;多阶段并行多查询处理框架[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 陈良刚;刘震;施伯乐;;位置相关查询处理[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 廖巍;景宁;李军;吴秋云;;一种通用的可伸缩增量连续查询处理框架[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 朱金清;王伟;周军锋;孟小峰;;基于相关性语义的高效XML Twig查询处理方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 夏添;蔡文渊;徐林昊;钱卫宁;周水庚;周傲英;;P2P环境下的查询处理代价估算[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 祝远玲;冯玉;王珊;;PBASE的并行查询处理策略[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
8 丁治明;郭黎敏;;一种支持通用θ-Join的并行查询处理机制[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 熊蜀光;李建中;王宏志;高宏;;一种基于编码的图模型XML数据的存储与查询处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 肖刚;庄严;郑振楣;石树刚;;SamBase中的对象查询处理[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
中国博士学位论文全文数据库 前8条
1 刘鼎甲;基于关系模型的语料库查询处理问题研究[D];燕山大学;2015年
2 邓波;分布式序敏感查询处理关键技术研究[D];国防科学技术大学;2006年
3 陈红;并行多查询处理关键技术研究[D];中国科学院研究生院(计算技术研究所);2000年
4 王振华;P2P环境下查询处理关键技术的研究[D];东北大学;2011年
5 吴爱华;不一致数据的查询处理[D];复旦大学;2010年
6 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
7 张蓉;结构化对等计算机系统中的查询处理[D];复旦大学;2007年
8 李瑞轩;异构信息集成中的查询处理与优化研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 Les Kimball Kamara;连接数据知识库语义查询处理[D];东北大学;2014年
2 王飞;云环境下海量数据查询处理与分析技术研究[D];南京航空航天大学;2015年
3 曹佩;延迟容忍网络的订阅查询处理[D];宁波大学;2013年
4 刘伟伟;分布式空间信息集成查询处理关键技术研究[D];国防科学技术大学;2009年
5 李东亮;不确定多媒体数据个性化查询处理系统设计与实现[D];华中科技大学;2012年
6 武亮亮;增量的连续k近邻查询处理方法的研究[D];燕山大学;2010年
7 李义国;基于不完全约束的XML查询处理关键技术研究[D];燕山大学;2010年
8 熊蜀光;图模型XML数据上查询处理方法的研究[D];哈尔滨工业大学;2006年
9 曲东;面向Ziv-Lempel压缩文本的多查询处理技术[D];东北大学;2010年
10 刘英童;P2P环境下基于模式匹配的复杂查询处理的研究[D];哈尔滨工业大学;2007年
本文关键词:云环境下海量数据查询处理与分析技术研究,由笔耕文化传播整理发布。
本文编号:426005
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/426005.html