当前位置:主页 > 经济论文 > 电子商务论文 >

大数据索引技术关键问题研究

发布时间:2019-01-07 09:11
【摘要】:近几十年来,随着各行各业的高度信息化,尤其是科学研究、互联网、电子商务领域等的发展,数据正在以前所未有的速度飞快增长,大数据时代已经到来。如何有效的管理大数据,提高大数据的查询分析能力,是工业界和学术界的研究热点。索引技术是提高数据查询处理的有效方式,大数据存储方式的根本改变,使得原有的传统关系型数据库中成熟的索引技术不能直接应用于海量数据处理,大数据的海量性及复杂性等特征,要求大数据的索引机制必须满足支持多种查询、支持高效检索和易于维护等要求。为了解决大数据查询处理问题,需要针对大数据环境建立新的索引结构。本文提出了一种Hadoop下的基于位置编码索引树,利用MapReduce编程模型在处理大规模数据的优势,根据KNN查询的特点,提出MapReduce框架下的数据存储优化策略,通过将相似资源分开存储,达到在进行查询过程时,最大限度的提高MapReduce的并行性。首先将海量数据进行聚类,然后根据聚类数据分布特征,以质心为圆心对聚类中的数据对象进行同心圆分层,并对每层采用不同长度的二进制编码来表达,将所有数据对象的编码组织成索引树结构,缩短频繁查询的数据查找路径,达到查询时利用索引结构快速确定搜索空间目的,从而提高大数据检索效率。本文通过实验验证提出方法的有效性。从数据规模对查询效率影响、扩展性、K值对查询时间的影响以及跟非索引结构下的对比,实验结果表明本文提出的Hadoop下的基于位置编码索引树在KNN查询时查询效率具有明显提升并具有良好的扩展性。
[Abstract]:In recent decades, with the development of various industries, especially the development of scientific research, Internet, e-commerce and so on, the data is increasing at an unprecedented speed, big data era has come. How to effectively manage big data and improve big data's query and analysis ability is a hot research topic in industry and academia. Indexing technology is an effective way to improve data query processing, big data storage mode is fundamentally changed, so that the original traditional relational database in the mature index technology can not be directly applied to mass data processing, Big data's characteristics of magnanimity and complexity require big data's indexing mechanism to meet the requirements of supporting multiple queries, efficient retrieval and easy maintenance. In order to solve the query processing problem of big data, it is necessary to build a new index structure for big data environment. In this paper, a location-coded index tree based on Hadoop is proposed. The advantage of MapReduce programming model in dealing with large scale data is utilized. According to the characteristics of KNN query, the optimization strategy of data storage under MapReduce framework is put forward, and the similar resources are stored separately. In the process of query, the parallelism of MapReduce can be maximized. Firstly, the massive data are clustered, and then, according to the distribution characteristics of the clustering data, the data objects in the cluster are stratified by concentric circle with centroid, and each layer is expressed by binary coding of different lengths. The coding of all data objects is organized into an index tree structure, which shortens the search path of frequently queried data, and makes use of the index structure to determine the search space quickly, so as to improve the efficiency of big data retrieval. The effectiveness of the proposed method is verified by experiments in this paper. From the effect of data size on query efficiency, scalability, K value on query time and compared with non-index structure, The experimental results show that the proposed location-coded index tree under Hadoop can improve the query efficiency of KNN query and has a good expansibility.
【学位授予单位】:湖北大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

中国期刊全文数据库 前10条

1 郭莹;;数据空间关键问题探究[J];软件导刊;2012年07期

2 厉剑;张绍雄;刘俊杰;李成柱;;大数据引发信息时代新变革[J];大众科技;2013年12期

3 李斌;;大数据及其发展趋势研究[J];广西教育;2013年35期

4 张晓军;孟祥武;;数字化周期[J];计算机科学;2002年05期

5 崔晨;吴扬扬;;基于活动的数据空间数据关系发现[J];微型机与应用;2011年11期

6 贾云得;;微型数字存贮遥测装置数据预存贮方法[J];遥测遥控;1989年06期

7 靳小龙;王元卓;程学旗;;大数据的研究体系与现状[J];信息通信技术;2013年06期

8 朝乐门;;数据空间及其信息资源管理视角研究[J];情报理论与实践;2013年11期

9 黄一凡;;合并分区 数据无损有妙招[J];电脑爱好者;2011年23期

10 葛敬军;胡长军;刘歆;李扬;刘震宇;;面向领域科学数据的虚拟数据空间共享模型[J];小型微型计算机系统;2014年03期

中国重要会议论文全文数据库 前5条

1 李鸿奎;陈洪艳;;大连市房地产基础地理信息系统的设计和建设[A];中国地理信息系统协会第九届年会论文集[C];2005年

2 董彦磊;申德荣;寇月;聂铁铮;;数据空间中数据组织模型以及关联关系发现模型的研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

3 庞怡;许洪光;张志敏;;针对海量科技信息的存储研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年

4 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年

5 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年

中国重要报纸全文数据库 前6条

1 牛泽亚;用户如何在数据空间里“被遗忘”?[N];人民邮电;2014年

2 风格;指引大数据未来发展方向的九大真理[N];中华读书报;2013年

3 录音整理 本报记者 刘文强 杨丰源;创新驱动,奋力奔向大数据时代[N];贵阳日报;2014年

4 中国人民大学信息学院 李玉坤;云计算与数据空间[N];中国计算机报;2008年

5 整理 本报记者 苏丹丹;把握大数据机遇 推动文化产业跨越发展[N];中国文化报;2013年

6 安徽国税局 赵为民;税务综合数据平台的设想[N];计算机世界;2007年

中国博士学位论文全文数据库 前10条

1 李晓娜;面向SaaS应用的多租户数据放置机制研究[D];山东大学;2015年

2 张德兵;基于机器学习的数据补全、标注和检索若干问题研究[D];浙江大学;2015年

3 刘思彤;空间文本数据的查询处理技术研究[D];清华大学;2015年

4 侯振隆;重力全张量梯度数据的并行反演算法研究及应用[D];吉林大学;2016年

5 柯余洋;面向三类应用数据的智能分析与优化研究[D];中国科学技术大学;2016年

6 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年

7 陈鹏;面向情景感知计算的时空数据管理、查询、分析与相关算法研究[D];华东师范大学;2013年

8 杨丹;数据空间中基于语义的实体搜索关键技术研究[D];东北大学;2012年

9 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年

10 张晓东;数字河口平台建设关键技术研究[D];中国海洋大学;2009年

中国硕士学位论文全文数据库 前10条

1 权西瑞;云环境下数据版权保护方法的研究[D];西安建筑科技大学;2015年

2 向兵;中药颗粒调剂设备中辅助硬件及自动封口机的设计[D];东北师范大学;2015年

3 朱跃龙;公安情报自动分类系统的设计与实现[D];电子科技大学;2015年

4 张鹏远;大数据分类存储及检索方法研究[D];西安电子科技大学;2014年

5 王梦佳;DOA下数据注册方法的初步研究与实现[D];成都理工大学;2015年

6 王照清;大数据环境下数据查询优化技术应用研究[D];北方工业大学;2016年

7 贾振美;面向稀疏轨迹数据的位置预测方法研究[D];东北大学;2014年

8 雷德龙;矢量空间数据云存储与马尔可夫并行聚类算法研究[D];福州大学;2014年

9 王甜甜;国家地理大数据战略平台研究[D];中共中央党校;2016年

10 周跃龙;面向微博客的数据可视化设计与实现[D];电子科技大学;2016年



本文编号:2403486

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2403486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b78a2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com