大数据分类存储及检索方法研究
本文关键词:大数据分类存储及检索方法研究
【摘要】:物联网,社交网络、电子商务等导致数据规模呈指数级增长。大数据应具有存储效率高、检索速度快的基本要求。数量众多的小文件以及文件类型的多样性使得大数据存储和检索面临着严峻的挑战。针对数据规模巨大,种类繁多,大小不一等特点,在分布式集群思想的基础上,提出一种文件分类存储及检索的管理架构。该架构能够动态扩展存储容量以应对数据的增长需求、基于多标签数据库设计机制,标记数据种类特征加快数据检索效率,实现数据灵活划分。该架构集成了传统磁盘存储,分布式存储,分布式数据库存储等存储方式,能够根据数据大小,类型属性动态选择存储路径,解决了海量小文件在分布式系统中占用过多数据块和内存问题,对于不需要备份的大文件选择传统磁盘存储,避免分布式系统中盲目备份带来的存储空间浪费问题。提出面向列式的“Z”型数据检索方法,支持同种类型数据的批量管理,提高数据层级目录检索效率。基于以上架构和方法,设计和实现了大数据分类存储和检索系统。系统由混合存储子系统,数据分类判断子系统,元数据信息管理子系统,可视化管理子系统组成。实验证明,该系统能够很好满足海量的数据存储和检索需求。
【关键词】:大数据 小文件 分布式 标签 分类
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333;TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 符号对照表9-10
- 缩略语对照表10-13
- 第一章 绪论13-17
- 1.1 引言13-14
- 1.2 论文研究背景和意义14
- 1.3 论文研究内容及主要工作14-15
- 1.4 论文结构安排15-17
- 第二章 大数据技术的国内外研究现状17-23
- 2.1 国外发展现状17-18
- 2.2 国内发展现状18-23
- 第三章 大数据的分类存储及检索关键技术23-39
- 3.1 分布式存储系统HDFS24-26
- 3.2 分布式计算框架Map/Reduce26-29
- 3.3 分布式数据库Hbase29-34
- 3.4 分布式数据仓库Hive34
- 3.5 分布式机器学习系统mahout34-35
- 3.6 大数据的应用领域35-36
- 3.7 大数据当前面临的挑战36-39
- 第四章 大数据分类存储研究39-49
- 4.1 大数据分类存储需考虑的问题39-40
- 4.2 大数据存储分类方法40-44
- 4.2.1 按文件大小分类40-43
- 4.2.2 按文件类型分类43
- 4.2.3 按功能属性分类43-44
- 4.3 基于决策树的存储分类方法44-47
- 4.4 分类存储系统方案47
- 4.5 大数据分类存储结构模型47-48
- 4.6 大数据分类存储方法总结48-49
- 第五章 大数据分类检索方法研究49-59
- 5.1 文件系统检索49
- 5.2 数据库检索49-50
- 5.3 面向列的分布式数据库检索50-52
- 5.4“Z”型分类检索算法52-55
- 5.5 文件内容检索55-58
- 5.6 分类检索方法总结58-59
- 第六章 大数据分类存储及检索方法实现59-65
- 6.1 存储子系统59-60
- 6.2 数据分类判断模块60
- 6.3 元数据信息管理中间件60-62
- 6.4 可视化管理客户端62-63
- 6.5 系统通信机制63-64
- 6.6 系统优化设计64-65
- 第七章 结论与展望65-67
- 7.1 研究结论65
- 7.2 研究展望65-67
- 参考文献67-71
- 致谢71-73
- 作者简介73-74
- 1.基本情况73
- 2.教育背景73
- 3.攻读硕士学位期间的研究成果73-74
【相似文献】
中国期刊全文数据库 前10条
1 郭莹;;数据空间关键问题探究[J];软件导刊;2012年07期
2 厉剑;张绍雄;刘俊杰;李成柱;;大数据引发信息时代新变革[J];大众科技;2013年12期
3 李斌;;大数据及其发展趋势研究[J];广西教育;2013年35期
4 张晓军;孟祥武;;数字化周期[J];计算机科学;2002年05期
5 崔晨;吴扬扬;;基于活动的数据空间数据关系发现[J];微型机与应用;2011年11期
6 贾云得;;微型数字存贮遥测装置数据预存贮方法[J];遥测遥控;1989年06期
7 靳小龙;王元卓;程学旗;;大数据的研究体系与现状[J];信息通信技术;2013年06期
8 朝乐门;;数据空间及其信息资源管理视角研究[J];情报理论与实践;2013年11期
9 黄一凡;;合并分区 数据无损有妙招[J];电脑爱好者;2011年23期
10 葛敬军;胡长军;刘歆;李扬;刘震宇;;面向领域科学数据的虚拟数据空间共享模型[J];小型微型计算机系统;2014年03期
中国重要会议论文全文数据库 前5条
1 李鸿奎;陈洪艳;;大连市房地产基础地理信息系统的设计和建设[A];中国地理信息系统协会第九届年会论文集[C];2005年
2 董彦磊;申德荣;寇月;聂铁铮;;数据空间中数据组织模型以及关联关系发现模型的研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 庞怡;许洪光;张志敏;;针对海量科技信息的存储研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
4 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年
5 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年
中国重要报纸全文数据库 前7条
1 牛泽亚;用户如何在数据空间里“被遗忘”?[N];人民邮电;2014年
2 风格;指引大数据未来发展方向的九大真理[N];中华读书报;2013年
3 录音整理 本报记者 刘文强 杨丰源;创新驱动,,奋力奔向大数据时代[N];贵阳日报;2014年
4 中国人民大学信息学院 李玉坤;云计算与数据空间[N];中国计算机报;2008年
5 整理 本报记者 苏丹丹;把握大数据机遇 推动文化产业跨越发展[N];中国文化报;2013年
6 安徽国税局 赵为民;税务综合数据平台的设想[N];计算机世界;2007年
7 记者 郑向鹏 通讯员 刘戈;模块化布局可按需使用[N];深圳特区报;2010年
中国博士学位论文全文数据库 前10条
1 李晓娜;面向SaaS应用的多租户数据放置机制研究[D];山东大学;2015年
2 张德兵;基于机器学习的数据补全、标注和检索若干问题研究[D];浙江大学;2015年
3 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年
4 陈鹏;面向情景感知计算的时空数据管理、查询、分析与相关算法研究[D];华东师范大学;2013年
5 杨丹;数据空间中基于语义的实体搜索关键技术研究[D];东北大学;2012年
6 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年
7 张晓东;数字河口平台建设关键技术研究[D];中国海洋大学;2009年
8 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
9 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
10 刘江涛;面向多领域用户模型的自适应网络制图服务机制研究[D];武汉大学;2012年
本文编号:865492
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/865492.html