当前位置:主页 > 科技论文 > 计算机论文 >

基于密度划分的复杂大数据存储方法与技术研究

发布时间:2020-10-23 16:22
   自互联网诞生之日起,尤其是进入21世纪以来,随着互联网、物联网等技术的飞速发展,每天都在产生非常庞大的数据量。而随着机器学习等技术的迅猛发展,人们可以利用现有的技术可以从大数据中挖掘出具有复杂事件模式关系的数据集,通过挖掘出的这些关系数据集可以更好的服务于我们的日常生活与生产当中。本课题处理的数据源对象就是挖掘出的具有复杂事件关系数据集。随着复杂事件关系数据集的规模越来越大,而现有存储设备的存储空间已无法满足对大数据的存储,并且用于提高硬件设备存储能力的相关技术的发展速度无法追上数据集规模的膨胀速度,对大数据的有效存储已是亟需解决的一个重大问题。数据压缩技术作为对数据存储影响最大的一项技术,成为本文研究的重点。本文针对复杂事件关系数据集中带有重复性质的数据比例过高,冗余度过大的问题,提出一种基于数据源密度分布的密度区域划分算法,提取出数据源中高密度数据区域,对高密度区域中大量带有重复性质的数据进行统一擦除操作,以达到数据压缩目的,并与传统经典的LZW压缩算法做出横向对比,对本文提出的压缩策略的数据压缩性能做进一步的分析与验证。最后,为了解决现有单一数据存储设备对大数据的存储能力不足,存储效率较低等问题,本文利用分布式文件系统对大数据存储的优越性,在主流的HDFS分布式文件存储系统(Hadoop Distributed File System)基础之上,结合本文提出的数据压缩策略,使用B树算法构建索引结构,设计并实现了一个大数据压缩存储工具,进一步检验了上诉工作的可行性和优化了对复杂事件关系大数据存储方法的方案研究。
【学位单位】:北方工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;TP333
【部分图文】:

数据库索引,方式,索引


适用于数据库中的数据符合特定的数据结构的情况之下,二分查找查询算法只适??用于数据库中的数据是事先有序的,才能用二分查找算法进行数据查询。而数据??库中的数据本身的组织结构并不能满足所有数据结构特性的要求(如,理论上而??言,数据库中的数据不可能同时依据两列数据按照顺序结构进行组织)。所以,在??数据库中的数据之外,一个好的数据库系统还需要维护一个满足特定的数据查询??算法的数据结构要求,这些数据结构依据某种方式指向数据库中对应的数据,这??样就可以在这些数据结构上实现更为高级的数据查询算法,这种结构,就是索引。??对于数据库索引的理解,其在功能上与书本的目录相同,书中的内容对应的??是数据库表里的记录,而书的li]录对应的就是该表的索引。目录与书本内容存在??一一对应的关系,通过目录可以查询到书本中对应的内容,索引与数据库表中的??记录存在一一对应的关系,通过索引可以查询到数据库表中对应的记录数据。所??以,索引就是以某个字段值(或一组字段值的组合)作为输入条件,依据输入的条??件在数据库索引屮找出该字段值对应的索引,再根据索引查询到数据库该索丨对??应的记录数据。以下图为例:??Coll?CqI2??

压缩算法,串表,字符串表,关键码


查询完所有的叶子节点中的关键码数组后,仍未匹配到与给定的值信息相同的关??键字Key,则视为查询失败,即本次查询没有找到,返回〇(或返回-1)。??图2.2为深度2的B-Tree结构示意图:??1?15?1?I.?S6?r?—]?77?;??data?/?data?\?data?\??/?\?I.??data?data??图2.2?B树数据结构??2.3?LZW压缩算法??LZW压缩算法作为数据压缩研究领域内经典的压缩算法,对其做进一步的??深入研究是非常具有参考价值的,并且本课题在下一章节与LZW压缩算法做了??横向对比,下面是对LZW压缩算法的详细介绍。??LZW压缩算法是_?.种新颖的压缩方法,由Lemple-Ziv-Welch三人共同创造,??算法由他们的名字首字母组成。它采用了一种先进的串表压缩,所以LZW算法??又叫、?串表压缩算法”,其思想是将每个第一次出现的串放在一个字典中,用一个??数字来表示串,压缩文件只存贮数字,则不存贮串,从而使数据文件的压缩效率??得到较大的提高。LZW算法的基本原理简述如下:??首先建立一张字典(也称之为字符串表)

传统文件系统,文件块,架构,分布式文件系统


第二章相关理论和技术介绍??图2.3?LZW算法字典结构??2.4?HDFS分布式文件系统技术??Hadoop分布式文件系统(HDFS)旨在可靠地存储非常大的数据集,并将这??些数据集以高带宽传输到用户应用程序。在大型集群中,数千台服务器都托管??直接连接的存储并执行用户应用程序任务。通过在多台服务器之间分配存储和??计算,资源可以随需求增长,同时在各种规模上保持经济性。??Hadoop提供了一个分布式文件系统和一个框架,用于使用MapReduce??[DG04]范例分析和转换非常大的数据集。虽然HDFS的接口是在Unix文件系??统之后形成的,但修改了很多格式,以改善手头应用程序的性能。Hadoop的一??个重要特性是跨多台(数千台)主机对数据和计算进行分区,并行执行与其数据??并行的应用程序计算。Hadoop集群通过简单地添加商品服务器来扩展计算容量,??存储容量和I/O带宽。雅虎Hadoop集群跨越40
【相似文献】

相关期刊论文 前10条

1 仲盛;;特约主编寄语[J];南京信息工程大学学报(自然科学版);2017年05期

2 冯英伟;王庆福;吉高卿;;云计算环境下高校网络教学资源数据存储研究[J];信息与电脑(理论版);2016年03期

3 郑盛姣;;简单的数据修复[J];文理导航(中旬);2017年01期

4 丁茜;;云计算在移动社交中的应用研究[J];中小学电教;2017年06期

5 黄浩星;;空间高效的分布式数据存储方案[J];数码世界;2017年11期

6 崔志敏;黄斌;周利宏;;PACS数据存储方案和安全性策略[J];实用医技杂志;2006年20期

7 郑士贵;数据存储的全面管理[J];管理科学文摘;1997年09期

8 本刊编辑部;;《高密度光学数据存储材料》通过鉴定[J];光电子.激光;1988年06期

9 姜天海;;新技术让数据存储时间逼近“永恒”[J];科学新闻;2017年01期

10 李华平;许鹏;胡晓明;;高职院校教育资源云平台的数据存储研究[J];洛阳师范学院学报;2017年05期


相关博士学位论文 前10条

1 蔚赵春;无线传感器网络中自适应数据存储与kNN查询处理研究[D];复旦大学;2008年

2 付松龄;分布式在线社交网络数据存储及优化技术研究[D];国防科学技术大学;2014年

3 郝行军;物联网大数据存储与管理技术研究[D];中国科学技术大学;2017年

4 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年

5 解炜;射频识别系统安全协议研究[D];国防科学技术大学;2014年

6 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年

7 高超;无线传感器网络数据存储算法与应用技术研究[D];华中科技大学;2012年

8 汤启云;模板诱导的嵌段共聚物和纳米粒子自组装[D];南京大学;2011年

9 李芳芳;无线传感器网络实时数据管理关键技术研究[D];东北大学;2008年

10 刘健;模糊XML数据存储与查询技术的研究[D];东北大学;2014年


相关硕士学位论文 前10条

1 向淑贞;基于压缩感知的采样和存储方法研究[D];湖南大学;2017年

2 黄容;基于FTP服务的HDFS数据存储与迁移研究[D];湖南大学;2017年

3 李春良;基于密度划分的复杂大数据存储方法与技术研究[D];北方工业大学;2018年

4 姜伟;基于压缩位图索引的RDF数据存储与管理[D];北京交通大学;2017年

5 李立;教育领域数据存储问题研究[D];华东师范大学;2003年

6 赵晋;基于宽表的多租户数据存储模式研究[D];郑州大学;2014年

7 单旭;异构大数据存储方法研究[D];北京交通大学;2014年

8 萨日娜;一种基于综合阈值的分布式数据存储方法[D];哈尔滨工程大学;2011年

9 张洪梅;大规模智能电网中数据存储方法的研究[D];辽宁大学;2012年

10 孟伟;面向智慧油田数据存储机制的研究与实现[D];北京邮电大学;2017年



本文编号:2853262

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2853262.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户20063***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com