当前位置:主页 > 科技论文 > 计算机论文 >

溯源数据压缩存储研究

发布时间:2018-09-04 05:37
【摘要】:随着信息技术的发展,人们对信息的关注点不仅仅在数据本身,还需要知道数据的来源和演变等信息。这些数据的历史信息,也称为数据的溯源信息。在科学研究领域,数据溯源有广泛的应用,因为数据质量对科学家来说极其重要。其中有很多产生和收集溯源信息的系统,包括物理天文,化学,生物和海洋气象等研究领域。除此之外,溯源在数据重建,调试跟踪,安全和搜索等方面的应用也开始出现。但是在现有的诸多溯源系统中,溯源数据空间占用远远超过数据本身,在数据的内容与历史当中,处于次位的历史消耗了过多的资源,这就大大的降低了溯源系统的可用性和高效性。 为了减少溯源数据的空间占用,而又不影响溯源完整性,Chapman等人提出了因式分解与继承(FAI)算法。FAI只是将溯源信息中的共同信息分析出来,进行优化。论文使用多维压缩算法,除了对溯源信息中共同的信息进行优化处理之外,还对数据本身的身份信息进行优化,同时挖掘溯源信息内在的相似性,将编码之后的溯源祖先信息使用web算法进行优化,进一步降低溯源祖先信息的存储开销,而且保证溯源信息查找性能不受影响,这是从微观层面对溯源数据进行优化存储。另外,从宏观层面来看,溯源数据随着时间无限增长,导致溯源空间和查询时间开销无限增长,针对这个问题,论文以PASS系统为研究实例,,采用溯源信息分割,建立索引,压缩分割溯源文件等方式,利用溯源数据的局部性原理,改进了PASS系统的溯源存储和查找机制。实验表明,多维压缩算法无论在存储空间占用,还是身份或祖先信息查询方面都要好于FAI算法;在PASS系统的溯源存储优化中,使用数据库分割,建立索引,压缩分割的主数据库文件等方式,与原有的溯源存储方法比较,在空间占用和查询时间的开销方面都要好于原有的方法。
[Abstract]:With the development of information technology, people pay more attention not only to the data itself, but also to the source and evolution of the data. The historical information of these data, also known as data traceability information. Data traceability is widely used in scientific research because data quality is very important to scientists. There are many systems for generating and collecting traceability information, including physics, astronomy, chemistry, biology and marine meteorology. In addition, traceability in data reconstruction, debugging and tracking, security and search applications are also beginning to appear. However, in many existing traceability systems, the traceability data space occupies far more than the data itself, and in the data content and history, the history at the secondary level consumes too much resources. This greatly reduces the availability and efficiency of traceability systems. In order to reduce the space occupation of traceability data without affecting the traceability integrity, Chapman et al proposed a factorization and inheritance (FAI) algorithm, which only analyzes the common information in the traceability information and optimizes it. In this paper, the multi-dimensional compression algorithm is used to optimize the identity information of the data itself, in addition to the common information in the traceability information, at the same time, the similarity of the traceability information is mined. The web algorithm is used to optimize the coded traceability ancestor information to further reduce the storage cost of traceability ancestor information and to ensure that the traceability information lookup performance is not affected. This is to optimize the storage of traceability data from the micro level. In addition, from the macro level, traceability data increases infinitely with time, which leads to infinite increase of traceability space and query time. Aiming at this problem, this paper takes PASS system as an example, uses traceability information segmentation to build index. Based on the principle of locality of traceability data, the traceability storage and search mechanism of PASS system is improved by compressing segmented traceability files. Experiments show that the multidimensional compression algorithm is better than the FAI algorithm in terms of storage space occupation, identity or ancestor information query, database segmentation and indexing are used in the traceability storage optimization of PASS system. Compared with the original traceability storage method, the compressing and partitioning of the main database file is better than the original method in terms of the cost of space occupation and query time.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333

【共引文献】

相关期刊论文 前10条

1 甘玲;刘柄宏;;基于优先级位图对RTAI实时性的改进[J];重庆邮电大学学报(自然科学版);2009年06期

2 陈小兰;杨斌;;多处理器平台下Linux 2.6启动过程中的位图分析[J];成都信息工程学院学报;2010年01期

3 施文佳;杨斌;;对称多处理器下基于调度域的超线程实现[J];成都信息工程学院学报;2010年02期

4 刘谦;;Linux操作系统实时性能测试与分析[J];电脑学习;2007年06期

5 李京;段汕;;Linux2.6内核的实时调度的研究[J];电脑知识与技术(学术交流);2007年23期

6 王海波;;基于嵌入式Web技术的远程控制应用与研究[J];电脑知识与技术;2009年25期

7 张辉;李新华;刘波;钱翔;;基于V4L2的视频设备驱动开发与移植[J];电脑知识与技术;2010年15期

8 宋鹏飞;曾国荪;;一种基于温度感知的多核调度方法[J];电脑知识与技术;2010年17期

9 李洋;Michael Collier;;数字电视NAND Flash驱动程序的设计与实现[J];电脑知识与技术;2012年01期

10 李希;刘宏;;多核平台下网络设备软件接口的设计与实现[J];电脑知识与技术;2012年16期

相关会议论文 前8条

1 张怡;肖侬;杨海云;;基于网格的XMLDB共享访问系统[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

2 魏孙波;殷瑞祥;;无线Mesh网络接入点的研究与实现[A];2008’“先进集成技术”院士论坛暨第二届仪表、自动化与先进集成技术大会论文集[C];2008年

3 童子权;马瑞;王军委;;六位半数字多用表LXI模块的设计[A];第三届全国虚拟仪器大会论文集[C];2008年

4 章悦;高军;王腾蛟;杨冬青;唐世渭;;QBXS:一种基于查询的XML文档存储方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

5 陆世潮;孟小峰;林灿;王宇;;OrientX中XQuery的导航式实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 余翔宇;刘梦赤;刘芬;;基于XTree的Native XML管理系统设计与实现[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

7 张慧斌;袁晓洁;王鑫;汪陈应;刘芳;;XBackend:一种Native XML数据库系统的后端实现策略[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

8 张新;孟小峰;朱金清;王伟;黄静;;OrientStore~+:一种支持高效更新的Native XML存储方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

相关博士学位论文 前10条

1 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年

2 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年

3 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年

4 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年

5 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年

6 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年

7 张忠平;基于约束的XML数据库模式规范化研究[D];复旦大学;2004年

8 张晓琳;面向对象的XML数据管理技术研究[D];东北大学;2006年

9 朱茂盛;XML路径表达式优化及其查询和过滤计算方法[D];中国科学院研究生院(计算技术研究所);2004年

10 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年

相关硕士学位论文 前10条

1 白林;基于路径表达式的XML索引查询技术[D];郑州大学;2010年

2 吕国胜;基于ARM的时差法超声波流量计设计[D];大连理工大学;2010年

3 申安来;网格环境下资源发现决策支持算法研究[D];辽宁师范大学;2010年

4 李静;利用NetFilter框架实现IPv6流量控制[D];河南理工大学;2010年

5 张麟;XML数据查询优化技术的研究[D];哈尔滨理工大学;2010年

6 崔捷;异构无线传感器网络多链路传输技术的设计和实现[D];北京交通大学;2011年

7 刘芳华;基于ARM的WiFi无线通信终端的研究与实现[D];武汉科技大学;2010年

8 罗成;仿人机器人驱动与控制程序的实时化[D];浙江大学;2011年

9 陈余超;安全日志审计系统及其快速匹配机制的研究与实现[D];浙江工商大学;2011年

10 罗小东;基于DSP和ARM的嵌入式车牌识别系统的设计与开发[D];电子科技大学;2011年



本文编号:2221171

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2221171.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户284fd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com