海量时间频率科学数据管理与服务关键技术研究

发布时间:2021-06-25 08:24
  随着国防、科研、经济社会各行业对高精度时间的依赖不断提升,为提高我国的高精度时间同步服务水平和保障能力,国家先后开展了高精度地基授时系统、国家时间频率体系、空间站时频实验系统等面向服务的基础大科学装置和试验仪器的建设,将时间频率服务纳入基础设施建设,时间频率科学数据将迈入大数据和信息服务时代。海量时间频率科学数据高效管理不仅是实现时间频率科学大数据存储与分析、提供高效时间频率信息服务的基础,更为时间频率科学大数据知识获取和科学发现提供技术支撑。本文从面向服务的角度以海量时间频率科学数据的管理体系、存储与并行处理方法为研究对象,利用云计算和大数据处理技术对面向服务的海量时间频率科学数据管理关键技术展开研究,所作的主要工作及创新点体现在以下几个方面:(1)研究并设计了面向服务的多元海量时间频率科学数据一体化管理模型、技术架构和多样化服务方式:针对独立建设的时频科学数据管理系统在管理规范、数据标准等方面多样差异,造成数据管理复杂、数据使用困难、数据产品单一问题。结合时间频率科学大数据特征和面向服务的应用需求,构建了数据管理标准体系和原型系统。采用面向服务体系架构的设计理念和松耦合特性,综合运... 

【文章来源】:中国科学院大学(中国科学院国家授时中心)陕西省

【文章页数】:145 页

【学位级别】:博士

【部分图文】:

海量时间频率科学数据管理与服务关键技术研究


文件管理系统架构

结构图,结构图,海量,科学数据


第3章海量时间频率科学数据存储管理方法研究47第3章海量时间频率科学数据存储管理方法研究海量时间频率科学数据存储方法是时间频率科学数据高效管理的基矗传统的集中式存储系统和统一的数据管理方式无法完全满足目前数据大、数据种类多、数据结构复杂和面向服务多用户并发访问的时间频率科学数据高效存储管理需求。本章针对海量时间频率科学数据非结构化、半结构化、结构化和时序化多数据结构并存的特征,结合面向服务的海量历史数据快速查询和在线数据实时读写的应用场景,分别开展了基于HDFS分布式文件系统、HBase海量半结构化分布式数据存储管理和InfluxDB时间序列数据存储管理方法研究。最后通过实验分析了这些数据存储方法的性能优势。3.1基于HDFS的海量时频数据文件存储方法研究3.1.1HDFS架构与存储特性分析HDFS分布式文件系统是Hadoop核心组件之一,适合运行在通用硬件上的、高度容错的、可扩展的分布式文件系统,系统组成如图3.1所示。HDFS采用主从式架构提供高吞吐量的数据访问,根据各节点任务部署整体上分为上个部分,分别为Client节点、NameNode名称节点、DataNode数据节点[88]。图3.1HDFS组成结构图Figure3.1ArchitectureofHDFS典型的HDFS集群包含一个名称节点和一定数目的数据节点。名称节点是中心服务器,负责管理文件系统的命名空间、块文件、副本策略及客户端对文件的访问。命名空间管理节点主要维护文件系统目录以及所有文件的元数据,包括命名空间镜像文件(fsimage)和操作日志文件(editlog);文件块管理是通过记录每个文件中各个块所在的数据节点的位置信息(元数据信息),从名称节点获

趋势图,写操作,趋势,数据文件


面向服务的海量时间频率科学数据管理关键技术研究52模由5GB增至40GB,分别执行数据文件的并行读写操作,实验结果见表3.1。表3.1TFDFS读写时间Table3.1TFDFSReadandWriteTime文件数文件大小(GB)总规模(GB)WriteTime(s)ReadTime(s)WriteAvgTime(s)ReadAvgTime(s)51540.06325.3358.01265.06701011073.14126.9947.31412.69941511587.32539.0965.82172.606420120119.67149.1295.98362.45625125143.69174.1425.72002.965730130178.84174.2415.96102.474735135219.163107.4766.26183.070740140229.877114.8425.74692.8710从表3.1中可以看出,当GNSS监测数据单个文件大小保持不变而数据文件个数和数据总体规模增加时,时频数据文件存储系统的读写执行时间与读写任务数量、系统并发量成等比增长,且读(Write)操作性能明显优于写(Read)操作性能,因此基于HDFS的时频数据文件分布式存储系统适合历史数据文件归档或长期存储中大量数据写入次数少而读取多的场景。进一步对比分析时频数据文件总体规模增加时TFDFS读/写操作总体运行时间和平均运行时间(单个文件的处理时间),运行时间变化趋势如图3.5所示。图3.5TFDFS读/写操作运行时间趋势Figure3.5TFDFSRunningTimeofReadandWriteOperation从图中可以看出,随着数据规模的增长TFDFS的读/写操作的总体运行时间呈一次线性增长,而读/写的整体平均运行时间呈现平稳下降趋势,表明TFDFS集群适合处理大量时频数据文件读/写操作。实验2:文件大小对TFDFS集群I/O性能的影响实验数据选取GNSS系统时差监测原始数据,在数据总体规模保持5GB不变的情况下,控制GNSS系统时间监测实验数据单个文件大小由1MB递增至1GB,

【参考文献】:
期刊论文
[1]基于云计算的会计电子数据的自动采集模型构建[J]. 张海霞.  自动化与仪器仪表. 2019(10)
[2]基于云计算的移动智慧旅游景区服务系统的研究与开发[J]. 潘洋,王庚兰,姜文泽,徐瑶琨,米新新,刘明言.  天津理工大学学报. 2019(05)
[3]HOS:一种基于HBase的分布式存储系统设计与实现[J]. 季一木,张宁,尧海昌,李奎,李航,刘尚东,王汝传.  南京邮电大学学报(自然科学版). 2019(05)
[4]基于influxDB的工业时序数据库引擎设计[J]. 徐化岩,初彦龙.  计算机应用与软件. 2019(09)
[5]原子钟模型和频率稳定度分析方法[J]. 伍贻威,杨斌,肖胜红,王茂磊.  武汉大学学报(信息科学版). 2019(08)
[6]基于渐消因子的改进Kalman滤波时间尺度估计算法[J]. 宋会杰,董绍武,王燕平,安卫,侯娟.  武汉大学学报(信息科学版). 2019(08)
[7]北斗卫星导航系统RNSS授时监测方法研究[J]. 张大众,郑作亚,谷守周,秘金钟,马力,李杰,张涛.  测绘科学. 2019(11)
[8]SOA中系统建模和服务重用的要素及关系[J]. 朱现坡.  电子技术与软件工程. 2019(14)
[9]BPM短波授时发播系统及其通道时延分析与测量[J]. 谢亮,芦旭,蒙智谋,段建文.  时间频率学报. 2019(03)
[10]主数据管理驱动的高校信息化SOA建设[J]. 梅广,邹恒华,张甜,许维胜.  计算机应用. 2019(09)

博士论文
[1]农业科学数据监管模型构建及应用研究[D]. 陆丽娜.吉林大学 2018
[2]多核环境下任务并行编程关键技术研究[D]. 范学鹏.华中科技大学 2018
[3]基于云计算的电力设备监测数据的集中并行处理与诊断[D]. 王刘旺.华北电力大学(北京) 2017
[4]多数据中心架构下遥感云数据管理及产品生产关键技术研究[D]. 阎继宁.中国科学院大学(中国科学院遥感与数字地球研究所) 2017
[5]面向服务的空间数据管理关键技术研究[D]. 徐道柱.解放军信息工程大学 2017
[6]领域数据集成及服务关键技术研究[D]. 刘歆.北京科技大学 2017
[7]云平台下电力设备监测大数据存储优化与并行处理技术研究[D]. 宋亚奇.华北电力大学(北京) 2016
[8]卫星导航中的时间参数及其测试方法[D]. 朱峰.中国科学院研究生院(国家授时中心) 2015

硕士论文
[1]华为基于大数据的APT防御系统的设计与实现[D]. 程煦.南京大学 2019
[2]基于Spark Streaming实时推荐系统的研究与实现[D]. 周虎.武汉邮电科学研究院 2019
[3]基于Hadoop的离线数据分析平台设计与实现[D]. 朱雪.河北工程大学 2018
[4]基于Spark的农业大数据挖掘系统的设计与实现[D]. 郭二秀.浙江大学 2018
[5]大规模集群状态时序数据采集、存储与分析[D]. 刘金.北京邮电大学 2018
[6]基于SOA的GNSS变形监测数据共享服务研究[D]. 苏亚伟.解放军信息工程大学 2017
[7]基于MapReduce和移动智能终端的人体行为识别系统研究与实现[D]. 李润超.电子科技大学 2017
[8]基于Spark的数据挖掘算法并行化系统设计与实现[D]. 苏洪磊.北京邮电大学 2017
[9]我国深空探测工程科学数据管理研究[D]. 李波.山东大学 2016
[10]守时信息自动分析方法研究及软件实现[D]. 贺瑞珍.中国科学院研究生院(国家授时中心) 2014



本文编号:3248867

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3248867.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户001b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com