当前位置:主页 > 管理论文 > 组织管理论文 >

面向多领域科学数据管理的工作流模型及其溯源机制的研究

发布时间:2020-10-29 10:10
   各科学领域的采集和处理能力的发展使得科学数据蕴含的价值被不断开发,为了更好地管理和利用日趋增加的科学大数据,研究和设计良好的管理生态或方法来提高科学大数据管理和分析水平成为各科学领域的研究热点。目前,各个机构不断开发以自身领域为导向的科学数据管理系统;科学工作流也已经成为科学家用来构建和执行科学实验的主流工具;为探究科学数据的本质和实验结果的源头,科学家还研究了许多溯源方法来验证、复制和重现科学实验。然而,由于科学数据异构多源的特点,科学家往往需要在多个领域的科学数据管理系统和种类繁多的数据库以及科学装置中获取数据,并且需要投入很多精力来对构建的科学实验进行优化处理,而开发人员在设计管理系统时,通常需要考虑模块间的兼容和耦合问题,这需要对各个科学领域有很深入的了解。此外,面向科学工作流的粗粒度溯源的方法意味着工作流步骤内部细节的损失,导致可能会推断出不完整甚至不正确的数据和调用关系,并会带来依赖区分问题。围绕这些问题,本文展开了面向科学数据管理、处理和分析的科学工作流及溯源机制的研究。具体研究内容和创新点如下:1)提出了面向异构多源科学数据的多领域分角色体系架构SciSA(Science-Software Architecture),并用于跨领域地管理多类型科学数据。该架构通过功能上的区别被划分为四个功能区,并使用REST技术对接口进行设计,从而降低了模块间的耦合性;然后,该架构整合了多领域、多类型的数据库,并且对接入第三方系统提供支持,从而实现了存储和共享多领域科学数据;最后,为了增强对体系架构运行机制的理解,还对其资产、组件、接口等要素进行了形式化的描述,并且在此基础上设计和定义了相应的角色,依据角色在对应功能区内的应用场景对体系架构进行了描述。2)提出了基于DAG的科学工作流模型及其流程优化机制DP-SWF(DAGbased Scientific Workflow Model and its Process Optimization Mechanism),并用于构建和优化科学实验从而有效利用多领域科学数据。该模型通过有向图和标识符来建立可在多个领域使用的工作流,并通过层次结构的形式将模型底层透明化处理,使得科学家专注于高层的科学实验。在此基础上,针对科学家提交的科学实验提出了流程优化机制,该机制依据实验任务间的关联关系,使用模糊聚类对其进行聚类分析,从而得到模块划分方案,并在此基础上使用设计结构矩阵的方法对各模块内的实验单元执行秩序进行了规划。最后,在myExperiment数据库的数据集上进行了针对该科学工作流模型正确性和有效性的实验,结果证明了DPSWF在满足科学实验需求的前提下确实能对实验流程起到优化作用。3)提出了科学工作流驱动的细粒度溯源模型CF-PROV(A Content-rich and Fine-grained Scientific Workflow Provenance Model),并用于解决工作流的粗粒度溯源问题。该溯源模型给出了基于溯源图和溯源文档的表示方法,并将其作为从科学工作流信息到溯源信息的转换规范和声明,从而减少了捕获溯源信息的编程开销,并使得溯源信息更规范;其次,为进一步丰富和细化溯源信息,该模型将科学工作流溯源划分为了数据溯源和过程溯源,并从语法维度和字段层面的数据推演提高了溯源信息的可读性;最后,在天文学、高能物理、生物学和计算机科学四个领域上进行了实验,结果证明了该溯源模型确实能捕获更丰富细致的溯源信息,并且其存储和通讯开销是可接受和可处理的。
【学位单位】:上海大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.13
【部分图文】:

框架图,生态系统,框架,管理系统


具备管理多元化的数据管理引擎的能力,拥有集成外部或未来的数据科学数据流水线。此,本文所属子课题参加的课题一“可溯源科学大数据体系架构、规范准”(课题一从属于国家重点研发计划《科学大数据管理系统(面向特大数据管理系统)》)提出的面向科学大数据的数据管理生态系统的框所示,从框架中可看出科学大数据管理系统能够提供统一的部署配置统一的数据查询管理界面(程序界面+UI);提供统一的科学数据分析统。整个体系结构把整个系统分成四个功能区:存取、查询、分析、基于每个功能区,里面集成有相应的大数据管理系统,或者其它支撑模存取、资源管理、调度、安全)。同时由于每一个模块都有其自身的用过程当中,对问题的处理方式也是不一样的,这就导致在实际的应用类的模块间的不兼容和冲突都是不可避免的,于是在模块间需要配置一来提升工作效率和保障数据安全,并确保数据按照接口的标准和规范来

组件图,功能分区


图 2 Sci-SA 功能分区各区域组件及部署研究系架构的组件为各功能模块对应的实体,而体系架构的部署则为实要配置的软硬件。1 Sci-SA 各区域组件研究完成各自负责的任务,Sci-SA 中的各个区域都有自己的子功能模块,图 3 为整个体系架构的组件图,显示了各区域的内部组成以及如其他区域的内部模块进行交互。) 存取功能区取功能区(SAA)建立在各种类型的数据库和分布式文件系统之上

组件图,组件图,资产,资产管理


图 3 Sci-SA 组件图2) 查询功能区查询功能区(QFA)在整个体系架构中扮演着“桥梁”的角色。在这个区域中,用户可以对资产进行查询管理,并进行相应的数据可视化。需要注意的是,QFA 是由两个子模块组成的:一个资产管理器(AssetManager),和一个可视化工具(visualizer)。资产管理器可以被视为整个 Sci-SA的一个前端页面,用户可以通过资产管理器对资产进行一系列管理操作,比如资产上传下载、质量检测和共享设置等。而可视化工具则支持将资产的相关信息通过相关设备做进一步的展示。这两个子模块间的连接通过以下方式实现:为了能够展示资产的信息,可视化工具会通过接口来请求一个服务“AM-Visualizer”,而这个服务由资产管理器提供,通过这个服务,可视化工具能够得到资产管理器处的资产并将资产导入到自己的图表生成器中。
【参考文献】

相关期刊论文 前10条

1 林晨;罗万明;阎保平;;科学工作流溯源表示和查询技术综述[J];科研信息化技术与应用;2015年06期

2 赵永恒;;大规模天文光谱巡天[J];中国科学:物理学 力学 天文学;2014年10期

3 吴响;邓笋根;陆忠华;;国内外科学工作流综述研究[J];科研信息化技术与应用;2014年05期

4 金澈清;钱卫宁;周敏奇;周傲英;;数据管理系统评测基准:从传统数据库到新兴大数据[J];计算机学报;2015年01期

5 李建;崔辰州;何勃亮;赵永恒;曹子皇;樊东卫;李长华;谌悦;;天文数据库回顾与展望[J];天文学进展;2013年01期

6 王志坚;蔡自兴;;基于IDEF0模型的Petri网间接建模方法研究[J];系统仿真学报;2008年15期

7 陈荣辉;陈新度;陈新;;基于AND_OR图深度优先搜索的工作流模型验证[J];机电工程技术;2008年06期

8 崔立真;王海洋;;一种工作流模型正确性验证方法[J];系统仿真学报;2008年08期

9 陈俊;王文;李子扬;李安;;Landsat—5卫星数据产品[J];遥感信息;2007年03期

10 郝刚,吴功宜;面向大规模定制的ERP中基础数据管理的研究[J];计算机集成制造系统;2005年04期


相关博士学位论文 前1条

1 李华朋;基于证据推理的多源数据湿地空间分类知识发现研究[D];中国科学院研究生院(东北地理与农业生态研究所);2012年


相关硕士学位论文 前3条

1 张海园;HAMA计算平台的性能研究[D];北京交通大学;2012年

2 田梅;基于扩展有向图的工作流建模及其在MRPⅡ中的应用研究[D];成都理工大学;2012年

3 朱盛凯;基于MapReduce的科学计算应用性能分析与优化[D];复旦大学;2010年



本文编号:2860758

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/2860758.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户04738***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com