基于MongoDB的多源生物数据集成关键技术研究
发布时间:2021-04-27 16:36
随着生命科学不断发展,领域内产生了更多的研究问题和数据需求,使得生命科学研究产生了前所未有的数量和类型的组学数据,从而形成生物大数据。由于不同的研究技术,产生的数据格式也各不相同。面对海量异构生物数据的处理时,关系数据库的瓶颈问题显现出来—基于关系的固定模式和扩展性差。数据模式灵活的NoSQL数据库应时而生,通过水平扩展解决了大数据量所带来的数据模式变更,其中MongoDB应用最广泛。因此,急需解决多源异构数据库从各种数据格式映射到JSON格式的问题,然后存储到MongoDB上进行查询处理。本文主要研究了基于MongoDB的多源生物数据集成的关键技术,对多源异构的生物数据进行集成,并通过MongoDB的存储机制进行管理。本文将从多源数据源的关联模式发现、数据集成存储和数据管理三个方面进行研究。首先,确定选定的数据源及其数据格式,根据多层网络理论知识结合自动关联模式匹配算法,构建层间节点连接矩阵。然后,设计不同数据格式(结构化文本文件、XML、RDF和OWL)到JSON格式的映射规则和算法,并应用MongoDB对JSON进行存储。基于上述集成关键技术,本文研发了基于MongoDB的管理系...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景及研究的目的和意义
1.1.1 课题研究的背景
1.1.2 课题研究的目的和意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.2.3 国内外现状分析
1.3 本文的主要研究内容
1.4 本文内容安排
第2章 多源生物数据关联发现
2.1 引言
2.2 多源生物数据获取与整合
2.2.1 确定生物数据来源
2.2.2 数据源关联关系整合
2.3 多层网络构建
2.4 本章小结
第3章 基于MONGODB的多源生物数据格式映射
3.1 引言
3.2 XML到JSON的映射规则和算法
3.2.1 映射规则
3.2.2 算法介绍
3.3 RDF到JSON的映射规则和转换算法
3.3.1 RDF图模型解析过程
3.3.2 映射规则
3.3.3 算法介绍
3.4 OWL到JSON的映射规则和转换算法
3.4.1 OWL解析
3.4.2 基本语法映射
3.4.3 公理映射
3.4.4 算法介绍
3.5 结构化数据到JSON的映射规则和映射算法
3.5.1 结构化数据格式映射
3.5.2 模式未知数据映射
3.6 JSON数据的MONGODB存储
3.7 本章小结
第4章 基于MONGODB的多源生物数据集成管理系统构建
4.1 引言
4.2 系统架构
4.3 系统功能结构设计
4.3.1 数据集成模块
4.3.2 数据转换模块
4.3.3 索引构建模块
4.3.4 关键字查询模块
4.3.5 高级查询模块
4.4 系统实现
4.4.1 数据集成模块实现
4.4.2 数据转换模块实现
4.4.3 索引构建模块实现
4.4.4 关键字查询模块实现
4.4.5 高级查询模块实现
4.5 本章小结
第5章 实验及结果分析
5.1 实验环境
5.2 XML格式映射实验
5.3 RDF格式映射实验
5.4 OWL格式映射实验
5.5 结构化数据映射实验
5.6 系统查询实验
5.7 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
【参考文献】:
博士论文
[1]基于本体的疾病数据整合与挖掘方法研究[D]. 程亮.哈尔滨工业大学 2014
[2]生物学数据集成若干关键问题研究[D]. 曹顺良.复旦大学 2005
硕士论文
[1]基于异质网络的lncRNA-疾病关联预测[D]. 李省.西安电子科技大学 2018
[2]基于网络模型和多源数据集成预测长非编码RNA-疾病关联关系[D]. 贾成龙.西安电子科技大学 2017
[3]基于语义网的异构生物数据集成研究[D]. 程建来.天津大学 2012
本文编号:3163803
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景及研究的目的和意义
1.1.1 课题研究的背景
1.1.2 课题研究的目的和意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.2.3 国内外现状分析
1.3 本文的主要研究内容
1.4 本文内容安排
第2章 多源生物数据关联发现
2.1 引言
2.2 多源生物数据获取与整合
2.2.1 确定生物数据来源
2.2.2 数据源关联关系整合
2.3 多层网络构建
2.4 本章小结
第3章 基于MONGODB的多源生物数据格式映射
3.1 引言
3.2 XML到JSON的映射规则和算法
3.2.1 映射规则
3.2.2 算法介绍
3.3 RDF到JSON的映射规则和转换算法
3.3.1 RDF图模型解析过程
3.3.2 映射规则
3.3.3 算法介绍
3.4 OWL到JSON的映射规则和转换算法
3.4.1 OWL解析
3.4.2 基本语法映射
3.4.3 公理映射
3.4.4 算法介绍
3.5 结构化数据到JSON的映射规则和映射算法
3.5.1 结构化数据格式映射
3.5.2 模式未知数据映射
3.6 JSON数据的MONGODB存储
3.7 本章小结
第4章 基于MONGODB的多源生物数据集成管理系统构建
4.1 引言
4.2 系统架构
4.3 系统功能结构设计
4.3.1 数据集成模块
4.3.2 数据转换模块
4.3.3 索引构建模块
4.3.4 关键字查询模块
4.3.5 高级查询模块
4.4 系统实现
4.4.1 数据集成模块实现
4.4.2 数据转换模块实现
4.4.3 索引构建模块实现
4.4.4 关键字查询模块实现
4.4.5 高级查询模块实现
4.5 本章小结
第5章 实验及结果分析
5.1 实验环境
5.2 XML格式映射实验
5.3 RDF格式映射实验
5.4 OWL格式映射实验
5.5 结构化数据映射实验
5.6 系统查询实验
5.7 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
【参考文献】:
博士论文
[1]基于本体的疾病数据整合与挖掘方法研究[D]. 程亮.哈尔滨工业大学 2014
[2]生物学数据集成若干关键问题研究[D]. 曹顺良.复旦大学 2005
硕士论文
[1]基于异质网络的lncRNA-疾病关联预测[D]. 李省.西安电子科技大学 2018
[2]基于网络模型和多源数据集成预测长非编码RNA-疾病关联关系[D]. 贾成龙.西安电子科技大学 2017
[3]基于语义网的异构生物数据集成研究[D]. 程建来.天津大学 2012
本文编号:3163803
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3163803.html