基于Hbase生物数据存储和DNA序列分析
发布时间:2017-05-19 14:15
本文关键词:基于Hbase生物数据存储和DNA序列分析,,由笔耕文化传播整理发布。
【摘要】:随着生物数据量指数增长,亟待解决的存储和处理生物数据问题比较突出,在建设生物数据库过程中,利用Hadoop平台,搭建Hbase存储模型,实现云存储生物数据,并利用其它学科知识对序列数据进行分析。本文针对在建设生物数据库过程中,生物数据量呈现指数增长,生物大数据处理的问题,利用Hadoop平台下的Hbase数据库存储生物数据。首先,本文选择UML类图表示基因组数据和GenBank文件数据类图模型,设计出基于Hbase数据库模式的基因组数据和GenBank文件数据的存储模式,特别是对序列数据在Hbase上的存储模式进行了讨论。利用存储在Hbase数据库下的DNA序列模式,进行序列比对分析,提出最佳选择比对的短序列,并提出相应函数,给出相应函数的代表意义和利用价值,在一定程度上在本文提出的存储模式上提高序列比对的效率。本文利用非线性学科中的相空间知识,利用相空间构造不同序列的图形,在构造过程中,利用K-words和本文提出的指数,计算出最小K值获得最短序列来区分不同序列,最后利用相空间技术,把序列映射到图形上,从图形上观察序列之间的差异。本文利用非线性学科中的随机漫步知识和分形知识,计算出不同DNA分子序列映射后的数字序列的随机漫步图形,并比较不同DNA数字序列的不同,计算赫斯特指数,在分阶段上求出两个赫斯特指数,把结果映射到二维空间上,并比较不同物种之间的区别。
【关键词】:生物数据库 Hadoop Hbase 相空间 赫斯特指数
【学位授予单位】:广西大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4;TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-13
- 1.1 研究背景9
- 1.2 国内外研究现状9-10
- 1.3 本文的主要工作10-11
- 1.4 本文的组织结构11-13
- 第二章 相关知识13-19
- 2.1 引言13
- 2.2 相关概念13-17
- 2.2.1 Hadoop及Hbase平台介绍13-15
- 2.2.2 生物数据15-16
- 2.2.3 生物数据库16-17
- 2.3 存在的不足17
- 2.4 本章小结17-19
- 第三章 生物数据库建设及序列存储模式应用19-32
- 3.1 引言19
- 3.2 HBASE介绍19-20
- 3.3 生物数据类图模型及HBASE表结构设计20-26
- 3.4 生物序列数据比对26-31
- 3.4.1 Overlapping模式应用27-28
- 3.4.2 Non-overlapping存储模式应用28-29
- 3.4.3 窗口大小为1的讨论29-31
- 3.5 小结31-32
- 第四章 相空间与DNA序列分析32-39
- 4.1 引言32
- 4.2 相空间介绍32
- 4.3 K-WORDS介绍32-33
- 4.4 结果和讨论33-38
- 4.5 小结38-39
- 第五章 分形与DNA序列分析39-47
- 5.1 引言39
- 5.2 数据和映射规则39-40
- 5.3 计算方法40-41
- 5.4 结果与讨论41-46
- 5.5 小结46-47
- 第六章 总结和展望47-49
- 6.1 总结47-48
- 6.2 展望48-49
- 参考文献49-56
- 致谢56-57
- 攻读硕士学位期刊参与科研项目57-58
- 攻读硕士学位期间发表的学术论文58
【参考文献】
中国硕士学位论文全文数据库 前1条
1 刘燕兵;串匹配算法优化技术研究[D];中国科学院研究生院(计算技术研究所);2006年
本文关键词:基于Hbase生物数据存储和DNA序列分析,由笔耕文化传播整理发布。
本文编号:378916
本文链接:https://www.wllwen.com/yixuelunwen/swyx/378916.html