当前位置:主页 > 医学论文 > 生物医学论文 >

基于Hbase生物数据存储和DNA序列分析

发布时间:2017-05-19 14:15

  本文关键词:基于Hbase生物数据存储和DNA序列分析,,由笔耕文化传播整理发布。


【摘要】:随着生物数据量指数增长,亟待解决的存储和处理生物数据问题比较突出,在建设生物数据库过程中,利用Hadoop平台,搭建Hbase存储模型,实现云存储生物数据,并利用其它学科知识对序列数据进行分析。本文针对在建设生物数据库过程中,生物数据量呈现指数增长,生物大数据处理的问题,利用Hadoop平台下的Hbase数据库存储生物数据。首先,本文选择UML类图表示基因组数据和GenBank文件数据类图模型,设计出基于Hbase数据库模式的基因组数据和GenBank文件数据的存储模式,特别是对序列数据在Hbase上的存储模式进行了讨论。利用存储在Hbase数据库下的DNA序列模式,进行序列比对分析,提出最佳选择比对的短序列,并提出相应函数,给出相应函数的代表意义和利用价值,在一定程度上在本文提出的存储模式上提高序列比对的效率。本文利用非线性学科中的相空间知识,利用相空间构造不同序列的图形,在构造过程中,利用K-words和本文提出的指数,计算出最小K值获得最短序列来区分不同序列,最后利用相空间技术,把序列映射到图形上,从图形上观察序列之间的差异。本文利用非线性学科中的随机漫步知识和分形知识,计算出不同DNA分子序列映射后的数字序列的随机漫步图形,并比较不同DNA数字序列的不同,计算赫斯特指数,在分阶段上求出两个赫斯特指数,把结果映射到二维空间上,并比较不同物种之间的区别。
【关键词】:生物数据库 Hadoop Hbase 相空间 赫斯特指数
【学位授予单位】:广西大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4;TP311.13
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-13
  • 1.1 研究背景9
  • 1.2 国内外研究现状9-10
  • 1.3 本文的主要工作10-11
  • 1.4 本文的组织结构11-13
  • 第二章 相关知识13-19
  • 2.1 引言13
  • 2.2 相关概念13-17
  • 2.2.1 Hadoop及Hbase平台介绍13-15
  • 2.2.2 生物数据15-16
  • 2.2.3 生物数据库16-17
  • 2.3 存在的不足17
  • 2.4 本章小结17-19
  • 第三章 生物数据库建设及序列存储模式应用19-32
  • 3.1 引言19
  • 3.2 HBASE介绍19-20
  • 3.3 生物数据类图模型及HBASE表结构设计20-26
  • 3.4 生物序列数据比对26-31
  • 3.4.1 Overlapping模式应用27-28
  • 3.4.2 Non-overlapping存储模式应用28-29
  • 3.4.3 窗口大小为1的讨论29-31
  • 3.5 小结31-32
  • 第四章 相空间与DNA序列分析32-39
  • 4.1 引言32
  • 4.2 相空间介绍32
  • 4.3 K-WORDS介绍32-33
  • 4.4 结果和讨论33-38
  • 4.5 小结38-39
  • 第五章 分形与DNA序列分析39-47
  • 5.1 引言39
  • 5.2 数据和映射规则39-40
  • 5.3 计算方法40-41
  • 5.4 结果与讨论41-46
  • 5.5 小结46-47
  • 第六章 总结和展望47-49
  • 6.1 总结47-48
  • 6.2 展望48-49
  • 参考文献49-56
  • 致谢56-57
  • 攻读硕士学位期刊参与科研项目57-58
  • 攻读硕士学位期间发表的学术论文58

【参考文献】

中国硕士学位论文全文数据库 前1条

1 刘燕兵;串匹配算法优化技术研究[D];中国科学院研究生院(计算技术研究所);2006年


  本文关键词:基于Hbase生物数据存储和DNA序列分析,由笔耕文化传播整理发布。



本文编号:378916

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/378916.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户484c6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com