宏基因组序列分析优化研究
发布时间:2022-01-26 00:11
高通量测序技术产生了海量基因序列数据,为生命科学的研究带来了前所未有的机遇。然而由于序列错误率和计算资源的限制,超大型宏基因组序列分析仍然是一个不可克服的障碍。SpaRC(Spark Read Clustering)是基于Apache Spark平台的一款针对测序片段read直接进行聚类的预组装软件。SpaRC具有良好的可拓展性,能够通过横向增加计算资源解决海量测序数据的分析问题。然而,SpaRC存在参数难以调节、聚类产生的簇较小等问题。针对以上问题,本文对宏基因组预组装软件SpaRC进行优化改进,使其可以应用至大规模测序数据集上,分离得到基因组级别的序列簇,从而为下一步的序列组装提供强有力的数据支持。本文主要研究工作如下:(1)针对可拓展宏基因组序列分析所涉及的相关理论和技术进行深入探讨,为进一步对SpaRC进行优化打下基础。主要研究了宏基因序列数据的表现形式和存储格式、大数据处理引擎Apache Spark和云计算平台AWS EMR、SpaRC聚类原理等。(2)提出一种基于贝叶斯方法的参数优化策略,实现针对不同数据集,自动选择最优参数。SpaRC的参数众多、且不同参数对聚类结果有极...
【文章来源】:上海大学上海市 211工程院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
SpaRC的贝叶斯参数优化整体示意图
贝叶斯参数优化结果对比
k-mer频数分布图
【参考文献】:
期刊论文
[1]一种基于自适应代理模型的并行贝叶斯优化方法[J]. 吕志明,王霖青,赵珺,刘颖. 控制与决策. 2019(05)
[2]下一代基因测序技术新进展[J]. 张小珍,尤崇革. 兰州大学学报(医学版). 2016(03)
[3]溃疡性结肠炎患者肠道菌群分析和细菌毒素基因检测[J]. 牛敏,邵天波,陈瑞春,杜艳. 郑州大学学报(医学版). 2015(04)
博士论文
[1]复杂网络中社区发现方法研究[D]. 张鑫.哈尔滨工业大学 2017
[2]浙江省地方猪群体遗传结构研究[D]. 陈究成.浙江大学 2016
[3]基于序列特征的宏基因组数据分析方法研究[D]. 丁啸.东南大学 2016
[4]骨髓增生异常综合征全基因组测序和基因突变谱预后分析[D]. 徐岚.上海交通大学 2014
硕士论文
[1]新一代基因组测序的概率统计模型[D]. 汤文菊.景德镇陶瓷学院 2010
本文编号:3609429
【文章来源】:上海大学上海市 211工程院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
SpaRC的贝叶斯参数优化整体示意图
贝叶斯参数优化结果对比
k-mer频数分布图
【参考文献】:
期刊论文
[1]一种基于自适应代理模型的并行贝叶斯优化方法[J]. 吕志明,王霖青,赵珺,刘颖. 控制与决策. 2019(05)
[2]下一代基因测序技术新进展[J]. 张小珍,尤崇革. 兰州大学学报(医学版). 2016(03)
[3]溃疡性结肠炎患者肠道菌群分析和细菌毒素基因检测[J]. 牛敏,邵天波,陈瑞春,杜艳. 郑州大学学报(医学版). 2015(04)
博士论文
[1]复杂网络中社区发现方法研究[D]. 张鑫.哈尔滨工业大学 2017
[2]浙江省地方猪群体遗传结构研究[D]. 陈究成.浙江大学 2016
[3]基于序列特征的宏基因组数据分析方法研究[D]. 丁啸.东南大学 2016
[4]骨髓增生异常综合征全基因组测序和基因突变谱预后分析[D]. 徐岚.上海交通大学 2014
硕士论文
[1]新一代基因组测序的概率统计模型[D]. 汤文菊.景德镇陶瓷学院 2010
本文编号:3609429
本文链接:https://www.wllwen.com/projectlw/swxlw/3609429.html
教材专著