猪全基因组变异位点功能注释程序开发
发布时间:2021-04-18 09:31
变异位点的功能注释是探究突变与表型间关系的重要环节。伴随下一代测序技术的发展和测序成本的降低,大量变异位点数据被挖掘出来,这些数据是功能注释的基础。ENCODE计划产生大量调控元件的实验数据,这些数据能够提高模式生物如人与小鼠变异位点注释的准确性,但如何利用这些数据在其他非模式生物中预测突变影响仍是一个挑战。本研究利用Python语言开发了一个变异位点功能注释软件,并且利用该程序对猪全基因组范围内的变异位点做出功能注释,主要获得以下结果:(1)开发了一个突变位点功能注释软件VIP(Variant Integrated Predictor)。该软件对位于编码区突变如同义突变、错义突变、无义突变、移码与非移码突变等能够提供准确性100%的预测结果,并且能够对蛋白质结构域作出预测。对位于启动子区突变,VIP能基于Jaspar提供的转录因子结合序列的位置频率矩阵提供转录因子结合位点变化预测。对位于3’UTR区突变,VIP能基于mi RBase提供的miRNA序列,利用加权的Smith-Waterman方式计算miRNA与3’UTR靶位点的互补分数,并且能够利用miRDB的预测结果进一步降低注释...
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
miRNA与靶基因的结合分数计算
体、变异位点起始与结束位置,以及变异位点两种等位基因序列组成。实验数据的跨物种利用跨物种基因组位置对应关系的构建chain 文件提供了两基因组序列的比对结果,如图 3 所示,人 hg38 版本基因组Hsa2:113,672,158-241,303,448 与猪 SusScr3 版本基因组 Ssc15:22,487,315-155,126,795有比对结果,由于比对产生的空位区域,比对结果事实上是一些非连续的片段,表示在图 3 所示第 2 至第 10 行。根据 chain 文件的比对结果,我们开发了ConvertChainToP2P 程序用于构建物种间基因组位置对应关系(positions to positions,p2p),如图 4 第一行所示,hg38 的 Hsa2:113,672,159 与 SusScr3 的 Ssc15:22,487,316基因组位置对应,p2p 文件也记录了链的方向,并且能够处理同一位置被多次对应的情况,最终 ConvertChainToP2P 程序将构建的结果转换成二进制文件保存为 p2p格式文件。
hg38 版本基因组-猪 SusScr3 版本基因组位置对应文件(p2第一行显示的为 Hsa2:113672159 与 Ssc15:22487316 有对应关系。A part content of the p2p file generated from the “hg38-SusScr3ine shows there is the positional relation between Hsa2:113672159 and Ssc1据转移因组位置对应文件(p2p),我们开发了 ConvertToCF(convertvertCADD 及 CombineCFs 程序用于转换、合并多样化数据。ertToCF 程序用来转移符合特定格式的实验数据,包含 ENCODigWig、bedGraph、bed、bigBed 格式数据及 UCSC 提供的固定格式数据,如位点保守性分值数据(PhyloP、phastCons),数据进制形式储存为转移后文件(converted file, CF)。利用gdownload.cse.ucsc.edu/admin/exe/linux.x86_64/ ) 如 bigW
本文编号:3145245
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
miRNA与靶基因的结合分数计算
体、变异位点起始与结束位置,以及变异位点两种等位基因序列组成。实验数据的跨物种利用跨物种基因组位置对应关系的构建chain 文件提供了两基因组序列的比对结果,如图 3 所示,人 hg38 版本基因组Hsa2:113,672,158-241,303,448 与猪 SusScr3 版本基因组 Ssc15:22,487,315-155,126,795有比对结果,由于比对产生的空位区域,比对结果事实上是一些非连续的片段,表示在图 3 所示第 2 至第 10 行。根据 chain 文件的比对结果,我们开发了ConvertChainToP2P 程序用于构建物种间基因组位置对应关系(positions to positions,p2p),如图 4 第一行所示,hg38 的 Hsa2:113,672,159 与 SusScr3 的 Ssc15:22,487,316基因组位置对应,p2p 文件也记录了链的方向,并且能够处理同一位置被多次对应的情况,最终 ConvertChainToP2P 程序将构建的结果转换成二进制文件保存为 p2p格式文件。
hg38 版本基因组-猪 SusScr3 版本基因组位置对应文件(p2第一行显示的为 Hsa2:113672159 与 Ssc15:22487316 有对应关系。A part content of the p2p file generated from the “hg38-SusScr3ine shows there is the positional relation between Hsa2:113672159 and Ssc1据转移因组位置对应文件(p2p),我们开发了 ConvertToCF(convertvertCADD 及 CombineCFs 程序用于转换、合并多样化数据。ertToCF 程序用来转移符合特定格式的实验数据,包含 ENCODigWig、bedGraph、bed、bigBed 格式数据及 UCSC 提供的固定格式数据,如位点保守性分值数据(PhyloP、phastCons),数据进制形式储存为转移后文件(converted file, CF)。利用gdownload.cse.ucsc.edu/admin/exe/linux.x86_64/ ) 如 bigW
本文编号:3145245
本文链接:https://www.wllwen.com/yixuelunwen/dongwuyixue/3145245.html