基于深度学习的增强子识别算法研究
发布时间:2020-12-10 03:24
本文针对基因非编码区功能元件的识别问题——增强子(Enhancers)识别算法展开研究。增强子是一类调控靶基因转录频率的顺式作用元件,极大影响着性状特征差异、生物进化和疾病发病等问题。增强子具有的远距离性、无方向性和细胞特异性等特点增加了识别的复杂度。目前已有的增强子识别方法或是耗时耗力的实验类方法或是依赖于复杂且效果并不理想的人工特征提取的传统机器学习算法。本文基于深度学习设计了一个可以在全基因组上大规模识别预测增强子的神经网络BiLSTM-E。根据数据挖掘的理论,训练集的序列间相似度决定了模型是否可以学习到正确且泛化的信息。多序列比对是用于度量多条序列间相似度的一种技术,而目前缺少可以快速且准确地比对大规模序列的多序列比对算法。于是本文开发出了一种面向海量数据的多序列比对算法VCSRA,为BiLSTM-E提供数据集的选择方法。全本的研究内容主要有以下三点:1.基于向量映射优化了多序列比对算法中常用的启发式策略中心星策略。新中心星策略VCS将序列映射为四维向量,在没有损失精度的情况下,能在线性时间内选择出中心序列,大幅度减少了多序列比对的整体耗时。2.在VCS的基础上,本文实现了一种...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1.2基因组片段??基因编码区的功能片段可分为两类:顺式作用元件和反式作用因子
CCCCGCCGTGCAT??mouse?TTTGGCTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??rat?TTTGGGTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??\?dog?TTTGGGTTTCGCAAATAGGGCATCGACAATAAC?A?^GTGTGGCACTAACCCTGCCGTGCAT??Multiple?alignment??图1.3序列比对??序列比对是一种经过在.序列中插入间隔,让相同或相似的子序列处于相同的??位置,以找到最优相似度序列排列的方怯【14]。比对中插入到序列的间隔字符一般??用符号表示。在一个比对中,若序列所属的生物体共享同f个祖先,那么不??匹配的碱基可以被解释为突变,间隔被解释为丢失。序列比对是识别相似区域的基??第3贞??
国防科技大学研究生院硕学位论文??本过程,其中相似的序列片段可能关乎与多序列间的功能关系、结构关系或进化关??系。依据待比对的.序列数,.序列比对问题可分为双序列比对(pairwise?alignment)??和推广到多条摩列的多摩列比对(multiple?sequence?alignment,?MSA)。图1.3是双??序列比对和多摩列比对的取倉圈.。??序列_的匹_配鹰可以通过SPS?(Sum-of-Pairs?Score)指标来衡藎无论是.原始序??列间匹配度还是通过比对所提高的序列间匹配度都可以使用SPS分数来嫌化。SPS??分数度量的是两条或多条序列中可以完全匹配的位置所占的比例。具体的SPS分??数计算公共可参考本文的2.3.2小节。根据SPS分数的定义,SPS值越高代表序列??间匹配度越高_若SPS分数属于比对后的结果序列,则该值越大代表序列比对获??得的相似度越高,结果越接近最优比对结果。??在双序列比对算法中.,最经典的莫过于Needleman-Wunsch算法[iNeedleman-??Wimsch算法本质上是一种动态规划算法,它的主要思想是将原始的整条序列比对??问题划分为各个字符的比对问题,根据子问题之间的关系按照顺序求解它们的最??优解,最终通过商溯得到原始问题的最优比对结果。这种动态的过程可以存储在二??维矩阵中,称为计分矩阵,如图1.4为序列”ATTGAC”和序列”AGCTGAC”的计分??矩阵.6为衡量舄部单字符的比对可构建分数pseciT^,假设pscwe?(x,?X)=??1,P^<pre(Sx)?=?PsrareO,—)?=?—I,?=?_2。计分矩阵起始位置上的值??初fe化为_
【参考文献】:
期刊论文
[1]VCSRA: A fast and accurate multiple sequence alignment algorithm with a high degree of parallelism[J]. Dong Dong,Wenhe Su,Wenqiang Shi,Quan Zou,Shaoliang Peng. Journal of Genetics and Genomics. 2018(07)
[2]生物信息学研究现状及发展趋势[J]. 赵屹,谷瑞升,杜生明. 医学信息学杂志. 2012(05)
[3]多序列比对算法的研究进展[J]. 邹权,郭茂祖,韩英鹏,李文滨. 生物信息学. 2010(04)
[4]一种多序列比对分治算法DCA-ClustalW[J]. 业宁,张倩倩,许翠云. 计算机与数字工程. 2010(11)
[5]DNA测序技术的发展历史与最新进展[J]. 解增言,林俊华,谭军,舒坤贤. 生物技术通报. 2010(08)
[6]基于关键字树的DNA多序列星比对算法[J]. 邹权,郭茂祖,王晓凯,张涛涛. 电子学报. 2009(08)
[7]DNA序列数据挖掘技术[J]. 朱扬勇,熊赟. 软件学报. 2007(11)
[8]一种基于动态规划的全局双序列比对优化算法[J]. 李镍岚,李其申,张永. 电脑知识与技术(学术交流). 2007(06)
[9]数据挖掘综述[J]. 王光宏,蒋平. 同济大学学报(自然科学版). 2004(02)
[10]人类基因组计划与后基因组时代[J]. 骆建新,郑崛村,马用信,张思仲. 中国生物工程杂志. 2003(11)
博士论文
[1]基于深度学习的基因组功能元件的识别与注释[D]. 刘峰.中国人民解放军军事医学科学院 2016
[2]生物序列相似性比较算法的研究[D]. 李昭.中国科学院研究生院(计算技术研究所) 2002
本文编号:2908001
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1.2基因组片段??基因编码区的功能片段可分为两类:顺式作用元件和反式作用因子
CCCCGCCGTGCAT??mouse?TTTGGCTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??rat?TTTGGGTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??\?dog?TTTGGGTTTCGCAAATAGGGCATCGACAATAAC?A?^GTGTGGCACTAACCCTGCCGTGCAT??Multiple?alignment??图1.3序列比对??序列比对是一种经过在.序列中插入间隔,让相同或相似的子序列处于相同的??位置,以找到最优相似度序列排列的方怯【14]。比对中插入到序列的间隔字符一般??用符号表示。在一个比对中,若序列所属的生物体共享同f个祖先,那么不??匹配的碱基可以被解释为突变,间隔被解释为丢失。序列比对是识别相似区域的基??第3贞??
国防科技大学研究生院硕学位论文??本过程,其中相似的序列片段可能关乎与多序列间的功能关系、结构关系或进化关??系。依据待比对的.序列数,.序列比对问题可分为双序列比对(pairwise?alignment)??和推广到多条摩列的多摩列比对(multiple?sequence?alignment,?MSA)。图1.3是双??序列比对和多摩列比对的取倉圈.。??序列_的匹_配鹰可以通过SPS?(Sum-of-Pairs?Score)指标来衡藎无论是.原始序??列间匹配度还是通过比对所提高的序列间匹配度都可以使用SPS分数来嫌化。SPS??分数度量的是两条或多条序列中可以完全匹配的位置所占的比例。具体的SPS分??数计算公共可参考本文的2.3.2小节。根据SPS分数的定义,SPS值越高代表序列??间匹配度越高_若SPS分数属于比对后的结果序列,则该值越大代表序列比对获??得的相似度越高,结果越接近最优比对结果。??在双序列比对算法中.,最经典的莫过于Needleman-Wunsch算法[iNeedleman-??Wimsch算法本质上是一种动态规划算法,它的主要思想是将原始的整条序列比对??问题划分为各个字符的比对问题,根据子问题之间的关系按照顺序求解它们的最??优解,最终通过商溯得到原始问题的最优比对结果。这种动态的过程可以存储在二??维矩阵中,称为计分矩阵,如图1.4为序列”ATTGAC”和序列”AGCTGAC”的计分??矩阵.6为衡量舄部单字符的比对可构建分数pseciT^,假设pscwe?(x,?X)=??1,P^<pre(Sx)?=?PsrareO,—)?=?—I,?=?_2。计分矩阵起始位置上的值??初fe化为_
【参考文献】:
期刊论文
[1]VCSRA: A fast and accurate multiple sequence alignment algorithm with a high degree of parallelism[J]. Dong Dong,Wenhe Su,Wenqiang Shi,Quan Zou,Shaoliang Peng. Journal of Genetics and Genomics. 2018(07)
[2]生物信息学研究现状及发展趋势[J]. 赵屹,谷瑞升,杜生明. 医学信息学杂志. 2012(05)
[3]多序列比对算法的研究进展[J]. 邹权,郭茂祖,韩英鹏,李文滨. 生物信息学. 2010(04)
[4]一种多序列比对分治算法DCA-ClustalW[J]. 业宁,张倩倩,许翠云. 计算机与数字工程. 2010(11)
[5]DNA测序技术的发展历史与最新进展[J]. 解增言,林俊华,谭军,舒坤贤. 生物技术通报. 2010(08)
[6]基于关键字树的DNA多序列星比对算法[J]. 邹权,郭茂祖,王晓凯,张涛涛. 电子学报. 2009(08)
[7]DNA序列数据挖掘技术[J]. 朱扬勇,熊赟. 软件学报. 2007(11)
[8]一种基于动态规划的全局双序列比对优化算法[J]. 李镍岚,李其申,张永. 电脑知识与技术(学术交流). 2007(06)
[9]数据挖掘综述[J]. 王光宏,蒋平. 同济大学学报(自然科学版). 2004(02)
[10]人类基因组计划与后基因组时代[J]. 骆建新,郑崛村,马用信,张思仲. 中国生物工程杂志. 2003(11)
博士论文
[1]基于深度学习的基因组功能元件的识别与注释[D]. 刘峰.中国人民解放军军事医学科学院 2016
[2]生物序列相似性比较算法的研究[D]. 李昭.中国科学院研究生院(计算技术研究所) 2002
本文编号:2908001
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2908001.html