基于Transformer模型的蛋白质序列分析
发布时间:2021-10-10 17:23
蛋白质是组成人体一切细胞、组织的重要成分,机体所有重要的生命活动都需要蛋白质的参与。氨基酸是蛋白质的基本组成元素,不同氨基酸的排列组合构成了蛋白质的基本序列骨架,称为蛋白质序列。通过分析蛋白质序列对进一步分析蛋白质的高级结构信息有着极大帮助,这也是对蛋白质结构乃至功能进行分析的前提和基础,并对下游的药物设计等应用领域也有一定的指导作用。蛋白质序列分析的首要步骤是先对蛋白质序列进行编码提取特征。目前较为常用的编码方式包括将氨基酸残基转变为正交向量的one-hot编码形式、利用多序列比对打分构建PSSM谱编码的方法和将氨基酸序列通过word2vec等工具生成氨基酸向量编码等。本文分别结合了以上这几种特征分析了蛋白质序列的信息。现有的蛋白质序列分析模型中基于双向循环神经网络的方法效果比较突出,这主要是因为蛋白质的序列信息可以和文本的信息有很好的类比相似性。但是RNN,LSTM等模型在有效获得长距离输入信息之间的相互依赖关系方面还有一定缺陷。另一方面,蛋白质序列在局部的范围内相邻氨基酸残基会通过化学键相互连接,而局部氨基酸基团和相邻的氨基酸基团间又通过各种分子作用力相互影响,这也为蛋白质序列分...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
蛋白质的四级结构的空间转化过程
第1章引言9PSSM也是目前被使用最为广泛的特征。1.2.2位置特异性得分矩阵PSSM通过生物学研究已经发现具有相似的组成结构和性质功能的不同蛋白质之间往往他们的氨基酸组成和排列顺序也是非常相似的,经实验证明进行蛋白质的多序列比对测算可以帮助比较、分析出一个没有见过的新蛋白质的二级或三级结构等,也可以通过类比分析相似的同源蛋白质出新推测种蛋白质的性质和功能,所以不同的蛋白质之间进行序列对比是十分有价值的。所以往往对一条蛋白质分析的时候不仅简单分析其组成,还会进行多序列比对建模,根据相似序列的性质来对被分析的蛋白质序列的性质进行验证。图1.2蛋白质谱文件产生过程Niermann等人(1987)率先根据蛋白质多序列比对信息思想[11],观察了色氨酸合成酶α-亚基的序列异变模式,通过对氨基酸相似序列的插入和删除的位置信息进行分析,首次成功通过多序列比对的方法预测了色氨酸合成酶α-亚基的二级结构[12],之后由Zvelebil等人(1987)通过对大量实验的数据分析提出了蛋白质多序列对比分析的通用方法[13]。根据多序列比对分析的这种方法的总结,于1999年由Jones等人提出了位置特异性计分矩阵(PositionSpecificScoringMatrices,PSSM)——谱编码,之后PSSM码就成为了一个通用的标准被大家广泛使用。PSSM码的计算方法是基于局部对比算法:PSI-BLAST算法。为了得到PSSM码,
选出我们目标蛋白质的相似程度最高的序列,然后PSI-BLAST方法根据得到的相似蛋白质序列,计算得到最后的序列谱文件,即PSSM谱文件。经过多年的优化,目前整个相似序列搜索过程都是在服务器端直接操作,只需要3分钟就可以得到我们的要分析的蛋白质的谱文件。这些PSSM文件产生过成如上图1.2展示。通过BLAST方法我们可以轻松获得新的蛋白质的相似序列,我们得到的结果如下,从图中我们可以看到目标蛋白质的每个氨基酸位置都对应了相似氨基酸的一系列氨基酸种类,PSSM码是记录了每个位点各个氨基酸出现的概率的一组矢量,以下图1.3为例我们可以分析倒数第二列的比对结果得到的苯丙氨酸(F代表苯丙氨酸)在整个相似序列比对中占比为0.83333,而酪氨酸(Y代表酪氨酸)占比为0.16666,为了比较不同氨基酸占比,采用每个氨基酸位点都有20个位置,每个位置分别代表各个氨基酸在这个位置的出现概率,即PSSM码的维度一般为[Nx20](其中N为蛋白质的氨基酸序列长度)。按照上述计算即此时我们可以得到在这个位置的PSSM码为[0,0,0,0,0.16666,0......0.83333,0,0]。图1.3对序列比对结果1.2.3常用特征选择方法介绍关于蛋白质的生物特性和化学特性有着很多的度量标准,各种度量数值在各个方面影响着蛋白质的性质,在机器学习过程中,我们无法将蛋白质所有信息特征都收集到,也没有必要将所有信息都作为网络的输入特征,否则这样设计的分类器的开销很大,并且分类性能也会非常差,所以从各种各样的属性值中找出我们所需要的特征非常有必要。在已知的各种标准属性中挑选出不同实验所需要的特征子集的这个过程需要找到合适的特征选择的方法,下面本文对几种常见方法进行了介绍。
【参考文献】:
硕士论文
[1]氨基酸的分布式表示方法及其在蛋白质序列分析中应用[D]. 何柳.吉林大学 2019
[2]利用序列信息预测蛋白质二级结构的深度学习模型研究[D]. 吴辉.天津大学 2017
本文编号:3428822
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
蛋白质的四级结构的空间转化过程
第1章引言9PSSM也是目前被使用最为广泛的特征。1.2.2位置特异性得分矩阵PSSM通过生物学研究已经发现具有相似的组成结构和性质功能的不同蛋白质之间往往他们的氨基酸组成和排列顺序也是非常相似的,经实验证明进行蛋白质的多序列比对测算可以帮助比较、分析出一个没有见过的新蛋白质的二级或三级结构等,也可以通过类比分析相似的同源蛋白质出新推测种蛋白质的性质和功能,所以不同的蛋白质之间进行序列对比是十分有价值的。所以往往对一条蛋白质分析的时候不仅简单分析其组成,还会进行多序列比对建模,根据相似序列的性质来对被分析的蛋白质序列的性质进行验证。图1.2蛋白质谱文件产生过程Niermann等人(1987)率先根据蛋白质多序列比对信息思想[11],观察了色氨酸合成酶α-亚基的序列异变模式,通过对氨基酸相似序列的插入和删除的位置信息进行分析,首次成功通过多序列比对的方法预测了色氨酸合成酶α-亚基的二级结构[12],之后由Zvelebil等人(1987)通过对大量实验的数据分析提出了蛋白质多序列对比分析的通用方法[13]。根据多序列比对分析的这种方法的总结,于1999年由Jones等人提出了位置特异性计分矩阵(PositionSpecificScoringMatrices,PSSM)——谱编码,之后PSSM码就成为了一个通用的标准被大家广泛使用。PSSM码的计算方法是基于局部对比算法:PSI-BLAST算法。为了得到PSSM码,
选出我们目标蛋白质的相似程度最高的序列,然后PSI-BLAST方法根据得到的相似蛋白质序列,计算得到最后的序列谱文件,即PSSM谱文件。经过多年的优化,目前整个相似序列搜索过程都是在服务器端直接操作,只需要3分钟就可以得到我们的要分析的蛋白质的谱文件。这些PSSM文件产生过成如上图1.2展示。通过BLAST方法我们可以轻松获得新的蛋白质的相似序列,我们得到的结果如下,从图中我们可以看到目标蛋白质的每个氨基酸位置都对应了相似氨基酸的一系列氨基酸种类,PSSM码是记录了每个位点各个氨基酸出现的概率的一组矢量,以下图1.3为例我们可以分析倒数第二列的比对结果得到的苯丙氨酸(F代表苯丙氨酸)在整个相似序列比对中占比为0.83333,而酪氨酸(Y代表酪氨酸)占比为0.16666,为了比较不同氨基酸占比,采用每个氨基酸位点都有20个位置,每个位置分别代表各个氨基酸在这个位置的出现概率,即PSSM码的维度一般为[Nx20](其中N为蛋白质的氨基酸序列长度)。按照上述计算即此时我们可以得到在这个位置的PSSM码为[0,0,0,0,0.16666,0......0.83333,0,0]。图1.3对序列比对结果1.2.3常用特征选择方法介绍关于蛋白质的生物特性和化学特性有着很多的度量标准,各种度量数值在各个方面影响着蛋白质的性质,在机器学习过程中,我们无法将蛋白质所有信息特征都收集到,也没有必要将所有信息都作为网络的输入特征,否则这样设计的分类器的开销很大,并且分类性能也会非常差,所以从各种各样的属性值中找出我们所需要的特征非常有必要。在已知的各种标准属性中挑选出不同实验所需要的特征子集的这个过程需要找到合适的特征选择的方法,下面本文对几种常见方法进行了介绍。
【参考文献】:
硕士论文
[1]氨基酸的分布式表示方法及其在蛋白质序列分析中应用[D]. 何柳.吉林大学 2019
[2]利用序列信息预测蛋白质二级结构的深度学习模型研究[D]. 吴辉.天津大学 2017
本文编号:3428822
本文链接:https://www.wllwen.com/projectlw/swxlw/3428822.html
教材专著