当前位置:主页 > 理工论文 > 生物学论文 >

基于蛋白质序列的表示学习和最适条件分析

发布时间:2020-07-16 08:57
【摘要】:蛋白质是具有复杂结构的化合物,是生命体细胞中重要的组成成分。酶是一类具有催化作用的蛋白质,其只能在例如:酸性环境,高温环境等特定的环境条件中发挥催化作用。能够使酶发挥最大催化作用的环境条件称为最适条件。自然界中的野生型酶不能在研究人员预期条件下发挥良好的催化作用。因此获得酶的最适条件,并利用蛋白质工程使突变体能够在预期环境中发挥催化作用,一直是生命科学研究的热点。生物研究人员通常使用梯度试验获得野生型酶的最适条件。然后,利用三级结构分析结构与最适条件的关系,通过定向突变获得野生型酶的多种突变体。最后,通过筛选找到能够在预期环境条件种发挥催化作用的突变体。但梯度试验过程繁琐,单次实验只能对单个酶进行实验,获得最适条件的效率较低。定向突变虽然能够获得满足需求的酶,但对野生型酶的突变是不可控的,生物研究人员需要对一种酶执行多种突变方案从中筛选预期的突变体。因此,使用传统的生物学方法获得满足预期的突变体酶是困难且低效的。针对上述问题,本文从酶的氨基酸序列出发,探讨酶的最适条件与氨基酸序列的关联关系。提出了一种将氨基酸以及序列结构信息转化为隐式空间中多维向量的表示学习方法。氨基酸和序列位点的向量中包含了氨基酸与序列位点的相容性关系以及氨基酸和序列位点与最适条件的关联关系。利用这些向量,本文设计了一个相容性得分来评估氨基酸与序列位点的相容性。本文利用相容性得分做了一下几点尝试:(1)分析酶的保守区和非保守区:若某些序列片段或位点与不同种类氨基酸的相容性得分均高于其他片段或位点,表明该序列片段或位点能够影响最适条件,则该序列片段或位点为非保守区;反之,则为保守区。(2)预测给定酶的最适条件:将氨基酸序列位点与该位点氨基酸的相容性得分作为该位点的特征值,将氨基酸序列转化为蛋白质的特征向量,利用回归模型预测酶的最适条件。(3)给定预期条件,对野生型酶进行突变指导:在非保守区中找到相容性得分最低的位点,通过替换氨基酸改善该位点的相容性得分,使替换后的突变体的最适条件更加接近预期条件。(4)给定预期条件,设计氨基酸序列:参考生物学知识与规范,将相容性得分转化成在某个位点出现某种氨基酸的概率。根据氨基酸的概率分布为每个位点选择合适的氨基酸,从而生成新的氨基酸序列。为了方便实际应用,本文爬取了CAZY数据库中糖化水解酶GH11家族的氨基酸序列,并从相关文献中收集125条氨基酸序列的最适pH。由于从机器学习的角度来看,本实验样本量较小,因此本文引入了一种面向小样本的概率生成方法来实现对小样本的表示学习。与生物传统方法相比,本文的表示学习方法速度更快,效果更好;与其他计算方法相比,本文方法输入更少且更加有效。为了方便生物研究人员对本文方法的使用,本文开发了一款面向蛋白质家族表示学习的可视化工具。该工具提供了简易的模型调试操作以及可视化的模型评估界面,使得生物研究人员不需要了解计算知识即可对模型进行修改和使用。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP181;Q51
【图文】:

框架图,学习模型,应用场,框架


逦" ̄?? ̄邋\逡逑图2-1序列表示学习模型及应用框架逡逑氨基酸和序列位点向量的学习流程和应用场景框架如图2-1所示。框架图的逡逑左上部分是氨基酸和序列位点向量的学习部分。其中,黑色箭头表示数据处理过逡逑程和基于两个优化目标的模型训练过程。右下部分为向量应用的四个示例,由红逡逑色箭头表示,即:1)预测序列的最适条件。2)比较同一家族两个序列的最适条逡逑件。3)寻找保守区和非保守区。4)对野生型蛋白给出突变建议。其中,灰色箭逡逑头表示数据流。逡逑2.2面向最适条件的氨基酸和序列位点向量的表示学习逡逑氨基酸序列的最适条件受两个因素影响,一是氨基酸序列由何种氨基酸组成,逡逑二是氨基酸在序列中是如何排布的。由此,引入两个目标函数来了解最适条件与逡逑氨基酸序列之间的关系:1)单个位点上氨基酸种类对最适条件的影响。2)不同逡逑位点的氨基酸相互作用共同对最适条件产生影响。第一个目标用于确定何种氨基逡逑酸在序列的哪个位置上会影响酶的最适条件,而第二个目标用于确定影响酶最适逡逑条件的非保守区域。本文提出了一种表示学习方法将两个目标结合在一起。通过逡逑对联合目标的学习

样本集,训练集,氨基酸序列,随机选择


2.3.3数据预处理逡逑根据预期条件将训练集分成心和&两个数据集,其中&中氨基酸序列的最适逡逑pH更接近预期条件。例如:预期条件是耐碱性,则把最适PH高于7的氨基酸逡逑序列划入心集合中,将最适pH小于等于7的氨基酸序列划入集合中。按照以逡逑下三步生成样木:逡逑(1邋)从心中随机选择一条氨基酸序列a,从&中随机选择一条氨基酸序列L逡逑(2)比较这两条氨基酸序列每个位点的元素,随机选择一个差异位点逡逑(3)将(fc,a)放入正样本集合中,将(fcj)放入负样本集合中。逡逑重复上述三步N次生成正样本集和负样本集。在训练位点和氨基酸的向量逡逑时,随机从正负样本集中随机抽取一个或多个正负样本进行训练。逡逑2.4表示向置的语义分析逡逑

信息增益,位点,家族,氨基酸序列


量化了序列最适pH是否高于或低于期望条件的不确定性,如公式(19)所示。逡逑H(y)邋=邋-Ssi=Si,shpC^)邋?邋l0gp(Si)逦(19)逡逑其中,然后,量化当确定一个位点的氨基酸时能够多大程度的减少这逡逑I尸I逡逑种不确定性。对于给定位点/c,条件熵//(y|cfc)量化了当己知该位点的氨基酸为cfc逡逑时最适邋pH邋的不确定性,即:.邋Z05PCS"i|cfc)。位点fc逡逑的条件熵为=ECfce』^^H(y|Cfc),其中表示第fc个位点上是氨基酸&逡逑的序列集合。最后,通过公式Gain(/c)邋=邋H(y)邋-邋//(y|/c)计算氨基酸序列第々个位逡逑点的信息增益。以散点图的形式展示GH11家族氨基酸序列集合每个位点的信息逡逑增益。如图2-3所示,横坐标表示对齐序列上的位点,纵坐标表示位点的信息增逡逑益。逡逑

【相似文献】

相关期刊论文 前10条

1 周勤;实验设计与分析中确定最适条件的统计试验实现方法[J];山东建材学院学报;1998年01期

2 王爱华,靳亚平,武浩;猪PBMC产生IL-2最适条件的探讨[J];西北农业学报;2000年03期

3 郑健;郭守华;宋瑜;郑勇奇;杨晓燕;苑林;;臭椿种子萌发最适条件研究[J];西北植物学报;2007年05期

4 魏杰;候萧;李辉;刘宏生;;产谷氨酰胺合成酶发酵条件的研究[J];辽宁大学学报(自然科学版);2006年03期

5 王珊,金先庆,杨纯正,齐静;探讨MDR1基因转染k562细胞的最适条件[J];中华小儿外科杂志;2002年06期

6 孙芸;毛彩霞;景崤壁;;探究铜和浓硫酸反应的最适条件[J];中学生数理化(学习研究);2016年10期

7 张霞,张利;液态高温糖化——固态酒化醋化工艺生产优质香醋[J];中国调味品;2002年10期

8 艾斯卡尔·依米提,哈木拉提·吾甫尔,伊力哈木江·沙比提;AP-RCR方法进行基因多态性分析时最佳反应条件的构建[J];新疆医科大学学报;2000年03期

9 孙燕;洪青;李顺鹏;;一株生物表面活性剂产生菌的分离及其特性研究[J];微生物学通报;2009年08期

10 邹粮泽;李乐;吴贵富;张敏;金英海;;乳酸菌发酵米糠富锗条件的筛选[J];吉林畜牧兽医;2017年09期

相关会议论文 前1条

1 黄燕华;冯定远;;不同来源纤维素酶的酶活最适条件研究[A];酶制剂在饲料工业中的应用[C];2005年

相关博士学位论文 前1条

1 陈朋;氧化亚铁硫杆菌生物浸出雄黄系统研究[D];兰州大学;2011年

相关硕士学位论文 前2条

1 李相君;基于蛋白质序列的表示学习和最适条件分析[D];山东大学;2019年

2 王迪;消化法检验旋毛虫最适条件的筛选[D];吉林大学;2014年



本文编号:2757798

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2757798.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7cf7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com