随着人类基因组计划的完成和后基因组时代的到来,测序技术为生物学研究积累了大量的可挖掘数据。根据分子生物学中心法则,遗传信息保存在DNA中,但是真正行使生物学功能的是蛋白质。以mRNA为模板翻译出的前体蛋白是没有生物活性的,它需要经过一系列的加工过程才能成为具有生物功能的成熟蛋白。这种加工过程被称为翻译后修饰。翻译后修饰是蛋白质行使其正常生物学功能的基础。大量研究表明,发生在蛋白质赖氨酸残基上的Pupylation、泛素化和琥珀酰化修饰与许多疾病的发生存在密切相关性,阐明这些蛋白质翻译后修饰的过程和内在调控机理是揭示相关疾病发生机制并进行精准治疗的前提,而研究蛋白质翻译后修饰的关键起始步骤是找到可修饰蛋白及其作用位点。利用生物实验方法识别蛋白质翻译后修饰位点耗时长,经费投入大,而且翻译后修饰的酶促反应是一个极为耗时的过程,这严重制约了翻译后修饰位点识别研究的进展速度。随着生物信息学和计算生物学的发展,一些基于计算方法的蛋白质翻译后修饰位点识别技术被提出来,这些计算方法既能够高效而准确地识别蛋白质翻译后修饰位点,又能够进一步地对生物实验研究提供必要的线索。本文基于蛋白质序列信息对发生在赖氨酸残基上的翻译后修饰位点识别方法进行了深入研究,主要研究内容如下。(1)提出了一种新的蛋白质Pupylation位点识别方法EPuL。该识别方法的创新点体现在对初始可靠负样本集的构造,对于基于正例和无标记样本学习(Positive-Unlabled Learning,PU学习)过程,初始可靠负样本集的构造对算法整体性能至关重要。本文提出了一种基于分类器的初始可靠负样本集构造方法。初始可靠负样本集构造出来后,通过一个迭代过程对其进行扩充,最后构造出最终的可靠负样本集,并与正样本集构成最终的训练集,训练一个最终的支持向量机分类器来进行Pupylation位点识别。训练集上的交叉检验和独立样本集测试结果表明我们所提方法在预测性能上优于已有方法。另外,利用该算法从未注释位点的Pupylation蛋白质序列中识别出了一批潜在的Pupylation位点。特征分析结果表明本研究中使用的序列特征提取方法可以有效区分正样本和负样本。最后,根据此方法开发了一个用户友好的Web服务器提供免费的蛋白质Pupylation位点预测服务。(2)针对蛋白质泛素化位点识别问题开发了一种基于半监督学习与集成学习方法的预测算法。该算法首先选用伪氨基酸构成、蛋白质无序性打分、氨基酸理化性质、位置特异性得分矩阵、k-间隔氨基酸对构成、序列二进制编码和K近邻得分等7种方法对序列进行特征提取,对每一条序列构建8个独立的特征向量。位点识别算法首先利用改进的基于正例学习(Positive Sample only Learning,PSoL)算法根据8种特征向量从无标记样本集中逐步构建可靠负样本集,用于后续预测模型的训练。位点预测模型选用的是基于集成学习策略的随机森林算法。首先用每种单一特征分别训练一个随机森林模型,最后采用逻辑回归算法对8个随机森林模型的预测结果进行整合得到最终的预测结果。训练集上的10倍交叉检验和独立测试集的测试结果表明,本研究中提出的方法能够对物种特异的蛋白质泛素化位点和跨物种的综合性数据中的蛋白质泛素化位点进行有效识别,并且预测性能较现有泛素化位点预测算法得到了提高。最后,对算法进行特征分析,单一特征与组合特征比较结果证明组合特征预测较每种单一特征的预测效果都高,从而证明了特征组合的有效性。随机构建负样本集与本文构建的可靠负样本集上的比较结果证明了基于半监督学习的可靠负样本提取策略可以有效提高算法预测性能。(3)提出了一种用于蛋白质琥珀酰化位点预测的深度学习框架SucDeep。首先在k-间隔氨基酸对构成的基础上设计了一种新的序列特征提取方法。该方法用一个21×21维的矩阵来表示每一种氨基酸对在序列中出现的次数,每一个矩阵可以表示一种间隔的氨基酸对构成情况,然后把表示多种间隔的矩阵合并成在一起,构成一个与多通道图像类似的矩阵集合,作为待预测序列的一种特征。这种多通道特征矩阵是稀疏的整数矩阵,类似于计算机图像的表示方式,适用于深度学习模型。同时还采用位置特异性得分矩阵对序列进行特征提取,把每一条序列转换成一个20维的方阵。然后开发了一种基于间谍技术的半监督学习算法,用于从无标记样本中构建可靠负样本集。位点预测算法选用的是一种深度学习框架。该深度学习框架由两个多层卷积神经网络构成,每个子网络由3个卷积层,3个池化层和3个全连接层构成,并使用一个全连接层对两个子网络产生的特征进行拼接进行最终的预测。模型训练过程采用Bootstrapping策略,有效避免了训练集不平衡对算法性能的影响。最后构建了一个大规模的蛋白质琥珀酰化位点数据集对算法性能进行了测试,训练集上的5倍交叉检验结果和独立测试集的测试结果表明,我们所提出的算法较现有琥珀酰化预测算法在预测性能上有所提高。
【学位单位】:东北师范大学
【学位级别】:博士
【学位年份】:2019
【中图分类】:Q811.4
【部分图文】: 图 1.1 Pupylation 过程示意图目前研究表明,Pupylation 与多种细菌的致病性相关。例如,PUP-蛋白酶体通路对结核分支杆菌(M.tuberculosis)的致病性和顽固性都至关重要。为了阐明 PUP-蛋白酶体系统对原核生物蛋白质选择性降解的调控机制,迫切需要对 PUP 的底物蛋白质及其修饰位点进行识别[22]。在原核生物中广泛存在 Pupylation 修饰,准确鉴定 Pupylation 底
图 1.2 蛋白质泛素化过程示意图蛋白质的泛素化本身是一个酶催化反应过程,该反应过程的结果是将泛素蛋白底物蛋白质上。蛋白质的泛素化修饰可以只有一个泛素蛋白参与,也可以是多个成的泛素链参与[27]。在泛素化过程中,一般情况下是将泛素蛋白的最后一个甘氨酸
图 2.1 支持向量机最优分类面示意图持向量机分类器是属于一种监督学习模型,它主要用于对数据进行分类和回归用的支持向量机属于一种非统计的二元线性分类器。在给定一组标注了每一个哪一类别的训练样本集之后,支持向量机学习算法会训练一个模型,该模型用样本进行分类。在支持向量机模型中,样本被表示为空间中的点,不同类别的
【相似文献】
相关期刊论文 前10条
1 王志鹏;程农壹;李曼;王田;;生物正交反应法制备含有赖氨酸翻译后修饰类似物的蛋白质[J];大学化学;2018年03期
2 陈霞;罗良煌;;蛋白质翻译后修饰简介[J];生物学教学;2017年02期
3 朱卫国;;五彩缤纷的蛋白质翻译后修饰[J];中国科学:生命科学;2015年11期
4 张成普;李宁;马洁;吴松锋;朱云平;;非限制翻译后修饰鉴定方法的研究进展[J];生物化学与生物物理进展;2013年04期
5 费尔康;范骏;王洪枫;章涛;王光辉;;神经退行性疾病相关蛋白的翻译后修饰[J];中国科学技术大学学报;2008年08期
6 李虹;谢鹭;;预测和鉴定蛋白质翻译后修饰的生物信息方法[J];现代生物医学进展;2008年09期
7 赵文明;;蛋白质N端甲基化作用[J];生命的化学(中国生物化学会通讯);1989年03期
8 王志鹏;程农壹;梁妍钰;马新雨;;蛋白质中新型赖氨酸翻译后修饰的结构简介[J];大学化学;2017年12期
9 胡笳,郭燕婷,李艳梅;蛋白质翻译后修饰研究进展[J];科学通报;2005年11期
10 王志鹏;李曼;程农壹;王田;;非天然氨基酸引入法制备含有新型赖氨酸翻译后修饰蛋白质[J];化学教育(中英文);2018年18期
相关会议论文 前10条
1 陈永湘;;具有翻译后修饰蛋白质的合成[A];中国化学会第29届学术年会摘要集——第22分会:化学生物学[C];2014年
2 董铭铭;秦洪强;王科云;邓真真;叶明亮;邹汉法;;低丰度蛋白质翻译后修饰的分析新方法[A];第21届全国色谱学术报告会及仪器展览会会议论文集[C];2017年
3 卿光焱;;智能聚合物材料在翻译后修饰蛋白质组学中新的机遇与挑战[A];第21届全国色谱学术报告会及仪器展览会会议论文集[C];2017年
4 徐佳;王艳丽;张兵兵;杜为红;;羟脯氨酸异构化对芋螺毒素折叠的影响[A];第一届全国生物物理化学会议暨生物物理化学发展战略研讨会论文摘要集[C];2010年
5 高明霞;王嘉希;孙长龙;张玲;张s蠲
本文编号:2832460
本文链接:https://www.wllwen.com/projectlw/swxlw/2832460.html