当前位置:主页 > 医学论文 > 基础医学论文 >

基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测

发布时间:2021-08-20 10:50
  翻译后修饰是对蛋白质中的一个或多个氨基酸添加官能团(如烷基、烯基、苯基等)改变其化学性质或者空间结构,从而进一步影响蛋白质在细胞生命活动过程的调控作用。在众多的蛋白质翻译后修饰中,赖氨酸丙二酰化是将丙二酰基团从丙二酰辅酶A转移到赖氨酸残基上的一种化学修饰。研究证明,这一修饰能调控肝脏组织中葡萄糖和脂肪酸的代谢,并且与二型糖尿病和肥胖症等高发病率的代谢疾病相关。因此,对赖氨酸丙二酰化位点的精准识别能有助于人们深入了解相关疾病的发病机理以及治疗方法。本文基于实验验证的真实数据,提出了一个用于精准预测赖氨酸丙二酰化位点的集成学习框架,主要工作与结论如下:(1)赖氨酸丙二酰化数据集的收集与预处理。首先,我们从公共数据库中收集实验验证过的丙二酰化修饰的蛋白质序列。然后,以赖氨酸(K)为中心截取长度为25个氨基酸的残基序列,若中心赖氨酸(K)被丙二酰化则定义为正样本,否则定义为负样本,以此构建用于机器学习建模的高质量的赖氨酸丙二酰化位点数据集。此外,通过序列比对的方式探究了正负样本序列的差异性,并发现正负样本之间存在大量的区域性重叠。基于序列的全方位特征探索,找寻正负样本之间潜在的差异性,为构建高... 

【文章来源】:桂林电子科技大学广西壮族自治区

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测


赖氨酸丙二酰化示意图

蛋白质序列,丙二酰,赖氨酸,开发流程


第一章 引言§1.3 研究内容、方法及创新点尽管现有工作加速了对赖氨酸丙二酰化位点的预测研究,但他们使用的特征或机器学习算法较为单一,很难全面有效地识别生物序列中潜在的赖氨酸丙二酰化位点。本研究在现有工作的基础上,针对其中的不足,提出了一整套赖氨酸丙二酰化位点预测的方案。我们首先对蛋白质序列进行了全面的分析,实现了 11 种特征提取算法。然后设计实现了一种新的集成机器学习模型,称为 kmal-sp,该模型融合了支持向量机、随机森林、梯度提升决策树、K 近邻和逻辑回归五种机器学习算法的优势,在预测性能上有了很大的提高,最后基于已有的集成学习模型开发了一个赖氨酸丙二酰化位点在线预测服务器(整体开发流程如图 1-2 所示)。以下重点说明本研究的研究内容、方法及创新点。

流程图,丙二酰,赖氨酸,样本


图 2-1 赖氨酸丙二酰化正负样本截取流程图按照上述步骤,对收集到的蛋白质序列做预处理,最后我们分别得到了大肠杆菌,小鼠,人类的 1553,2609,3885 个正样本,7830,26655,52027 个负样本(该数据集下载地址为 http://kmalsp.erc.monash.edu/download.jsp/)。为了避免非平衡数据集对模型性能的影响,我们随机选取与正样本数量等量的负样本构建最终的基准数据集并把基准数据集随机分为训练集和独立测试集,分别用于构建模型以及验证模型性能及其泛化能力(具体数据统计汇总表请参考表 2-1)。表 2-1 本研究使用的丙二酰化数据集的统计概要数据集 大肠杆菌 小鼠 人类蛋白质数量(全部/相似度小于 70%)595/592 1174/1131 1660/1609正样本数量(全部/相似度小于 70%)1746/1553 3435/2906 4579/3885

【参考文献】:
期刊论文
[1]决策树分类模型预测蛋白质相互作用的应用研究[J]. 郭晓龙,蒋艳,邱路.  生物医学工程学杂志. 2013(05)
[2]蛋白质翻译后修饰研究进展[J]. 郭会灿.  生物技术通报. 2011(07)
[3]基于集成学习方法的蛋白质相互作用预测[J]. 朱敏,张永清,李梦龙,周大威,黄俊.  四川大学学报(工程科学版). 2011(03)
[4]利用决策树方法对蛋白质鉴定结果二次评价[J]. 于长永,王国仁,吴俊杰,毛克明.  小型微型计算机系统. 2010(04)
[5]基于K近邻的蛋白质功能的预测方法[J]. 倪青山,王正志,黎刚果,孟祥林.  生物医学工程研究. 2009(02)
[6]决策树算法在蛋白质二级结构预测问题中的应用研究[J]. 张维东,朱宏明,周闻钧.  微型电脑应用. 2009(02)
[7]异源蛋白质相互作用数据整合算法的进展[J]. 王文馨,陈宇光,石铁流.  生命科学. 2008(05)
[8]应用支持向量机预测蛋白质相互作用位点[J]. 孟炜,王飞飞,彭新俊,沈称意,王翼飞.  应用科学学报. 2008(04)
[9]基于支持向量机的蛋白质相互作用预测[J]. 李哲谦,刘书朋,严壮志,黄海.  电子测量技术. 2008(05)
[10]集成学习算法的差异性及性能比较[J]. 李凯,崔丽娟.  计算机工程. 2008(06)

博士论文
[1]蛋白质构效关系的计算方法研究[D]. 权丽君.苏州大学 2017
[2]基于支持向量机的蛋白质分类研究[D]. 张绍武.西北工业大学 2004

硕士论文
[1]基于入侵检测的数据处理分析关键算法研究[D]. 王泽芳.西南科技大学 2016
[2]基于集成学习与多标记学习的蛋白质分类方法研究[D]. 陈伟程.厦门大学 2014
[3]支持向量机中Fourier核的性能分析[D]. 张勇.华东师范大学 2008



本文编号:3353361

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/jichuyixue/3353361.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cc4a2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com