当前位置:主页 > 理工论文 > 生物学论文 >

基于集成深度神经网络的蛋白质棕榈酰化位点预测研究

发布时间:2021-02-28 14:13
  蛋白质棕榈酰化是蛋白质翻译后脂质共价修饰的一种重要形式,是调控蛋白质的转运、稳定、定位和功能的重要机制。同时,棕榈酰化位点修饰还参与多种细胞生物学进程,与许多疾病的发生发展密切相关。蛋白质棕榈酰化位点预测的目标是从蛋白质的氨基酸序列组成信息及其理化性质出发,利用计算的方法来预测某蛋白质是否会发生棕榈酰化,进而预测发生棕榈酰化的氨基酸残基位点。棕榈酰化位点预测能帮助生物学家从海量的蛋白数据中快速准确地识别出会发生棕榈酰化的蛋白,发现在这些位点背后所隐藏的生物机制和规律,揭示棕榈酰化位点修饰如何影响棕榈酰化蛋白的折叠、活性以及最终的功能等,并最终为众多疾病机理的阐明及攻克某些疾病提供理论依据和解决途径。因此,棕榈酰化位点预测已经成为近年来生物信息学领域中的一个研究热点。在以往研究中,利用生物实验鉴别得到的棕榈酰化位点较为可靠。因此,目前公开的棕榈酰化蛋白数据普遍是由生物实验标注得到。但是这些方法存在耗时耗力,成本昂贵,实验过程复杂等问题。近些年来,随着蛋白质数据库的日益庞大,单纯的生物实验已经无法完成海量蛋白数据的检测,机器学习算法逐渐应用在该领域,使得检测效率大大提高,但仍存在特征偏好和... 

【文章来源】:东北师范大学吉林省 211工程院校 教育部直属院校

【文章页数】:41 页

【学位级别】:硕士

【部分图文】:

基于集成深度神经网络的蛋白质棕榈酰化位点预测研究


Uniprot/Swiss-prot数据库棕榈酰化蛋白数据信息

流程图,流程图,算法,特征矩阵


10第三章基于集成深度神经网络的蛋白质棕榈酰化位点预测3.1模型预测流程本实验的整体算法流程图如图3.1所示,展示了本文预测蛋白质S-棕榈酰化的整体流程,给予读者更清晰直观的了解。图3.1整体算法流程图本实验算法流程大致分为如下步骤:(1)从公开发表的蛋白质数据库中搜集本实验中所需棕榈酰化序列,并对搜集的原始数据进行预处理。按照策略将处理好的数据进行训练集测试集的划分,同时,本实验采用十折交叉验证的方法,训练集中的数据随机划分成十份,轮次抽取一份作为验证集,其余九份作为训练集,以减少模型训练过程中的偏置误差,增强模型的鲁棒性。(2)将划分之后的训练集,验证集和测试集进行特征向量化转换,原始序列特征矩阵,疏水性特征矩阵,理化属性特征矩阵以及β信息特征矩阵作为模型的数据输入。(3)使用训练集对本文整架构模型进行训练,同时由对应验证集进行训练过程验证,调整模型超参数,优化训练过程,最终得到当前数据集上表现最优模型作为

棕榈,酰化,位点


11最终预测模型。最后将测试集放入已经训练好的模型中,对测试集数据进行预测,得到最终预测结果,并使用统一评价指标对预测结果进行评估。3.2蛋白质棕榈酰化位点预测的形式化描述蛋白质的S-棕榈酰化(proteinS-palmitoylation)是一种可逆的蛋白质翻译后修饰。如图3.2所示,棕榈酰化修饰的过程是将棕榈酰基团通过硫酯键的形式共价连接到蛋白质侧链的Cys残基上,该过程需要棕榈酰化转移酶的催化,而棕榈酰化转移酶是一个酶家族,这个酶家族中的各种酶的共同特点是,其活性中心均含有Asp-His-His-Cys(DHHC)基序,因此也统一称为DHHC家族。发生棕榈酰化的位点,即为棕榈酰基团共价连接的残基。图3.2棕榈酰化位点修饰形式化表示[44]3.3蛋白质棕榈酰化位点数据集的构建本实验的数据从Uniprot/Swiss-prot蛋白质数据库中获取,选择经过人工标注的可靠数据信息,如同第二章中所说,初步筛选共得到2512条蛋白质序列,构成全部原始数据。生物信息学中,同一性代表的意义是,两序列之间进行比较,在同一位点的

【参考文献】:
期刊论文
[1]UniProt蛋白质数据库简介[J]. 罗静初.  生物信息学. 2019(03)
[2]棕榈酰化蛋白及蛋白质的棕榈酰化研究进展[J]. 丁玉娇,韩颖颖,周婧雯.  亚热带植物科学. 2018(04)
[3]自然语言处理中的深度学习:方法及应用[J]. 林奕欧,雷航,李晓瑜,吴佳.  电子科技大学学报. 2017(06)



本文编号:3055970

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3055970.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bf59e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com