当前位置:主页 > 理工论文 > 生物学论文 >

基于集成学习和迁移学习的蛋白质泛素化和类泛素化位点预测研究

发布时间:2023-08-26 04:41
  蛋白质泛素化是一类典型的翻译后修饰(PTM),它承担着调节生命活动的重要作用,研究发现泛素化影响着细胞凋亡、细胞增殖和信号转导;蛋白质SUMO化是一类与泛素化非常相似的翻译后修饰,研究发现SUMO化与基因定位、基因表达和基因组复制有关。在过去的二十年里,机器学习相关算法已被广泛地认为是预测蛋白质泛素化与SUMO化位点的有效计算方法。依据机器学习算法开发计算工具需要特征工程,现存工具一般依靠先验知识人工选择符合特定问题的特征,这些特征不具备一般性,导致其模型可解释性弱。并且现存工具不能适应时下日益增长的数据规模。上述因素促使本文提出了一个基于深度学习算法、有能力处理大规模数据量的蛋白质泛素化位点预测工具,其模型集成了七个包含卷积层与全连接层的有监督学习子模型,这些子模型可以从蛋白质序列特征和理化属性特征中提取深度表示。在本文中,402个理化属性特征被分为6个聚类簇,每一个簇中的高相关性特征都被相应地定制了子模型的深层网络架构来处理。然后,使用一个Stacking集成学习策略来综合每一个子网的深度表示以完成预测蛋白质泛素化位点的工作。此外,迁移学习技术的引入使本文提出的深度学习模型在微调后...

【文章页数】:41 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景与意义
        1.1.1 翻译后修饰
        1.1.2 泛素化与SUMO化
    1.2 研究现状
    1.3 主要研究工作及行文结构
        1.3.1 主要工作
        1.3.2 本文结构
第二章 数据集构建与特征编码
    2.1 数据收集
        2.1.1 Uniprot/Swiss-Prot数据库
        2.1.2 检索数据
    2.2 数据处理
    2.3 编码蛋白质序列片段
        2.3.1 One-hot编码
        2.3.2 理化属性编码
第三章 模型与方法
    3.1 深度学习
        3.1.1 深度学习概述
        3.1.2 模型架构
    3.2 集成学习
        3.2.1 集成学习概述
        3.2.2 模型训练与集成
    3.3 Bootstrapping策略
    3.4 迁移学习
        3.4.1 迁移学习概述
        3.4.2 迁移策略
    3.5 实验整体流程
第四章 实验结果分析与讨论
    4.1 评价指标
    4.2 模型整体性能
    4.3 理化属性网络的效果
        4.3.1 理化属性在不同网络架构中的效果
        4.3.2 使用PCA降维理化属性的结果
    4.4 迁移学习带来的性能提升
        4.4.1 引入迁移学习技术的性能提升
        4.4.2 两种迁移策略的提升对比
    4.5 与其它预测工具对比结果
第五章 总结与展望
参考文献
致谢
在学期间公开发表论文及著作情况



本文编号:3843974

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3843974.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户88e9c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com