基于集成学习模型下的蛋白质交互作用预测方法研究
发布时间:2021-12-24 02:37
随着后基因组发展,蛋白质组的研究正在如火如荼地进行.蛋白质相互作用的研究不仅有助于揭示生命活动的本质,而且还有助于理解疾病活动的机制和有效药物的开发.机器学习的快速发展为理解蛋白质相互作用的机制提供了新的机遇和挑战.它在蛋白质组学研究领域发挥着重要作用.近年来,已经开发了越来越多的用于预测蛋白质相互作用的计算方法.本文的模型是基于集成学习的思想,结合随机森林和支持向量机算法来预测蛋白质间相互作用.本文的主要工作包含以下几点:(1)蛋白质-蛋白质相互作用在各种生物过程中起关键作用.已经开发了许多方法来预测蛋白质-蛋白质相互作用.然而,许多现有的应用是有局限的,因为它们依赖于大量的同源蛋白和相互作用标记.在本文中,我们提出了一种新的集成学习方法(RF-Ada-DF),和基于氨基酸序列的特征提取方法,用于识别蛋白质-蛋白质相互作用.我们的方法首先通过多元互信息和归一化Moreau-Broto自相关描述符技术构建基于蛋白质序列的特征向量来表示每对蛋白质.然后,我们将提取的638维特征输入到用于判断交互对和非交互对的集成学习模型中.此外,该集成模型在AdaBoost框架中嵌入随机森林,并将弱分类...
【文章来源】:安徽师范大学安徽省
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 蛋白质-蛋白质相互作用预测方法研究现状
1.2.1 基于进化信息的方法
1.2.2 基于自然语言处理的预测方法
1.2.3 基于氨基酸序列的预测方法
1.3 机器学习算法在蛋白质交互中的研究现状
1.4 内容安排
第二章 RF-Ada-DF:识别蛋白质-蛋白质相互作用的综合预测因子
2.1 引言
2.2 蛋白质-蛋白质相互作用预测方法介绍
2.2.1 计算多元互信息
2.2.2 规范化Moreau-Broto自相关
2.3 集成学习模型
2.3.1 随机森林
2.3.2 AdaBoost框架
2.3.3 双误度量故障检测
2.3.4 RF-Ada-DF
2.4 数据集和评价方法
2.4.1 PPIs数据集.
2.4.2 实验设置
2.4.3 评价指标
2.5 实验结果
2.5.1 分析MMI和 NMBAC的特征表现.
2.5.2 将RF-Ada-DF与现有分类器进行比较
2.5.3 在Heli.pylori数据集上的性能
2.5.4 在S.cerevisiae数据集的性能
2.5.5 在Human数据集上的性能
2.5.6 跨物种数据集的PPIs识别
2.5.7 两个特殊的PPIs数据集
2.6 讨论
2.7 本章小节
第三章 通过综合计算方法识别配体-受体相互作用
3.1 引言
3.2 配体-受体相互作用预测方法
3.2.1 定向梯度直方图
3.2.2 氨基酸接触矩阵
3.2.3 分解矩阵和计算直方图
3.2.4 离散余弦变换
3.2.5 模糊C均值聚类
3.2.6 支持向量机
3.3 Neighborhood Fuzzy和 Ensemble Fuzzy模型
3.3.1 相似性度量
3.3.2 Neighborhood Fuzzy模型
3.3.3 Ensemble Fuzzy模型
3.4 数据集与评价指标
3.4.1 数据集
3.4.2 评价指标
3.5 实验结果
3.5.1 实验设置
3.5.2 不平衡数据集
3.5.3 平衡数据集
3.5.4 PPIs预测的性能
3.6 讨论
3.7 结论
第四章 总结与展望
4.1 总结
4.2 展望
参考文献
致谢
在读期间发表的学术论文与取得的其他研究成果
本文编号:3549661
【文章来源】:安徽师范大学安徽省
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 蛋白质-蛋白质相互作用预测方法研究现状
1.2.1 基于进化信息的方法
1.2.2 基于自然语言处理的预测方法
1.2.3 基于氨基酸序列的预测方法
1.3 机器学习算法在蛋白质交互中的研究现状
1.4 内容安排
第二章 RF-Ada-DF:识别蛋白质-蛋白质相互作用的综合预测因子
2.1 引言
2.2 蛋白质-蛋白质相互作用预测方法介绍
2.2.1 计算多元互信息
2.2.2 规范化Moreau-Broto自相关
2.3 集成学习模型
2.3.1 随机森林
2.3.2 AdaBoost框架
2.3.3 双误度量故障检测
2.3.4 RF-Ada-DF
2.4 数据集和评价方法
2.4.1 PPIs数据集.
2.4.2 实验设置
2.4.3 评价指标
2.5 实验结果
2.5.1 分析MMI和 NMBAC的特征表现.
2.5.2 将RF-Ada-DF与现有分类器进行比较
2.5.3 在Heli.pylori数据集上的性能
2.5.4 在S.cerevisiae数据集的性能
2.5.5 在Human数据集上的性能
2.5.6 跨物种数据集的PPIs识别
2.5.7 两个特殊的PPIs数据集
2.6 讨论
2.7 本章小节
第三章 通过综合计算方法识别配体-受体相互作用
3.1 引言
3.2 配体-受体相互作用预测方法
3.2.1 定向梯度直方图
3.2.2 氨基酸接触矩阵
3.2.3 分解矩阵和计算直方图
3.2.4 离散余弦变换
3.2.5 模糊C均值聚类
3.2.6 支持向量机
3.3 Neighborhood Fuzzy和 Ensemble Fuzzy模型
3.3.1 相似性度量
3.3.2 Neighborhood Fuzzy模型
3.3.3 Ensemble Fuzzy模型
3.4 数据集与评价指标
3.4.1 数据集
3.4.2 评价指标
3.5 实验结果
3.5.1 实验设置
3.5.2 不平衡数据集
3.5.3 平衡数据集
3.5.4 PPIs预测的性能
3.6 讨论
3.7 结论
第四章 总结与展望
4.1 总结
4.2 展望
参考文献
致谢
在读期间发表的学术论文与取得的其他研究成果
本文编号:3549661
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3549661.html