基于深度自编码器的蛋白质复合物预测研究
发布时间:2021-06-26 04:57
随着生物信息学的不断发展,蛋白质复合物的研究对探索细胞与生命的奥秘有着重要意义。传统的基于生物实验的复合物检测方法存在着诸多缺点。近年来,随着高通量技术的发展,基于计算的蛋白质复合物预测方法逐渐成为主流。现有基于计算的蛋白质复合物预测方法通常采用传统的聚类算法对蛋白质相互作用(PPI)网络进行分析。但是由于网络结构的复杂性,这种直接分析的方式并不能充分利用网络中包含的信息。网络嵌入作为一种新型的数据预处理方法,可以有效地提取网络信息,从而提高分析的质量。因此,本文提出了一种基于深度网络嵌入的新型复合物预测方法(DANE)。该方法首先利用深度自编码器对网络信息进行提取,并在网络结构信息的基础上添加了生物功能信息作为补充,得到节点的向量表示。之后利用基于核心-附属结构的极大团挖掘算法对节点进行聚类,从而得到最终的蛋白质复合物预测。该方法使用的深度自编码器框架可以有效地提取网络中的非线性信息,同时过滤了数据中包含的噪声干扰。在DANE方法的基础上,本文重点关注了网络的全局结构信息,提出了基于邻居相似性网络嵌入的复合物预测方法(NANE)。该方法利用规范性指标计算出节点邻居结构的相似度,并以此...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 蛋白质复合物预测概述
1.2 基于计算的蛋白质复合物预测方法
1.2.1 基于网络结构信息聚类的方法
1.2.2 结合生物信息聚类的方法
1.3 本文的研究动机与主要贡献
1.4 本文的组织结构
2 相关技术
2.1 网络嵌入
2.1.1 基本概念
2.1.2 基于网络结构的网络嵌入方法
2.1.3 使用附加信息的网络嵌入方法
2.2 深度学习
2.2.1 深度学习的发展
2.2.2 自编码器简介
2.3 本章小结
3 基于深度网络嵌入的复合物预测方法
3.1 方法流程
3.2 基于属性网络的嵌入过程
3.2.1 提取网络结构信息
3.2.2 提取节点属性信息
3.2.3 避免过拟合
3.3 基于核心-附属结构的聚类过程
3.3.1 复合物核心挖掘
3.3.2 附属蛋白质添加
3.4 实验验证
3.4.1 实验数据集
3.4.2 评价标准
3.4.3 性能评估
3.4.4 生物意义评估
3.4.5 参数调研
3.5 本章小结
4 基于邻居相似性网络嵌入的复合物预测方法
4.1 方法流程
4.2 基于邻居相似性的嵌入过程
4.2.1 提取节点属性信息
4.2.2 提取局部结构信息
4.2.3 提取全局结构信息
4.2.4 避免过拟合
4.3 基于Kose算法的聚类过程
4.3.1 利用Kose算法挖掘核心蛋白质团
4.3.2 基于连接系数添加附属蛋白质
4.4 实验验证
4.4.1 实验条件
4.4.2 性能评估
4.4.3 生物意义评估
4.4.4 参数调研
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
【参考文献】:
期刊论文
[1]基于遗传算法的蛋白质复合物识别算法[J]. 郑文萍,李晋玉,王杰. 计算机科学与探索. 2018(05)
[2]基于关键功能模块挖掘的蛋白质功能预测[J]. 赵碧海,李学勇,胡赛,张帆,田清龙,杨品红,刘臻. 自动化学报. 2018(01)
本文编号:3250673
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 蛋白质复合物预测概述
1.2 基于计算的蛋白质复合物预测方法
1.2.1 基于网络结构信息聚类的方法
1.2.2 结合生物信息聚类的方法
1.3 本文的研究动机与主要贡献
1.4 本文的组织结构
2 相关技术
2.1 网络嵌入
2.1.1 基本概念
2.1.2 基于网络结构的网络嵌入方法
2.1.3 使用附加信息的网络嵌入方法
2.2 深度学习
2.2.1 深度学习的发展
2.2.2 自编码器简介
2.3 本章小结
3 基于深度网络嵌入的复合物预测方法
3.1 方法流程
3.2 基于属性网络的嵌入过程
3.2.1 提取网络结构信息
3.2.2 提取节点属性信息
3.2.3 避免过拟合
3.3 基于核心-附属结构的聚类过程
3.3.1 复合物核心挖掘
3.3.2 附属蛋白质添加
3.4 实验验证
3.4.1 实验数据集
3.4.2 评价标准
3.4.3 性能评估
3.4.4 生物意义评估
3.4.5 参数调研
3.5 本章小结
4 基于邻居相似性网络嵌入的复合物预测方法
4.1 方法流程
4.2 基于邻居相似性的嵌入过程
4.2.1 提取节点属性信息
4.2.2 提取局部结构信息
4.2.3 提取全局结构信息
4.2.4 避免过拟合
4.3 基于Kose算法的聚类过程
4.3.1 利用Kose算法挖掘核心蛋白质团
4.3.2 基于连接系数添加附属蛋白质
4.4 实验验证
4.4.1 实验条件
4.4.2 性能评估
4.4.3 生物意义评估
4.4.4 参数调研
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
【参考文献】:
期刊论文
[1]基于遗传算法的蛋白质复合物识别算法[J]. 郑文萍,李晋玉,王杰. 计算机科学与探索. 2018(05)
[2]基于关键功能模块挖掘的蛋白质功能预测[J]. 赵碧海,李学勇,胡赛,张帆,田清龙,杨品红,刘臻. 自动化学报. 2018(01)
本文编号:3250673
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3250673.html