基于多特征融合的高维膜蛋白数据分类预测研究
发布时间:2022-07-14 12:09
膜蛋白作为蛋白质功能的体现者和承担者,在蛋白质组学研究中占有重要地位。研究表明,某些疾病的产生与膜蛋白功能及结构的改变有很大关系,因此,针对膜蛋白类型进行精确的分类预测成为一项重要的研究课题。面对海量膜蛋白序列数据,采用机器学习分类的方法,不仅节约时间、精力,而且能够提高序列数据的利用率。在复杂的蛋白质序列信息中,使用膜蛋白的物理化学性质,序列相关性以及序列进化信息,提取有效的特征,是本文处理序列特征的主要方法。本文提出了一种膜蛋白序列特征融合的表达方法并针对高维特征进行维度约减处理,最后使用多种分类器,引入集成分类思想开展实验对比,我们取得了前沿的成果,实验结果也充分表明融合表达方法的有效性。本文工作具体如下:(1)通过对膜蛋白的序列信息的分析,提出了融合四种特征抽取方法:伪氨基酸组成(40维)、二肽组成(400维)、氨基酸的属性组(13维)和位置特异性分数矩阵(400维)的方法,将原始的膜蛋白序列转化为一个853维度的特征向量。该特征中包含了丰富的序列特征信息,为后续建立可靠的预测模型奠定了良好的基础。(2)膜蛋白特征融合方法也同时带来了信息冗余和维度灾难的问题。因此,本文使用两种...
【文章页数】:50 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文的主要工作及创新
1.4 论文结构
1.5 本章小结
第二章 膜蛋白序列的特征提取和分类算法
2.1 膜蛋白序列数据集
2.1.1 数据集来源简介
2.1.2 膜蛋白数据集的建立
2.2 膜蛋白序列的特征提取算法
2.3 膜蛋白分类算法
2.3.1 基于统计的分类算法
2.3.2 基于机器学习的算法
2.3.3 分类模型的检验
2.4 本章小结
第三章 基于特征融合与降维的膜蛋白分类预测
3.1 基于四种基本表达的特征融合
3.1.1 伪氨基酸组成
3.1.2 二肽组成
3.1.3 特异性分数矩阵
3.1.4 氨基酸属性组
3.2 降维算法
3.2.1 主成分分析
3.2.2 线性判别分析
3.3 基于特征融合与降维的膜蛋白分类预测实验
3.4 本章小结
第四章 基于Stacking集成学习的膜蛋白预测
4.1 Stacking集成学习的算法思想
4.2 Stacking框架下的基分类器
4.2.1 基分类器1—K近邻算法
4.2.2 基分类器2—支持向量机
4.2.3 基分类器3—随机森林
4.2.4 基分类器4—神经网络
4.3 Stacking框架下的元分类器
4.4 基分类器与组合分类器实验结果
4.4.1 组合策略中基分类器参数寻优
4.4.2 基分类器的实验结果
4.4.3 Stacking集成分类器的实验结果
4.5 本章小结
第五章 总结与展望
5.1 本文工作总结
5.2 下一步工作展望
参考文献
致谢
【参考文献】:
期刊论文
[1]SMR蛋白:一种跨膜蛋白演化研究的模式蛋白[J]. 赵永祥,程儒进,杨俊,谢浩. 生命科学. 2017(02)
[2]囊泡相关膜蛋白8基因多态性与动脉粥样硬化性脑梗死相关性研究[J]. 宋冰鑫,夏健. 国际神经病学神经外科学杂志. 2017(01)
[3]基于神经网络集成方法预测膜蛋白类型[J]. 方海洋,赵静,汪益川,宗福兴. 后勤工程学院学报. 2013(05)
[4]Bagging组合的不平衡数据分类方法[J]. 秦姣龙,王蔚. 计算机工程. 2011(14)
[5]HPLC和MALDI-TOF质谱技术研究海兔口腔神经节多肽组分与分布[J]. 吴韩志,陈东仕,冯丽剑,颜利,黄慧英,黄河清. 厦门大学学报(自然科学版). 2006(S1)
[6]基于加权支持向量机的膜蛋白类型预测中不平衡问题处理[J]. 刘国平,姚莉秀,杨杰,王猛. 上海交通大学学报. 2005(10)
博士论文
[1]快速多极边界元与有限元耦合分析结构声学敏感度的算法研究[D]. 陈磊磊.中国科学技术大学 2014
[2]高维生物数据的分类与预测研究[D]. 王彤.上海交通大学 2009
硕士论文
[1]基于多信息融合的蛋白质亚细胞定位预测方法研究[D]. 徐慧敏.浙江理工大学 2016
[2]水溶液中蛋白质二级结构红外分析方法的建立及cAMP受体蛋白构象研究[D]. 高铮亚.复旦大学 2012
本文编号:3661100
【文章页数】:50 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文的主要工作及创新
1.4 论文结构
1.5 本章小结
第二章 膜蛋白序列的特征提取和分类算法
2.1 膜蛋白序列数据集
2.1.1 数据集来源简介
2.1.2 膜蛋白数据集的建立
2.2 膜蛋白序列的特征提取算法
2.3 膜蛋白分类算法
2.3.1 基于统计的分类算法
2.3.2 基于机器学习的算法
2.3.3 分类模型的检验
2.4 本章小结
第三章 基于特征融合与降维的膜蛋白分类预测
3.1 基于四种基本表达的特征融合
3.1.1 伪氨基酸组成
3.1.2 二肽组成
3.1.3 特异性分数矩阵
3.1.4 氨基酸属性组
3.2 降维算法
3.2.1 主成分分析
3.2.2 线性判别分析
3.3 基于特征融合与降维的膜蛋白分类预测实验
3.4 本章小结
第四章 基于Stacking集成学习的膜蛋白预测
4.1 Stacking集成学习的算法思想
4.2 Stacking框架下的基分类器
4.2.1 基分类器1—K近邻算法
4.2.2 基分类器2—支持向量机
4.2.3 基分类器3—随机森林
4.2.4 基分类器4—神经网络
4.3 Stacking框架下的元分类器
4.4 基分类器与组合分类器实验结果
4.4.1 组合策略中基分类器参数寻优
4.4.2 基分类器的实验结果
4.4.3 Stacking集成分类器的实验结果
4.5 本章小结
第五章 总结与展望
5.1 本文工作总结
5.2 下一步工作展望
参考文献
致谢
【参考文献】:
期刊论文
[1]SMR蛋白:一种跨膜蛋白演化研究的模式蛋白[J]. 赵永祥,程儒进,杨俊,谢浩. 生命科学. 2017(02)
[2]囊泡相关膜蛋白8基因多态性与动脉粥样硬化性脑梗死相关性研究[J]. 宋冰鑫,夏健. 国际神经病学神经外科学杂志. 2017(01)
[3]基于神经网络集成方法预测膜蛋白类型[J]. 方海洋,赵静,汪益川,宗福兴. 后勤工程学院学报. 2013(05)
[4]Bagging组合的不平衡数据分类方法[J]. 秦姣龙,王蔚. 计算机工程. 2011(14)
[5]HPLC和MALDI-TOF质谱技术研究海兔口腔神经节多肽组分与分布[J]. 吴韩志,陈东仕,冯丽剑,颜利,黄慧英,黄河清. 厦门大学学报(自然科学版). 2006(S1)
[6]基于加权支持向量机的膜蛋白类型预测中不平衡问题处理[J]. 刘国平,姚莉秀,杨杰,王猛. 上海交通大学学报. 2005(10)
博士论文
[1]快速多极边界元与有限元耦合分析结构声学敏感度的算法研究[D]. 陈磊磊.中国科学技术大学 2014
[2]高维生物数据的分类与预测研究[D]. 王彤.上海交通大学 2009
硕士论文
[1]基于多信息融合的蛋白质亚细胞定位预测方法研究[D]. 徐慧敏.浙江理工大学 2016
[2]水溶液中蛋白质二级结构红外分析方法的建立及cAMP受体蛋白构象研究[D]. 高铮亚.复旦大学 2012
本文编号:3661100
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3661100.html