基于信息熵与深度森林的蛋白质亚细胞位置预测
发布时间:2021-02-04 15:40
蛋白质的亚细胞位置信息能够为理解其生物学功能提供有力线索,在药物设计、病理分析等领域的研究中有着重要作用。在后基因组时代的当下,蛋白质测序技术取得了长足的发展。新发现蛋白质的数量正以惊人的速度飞速增长。如何快速准确的获取蛋白质的亚细胞位置信息已经成为了蛋白质组学中的一项关键任务。现有的蛋白质亚细胞位置识别方法主要分为基于生物化学实验的方法和基于计算的方法。其中,基于生物化学实验的方法是目前获取蛋白质亚细胞位置信息的主要手段。但是由于时间成本巨大,此类方法已经难以满足人们在识别效率方面的需求。与之相对,基于计算方法的出现为高效解决海量蛋白质序列的亚细胞位置识别问题提供了可行方案。近年来,人们对基于计算的蛋白质亚细胞位置预测方法做出了大量的研究。然而,受制于特征提取技术以及分类算法的性能,相关方法的预测准确率仍待提高。针对这一现状,本文在信息熵与深度森林的基础上对现有蛋白质亚细胞位置预测技术进行改进。在蛋白质特征提取方面,本文在分析了现有蛋白质特征提取技术缺陷的基础上,探究了基于信息熵的改进方案的有效性。在分类算法的构建方面,本文首先讨论了深度森林对蛋白质亚细胞位置预测问题的适用性,随后针...
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 论文组织结构
第2章 相关研究方法
2.1 蛋白质亚细胞位置预测方法框架
2.2 蛋白质序列信息特征表示方法
2.2.1 基于氨基酸组成信息的特征表示方法
2.2.2 基于氨基酸理化性质的特征表示方法
2.3 蛋白质进化信息特征表示方法
2.3.1 位置特异性矩阵
2.3.2 基于PSSM的进化信息特征表示方法
2.4 分类算法
2.4.1 SVM算法
2.4.2 随机森林算法
2.4.3 集成算法
2.5 本章小结
第3章 基于信息熵与自协方差的蛋白质特征表示
3.1 IE-MoACC-PFR方法
3.1.1 蛋白质序列信息特征提取
3.1.2 蛋白质进化信息特征提取
3.2 数值实验及性能分析
3.2.1 数据集介绍
3.2.2 评价指标
3.2.3 参数敏感性分析
3.2.4 对比方法介绍
3.2.5 实验结果分析
3.3 本章小结
第4章 基于特征选择的深度森林改进模型
4.1 深度森林
4.2 基于特征选择的深度森林改进模型
4.3 数值实验及性能分析
4.3.1 实验设置
4.3.2 实验结果分析
4.4 本章小结
第5章 基于禁忌搜索的深度森林改进模型
5.1 禁忌搜索
5.2 基于禁忌搜索的深度森林改进模型
5.3 数值实验及性能分析
5.3.1 实验设置
5.3.2 实验结果分析
5.4 本章小结
第6章 总结与展望
6.1 本文工作总结
6.2 未来工作展望
参考文献
致谢
攻读硕士期间发表的论文
【参考文献】:
期刊论文
[1]基于n-gram频率的语种识别改进方法[J]. 郝洺,徐博,殷绪成,王方圆. 自动化学报. 2018(03)
[2]集成改进KNN算法预测蛋白质亚细胞定位[J]. 薛卫,王雄飞,赵南,杨荣丽,洪晓宇. 生物工程学报. 2017(04)
[3]基于SVM-RFE算法的凋亡蛋白亚细胞定位预测[J]. 刘太岗,王春华. 计算机工程与应用. 2017(10)
[4]基于氨基酸约化和统计特征的蛋白质亚细胞定位预测[J]. 杨红,徐慧敏,严寿江,陈静,耿丽丽,姚玉华. 生物信息学. 2015(02)
[5]蛋白质亚细胞定位预测研究综述[J]. 乔善平,闫宝强. 计算机应用研究. 2014(02)
硕士论文
[1]蛋白质亚细胞定位的序列编码及预测方法研究[D]. 张丽.湖南大学 2010
本文编号:3018548
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 论文组织结构
第2章 相关研究方法
2.1 蛋白质亚细胞位置预测方法框架
2.2 蛋白质序列信息特征表示方法
2.2.1 基于氨基酸组成信息的特征表示方法
2.2.2 基于氨基酸理化性质的特征表示方法
2.3 蛋白质进化信息特征表示方法
2.3.1 位置特异性矩阵
2.3.2 基于PSSM的进化信息特征表示方法
2.4 分类算法
2.4.1 SVM算法
2.4.2 随机森林算法
2.4.3 集成算法
2.5 本章小结
第3章 基于信息熵与自协方差的蛋白质特征表示
3.1 IE-MoACC-PFR方法
3.1.1 蛋白质序列信息特征提取
3.1.2 蛋白质进化信息特征提取
3.2 数值实验及性能分析
3.2.1 数据集介绍
3.2.2 评价指标
3.2.3 参数敏感性分析
3.2.4 对比方法介绍
3.2.5 实验结果分析
3.3 本章小结
第4章 基于特征选择的深度森林改进模型
4.1 深度森林
4.2 基于特征选择的深度森林改进模型
4.3 数值实验及性能分析
4.3.1 实验设置
4.3.2 实验结果分析
4.4 本章小结
第5章 基于禁忌搜索的深度森林改进模型
5.1 禁忌搜索
5.2 基于禁忌搜索的深度森林改进模型
5.3 数值实验及性能分析
5.3.1 实验设置
5.3.2 实验结果分析
5.4 本章小结
第6章 总结与展望
6.1 本文工作总结
6.2 未来工作展望
参考文献
致谢
攻读硕士期间发表的论文
【参考文献】:
期刊论文
[1]基于n-gram频率的语种识别改进方法[J]. 郝洺,徐博,殷绪成,王方圆. 自动化学报. 2018(03)
[2]集成改进KNN算法预测蛋白质亚细胞定位[J]. 薛卫,王雄飞,赵南,杨荣丽,洪晓宇. 生物工程学报. 2017(04)
[3]基于SVM-RFE算法的凋亡蛋白亚细胞定位预测[J]. 刘太岗,王春华. 计算机工程与应用. 2017(10)
[4]基于氨基酸约化和统计特征的蛋白质亚细胞定位预测[J]. 杨红,徐慧敏,严寿江,陈静,耿丽丽,姚玉华. 生物信息学. 2015(02)
[5]蛋白质亚细胞定位预测研究综述[J]. 乔善平,闫宝强. 计算机应用研究. 2014(02)
硕士论文
[1]蛋白质亚细胞定位的序列编码及预测方法研究[D]. 张丽.湖南大学 2010
本文编号:3018548
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3018548.html