基于特征工程的蛋白质分类算法研究
发布时间:2021-01-12 22:49
人类基因组计划的实施,对生命科学的研究进入后基因组时代,蛋白质组学作为生命科学研究进入后基因组时代的里程碑,是生命科学研究的核心内容之一。蛋白质作为蛋白质组学主要研究对象,对它结构和功能破译是蛋白质组学的最终目标。而蛋白质分类作为蛋白质组学研究领域的一个重要分支和基础问题,是生物信息学的研究热点,本文基于特征工程技术对蛋白质分类这一课题进行研究,展开了两个蛋白质分类的专题,具体研究内容如下:1.提出基于SVM和多特征组合的高尔基体蛋白质类别预测方法,它组合了Pse KNC,Pse PSSM,6)-separated-bigrams-PSSM三种特征抽取方法,并使用Adaboost Classifier算法从Pse KNC中选择出最优的特征,得到329个特征,随后与Pse PSSM,6)-separated-bigrams-PSSM组合得到769维向量,然后,使用Random-SMOTE来平衡训练集,最后使用支持向量机(SVM)算法来区分cisGolgi蛋白质和trans-Golgi蛋白质,我们方法最终在jackknife验证、独立测试集验证和10折交叉验证中获得的准确率分别为96.5%...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源
1.2 课题背景及研究意义
1.2.1 研究背景
1.2.2 研究意义
1.3 国内外研究现状
1.4 本文主要内容
1.5 本文结构安排
第2章 蛋白质分类预测基本方法
2.1 引言
2.2 数据集的构建
2.3 蛋白质序列特征抽取方法
2.3.1 基于氨基酸组成的特征抽取方法
2.3.2 基于氨基酸理化性质的特征抽取方法
2.3.3 基于数据库挖掘的特征抽取方法
2.3.4 基于进化信息的特征抽取方法
2.3.5 基于深度学习的特征抽取方法
2.4 特征选择方法
2.4.1 最小冗余最大相关特征选择算法
2.4.2 主成分分析
2.4.3 方差分析法
2.5 数据集平衡方法
2.6 分类算法
2.7 预测模型性能评价方法
2.7.1 k折交叉验证
2.7.2 留一法(Jackknife)
2.7.3 独立测试集
2.7.4 评价指标
2.8 本章小节
第3章 基于SVM和多特征组合的高尔基体蛋白质类别预测
3.1 引言
3.2 材料和方法
3.2.1 数据集
3.2.2 蛋白质特征抽取
3.2.3 特征选择
3.2.4 Random-SMOTE
3.2.5 分类算法
3.3 结果与讨论
3.3.1 与其它方法的比较
3.3.2 Random-SMOTE对模型性能的影响
3.3.3 在PseKNC上特征选择对模型性能的影响
3.3.4 不同特征组合对模型性能的影响
3.4 本章总结
第4章 基于集成学习和PSSM的T6SES类别预测
4.1 引言
4.2 材料和方法
4.2.1 数据集
4.2.2 蛋白质特征抽取
4.2.3 SMOTE
4.2.4 模型构建
4.3 结果和讨论
4.3.1 不同基学习器和集成学习器的结果对比
4.3.2 不同特征抽取方法结果对比
4.3.3 SMOTE对模型的性能的影响
4.3.4 在10折交叉验证和独立测试集上的模型效果
4.3.5 与其他方法的比较
4.5 本章总结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
个人简历
本文编号:2973693
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源
1.2 课题背景及研究意义
1.2.1 研究背景
1.2.2 研究意义
1.3 国内外研究现状
1.4 本文主要内容
1.5 本文结构安排
第2章 蛋白质分类预测基本方法
2.1 引言
2.2 数据集的构建
2.3 蛋白质序列特征抽取方法
2.3.1 基于氨基酸组成的特征抽取方法
2.3.2 基于氨基酸理化性质的特征抽取方法
2.3.3 基于数据库挖掘的特征抽取方法
2.3.4 基于进化信息的特征抽取方法
2.3.5 基于深度学习的特征抽取方法
2.4 特征选择方法
2.4.1 最小冗余最大相关特征选择算法
2.4.2 主成分分析
2.4.3 方差分析法
2.5 数据集平衡方法
2.6 分类算法
2.7 预测模型性能评价方法
2.7.1 k折交叉验证
2.7.2 留一法(Jackknife)
2.7.3 独立测试集
2.7.4 评价指标
2.8 本章小节
第3章 基于SVM和多特征组合的高尔基体蛋白质类别预测
3.1 引言
3.2 材料和方法
3.2.1 数据集
3.2.2 蛋白质特征抽取
3.2.3 特征选择
3.2.4 Random-SMOTE
3.2.5 分类算法
3.3 结果与讨论
3.3.1 与其它方法的比较
3.3.2 Random-SMOTE对模型性能的影响
3.3.3 在PseKNC上特征选择对模型性能的影响
3.3.4 不同特征组合对模型性能的影响
3.4 本章总结
第4章 基于集成学习和PSSM的T6SES类别预测
4.1 引言
4.2 材料和方法
4.2.1 数据集
4.2.2 蛋白质特征抽取
4.2.3 SMOTE
4.2.4 模型构建
4.3 结果和讨论
4.3.1 不同基学习器和集成学习器的结果对比
4.3.2 不同特征抽取方法结果对比
4.3.3 SMOTE对模型的性能的影响
4.3.4 在10折交叉验证和独立测试集上的模型效果
4.3.5 与其他方法的比较
4.5 本章总结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
个人简历
本文编号:2973693
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2973693.html