基于机器学习的植物抗逆基因识别
发布时间:2021-05-06 19:25
病虫害危害植物生长是现代经济作物生产、植物栽培面临的重要不利因素。具有抗逆基因的植物对于恶劣环境有着良好的适应性,因此对于植物抗逆基因的研究有着很重要的意义。迄今为止,已有153条经过生物实验验证的植物抗逆基因应用于转基因、分子育种等方面的研究。由于植物抗逆基因相关的生物实验验证需要花费大量的时间物力乃至人力,因此基于机器学习的植物抗逆基因识别有着重要的意义。本文以植物抗逆基因表达对应的蛋白质序列为正例数据来源,根据其对应的蛋白质家族ID从pfam数据库获取负例样本。经过初步的数据清洗获得不平衡的正负例样本。通过分层抽样的方法来解决正负例样本严重不平衡的问题。提取了氨基酸组成、分布、转化的统计量(188D),Kmer,auto-cross covariance,parallel correlation pseudo amino acid composition(Pse-AAC)等一系列特征。对特征进行组合,使用Max-Relevant-Max-Distance(MRMD)方法对特征进行降维。对提取降维后的特征使用朴素贝叶斯,随机森林、支持向量机分类器对数据集进行训练,使用十折交叉验证获...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 植物抗逆基因的类别
1.2.2 植物抗逆基因的运作机理
1.2.3 植物抗逆基因识别方法
1.3 主要研究内容和工作
1.4 本文结构
第2章 植物抗逆基因数据获取以及预处理
2.1 常用蛋白质数据库介绍
2.2 正例数据的获取
2.3 负例数据的构建
2.4 不平衡样本的处理
2.5 本章小结
第3章 植物抗逆基因的特征提取与降维
3.1 氨基酸序列的特征提取方法
3.1.1 188D特征提取方法
3.1.2 Kmer(amino acid composition)
3.1.3 ACC(auto-cross covariance)
3.1.4 PseAAC(Pseudo amino acid Composition)
3.2 特征提取工具PSE-IN-ONE
3.3 特征组合与降维
3.3.1 数据降维的常用方法
3.3.2 MRMD(Max Relevant Max Distance)
3.4 实验结果与分析
3.5 本章小结
第4章 机器学习分类模型的选取与构建
4.1 随机森林模型
4.1.1 随机森林的算法和原理
4.1.2 随机森林的优缺点以及应用场景
4.2 朴素贝叶斯模型
4.2.1 朴素贝叶斯的理论基础
4.2.2 朴素贝叶斯的优缺点以及应用场景
4.3 支持向量机模型
4.3.1 支持向量机的算法和基本原理
4.3.2 支持向量机的优缺点以及应用场景
4.4 实验性能评价标准
4.5 实验结果和分析
4.6 WEB预测系统构建
4.7 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]植物抗病分子机制研究进展[J]. 王忠华,贾育林,夏英武. 植物学通报. 2004(05)
硕士论文
[1]植物抗性基因的数据组织与信息挖掘[D]. 车凯.哈尔滨工业大学 2012
[2]基于随机森林的植物抗性基因识别方法研究[D]. 郭颖婕.哈尔滨工业大学 2011
本文编号:3172487
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 植物抗逆基因的类别
1.2.2 植物抗逆基因的运作机理
1.2.3 植物抗逆基因识别方法
1.3 主要研究内容和工作
1.4 本文结构
第2章 植物抗逆基因数据获取以及预处理
2.1 常用蛋白质数据库介绍
2.2 正例数据的获取
2.3 负例数据的构建
2.4 不平衡样本的处理
2.5 本章小结
第3章 植物抗逆基因的特征提取与降维
3.1 氨基酸序列的特征提取方法
3.1.1 188D特征提取方法
3.1.2 Kmer(amino acid composition)
3.1.3 ACC(auto-cross covariance)
3.1.4 PseAAC(Pseudo amino acid Composition)
3.2 特征提取工具PSE-IN-ONE
3.3 特征组合与降维
3.3.1 数据降维的常用方法
3.3.2 MRMD(Max Relevant Max Distance)
3.4 实验结果与分析
3.5 本章小结
第4章 机器学习分类模型的选取与构建
4.1 随机森林模型
4.1.1 随机森林的算法和原理
4.1.2 随机森林的优缺点以及应用场景
4.2 朴素贝叶斯模型
4.2.1 朴素贝叶斯的理论基础
4.2.2 朴素贝叶斯的优缺点以及应用场景
4.3 支持向量机模型
4.3.1 支持向量机的算法和基本原理
4.3.2 支持向量机的优缺点以及应用场景
4.4 实验性能评价标准
4.5 实验结果和分析
4.6 WEB预测系统构建
4.7 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]植物抗病分子机制研究进展[J]. 王忠华,贾育林,夏英武. 植物学通报. 2004(05)
硕士论文
[1]植物抗性基因的数据组织与信息挖掘[D]. 车凯.哈尔滨工业大学 2012
[2]基于随机森林的植物抗性基因识别方法研究[D]. 郭颖婕.哈尔滨工业大学 2011
本文编号:3172487
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3172487.html