基于混合特征选择的水稻抗病基因预测研究
发布时间:2021-10-23 07:51
水稻作为我国的重要粮食作物之一,各类病虫害的侵袭已严重影响了其品质和产量,水稻的抗病性研究意义重大。随着基因芯片技术的飞速发展,利用机器学习方法分析水稻基因表达数据,并从中挖掘水稻抗病基因,成为水稻抗病性研究的新手段。与病虫害相关的水稻基因芯片数据多具样本少、维度高、噪声大、冗余度高等特点,要做到抗病基因的精确预测难度较大。本文针对水稻基因表达数据特点,围绕特征选择模型的构建、水稻抗病基因的预测与抗病基因的功能分析展开了研究,主要结果如下:(1)构建了以mRMR算法和改进的Relief算法作为特征预选过滤器,以SVM分类精度作为评估函数的mRMR-Relief-SVM混合特征选择模型。首先,利用mRMR最大相关最小冗余特征选择方法对基因进行重要性排序,基于支持向量机SVM分类器,序贯引入排序基因并依训练集交叉测试精度去冗余,得特征基因子集A;同时,利用改进的Relief特征选择方法得到指定权重以上的排序基因,基于SVM序贯引入排序基因并依训练集交叉测试精度去冗余,得特征基因子集B;最后,合并两组特征基因子集A和B得到最终的特征基因子集C。(2)基于mRMR-Relief-SVM模型预测...
【文章来源】:湖南农业大学湖南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
基因芯片技术流程
图 2-2 GEO 数据构成Figure 2-2 GEO data of composition台(Platform)描述了在相关试验中被测定的内容,每个平台都PL7252,通过平台的信息介绍,可以了解到测定目标的物理试寡核苷酸探针组,或者是 cDNA、SAGE 标签等,当用户需要查标记时,可以通过平台信息查找得到。Sample)是待测试的物种个体,它以平台为基础,通过使用相关中,在该平台下测定的生物信息描述,每个样本具有唯一,样本信息除了描述待测物种的平台测定信息之外,还有关于该程中的操作环境、处理方式等介绍,是用户了解研究物种生物信Series)是把某次实验的所有相关样本构成一个集合,通过系列样本之间的关联信息,还可能会有测试者提交的一些重点描述怎样关联,挑选样本的步骤,是怎样获取到样本信息的。系列用户对某一物种进行相关性分析或者是聚类的良好数据源,每
图 2-3 Relief 系列算法原理Figure 2-3 Principle of Relief法相关(mRMR)[21]-[22],该特征选择方法据最大统计依赖性准则来选择特征。方法与传统特征选择方法的最大区别在于之上,还考虑了候选特征之间的相关性,并特征之间的冗余度。最大相关的定义为公式 xSiiIxcSD ScD(;)1max (,), xxSijijIxxSRSR,2(;)1min (),特征集合; S 为特征空间维数,c 为目标类别信息。 (,)I xx为特征x 与特征x 之间的
【参考文献】:
期刊论文
[1]水稻种植技术要点与病虫害防治探究[J]. 郭建民,尚延刚. 农业与技术. 2016(23)
[2]植物病毒侵染诱导寄主内质网应激反应[J]. 李方方,申莉莉. 中国烟草科学. 2016(06)
[3]基于磷虾群算法的SVR参数选取方法及其应用[J]. 杜长海. 自动化技术与应用. 2016(05)
[4]基于Relieft特征加权的C均值聚类算法的研究和改进[J]. 王江涛,石红岩,练煜. 合肥学院学报(自然科学版). 2015(02)
[5]水稻锌指蛋白基因OsZFP1的功能分析[J]. 李贺,韩艺娟,林艺娟,刘丽华,张承康,张连虎,王宗华,鲁国东. 中国水稻科学. 2015(02)
[6]植物DNA错配修复缺陷及其对诱变育种的意义[J]. 崔海瑞,宋悦,袁兵,赵海军,富昊伟,舒庆尧. 核农学报. 2014(09)
[7]基于KNN算法和10折交叉验证法的支持向量选取算法[J]. 牛晓太. 华中师范大学学报(自然科学版). 2014(03)
[8]基于改进朴素贝叶斯算法的入侵检测系统[J]. 王辉,陈泓予,刘淑芬. 计算机科学. 2014(04)
[9]黑龙江省水稻品种抗病基因同源序列多态性分析[J]. 邹德堂,任月坤,王敬国,刘化龙. 东北农业大学学报. 2014(03)
[10]水稻稻瘟病抗性基因的定位、克隆及育种应用研究进展[J]. 何秀英,王玲,吴伟怀,陈钊明,林菲,程永盛,刘维,陈粤汉,廖耀平. 中国农学通报. 2014(06)
博士论文
[1]水稻组蛋白甲基转移酶和去乙酰化酶基因的功能研究[D]. 秦付军.华中农业大学 2010
硕士论文
[1]基于机器学习方法的DNA位点预测研究[D]. 邹国英.景德镇陶瓷大学 2016
[2]SVM文本分类器在公安信息系统中的应用研究[D]. 李沺淼.石家庄铁道大学 2016
[3]水稻和拟南芥中碱性/螺旋—环—螺旋转录因子家族基因组水平分析[D]. 李晓星.厦门大学 2006
本文编号:3452787
【文章来源】:湖南农业大学湖南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
基因芯片技术流程
图 2-2 GEO 数据构成Figure 2-2 GEO data of composition台(Platform)描述了在相关试验中被测定的内容,每个平台都PL7252,通过平台的信息介绍,可以了解到测定目标的物理试寡核苷酸探针组,或者是 cDNA、SAGE 标签等,当用户需要查标记时,可以通过平台信息查找得到。Sample)是待测试的物种个体,它以平台为基础,通过使用相关中,在该平台下测定的生物信息描述,每个样本具有唯一,样本信息除了描述待测物种的平台测定信息之外,还有关于该程中的操作环境、处理方式等介绍,是用户了解研究物种生物信Series)是把某次实验的所有相关样本构成一个集合,通过系列样本之间的关联信息,还可能会有测试者提交的一些重点描述怎样关联,挑选样本的步骤,是怎样获取到样本信息的。系列用户对某一物种进行相关性分析或者是聚类的良好数据源,每
图 2-3 Relief 系列算法原理Figure 2-3 Principle of Relief法相关(mRMR)[21]-[22],该特征选择方法据最大统计依赖性准则来选择特征。方法与传统特征选择方法的最大区别在于之上,还考虑了候选特征之间的相关性,并特征之间的冗余度。最大相关的定义为公式 xSiiIxcSD ScD(;)1max (,), xxSijijIxxSRSR,2(;)1min (),特征集合; S 为特征空间维数,c 为目标类别信息。 (,)I xx为特征x 与特征x 之间的
【参考文献】:
期刊论文
[1]水稻种植技术要点与病虫害防治探究[J]. 郭建民,尚延刚. 农业与技术. 2016(23)
[2]植物病毒侵染诱导寄主内质网应激反应[J]. 李方方,申莉莉. 中国烟草科学. 2016(06)
[3]基于磷虾群算法的SVR参数选取方法及其应用[J]. 杜长海. 自动化技术与应用. 2016(05)
[4]基于Relieft特征加权的C均值聚类算法的研究和改进[J]. 王江涛,石红岩,练煜. 合肥学院学报(自然科学版). 2015(02)
[5]水稻锌指蛋白基因OsZFP1的功能分析[J]. 李贺,韩艺娟,林艺娟,刘丽华,张承康,张连虎,王宗华,鲁国东. 中国水稻科学. 2015(02)
[6]植物DNA错配修复缺陷及其对诱变育种的意义[J]. 崔海瑞,宋悦,袁兵,赵海军,富昊伟,舒庆尧. 核农学报. 2014(09)
[7]基于KNN算法和10折交叉验证法的支持向量选取算法[J]. 牛晓太. 华中师范大学学报(自然科学版). 2014(03)
[8]基于改进朴素贝叶斯算法的入侵检测系统[J]. 王辉,陈泓予,刘淑芬. 计算机科学. 2014(04)
[9]黑龙江省水稻品种抗病基因同源序列多态性分析[J]. 邹德堂,任月坤,王敬国,刘化龙. 东北农业大学学报. 2014(03)
[10]水稻稻瘟病抗性基因的定位、克隆及育种应用研究进展[J]. 何秀英,王玲,吴伟怀,陈钊明,林菲,程永盛,刘维,陈粤汉,廖耀平. 中国农学通报. 2014(06)
博士论文
[1]水稻组蛋白甲基转移酶和去乙酰化酶基因的功能研究[D]. 秦付军.华中农业大学 2010
硕士论文
[1]基于机器学习方法的DNA位点预测研究[D]. 邹国英.景德镇陶瓷大学 2016
[2]SVM文本分类器在公安信息系统中的应用研究[D]. 李沺淼.石家庄铁道大学 2016
[3]水稻和拟南芥中碱性/螺旋—环—螺旋转录因子家族基因组水平分析[D]. 李晓星.厦门大学 2006
本文编号:3452787
本文链接:https://www.wllwen.com/nykjlw/dzwbhlw/3452787.html
最近更新
教材专著