基于SVM集成学习的miRNA靶基因预测研究

发布时间:2020-09-24 14:46
   人们近年来发现一类对生命体具有重要调节功能的非编码内源性RNA分子-Micor RNAs(mi RNA)。mi RNA是一类大小长约20~25个核苷酸,其5'端带有磷酸基因、3'端带有羟基的非编码单链小RNA生物分子。它通过与靶基因m RNA 3’UTR(untranslated regions)区域碱基互补匹配和相互作用,在后转录时期发挥重要的基因调控功能。mi RNA广泛存在于真核生物细胞内,通过对mi RNA靶基因的表达调控,在细胞生长、发育、分化、代谢等生命活动中发挥着重要作用。mi RNA靶基因预测是研究和分析mi RNA分子生物学功能的重要组成部分,也是深入研究mi RNA作用机制的关键。基于支持向量机(Support Vector Machines,SVM)理论,针对mi RNA靶基因样本数据不平衡,导致阳性样本预测准确率低和整体分类效果不佳的问题,提出基于欠采样技术的集成学习算法,以提高mi RNA靶基因预测模型的分类识别准确率和泛化能力。论文主要研究三个方面的问题:数据集特征选择方法;与欠采样相结合的集成学习模型建立;mi RNA靶基因预测模型惩罚参数和核函数参数优化。针对mi RNA靶基因绑定结构的特征,在识别范围量化标准基础上,提出了基于分类间隔的特征选择算法SVM-FSCI。构建了mi RNA靶基因预测模型的性能,按照每个特征对支持向量机分类间隔的贡献,定义了特征有效率,对原始提取的特征向量集以特征有效率为标准进行排序,删除冗余和低效特征,最终得到优化后的特征向量子集。针对mi RNA靶基因样本数据集不平衡,导致阳性样本预测准确率低和整体分类效果不佳的问题,提出了基于欠采样技术的集成学习算法SVM-IUSW。算法采用SVM作为基本学习算法,以Ada Boost为集成框架,迭代过程中嵌入基于聚类的欠采样,以降低阴、阳样本数据分布不平衡程度,同时在自适应样本权重调整过程中,以样本权重平滑机制剔除阴性样本中的异常点,最终以带权重的投票机制,组合多个弱分类器预测结果,构成mi RNA靶基因预测的集成分类器。(3)针对不同惩罚参数的支持向量机,在分类不平衡靶基因数据集时效果不同的问题,提出了基于数据集分布平均密度求取惩罚参数的SVM-DODN算法;在此基础上采用自适应混合遗传算法,对mi RNA靶基因SVM模型核函数和惩罚参数进行优化,共同弥补不平衡样本空间造成的样本偏斜问题。提出了基于分类间隔的特征选择算法、基于欠采样技术的集成学习算法和自适应混合遗传算法,解决了mi RNA靶基因预测过程中出现的数据集特征提取及其特征选择、靶基因预测模型的构建和靶基因预测模型参数优化三个方面出现的问题。仿真实验表明,与其他算法相比,论文所提出的基于SVM的集成学习预测mi RNA靶基因算法,在解决mi RNA靶基因样本不平衡问题时具有很好的学习和泛化能力。
【学位单位】:燕山大学
【学位级别】:博士
【学位年份】:2015
【中图分类】:Q522;Q811.4

【参考文献】

相关期刊论文 前3条

1 ;Progress in miRNA target prediction and identification[J];Science in China(Series C:Life Sciences);2009年12期

2 张小云,刘允才;高斯核支撑向量机的性能分析[J];计算机工程;2003年08期

3 郑恩辉;李平;宋执环;;不平衡数据知识挖掘:类分布对支持向量机分类的影响[J];信息与控制;2005年06期

相关博士学位论文 前1条

1 王朝勇;支持向量机若干算法研究及应用[D];吉林大学;2008年

相关硕士学位论文 前2条

1 罗迪;基于支持向量机的miRNA预测及其靶基因预测[D];吉林大学;2009年

2 胡俊;支持向量机参数优化问题的研究[D];哈尔滨工业大学;2009年



本文编号:2825862

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/2825862.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6a37b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com