基于机器学习的长链非编码RNA识别研究
发布时间:2023-04-08 19:50
随着高通量测序技术的快速发展,海量的基因测序数据被相关基因数据库收录,如何对这些海量的基因序列数据进行挖掘和分析是当前生物信息领域面临的重要问题。长链非编码RNA(Lnc RNA)作为一类重要的RNA分子,在人类各项生命活动中起着重要作用,如何准确识别Lnc RNA是当前生物信息学研究的热门问题。癌症是一类严重威胁当代人类健康的疾病,而Lnc RNA广泛参与癌症的发生和发展,识别癌症相关Lnc RNA,对于研究基因与癌症的关联关系以及诊断治疗癌症的有效生物标志物和靶标具有重要意义。本文基于人工智能领域先进的机器学习和深度学习算法,针对一般Lnc RNA识别以及癌症相关Lnc RNA识别展开相关研究。本文的研究工作和创新内容包括以下三个部分:(1)提出了AdaBoost-DT集成分类模型识别Lnc RNA。该方法基于AdaBoost集成学习结合决策树算法,通过整合转录本序列长度、GC含量及k-mer子序列频率这三类特征,构建的AdaBoost-DT集成分类模型识别Lnc RNA,在测试集上达到87.28%的识别准确率,高于其他采用传统机器学习算法的识别方法,具有较好的识别准确率。(2)基...
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文组织结构
第二章 相关理论与技术介绍
2.1 LncRNA相关数据库
2.2 LncRNA识别方法
2.3 癌症相关LncRNA识别方法
2.4 本章小结
第三章 构建LncRNA识别集成模型
3.1 基于集成学习的LncRNA识别方法设计
3.2 数据选取及预处理
3.2.1 数据来源
3.2.2 特征提取
3.2.3 特征选择
3.3 AdaBoost-DT集成分类模型
3.3.1 决策树
3.3.2 AdaBoost-DT模型训练
3.4 实验结果及分析
3.4.1 模型性能评价指标
3.4.2 k-mer特征选择结果
3.4.3 不同特征组合下性能对比
3.4.4 与其他LncRNA识别方法对比
3.5 本章小结
第四章 构建LncRNA识别深度模型
4.1 基于深度学习的LncRNA识别方法设计
4.2 数据集预处理操作
4.3 CNN模型搭建
4.4 实验结果及分析
4.5 本章小结
第五章 识别癌症相关LncRNA
5.1 癌症相关LncRNA识别方法设计
5.2 数据介绍及处理
5.2.1 数据来源
5.2.2 特征介绍
5.3 数据平衡处理
5.4 实验结果及分析
5.4.1 特征选择结果
5.4.2 交叉验证结果
5.4.3 测试集实验结果:
5.5 本章小结
第六章 总结与展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
本文编号:3786369
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文组织结构
第二章 相关理论与技术介绍
2.1 LncRNA相关数据库
2.2 LncRNA识别方法
2.3 癌症相关LncRNA识别方法
2.4 本章小结
第三章 构建LncRNA识别集成模型
3.1 基于集成学习的LncRNA识别方法设计
3.2 数据选取及预处理
3.2.1 数据来源
3.2.2 特征提取
3.2.3 特征选择
3.3 AdaBoost-DT集成分类模型
3.3.1 决策树
3.3.2 AdaBoost-DT模型训练
3.4 实验结果及分析
3.4.1 模型性能评价指标
3.4.2 k-mer特征选择结果
3.4.3 不同特征组合下性能对比
3.4.4 与其他LncRNA识别方法对比
3.5 本章小结
第四章 构建LncRNA识别深度模型
4.1 基于深度学习的LncRNA识别方法设计
4.2 数据集预处理操作
4.3 CNN模型搭建
4.4 实验结果及分析
4.5 本章小结
第五章 识别癌症相关LncRNA
5.1 癌症相关LncRNA识别方法设计
5.2 数据介绍及处理
5.2.1 数据来源
5.2.2 特征介绍
5.3 数据平衡处理
5.4 实验结果及分析
5.4.1 特征选择结果
5.4.2 交叉验证结果
5.4.3 测试集实验结果:
5.5 本章小结
第六章 总结与展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
本文编号:3786369
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3786369.html