基于智能计算的增强子分类预测研究
发布时间:2022-11-06 18:28
随着分子生物学与统计学的发展,越来越多的新技术被用于基因组序列信息的研究中,其中针对增强子的识别研究技术也有了很大的改进。但是大多数的增强子研究还是通过实验、基因测序方法实现,存在很大的局限性。目前为止,大部分的研究都集中于从其他的调控元件中预测增强子,只有少部分的研究着重于增强子及其强弱类型的预测研究。为促进增强子研究工作并提高研究效率,本文主要基于智能计算,采用多种特征提取方法研究探讨增强子及其强弱类型的预测问题,具体的工作包括以下几个方面:1)概述了生物学中增强子的相关概念,包括强增强子和弱增强子的概念,以及增强子分类预测的研究背景及研究意义,简述了增强子的相关研究方法,并对本文的研究工作做了整体安排。2)概述了几种常用的序列特征提取方法,分析了相关的机器学习算法原理,以及这些算法在DNA序列等研究中的使用情况,学习算法包括支持向量机(SVM)、随机森林(RF)等,此外还介绍了一些分类器的性能评价指标。3)实现了增强子及其强弱类型的分类预测研究。根据转录激活能力和表达能力,将增强子主要分成了两类:强增强子和弱增强子。通常情况下强增强子控制转录或蛋白代谢的相关功能,进而促进转录和增...
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 增强子及其强弱类型
1.1.1 增强子
1.1.2 强增强子和弱增强子
1.2 增强子预测分类研究背景及研究意义
1.2.1 增强子预测分类研究背景
1.2.2 增强子预测分类研究意义
1.3 论文的研究内容及结构划分
2 常用的基因组序列特征提取方法
2.1 核苷酸成分法
2.1.1 单核苷酸组成成份法
2.1.2 二联核苷酸组成成份法
2.1.3 三联核苷酸组成成份法
2.2 伪K联核苷酸成分法
2.2.1 基于核苷酸结构属性的伪K联核苷酸成分法
2.2.2 基于核酸蛋白质理化属性的伪K联核苷酸成分法
2.2.3 基于多窗口的伪K联伪核苷酸成分法
2.3 基于核苷酸理化性质及密度分布的融合特征法
2.3.1 核苷酸的物理化学属性
2.3.2 核苷酸的密度分布
2.4 基于三联核苷酸理化属性的移动平均法
2.5 本章小结
3 常用的机器学习分类算法及评价
3.1 常用的机器学习分类算法
3.1.1 支持向量机
3.1.2 随机森林
3.1.3 K-近邻
3.1.4 人工神经网络
3.2 常用的检验方法与评价指标
3.2.1 分类算法的检验方法
3.2.2 分类算法的评价指标
3.3 本章小结
4 增强子及其强弱类别的预测研究
4.1 基准数据集
4.1.1 单核苷酸频率统计分析
4.1.2 二联核苷酸频率统计分析
4.1.3 三联核苷酸频率统计分析
4.2 预测增强子及其强弱类别方案一
4.2.1 基于核苷酸理化属性的多种特征融合
4.2.2 分类模型的构建结果与分析
4.3 预测增强子及其强弱类别方案二
4.3.1 基于SAAC的 DNA核苷酸理化性质及密度分布的特征融合
4.3.2 基于支持向量机构建两层分类模型
4.3.3 预测结果与分析
4.3.4 ROC曲线图
4.4 与现存方法比较
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读硕士学位期间参加的项目和所发表的论文
本文编号:3704002
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 增强子及其强弱类型
1.1.1 增强子
1.1.2 强增强子和弱增强子
1.2 增强子预测分类研究背景及研究意义
1.2.1 增强子预测分类研究背景
1.2.2 增强子预测分类研究意义
1.3 论文的研究内容及结构划分
2 常用的基因组序列特征提取方法
2.1 核苷酸成分法
2.1.1 单核苷酸组成成份法
2.1.2 二联核苷酸组成成份法
2.1.3 三联核苷酸组成成份法
2.2 伪K联核苷酸成分法
2.2.1 基于核苷酸结构属性的伪K联核苷酸成分法
2.2.2 基于核酸蛋白质理化属性的伪K联核苷酸成分法
2.2.3 基于多窗口的伪K联伪核苷酸成分法
2.3 基于核苷酸理化性质及密度分布的融合特征法
2.3.1 核苷酸的物理化学属性
2.3.2 核苷酸的密度分布
2.4 基于三联核苷酸理化属性的移动平均法
2.5 本章小结
3 常用的机器学习分类算法及评价
3.1 常用的机器学习分类算法
3.1.1 支持向量机
3.1.2 随机森林
3.1.3 K-近邻
3.1.4 人工神经网络
3.2 常用的检验方法与评价指标
3.2.1 分类算法的检验方法
3.2.2 分类算法的评价指标
3.3 本章小结
4 增强子及其强弱类别的预测研究
4.1 基准数据集
4.1.1 单核苷酸频率统计分析
4.1.2 二联核苷酸频率统计分析
4.1.3 三联核苷酸频率统计分析
4.2 预测增强子及其强弱类别方案一
4.2.1 基于核苷酸理化属性的多种特征融合
4.2.2 分类模型的构建结果与分析
4.3 预测增强子及其强弱类别方案二
4.3.1 基于SAAC的 DNA核苷酸理化性质及密度分布的特征融合
4.3.2 基于支持向量机构建两层分类模型
4.3.3 预测结果与分析
4.3.4 ROC曲线图
4.4 与现存方法比较
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读硕士学位期间参加的项目和所发表的论文
本文编号:3704002
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3704002.html