基于序列信息的人类N-7甲基鸟嘌呤修饰位点的预测
发布时间:2020-12-18 17:35
N-7甲基鸟嘌呤(m7G)修饰是转录后调控中最常见的碱基修饰之一,广泛分布于tRNA、rRNA以及真核生物mRNA的5′帽子区。对维持RNA的加工代谢、稳定、出核以及蛋白质翻译具有重要作用。识别N-7甲基鸟嘌呤可以为了解其功能提供重要线索,现在大多数识别方法主要依靠的是生化实验,然而传统生化实验来识别修饰位点的缺点越来越明显。随着测序技术的飞速发展,含有N-7甲基鸟嘌呤修饰位点的RNA数据的积累为我们系统地研究N-7甲基鸟嘌呤修饰位点提供了机会。计算机技术可以快速、准确和廉价地识别RNA中的修饰位点,因此构建N-7甲基鸟嘌呤修饰位点预测模型非常重要。目前在国内外针对N-7甲基鸟嘌呤修饰位点的预测模型相对较少,这促使我们开发一套基于生物信息学的N-7甲基鸟嘌呤修饰位点预测模型。本文基于N-7甲基鸟嘌呤修饰位点序列信息构建预测模型。我们首先从含有N-7甲基鸟嘌呤修饰位点附近的RNA序列中提取四种特征包括核苷酸性质频率、k联体、伪核苷酸组分、单核苷酸二进制编码,基于四种特征利用支持向量机构建N-7甲基鸟嘌呤修饰位点预测模型,然后通过参数寻优、特征融合以及特征筛选等方法提...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
m7G-seq识别N-7甲基鸟嘌呤的实验方法
第二章数据准备和特征提取方法7相似度分析使用。为了应对新一代测序技术产生的快速增长的测序数据量,我们使用了一种新的并行化的CD-HIT软件[19],该程序使用了一种新的并行化策略和其他一些技术来加快数据处理速度,以便对数据集进行有效的聚类,其工作原理如下:这种新的并行化技术的基本思想是基于两个表来运作的,首先需要使用T个线程,其中T-1个线程用来运行一个表(不可变的检查表)的多个过程,剩下的一个线程使用另一个表(可变的聚类表)并行地运行多个过程。由于CD-HIT的顺序特性,需要对输入序列进行适当的分组并切换word表,来保证并行化的正确性,在运行多个过程中时集群过程可能会在检查过程之前或之后完成,因此需要使用适当的调度来确保所有线程在绝大多数时间都处于活动状态。在每一轮结束时,聚类表将成为下一轮的检查表,而这一轮的检查表将被清空,成为下一轮的聚类表,并行化的CD-HIT程序是通过两轮计算来实现的。这种技术下的CD-HIT软件可以对数据进行更高效的预处理,更节约时间。下面需要介绍CD-HIT软件使用过程中的步骤和注意事项[20]。首先需要下载CD-HIT软件(本文下载的是Windows版本),安装界面如图2-1所示:图2-1CD-HIT安装界面在CD-HIT中我们使用cd-hit-est.exe文件,该文件用于比较两个数据集中的相似性序列。cd-hit-est.exe文件的输入为两个fasta格式的文件,输出为数据集2中和数据集1之间不相似的核苷酸序列文件和数据集2和数据集1之间相似的核苷酸序列文件。由于本文中我们需要处理的数据集为RNA序列的正负样本,因此我们将需要处理的正负样本数据放在同一文件夹下,然后进入系统并打开软件窗口。cd-hit-est界面如图2-2所示:
电子科技大学硕士学位论文8图2-2cd-hit-est界面cd-hit-est.exe中包含了很多参数,其中-i代表输入文件,要求是fasta格式;-o表示输出文件路径和名字;-n表示序列比对用到的短字长度,本文使用值为8,当-n=4时,代表的阈值是0.75~0.80,当-n=5时,代表的阈值是0.80~0.85,当-n=6时,代表的阈值是0.85~0.88,当-n=7时,代表阈值是0.88~0.90,-n=8、9、10时,代表的阈值是0.90~1.0;-c表示删除DNA、RNA序列相似性的阈值,该值是0.8时代表去除整体相似程度在80%以上的冗余序列;-d表示使用fasta标题中第一个空格前的字段作为序列名字。若cd-hit-est.exe文件和输入文件的路径名不相符,需要在输入文件名和输出文件名前面加上完整的路径名。本文中,将参数-c设置为0.80,也就是删除RNA序列相似性80%以上的序列,经过CD-HIT软件处理后,我们最终得到了741条RNA序列的正负样本数据,数据处理前后RNA序列数据集数量如表2-1所示:
【参考文献】:
期刊论文
[1]基于矩阵策略的不完备混合型数据增量式特征选择算法[J]. 沈玉峰,林徐. 西昌学院学报(自然科学版). 2020(01)
[2]基于Relief-F特征加权的模糊支持向量机的分类算法[J]. 左喻灏,贾连印,游进国,张丹威. 化工自动化及仪表. 2019(10)
[3]基于MATLAB软件的LIBSVM的应用实例研究[J]. 宁必锋. 福建茶叶. 2019(08)
[4]基于计算模型的RNA甲基化修饰位点预测研究综述[J]. 江诗雨,邱望仁. 景德镇学院学报. 2017(03)
[5]基于改进的LogitBoost算法的垃圾网页检测研究[J]. 周爽,王洪钰,李晓,孙磊,庞建萍. 科技视界. 2015(27)
[6]大数据下的机器学习算法综述[J]. 何清,李宁,罗文娟,史忠植. 模式识别与人工智能. 2014(04)
[7]随机森林与支持向量机分类性能比较[J]. 黄衍,查伟雄. 软件. 2012(06)
[8]基于RBF核函数的支持向量机参数选择[J]. 林升梁,刘志. 浙江工业大学学报. 2007(02)
[9]基于网格搜索的支持向量机核函数参数的确定[J]. 王兴玲,李占斌. 中国海洋大学学报(自然科学版). 2005(05)
[10]支持向量机及其应用研究综述[J]. 祁亨年. 计算机工程. 2004(10)
硕士论文
[1]基于二分类SVM的多分类方法比较研究[D]. 焦春鹏.西安电子科技大学 2011
[2]朴素贝叶斯分类器的研究与应用[D]. 王国才.重庆交通大学 2010
本文编号:2924338
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
m7G-seq识别N-7甲基鸟嘌呤的实验方法
第二章数据准备和特征提取方法7相似度分析使用。为了应对新一代测序技术产生的快速增长的测序数据量,我们使用了一种新的并行化的CD-HIT软件[19],该程序使用了一种新的并行化策略和其他一些技术来加快数据处理速度,以便对数据集进行有效的聚类,其工作原理如下:这种新的并行化技术的基本思想是基于两个表来运作的,首先需要使用T个线程,其中T-1个线程用来运行一个表(不可变的检查表)的多个过程,剩下的一个线程使用另一个表(可变的聚类表)并行地运行多个过程。由于CD-HIT的顺序特性,需要对输入序列进行适当的分组并切换word表,来保证并行化的正确性,在运行多个过程中时集群过程可能会在检查过程之前或之后完成,因此需要使用适当的调度来确保所有线程在绝大多数时间都处于活动状态。在每一轮结束时,聚类表将成为下一轮的检查表,而这一轮的检查表将被清空,成为下一轮的聚类表,并行化的CD-HIT程序是通过两轮计算来实现的。这种技术下的CD-HIT软件可以对数据进行更高效的预处理,更节约时间。下面需要介绍CD-HIT软件使用过程中的步骤和注意事项[20]。首先需要下载CD-HIT软件(本文下载的是Windows版本),安装界面如图2-1所示:图2-1CD-HIT安装界面在CD-HIT中我们使用cd-hit-est.exe文件,该文件用于比较两个数据集中的相似性序列。cd-hit-est.exe文件的输入为两个fasta格式的文件,输出为数据集2中和数据集1之间不相似的核苷酸序列文件和数据集2和数据集1之间相似的核苷酸序列文件。由于本文中我们需要处理的数据集为RNA序列的正负样本,因此我们将需要处理的正负样本数据放在同一文件夹下,然后进入系统并打开软件窗口。cd-hit-est界面如图2-2所示:
电子科技大学硕士学位论文8图2-2cd-hit-est界面cd-hit-est.exe中包含了很多参数,其中-i代表输入文件,要求是fasta格式;-o表示输出文件路径和名字;-n表示序列比对用到的短字长度,本文使用值为8,当-n=4时,代表的阈值是0.75~0.80,当-n=5时,代表的阈值是0.80~0.85,当-n=6时,代表的阈值是0.85~0.88,当-n=7时,代表阈值是0.88~0.90,-n=8、9、10时,代表的阈值是0.90~1.0;-c表示删除DNA、RNA序列相似性的阈值,该值是0.8时代表去除整体相似程度在80%以上的冗余序列;-d表示使用fasta标题中第一个空格前的字段作为序列名字。若cd-hit-est.exe文件和输入文件的路径名不相符,需要在输入文件名和输出文件名前面加上完整的路径名。本文中,将参数-c设置为0.80,也就是删除RNA序列相似性80%以上的序列,经过CD-HIT软件处理后,我们最终得到了741条RNA序列的正负样本数据,数据处理前后RNA序列数据集数量如表2-1所示:
【参考文献】:
期刊论文
[1]基于矩阵策略的不完备混合型数据增量式特征选择算法[J]. 沈玉峰,林徐. 西昌学院学报(自然科学版). 2020(01)
[2]基于Relief-F特征加权的模糊支持向量机的分类算法[J]. 左喻灏,贾连印,游进国,张丹威. 化工自动化及仪表. 2019(10)
[3]基于MATLAB软件的LIBSVM的应用实例研究[J]. 宁必锋. 福建茶叶. 2019(08)
[4]基于计算模型的RNA甲基化修饰位点预测研究综述[J]. 江诗雨,邱望仁. 景德镇学院学报. 2017(03)
[5]基于改进的LogitBoost算法的垃圾网页检测研究[J]. 周爽,王洪钰,李晓,孙磊,庞建萍. 科技视界. 2015(27)
[6]大数据下的机器学习算法综述[J]. 何清,李宁,罗文娟,史忠植. 模式识别与人工智能. 2014(04)
[7]随机森林与支持向量机分类性能比较[J]. 黄衍,查伟雄. 软件. 2012(06)
[8]基于RBF核函数的支持向量机参数选择[J]. 林升梁,刘志. 浙江工业大学学报. 2007(02)
[9]基于网格搜索的支持向量机核函数参数的确定[J]. 王兴玲,李占斌. 中国海洋大学学报(自然科学版). 2005(05)
[10]支持向量机及其应用研究综述[J]. 祁亨年. 计算机工程. 2004(10)
硕士论文
[1]基于二分类SVM的多分类方法比较研究[D]. 焦春鹏.西安电子科技大学 2011
[2]朴素贝叶斯分类器的研究与应用[D]. 王国才.重庆交通大学 2010
本文编号:2924338
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2924338.html