当前位置:主页 > 科技论文 > 自动化论文 >

基于序列特征的生物序列分析和RNA结合蛋白识别

发布时间:2021-03-25 01:42
  近年来,伴随着像基因检测等技术的快速发展,生物序列数据连年剧增,大幅度增长的序列数据促进了生物学许多领域的快速发展。然而,在快速发展的同时仍然存在许多问题等待科研工作者们深入地探索和研究,例如基于残基层面的序列分析,RNA结合蛋白识别,蛋白质无序区域预测识别等。现阶段面对数量规模庞大的序列数据,通过传统的生物实验要消耗大量的社会资源且无法得到很好的效果。为此,寻找或设计一种新的生物序列数据分析方法迫在眉睫,挖掘数据中的内在规律来帮助研究者解决相关问题被视为一条有效的探索途径。如今,人工智能相关理论趋于完善,大数据生态架构日渐成熟,更多的研究者在处理生物序列相关的研究问题时会选用机器学习或数据挖掘等技术来对数据进行潜在的关联分析。通过传统的生物实验识别RNA结合蛋白的方法,因其精确性不高,耗费资源等局限性已无法满足研究的需要。本文通过研究RNA结合蛋白的序列特征,使用特征提取、向量构建等方法挖掘序列的潜在信息,结合机器学习算法构建分类器对RNA结合蛋白序列进行预测识别。本文主要内容包括:本文基于序列特征提出了一个能够为残基层面和序列层面分析任务自动生成预测算子的工具Bio Seq-Ana... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于序列特征的生物序列分析和RNA结合蛋白识别


本课题各章研究内容关系图

生物序列,步骤,残基,方法


哈尔滨工业大学工程硕士学位论文-10-的三个主要步骤包括特征提取,分类器构建和性能评估(具体可参见图2-1)。图2-1生物序列分析方法主要步骤2.3基于残基层面和序列层面的特征介绍基于残基层面的特征主要是为了探索残基的性质以及在一个定长窗口内残基之间的关系,而基于序列层面的特征则侧重于根据整条序列来提取全局信息。对于基于残基层面的分析任务,为了捕获特定残基的属性特征,本文使用滑动窗口策略和片段分割策略,在用户定义的一个固定长度的窗口区域内提取特征。对于序列层面分析,通过序列信息将生物序列转换成特征向量。本文提出的序列分析系统BioSeq-Analysis2.0包含了26种残基层面的特征提取方法,其中适用于DNA的有7种[11,28-31],适用于RNA的有6种[11,28,29,32],适用于蛋白质的有13种[11,14,28,33-42],以及34种序列层面的新特征,包括适用于DNA的9种新特征[10,20,43],适用于RNA的7种新特征[20,43][10],适用于蛋白质的18种新特征[44-62]。特别地,本文中的序列分析系统可以提供残基层面完整的分析流程。在DNA-Analysis2.0中,有7种不同的基于残基水平的特征可以用于生成多种分类器,这些特征可以进一步划分为三类(详细类别见表2-1)。第一类是有关残基组成成分的特征,共有四种。在这四个特征中,第一个是基于独热编码的特征,首先将残基按特定顺序排列,然后用四个二进制位表示第i个残基类别,其中第i位设置为1,剩下所有其他位设置为0;第一类中剩下的三个特征是位置特异性-2,位置特异性-和位置特异性-4,这些方法反映了基于独热编码的DNA序列中任何两个核苷酸之间的不同位置特异性,位置特异性表

序列,算法,序列,生物序列


哈尔滨工业大学工程硕士学位论文-15-2.4基于监督学习构造多种分类器基于残基层面和基于序列层面的大多数生物序列分析任务都可以作为分类任务处理。特别地,许多常见的分类算法已广泛应用于生物序列分析。对于基于残基层面的分析任务,本文中提供了两种分类算法:支持向量机和随机森林以及一种序列标记算法条件随机常分类算法和序列标注算法都是机器学习中常用的算法,他们的关系和区别如下图2-2所示:图2-2序列标注算法与分类算法的关系在BioSeq-Analysis2.0中,支持向量机算法的实现依赖于具有高斯核函数的LIBSVM包[67]。在BioSeq-Analysis2.0中,用户可以根据需要自己设置支持向量机算法的参数c和g,或者可以根据具体的性能指标如准确性(Acc),马修斯相关系数(MCC)或ROC[68]下面积曲线(AUC)对这些参数进行自动优化。随机森林是一种灵活且广泛使用的监督机器学习算法,在BioSeq-Analysis2.0中使用Python中被广泛应用的Scikit-learn软件包[69]作为随机森林算法的实现,用户可以根据自己的需要选择决策树的数量也可以对此参数进行自动优化。此外,为了捕获序列中残基的全局和长范围内的顺序信息,本文提供一种序列标记算法(条件随机场)来用于基于残基层面的分析任务。与支持向量机和随机森林等分类算法相比,条件随机场作为一种序列标记算法,能够以全局方式对生物序列进行建模,考虑序列中所有残基间的依赖性信息,如图2-2中所示。DNA,RNA或蛋白质序列作为观察序列处理,序列中的每个残基标记为0或1。给定生物序列X及其标记Y,可以用X训练条件概率分类器P(Y|X)对于每个观察序列x,其标签序列y的条件概率可以通过公式(2-4)


本文编号:3098788

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3098788.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8e516***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com