基于广义伪氨基酸组成与图形表示的蛋白质序列比较与DNA结合蛋白识别
发布时间:2020-12-18 13:43
随着生物学技术的发展以及基因组学和蛋白质组学研究的深入,蛋白质序列数据的数量急速增长。在过去的几十年,蛋白质结构的实验确定技术虽然取得了巨大的进展,但它仍然难以跟上序列信息爆炸式增长的步伐。不过,正如Anfinsen所发现的,蛋白质在其氨基酸序列中包含了用来确定其天然构象的足够信息。因此,发展一种有效的理论计算方法及时地解码蛋白质序列并挖掘隐藏于其中的有用信息已成为生物信息学领域的一个重要研究内容。本文借助氨基酸的两种重要理化性质,将一条蛋白质序列转化为三字母序列,进而给出了没有环和多重边的简单图表示,并提出了几何直线邻接矩阵和直线邻接指标概念。在此基础上,结合序相关因子提出了蛋白质序列的一种广义伪氨基酸组成(Generalized PseAAC)模型来表示蛋白质序列。利用所提出的蛋白质序列的这一数学描述子,对17个物种的β-球蛋白和72个冠状病毒刺突蛋白分别进行了序列相似性比较,并在新冠状病毒疫情下,对进入二十一世纪以来大规模爆发的三种冠状病毒之间的关系进行了初步分析。同时,我们提出了一种基于广义PseAAC的支持向量机模型进行DNA结合蛋白识别。在相同数据集上的实验结果表明,我们的...
【文章来源】:渤海大学辽宁省
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
图1.支持向量机示意图
基于广义伪氨基酸组成与图形表示的蛋白质序列比较与DNA结合蛋白识别12部为根节点,所有样本经过根节点后可分到各个子节点中,子节点需要用新的特征做决策,直到只包含一类样本的叶节点,停止划分[36]。最早著名的决策树方法是ID3(InteractiveDichotomizer-3),ID3算法后,人们提出了一些改进算法,如C4.5等。另一种决策树算法CART(ClassificationAndRegressionTree)算法同样非常著名,它既可以解决一些分类问题,也可以用构造回归树的方式回归连续变量。3.3.2随机森林基于特定数据集随机抽样是具有随机性的,这种随机性是模式识别面临的问题,很多方法受到这种随机性的影响,使得到的分类器也具有偶然性,容易导致决策树方法过学习[36]。随机森林(如图2)利用自举重采样的方法建立样本集,用来构造决策树,并对这些树投票,票数最多的为最终决策。这种方法保证了构建树间的独立性[39]。图2.随机森林示意图Figure2.schematicdiagramofrandomforest3.4朴素贝叶斯分类法朴素贝叶斯分类模型将问题分为两类:特征向量和决策向量,并假设特征之间都是相互独立。这种模型结构简单,易于实现且分类效果稳定,可以降低贝叶
渤海大学硕士学位论文19环,也没有多重边,即为图论中的简单图。表4.三组性质的值Table4.Thevaluesforpropertiesofthethreegroups.GroupRepresentative""GIGIIGIIIACH0.32910.28680.66930.14780.41930.08960.91220.56460.99120.40970.82530.132700.20.40.60.8100.10.20.30.40.50.60.70.80.91ACHxy图3.20种天然氨基酸的2-D映射Fig3.The2-Dmapofthe20standardaminoacid.图4.2-D图形表示Fig4.The2-Dgraphicalrepresentation.
本文编号:2924094
【文章来源】:渤海大学辽宁省
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
图1.支持向量机示意图
基于广义伪氨基酸组成与图形表示的蛋白质序列比较与DNA结合蛋白识别12部为根节点,所有样本经过根节点后可分到各个子节点中,子节点需要用新的特征做决策,直到只包含一类样本的叶节点,停止划分[36]。最早著名的决策树方法是ID3(InteractiveDichotomizer-3),ID3算法后,人们提出了一些改进算法,如C4.5等。另一种决策树算法CART(ClassificationAndRegressionTree)算法同样非常著名,它既可以解决一些分类问题,也可以用构造回归树的方式回归连续变量。3.3.2随机森林基于特定数据集随机抽样是具有随机性的,这种随机性是模式识别面临的问题,很多方法受到这种随机性的影响,使得到的分类器也具有偶然性,容易导致决策树方法过学习[36]。随机森林(如图2)利用自举重采样的方法建立样本集,用来构造决策树,并对这些树投票,票数最多的为最终决策。这种方法保证了构建树间的独立性[39]。图2.随机森林示意图Figure2.schematicdiagramofrandomforest3.4朴素贝叶斯分类法朴素贝叶斯分类模型将问题分为两类:特征向量和决策向量,并假设特征之间都是相互独立。这种模型结构简单,易于实现且分类效果稳定,可以降低贝叶
渤海大学硕士学位论文19环,也没有多重边,即为图论中的简单图。表4.三组性质的值Table4.Thevaluesforpropertiesofthethreegroups.GroupRepresentative""GIGIIGIIIACH0.32910.28680.66930.14780.41930.08960.91220.56460.99120.40970.82530.132700.20.40.60.8100.10.20.30.40.50.60.70.80.91ACHxy图3.20种天然氨基酸的2-D映射Fig3.The2-Dmapofthe20standardaminoacid.图4.2-D图形表示Fig4.The2-Dgraphicalrepresentation.
本文编号:2924094
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2924094.html