基于随机森林算法的关键蛋白识别方法研究
发布时间:2021-06-05 04:39
识别出生物体内有用的蛋白质对生物体进化以及医学领域都要极其重要的作用。当前辨别蛋白质重要性的方式有两种。一是基于生物化学方法,但利用生物实验的方法来识别具有一定的缺陷,具体表现为:时间较长、费用较高、以及不能处理数据量较大的问题等等。二是利用计算机为工具对生物进行分析并以生物学的相关知识进行解释的一种方式。利用计算机识别蛋白重要性的方法大多是利用蛋白质交互网络(Protein Interaction Network)提取拓扑中心性度量特征来识别。可是由于一些相关生物实验数据的残缺和蛋白质网络自身的复杂性,一直没有发现可以准确区别关键蛋白质和非关键蛋白质的单一中心性度量特征,并且从目前的相关研究来看,关键蛋白质和非关键蛋白质间的区别不能由单一特征决定,应该是由多种因素共同决定的。单一中心性度量往往不能有效识别关键蛋白质,需要融合多个拓扑中心性度量方法,突破传统的利用排序进行精细选择的方式,建立机器学习模型进行蛋白的分类和识别。随机森林算法属于集成类型的算法,可以集成多个单分类器即集成多棵决策树的分类效果从而组成一个整体意义上的分类器。鉴于之前研究均是利用单一特征进行分类识别,且由于随机森...
【文章来源】:吉林农业大学吉林省
【文章页数】:36 页
【学位级别】:硕士
【部分图文】:
随机森林原理图
度中心性示意图
:( )= ∑ ∑( , , )( . ), ≠ ≠ 点 k 与 j 之间的最短路径条数, ( 路径条数。在计算节点之间的路径点,介数中心性就是反应某一节点的相关示例。节点 1 的 BC 值,+(2,1,4)(2,4)+(2,1,5)(2,5)+(3,1,2)(3,2)+(3,1,4(3,4(4,1,3)(4,3)+(4,1,5)(4,5)+(5,1,2)(5,2)+(5,1,3)(5,3) + + + + + + + + = 8 = 0, = 6, =0。比较结果1 在该网络中最重要,如果去点节点
本文编号:3211454
【文章来源】:吉林农业大学吉林省
【文章页数】:36 页
【学位级别】:硕士
【部分图文】:
随机森林原理图
度中心性示意图
:( )= ∑ ∑( , , )( . ), ≠ ≠ 点 k 与 j 之间的最短路径条数, ( 路径条数。在计算节点之间的路径点,介数中心性就是反应某一节点的相关示例。节点 1 的 BC 值,+(2,1,4)(2,4)+(2,1,5)(2,5)+(3,1,2)(3,2)+(3,1,4(3,4(4,1,3)(4,3)+(4,1,5)(4,5)+(5,1,2)(5,2)+(5,1,3)(5,3) + + + + + + + + = 8 = 0, = 6, =0。比较结果1 在该网络中最重要,如果去点节点
本文编号:3211454
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3211454.html