基于集成学习的酰胺化位点预测
发布时间:2021-08-29 10:58
在蛋白质合成后,许多神经肽和肽激素需要将其羧基末端酰胺化来获得完整的生物活性,酰胺化在生物各种病理过程起着十分重要的作用,所以对其研究具有重要意义。用传统生物实验方法如生物质谱技术等进行研究有着劳动密集、需要时间长和成本高等缺点,而常见的机器学习算法对于特征空间的拟合不是特别完美,所以本文提出了一种集成学习算法来实现对酰胺化位点研究效果的提高,该方法相比之前的方法有了不错的提高。在本文中,提出了一种集成学习算法,stacking算法来进行实验。将高质量指数、氨基酸位置特异性倾向、K间隔氨基酸对相关性三种特征提取方法获得的特征相结合,经过特征选择后分别训练支持向量机、决策树、朴素贝叶斯模型,用改进的K间隔氨基酸组成、氨基酸因子两类特征经过特征选择后分别训练相应最优支持向量机模型,经过上述实验后一共获得五个模型,使用stacking算法将这五个模型作为基模型,利用五折交叉验证获得5维的特征来训练一个逻辑回归模型。最终得到了一个具有不错泛化能力的模型。该方法不但能够将多类特征信息使用到,而且还通过不同类型的分类算法,将不同分类器误分类的特征空间通过其他分类器进行修正,最终获得最好的效果。最后...
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
酰胺化的机理
天津大学硕士学位论文102.2.2决策树决策树[23]是一种常见的基本分类和回归算法,而在本文中使用决策树方法是用来解决分类问题的。决策树模型是一种树形结构,由节点和有向边组成,其中节点又分两种,一种是内部节点,代表某一种特征;另外一种叶节点,表示类标签,即属于哪一类,如图2-2所示。决策树的核心思想是对于给定训练数据集,寻找出一组分类规则,从而构建一个决策树,而决策树可能存在也可能不存在,但最终的目标是构造一个与训练数据集冲突最小的决策树。它的优点是易于理解,分类速度相对于其他分类算法要显得更快。构建决策树模型通常分为三个步骤:第一步:特征选择[24],在进行分类的时候,往往利用特征进行分类,而数据集的有些特征是无用的,利用该特征进行分类的时候效果和随机分类差不多,所以选择合适的特征是非常有必要的,而在决策树算法中特征选择通常采用信息增益或者信息增益比。信息增益的计算公式如下所示|,XDHDHXDg(2-11)其中DH表示数据集的经验熵,XDH|表示特征X给定条件下D的经验条件熵。通常情况下,特征信息增益越大,表示该特征分类能力越强。在决策树中,基于信息增益的特征选择方法是指在构建决策树的过程中每次选择信息增益最大的特征,然后逐步生成决策树。信息增益比,利用信息增益作为划分训练数据集特征的准则会存在一个缺点,那就是倾向于选择取值比较多的特征。为了解决这个问题,于是提出了信息增益比这个概念。特征X的信息增益比计算方式是它的信息增益和特征X的熵的比,即DHADgADgAR,,(2-12)图2-2决策树模型
第2章关键技术介绍13图2-3S函数图像在确定了逻辑回归分类模型的函数形式后,需要求解最佳回归系数,通常采用的方法是数学问题中常用的最优化方法,其中包括梯度上升法和随机梯度上升法。逻辑回归分类算法的优点是实现比较简单,在实际应用中受到广泛使用,尤其在工业问题上更加受欢迎;而且运行速度快,很适用于二分类问题,在实现过程中能计算出各个特征的权重,方便对于特征重要性判断。缺点是当特征空间比较大的时候,模型的性能会比较低,而且逻辑回归常会出现欠拟合现象,精确度不是特别的高。2.2.5集成学习集成学习是当前比较热门的机器学习方法,它通过多个机器学习器来完成对训练数据集的学习。集成学习的核心思想在于通过学习多个机器学习器,将多个学习器用一定的策略相结合,最终形成一个学习能力更强的学习器。目前,集成学习广泛用于分类问题集成,回归问题集成,特征选取集成等。常见的集成学习方法有boosting,bagging,stacking算法,而在本文中使用的是stacking算法[28]。Stacking算法是通过组合多个机器学习模型从而获得一个更好的模型,核心思想并不复杂,它通常分为两层,第一层利用训练数据集训练多个不同的机器学习模型,这些学习器又被称为base-classifier;然后将第一层的各个base-classifier的输出作为第二层的输入来训练一个模型,这个模型通过学习第一层的多个模型,从而大大提高模型的效果,第二层这一个模型通常称为meta-classifier,而这个组合模型常常采用的是逻辑回归算法。整个框架虽然看起来比较简单,但灵
本文编号:3370525
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
酰胺化的机理
天津大学硕士学位论文102.2.2决策树决策树[23]是一种常见的基本分类和回归算法,而在本文中使用决策树方法是用来解决分类问题的。决策树模型是一种树形结构,由节点和有向边组成,其中节点又分两种,一种是内部节点,代表某一种特征;另外一种叶节点,表示类标签,即属于哪一类,如图2-2所示。决策树的核心思想是对于给定训练数据集,寻找出一组分类规则,从而构建一个决策树,而决策树可能存在也可能不存在,但最终的目标是构造一个与训练数据集冲突最小的决策树。它的优点是易于理解,分类速度相对于其他分类算法要显得更快。构建决策树模型通常分为三个步骤:第一步:特征选择[24],在进行分类的时候,往往利用特征进行分类,而数据集的有些特征是无用的,利用该特征进行分类的时候效果和随机分类差不多,所以选择合适的特征是非常有必要的,而在决策树算法中特征选择通常采用信息增益或者信息增益比。信息增益的计算公式如下所示|,XDHDHXDg(2-11)其中DH表示数据集的经验熵,XDH|表示特征X给定条件下D的经验条件熵。通常情况下,特征信息增益越大,表示该特征分类能力越强。在决策树中,基于信息增益的特征选择方法是指在构建决策树的过程中每次选择信息增益最大的特征,然后逐步生成决策树。信息增益比,利用信息增益作为划分训练数据集特征的准则会存在一个缺点,那就是倾向于选择取值比较多的特征。为了解决这个问题,于是提出了信息增益比这个概念。特征X的信息增益比计算方式是它的信息增益和特征X的熵的比,即DHADgADgAR,,(2-12)图2-2决策树模型
第2章关键技术介绍13图2-3S函数图像在确定了逻辑回归分类模型的函数形式后,需要求解最佳回归系数,通常采用的方法是数学问题中常用的最优化方法,其中包括梯度上升法和随机梯度上升法。逻辑回归分类算法的优点是实现比较简单,在实际应用中受到广泛使用,尤其在工业问题上更加受欢迎;而且运行速度快,很适用于二分类问题,在实现过程中能计算出各个特征的权重,方便对于特征重要性判断。缺点是当特征空间比较大的时候,模型的性能会比较低,而且逻辑回归常会出现欠拟合现象,精确度不是特别的高。2.2.5集成学习集成学习是当前比较热门的机器学习方法,它通过多个机器学习器来完成对训练数据集的学习。集成学习的核心思想在于通过学习多个机器学习器,将多个学习器用一定的策略相结合,最终形成一个学习能力更强的学习器。目前,集成学习广泛用于分类问题集成,回归问题集成,特征选取集成等。常见的集成学习方法有boosting,bagging,stacking算法,而在本文中使用的是stacking算法[28]。Stacking算法是通过组合多个机器学习模型从而获得一个更好的模型,核心思想并不复杂,它通常分为两层,第一层利用训练数据集训练多个不同的机器学习模型,这些学习器又被称为base-classifier;然后将第一层的各个base-classifier的输出作为第二层的输入来训练一个模型,这个模型通过学习第一层的多个模型,从而大大提高模型的效果,第二层这一个模型通常称为meta-classifier,而这个组合模型常常采用的是逻辑回归算法。整个框架虽然看起来比较简单,但灵
本文编号:3370525
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3370525.html