基于序列信息的荷尔蒙连接蛋白预测算法研究
发布时间:2021-03-31 00:19
荷尔蒙连接蛋白(HBP)可以选择性地、非共价地与荷尔蒙蛋白(HP)相互作用,从而充当HP的调节剂或抑制剂。准确地识别HBP也为正确理解细胞生长、发育和功能机制提供重要的前提保障。传统识别HBP的方法通常要通过复杂的生物学实验,耗时耗力且速度缓慢。近几年来,为了改善这个弊端,科研人员开始尝试使用机器学习的方法来识别HBP,使得这种缺点得以改善。但是,不同的机器学习算法有着不同的预测效果,绝大多数的算法预测效果不尽如人意,分类能力有待提高。因此,本文通过尝试多种算法,搭建多种预测模型,使用交叉验证的方法与常用评价指标进行评估的方式,从众多模型中选取出具有最优预测效果的模型作为最终的HBP预测模型。本文从Uniprot数据库下载了一套HBP原始数据,通过严格的筛选构建出了一组精准的基准数据集。我们尝试了多种特征提取方法,利用支持向量机(SVM)分类算法对HBP与non-HBP(非HBP)进行分类,并基于5-折交叉验证评价模型的性能,产生了如下的结果:(一)使用CTD方法提取HBP序列中氨基酸位置、组成与分布等信息,最终得到60.16%的总成功率;(二)使用自然矢量法(NV)提取HBP序列中的...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
一个HBP(红色部分)与两个HP(黄色部分)结合的示意图
第一章绪论3文的研究:(一):收集得到一套客观且公正的基准数据集去训练模型,并提供一套精准且合理的独立集去检验得到的模型;(二):尝试选择多种特征提取算法去表征蛋白质序列信息,即寻找、利用最好的表达方法将蛋白质序列信息描述成计算机能够识别出来的离散数字的形式;(三):尝试选择不同种类的分类器算法以求最大化正负样本之间的差异性;(四):通过使用交叉验证的方法得到一系列评价指标,进而评价所构建出来的模型的预测性能;(五):选择出一个表现力最好、鲁棒性最佳的模型搭建出一个用户友好型的在线服务网站,方便其他从事HBP研究的科研人员去使用。按照以上五个方面的内容提要,将如下安排本篇论文的结构与内容,并按照图1-2的思路去探索预测HBP的最优模型:图1-2论文计算流程图第一章为论文的绪论部分,言简意赅的阐明了HBP的生物学定义与其在人体中发挥的重要功能,从而引出正确预测HBP的意义与必要性。另外,阐述了目前国内外已经存在的对HBP预测算法的研究现状与本论文进行研究的重要性。最后,简要描述了本文的结构与内容。第二章为论文的数据集构建部分,在此环节中详细的阐述了构建基准数据集
第四章基于多种不同特征提取方法下的模型构建15=[,,2,…,,,2,…,,2](4-6)其中,A,R,…,Y为20种常见氨基酸。4.2.2基于NV方法的交叉验证结果由4.2.1章节可知,基于NV特征提取方法,一条蛋白质序列可以用一个60维的向量来表示,以此构建出一个特征集合,并利用这个特征集合搭建一个SVM模型。在使用SVM分类器经过5-折交叉验证后,最终的总精度为70.33%,敏感性与特异性分别为70.73%和69.92%(表4-2),从中可以得到如下结论,NV特征提取方法较CTD方法预测能力提高,并且对正负样本的预测能力相差无几且比较均衡。尝试性的考虑将NV与CTD特征提取方法相结合,一条蛋白质序列可以被描述成为一个21+60=81维的向量,以此构建出一个特征集合,在使用SVM分类器经过5-折交叉验证后,最终的总精度为67.07%,敏感性与特异性分别为70.73%和63.41%(表4-2),从中可以得到以下结论,预测结果相比较于单一使用NV方法变差,说明CTD方法对于HBP预测效果不佳。除此之外,它们的详细的5种评价指标结果可以在表4-2中找到,图4-1展示了每一种模型的ROC曲线及各自的AUC值。由此我们可以看出,相比较这两种特征提取方法来说,NV方法的表现力总是强于CTD方法的。但是这两种方法的预测总精度仍然不够理想,分类效果都不令人满意,因此很有必要尝试其他方法来更加准确的为HBP分类预测。表4-2基于NV方法的详细预测结果特征提取方法Cg(%)(%)(%)MccAUCNV(60-D)2-52-1370.7369.9270.330.4070.762CTD+NV(81-D)292-770.7363.4167.070.3420.709图4-1基于NV与CTD方法的ROC曲线及其AUC
本文编号:3110413
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
一个HBP(红色部分)与两个HP(黄色部分)结合的示意图
第一章绪论3文的研究:(一):收集得到一套客观且公正的基准数据集去训练模型,并提供一套精准且合理的独立集去检验得到的模型;(二):尝试选择多种特征提取算法去表征蛋白质序列信息,即寻找、利用最好的表达方法将蛋白质序列信息描述成计算机能够识别出来的离散数字的形式;(三):尝试选择不同种类的分类器算法以求最大化正负样本之间的差异性;(四):通过使用交叉验证的方法得到一系列评价指标,进而评价所构建出来的模型的预测性能;(五):选择出一个表现力最好、鲁棒性最佳的模型搭建出一个用户友好型的在线服务网站,方便其他从事HBP研究的科研人员去使用。按照以上五个方面的内容提要,将如下安排本篇论文的结构与内容,并按照图1-2的思路去探索预测HBP的最优模型:图1-2论文计算流程图第一章为论文的绪论部分,言简意赅的阐明了HBP的生物学定义与其在人体中发挥的重要功能,从而引出正确预测HBP的意义与必要性。另外,阐述了目前国内外已经存在的对HBP预测算法的研究现状与本论文进行研究的重要性。最后,简要描述了本文的结构与内容。第二章为论文的数据集构建部分,在此环节中详细的阐述了构建基准数据集
第四章基于多种不同特征提取方法下的模型构建15=[,,2,…,,,2,…,,2](4-6)其中,A,R,…,Y为20种常见氨基酸。4.2.2基于NV方法的交叉验证结果由4.2.1章节可知,基于NV特征提取方法,一条蛋白质序列可以用一个60维的向量来表示,以此构建出一个特征集合,并利用这个特征集合搭建一个SVM模型。在使用SVM分类器经过5-折交叉验证后,最终的总精度为70.33%,敏感性与特异性分别为70.73%和69.92%(表4-2),从中可以得到如下结论,NV特征提取方法较CTD方法预测能力提高,并且对正负样本的预测能力相差无几且比较均衡。尝试性的考虑将NV与CTD特征提取方法相结合,一条蛋白质序列可以被描述成为一个21+60=81维的向量,以此构建出一个特征集合,在使用SVM分类器经过5-折交叉验证后,最终的总精度为67.07%,敏感性与特异性分别为70.73%和63.41%(表4-2),从中可以得到以下结论,预测结果相比较于单一使用NV方法变差,说明CTD方法对于HBP预测效果不佳。除此之外,它们的详细的5种评价指标结果可以在表4-2中找到,图4-1展示了每一种模型的ROC曲线及各自的AUC值。由此我们可以看出,相比较这两种特征提取方法来说,NV方法的表现力总是强于CTD方法的。但是这两种方法的预测总精度仍然不够理想,分类效果都不令人满意,因此很有必要尝试其他方法来更加准确的为HBP分类预测。表4-2基于NV方法的详细预测结果特征提取方法Cg(%)(%)(%)MccAUCNV(60-D)2-52-1370.7369.9270.330.4070.762CTD+NV(81-D)292-770.7363.4167.070.3420.709图4-1基于NV与CTD方法的ROC曲线及其AUC
本文编号:3110413
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3110413.html