基于集成支持向量机与随机森林的蛋白交互预测研究
发布时间:2020-06-17 01:52
【摘要】:蛋白质作为生命体的重要组成成分,参与维持生命活动的正常进行。作为细胞功能的执行者,大多数蛋白质通过与其他蛋白质发生相互作用,结合形成复合物对生命活动进行调控。研究蛋白质间相互作用,对疾病诊疗,药物筛选等方面的研究都有着积极的意义。目前通过生物实验方法中广泛使用的高通量生物技术可以对蛋白质相互作用进行测定,但由于其过高的时间成本和经济成本,无法实现大规模的应用。因此,通过计算方法对蛋白质间相互作用进行预测具有广阔的现实意义。预测蛋白质相互作用一直是在计算生物学领域中研究的一个热点方向。本文从蛋白质的序列信息出发进行对蛋白质相互作用的预测研究,选取了序列信息的进化保守性特征,协同进化性特征与溶剂可及性特征,并对其中的进化保守性特征进行离散余弦变换,以降低冗余数据对预测准确度的影响。继而将提取的三类特征进行整合处理,构建特征矩阵。基于集成学习算法结合支持向量机和随机森林构建分类器,其中对支持向量机和随机森林进行参数调优和阈值选取。将特征矩阵输入到分类器中,完成对蛋白质相互作用的预测过程。本文所提出的预测方法丰富了序列信息,结合了提取的多种信息特征,并确定了基于集成学习算法来建立分类器模型。为了验证模型具有优秀的泛化性,在其他蛋白质数据集同样有着良好的预测性能,在测试集上对数据进行分类预测,其结果也反映了本文提出的预测方法相较于其他研究蛋白质相互作用预测方法可以达到更加优异的预测效果。
【学位授予单位】:东北师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51;TP18
【图文】:
图 2.1 蛋白质 DIP:572N 的查询结果图 2.2 与蛋白质 DIP:572N 发生相互作用蛋白质的查询结果2.1.2 Swiss-Prot 数据库Swiss-Prot(Swiss-Prot Protein Sequence Database)数据库收录了详细注释的蛋白质序列信息条目,其中每个条目都由蛋白质的序列信息、引用的文献记录、
图 2.2 与蛋白质 DIP:572N 发生相互作用蛋白质的查询结果2.1.2 Swiss-Prot 数据库Swiss-Prot(Swiss-Prot Protein Sequence Database)数据库收录了详细注释的蛋白质序列信息条目,其中每个条目都由蛋白质的序列信息、引用的文献记录、分类学信息与注释记录等组成,而注释记录涉及了蛋白质功能、蛋白质二级结构和四级结构、蛋白质结构域、活性位点、转录后修饰、和通过与其他序列比对得到的相似性信息、序列变异体记录、序列缺失与疾病之间的关系等[29]。该数据库中蛋白质序列数据条目也同样有着自身特定的格式。现由欧洲生物信息学研究所和瑞士生物信息学研究所共同协作进行日常维护。目前 Swiss-Prot 数据库已整合进 UniProt 数据库中。通过 Swiss-Prot 数据库,基因组、蛋白质组及相关分子生物学领域的研究人员可以提取到蛋白质氨基酸序列的各种最新资源信息,进行对蛋白质序列数据搜寻,同时此数据库中也含有蛋白质序列数据相互比对功能。Swiss-Prot 数据库通过与其他包括蛋白质结构库、蛋白质序列库和核酸序列库等30 多个蛋白质相关数据库建立了交叉引用,最大限度地减少了冗余序列。上文
【学位授予单位】:东北师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q51;TP18
【图文】:
图 2.1 蛋白质 DIP:572N 的查询结果图 2.2 与蛋白质 DIP:572N 发生相互作用蛋白质的查询结果2.1.2 Swiss-Prot 数据库Swiss-Prot(Swiss-Prot Protein Sequence Database)数据库收录了详细注释的蛋白质序列信息条目,其中每个条目都由蛋白质的序列信息、引用的文献记录、
图 2.2 与蛋白质 DIP:572N 发生相互作用蛋白质的查询结果2.1.2 Swiss-Prot 数据库Swiss-Prot(Swiss-Prot Protein Sequence Database)数据库收录了详细注释的蛋白质序列信息条目,其中每个条目都由蛋白质的序列信息、引用的文献记录、分类学信息与注释记录等组成,而注释记录涉及了蛋白质功能、蛋白质二级结构和四级结构、蛋白质结构域、活性位点、转录后修饰、和通过与其他序列比对得到的相似性信息、序列变异体记录、序列缺失与疾病之间的关系等[29]。该数据库中蛋白质序列数据条目也同样有着自身特定的格式。现由欧洲生物信息学研究所和瑞士生物信息学研究所共同协作进行日常维护。目前 Swiss-Prot 数据库已整合进 UniProt 数据库中。通过 Swiss-Prot 数据库,基因组、蛋白质组及相关分子生物学领域的研究人员可以提取到蛋白质氨基酸序列的各种最新资源信息,进行对蛋白质序列数据搜寻,同时此数据库中也含有蛋白质序列数据相互比对功能。Swiss-Prot 数据库通过与其他包括蛋白质结构库、蛋白质序列库和核酸序列库等30 多个蛋白质相关数据库建立了交叉引用,最大限度地减少了冗余序列。上文
【相似文献】
相关期刊论文 前10条
1 沈智勇;苏
本文编号:2716902
本文链接:https://www.wllwen.com/projectlw/swxlw/2716902.html
教材专著