基于机器学习的蛋白质结构类预测与质量评估
本文选题:蛋白质结构类 + SVM ; 参考:《河南师范大学》2017年硕士论文
【摘要】:蛋白质是构成单个细胞的基本有机物,是生命活动的执行者,其角色决定于它的功能,而蛋白质功能主要由他们的结构决定,因此研究蛋白质的结构对于认识其功能具有很大的意义。但由于在生物体内蛋白质的组成复杂多样,直接使用分子动力学技术模拟蛋白质折叠过程,不仅需要大量的计算资源,还需要对蛋白质折叠过程有深刻的认识,很难快速准确的实现结构预测和模型质量评估。随着计算机信息技术的发展,研究基于机器学习(Machine Learning,ML)的蛋白质结构类预测和质量评估是目前生物信息领域的一个研究热点。本论文的主要研究内容包括以下三个方面:(1)构筑基于属性约减的蛋白质结构类多分类模型。在蛋白质结构类分类预测中,首先对于已知氨基酸序列的蛋白质,选择不易丢失序列信息的伪氨基酸特征,然后针对蛋白质序列特征表达存在信息冗余,考虑到结构类分类是个多分类问题,提出利用Relief F算法对蛋白质结构特征进行约减,接着采用多个二分类的SVM模型来构造SVM多分类器模型,最后对蛋白质结构类进行分类,尽管实验结果和未进行特征约简的方法相比,耗费的时间减少近一半,但存在模型参数不好确定的问题。(2)设计SAPSO算法,优化蛋白质结构类分类模型参数。针对上述蛋白质结构类多分类模型参数不好确定的问题,综合模拟退火(Simulated Annealing,SA)算法跳出局部最优解和粒子群(Particle Swarm optimization,PSO)算法收敛速度快的特点,设计出一种适合蛋白质分类模型的模拟退火粒子群(SAPSO)算法以获取优化的模型参数,然后通过具体的蛋白质分类实验,证明设计方法的有效性。(3)针对传统蛋白质模型质量评估没有考虑同源信息问题的缺陷,建立了一种基于ML的蛋白质模型质量评估模型。将蛋白质序列输入到SWISS-MODEL中,自动构造出它的三维结构。将蛋白质序列和Model1序列输入到BLAST系统中,提取序列比对的四个主要特征。在考虑同源信息的情况下,将提取的特征值作为LS-SVM的输入数据用来训练LS-SVM,并同时利用SAPSO算法对LS-SVM的参数寻优。由最优参数值构造的LS-SVM模型来得到蛋白质GDT-TS。然后通过测试实验表明该设计模型在绝对误差和均方误差方面均有明显优势,进而证明所建模型的合理性和有效性。
[Abstract]:Protein is the basic organic substance that makes up a single cell. It is the executor of life activity. Its role is determined by its function, and the function of protein is mainly determined by their structure. Therefore, it is of great significance to study the structure of proteins for understanding their functions. However, due to the complexity and diversity of protein composition in organisms, direct use of molecular dynamics technology to simulate protein folding process requires not only a large number of computational resources, but also a profound understanding of protein folding process. It is difficult to realize structure prediction and model quality evaluation quickly and accurately. With the development of computer information technology, the research of protein structure class prediction and quality evaluation based on machine learning (ML) is a hot topic in the field of biological information. The main contents of this thesis include the following three aspects: 1) to construct a multi-classification model of protein structure based on attribute reduction. In the classification and prediction of protein structural classes, the pseudo amino acid features of the known amino acid sequences are selected for the known amino acid sequences, and then there is information redundancy for the protein sequence feature expression. Considering that structural class classification is a multi-classification problem, Relief F algorithm is proposed to reduce the structural features of proteins. Then, the multi-classifier model of SVM is constructed by using a number of two-classification SVM models. Finally, the protein structural classes are classified. Although the experimental results are less than half of the time consumed by the method without feature reduction, there is a problem that the model parameters are difficult to determine. (2) the SAPSO algorithm is designed to optimize the parameters of the protein structure class classification model. In view of the difficulty of determining the parameters of the multi-classification model of protein structure, synthetic simulated annealing (SA) algorithm can jump out of the local optimal solution and the particle swarm optimization (PSO) algorithm converges quickly. A simulated annealing particle swarm optimization (SAPSO) algorithm suitable for protein classification model was designed to obtain the optimized model parameters. It is proved that the design method is effective. (3) aiming at the defect that the traditional protein model quality evaluation does not consider the problem of homology information, a protein model quality evaluation model based on ML is established. The protein sequence is input into SWISS-MODEL and its three-dimensional structure is constructed automatically. Protein sequences and Model1 sequences were input into the BLAST system to extract the four main features of sequence alignment. When the homologous information is considered, the extracted eigenvalues are used as input data of LS-SVM to train LS-SVM, and SAPSO algorithm is used to optimize the parameters of LS-SVM. The protein GDT-TSs were obtained from the LS-SVM model constructed from the optimal parameter values. Then the test results show that the design model has obvious advantages in absolute error and mean square error, which proves the rationality and validity of the model.
【学位授予单位】:河南师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q51;TP181
【参考文献】
相关期刊论文 前10条
1 薛章鹰;刘兴权;;结合ReliefF、GA和SVM的面向对象建筑物目标识别特征选择方法[J];测绘工程;2017年02期
2 王鲜芳;张悦;王俊美;;基于SAPSO-LSSVM的蛋白质模型质量评估[J];计算机应用研究;2017年05期
3 余晓东;雷英杰;岳韶华;王睿;;基于粒子群优化的直觉模糊核聚类算法研究[J];通信学报;2015年05期
4 余丽;陆锋;杨林;;交通网络旅行商路径优化的遗传禁忌搜索算法[J];测绘学报;2014年11期
5 李佳;刘天琪;李兴源;邢大鹏;李茜;江东林;肖军;;改进粒子群-禁忌搜索算法在多目标无功优化中的应用[J];电力自动化设备;2014年08期
6 袁澎;艾芊;赵媛媛;;基于改进的遗传 模拟退火算法和误差度分析原理的PMU多目标优化配置[J];中国电机工程学报;2014年13期
7 唐勇波;桂卫华;彭涛;欧阳伟;;PCA和KICA特征提取的变压器故障诊断模型[J];高电压技术;2014年02期
8 张旭辉;林海军;刘明珠;高豹江;;基于蚁群粒子群优化的卡尔曼滤波算法模型参数辨识[J];电力系统自动化;2014年04期
9 苏盈盈;刘兴华;葛继科;李太福;文峰;;基于Relief+SVM的语音信号特征提取及其识别[J];重庆科技学院学报(自然科学版);2013年05期
10 张志锋;范乃梅;;极限学习机优化方法在蛋白质折叠类型识别中的应用[J];科学技术与工程;2013年11期
相关博士学位论文 前1条
1 王鲜芳;生化过程动态建模及优化控制研究[D];江南大学;2009年
相关硕士学位论文 前8条
1 鲍文正;基于多分类器集成的蛋白质三级结构预测[D];济南大学;2015年
2 李娟娟;基于多特征融合和集成的蛋白质相互作用预测[D];济南大学;2014年
3 郑斌;多分类机器学习及其在蛋白质结构类预测中的应用[D];杭州电子科技大学;2014年
4 彭菲;PCA和KPCA自融合的MSTAR SAR自动目标识别算法研究[D];大连理工大学;2013年
5 王若飞;基于机器学习的蛋白质折叠预测算法研究[D];湘潭大学;2010年
6 蔡娜娜;基于计算智能的蛋白质三级结构预测[D];济南大学;2010年
7 姜百宁;机器学习中的特征选择算法研究[D];中国海洋大学;2009年
8 俞文洋;支持向量机在蛋白质结构预测中的应用研究[D];河南大学;2008年
,本文编号:1889747
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1889747.html