基于模糊支持向量机的蛋白质二级结构智能预测

发布时间:2020-11-17 18:06
   随着人类基因组计划的完成,越来越多的蛋白质序列被测出,研究快速且有效的蛋白质二级结构预测算法已经刻不容缓。人们研究蛋白质结构的主要目的是为了研究蛋白质功能,了解蛋白质功能对生物制药、农业生物等领域具有重要意义。近年来,机器学习已经成为蛋白质二级结构预测的主流方法。本文在传统支持向量机(SVM)的基础上,改进了模糊支持向量机(FSVM)的隶属度函数,具体的研究工作如下:1.本文首先考虑到具有相似的蛋白质一级结构序列往往具有相似的蛋白质二级结构,所以,提出一种蛋白质序列相似性比对方法,设置解离状态下的酸度(pKa(COOH))、解离状态下的碱性(pKa(NH3+))、疏水性(Hy)这三个理化性质作为氨基酸残基的坐标,将氨基酸序列映射到三维空间,然后通过向量夹角余弦法度量两个蛋白质序列的相似程度。2.利用点到类中心的距离设置隶属度能减少孤立点或噪声点,但没法有效的区分支持向量和噪声点,在此基础上,本文先将样本点映射到高维空间,然后在高维的环境下,结合K近邻算法,计算样本点与其周围样本点的紧密程度区分支持向量与噪声点、孤立点。3.最后,本文新的蛋白质二级智能预测模型是将蛋白质序列相似性与FSVM算法结合的智能算法模型,先将测试集的蛋白质序列与pdb_full数据库的蛋白质序列进行相似性比较,当相似度大于0.9时就将pdb_full数据库中找到的蛋白质序列的二级结构作为测试集的二级结构,那些相似性低的氨基酸序列用FSVM模型预测。改进的FSVM算法,在原有算法的基础上,将一些隶属度小的训练样本剔除,同时增加支持向量样本点的权重,排除噪声干扰,改进后的算法使准确度有了明显提高。用该算法与蛋白质序列相似性分析方法结合成的算法模型,实验结果发现其预测的准确率高于现有的使用机器学习的预测准确率。
【学位单位】:浙江理工大学
【学位级别】:硕士
【学位年份】:2017
【中图分类】:Q51;TP18
【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 研究现状
        1.2.1 蛋白质二级结构的研究现状
        1.2.2 模糊支持向量机的研究现状
    1.3 本文的工作
        1.3.1 本文的主要研究内容
        1.3.2 论文的组织框架
第二章 蛋白质二级结构预测
    2.1 蛋白质
        2.1.1 蛋白质简介
        2.1.2 蛋白质结构介绍
    2.2 蛋白质二级结构预测模型常用技术
        2.2.1 样本集的选择
        2.2.2 训练集与测试集
        2.2.3 特征提取
        2.2.4 滑动窗口技术
        2.2.5 蛋白质二级结构预测的评价指标
    2.3 蛋白质二级结构预测的常用方法
        2.3.1 GOR方法
        2.3.2 神经网络方法
    2.4 几个常用的数据库介绍
    2.5 本章小结
第三章 蛋白质编码方式及相似性分析
    3.1 氨基酸的常用编码方式
        3.1.1 正交编码
        3.1.2 5位编码
        3.1.3 Profile编码
        3.1.4 Codon编码
    3.2 本文氨基酸编码方式介绍
        3.2.1 氨基酸理化性质
        3.2.2 倾向因子分析
    3.3 相似性分析
        3.3.1 序列相似性分析方法介绍
        3.3.2 相似性度量方法
    3.4 蛋白质序列相似性度量
    3.5 本章小结
第四章 改进的模糊支持向量机
    4.1 支持向量机工作原理
    4.2 模糊支持向量机
        4.2.1 模糊支持向量机原理
        4.2.2 常用隶属度设置方法
    4.3 改进模糊支持向量机
        4.3.1 隶属度改进思想
        4.3.2 隶属度改进方式
    4.4 本章小结
第五章 蛋白质二级结构智能预测模型
    5.1 实验流程
    5.2 实验结果
    5.3 讨论与比较
    5.4 本章小结
第六章 总结和展望
    6.1 研究工作总结
    6.2 研究工作展望
参考文献
致谢

【相似文献】

相关期刊论文 前10条

1 孟翔燕;孟军;葛家麒;;基于混合并行遗传算法的蛋白质二级结构预测[J];农机化研究;2009年06期

2 董启文,王晓龙,林磊,关毅,赵健;蛋白质二级结构预测:基于词条的最大熵马尔科夫方法[J];中国科学C辑:生命科学;2005年01期

3 李元乐;陶兰;;基于小波核支持向量机的蛋白质二级结构预测[J];深圳大学学报;2006年02期

4 王鹏良,江寿平,来鲁华,徐小杰,罗宇;蛋白质二级结构预测的综合分析[J];物理化学学报;1990年06期

5 连云涓;熊惠霖;;蛋白质二级结构预测的多核学习方法[J];计算机应用;2013年S1期

6 何建川;邵阳;张波;;蛋白质和变性蛋白质二级结构的FTIR分析进展[J];化学研究与应用;2012年08期

7 孟翔燕;孟军;葛家麒;;基于遗传算法的蛋白质二级结构预测方法研究进展[J];农机化研究;2009年05期

8 孙海军,阮晓钢;用多模神经网络预测蛋白质二级结构[J];昆明理工大学学报(理工版);2004年05期

9 张海霞,唐焕文,张立震,靳利霞,唐一源;蛋白质二级结构预测方法的评价[J];计算机与应用化学;2003年06期

10 罗辽复;氨基酸突变及其对蛋白质二级结构的影响[J];郑州轻工业学院学报;1988年02期


相关博士学位论文 前10条

1 贾孟文;mRNA序列、结构、能量和蛋白质二级结构的相关性[D];内蒙古大学;2004年

2 王勇献;蛋白质二级结构预测的模型与方法研究[D];国防科学技术大学;2004年

3 石鸥燕;蛋白质结构预测模型的研究[D];天津医科大学;2008年

4 李明辉;基于机器学习的蛋白质二级结构和相互作用预测[D];哈尔滨工业大学;2007年

5 曹晨;蛋白质二级结构指定和功能分析[D];吉林大学;2016年

6 王艳春;基于GEP和ANN的蛋白质二级结构预测方法研究[D];西北农林科技大学;2009年

7 刘君;融合计算智能的蛋白质结构预测研究[D];重庆大学;2011年

8 张胜利;蛋白质与RNA中的若干问题研究[D];大连理工大学;2011年

9 吴黎明;蜂王浆新鲜度指标和评价方法研究[D];浙江大学;2008年

10 赵裕众;生物序列分析算法的研究及其应用[D];中国科学技术大学;2010年


相关硕士学位论文 前10条

1 王静;基于模糊支持向量机的蛋白质二级结构智能预测[D];浙江理工大学;2017年

2 王洪亮;基于遗传算法的蛋白质二级结构预测研究[D];哈尔滨工程大学;2008年

3 张海霞;蛋白质二级结构预测方法研究[D];大连理工大学;2004年

4 李艳萍;基于决策森林的蛋白质二级结构预测算法研究[D];河南大学;2019年

5 王蕾蕾;基于条件随机场与深度学习的蛋白质二级结构预测[D];齐鲁工业大学;2019年

6 王剑;基于分组式的多分类器的蛋白质二级结构预测的算法研究[D];齐鲁工业大学;2019年

7 刘柏丽;蛋白质二级结构预测PSIPRED方法的改进及其应用[D];湖南大学;2014年

8 赵志山;基于深度学习的蛋白质二级结构预测研究[D];哈尔滨工业大学;2018年

9 常菁;用于蛋白质二级结构设计的深度生成模型的研究与应用[D];北京交通大学;2018年

10 常方雷;基于深度学习的蛋白质二级结构预测模型研究[D];天津大学;2018年



本文编号:2887770

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2887770.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7fb1c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com