当前位置:主页 > 医学论文 > 实验医学论文 >

基于特征选择与生物相似度的HIV蛋白酶剪切位点预测研究

发布时间:2017-11-18 19:21

  本文关键词:基于特征选择与生物相似度的HIV蛋白酶剪切位点预测研究


  更多相关文章: HIV-PR 模式识别 特征选择 降维 相似度


【摘要】:人类免疫缺陷病毒(Human Immunodeficiency Virus, HIV)是获得性免疫缺陷综合症(Acquired Immunodeficiency Syndrome, AIDS)的罪魁祸首。理解HIV蛋白酶(HIV Protease, HIV-PR)的剪切特异性对研发蛋白酶抑制剂类药物至关重要,运用模式识别的方法预测HIV-PR剪切位点可以达到这一目的。本文通过特征选择并配合分类器设计方面的工作,进行八肽序列可剪切性重要位点的研究,并在保证预测泛化能力的前提下提高预测性能。本文同时进行了基于相似度的八肽序列建模探索,提出一种基于无空位全序列比对的相似度以描述样本间的关系,并以此为基础进行HIV-PR剪切位点预测。本文内容主要分为以下三部分: 第一,针对HIV-PR剪切位点预测改进CAFS (Constructive Approach for Feature Selection)特征选择算法,实现结合人工神经网络结构优化的特征选择。一方面,实现了特征降维,简化特征空间;另一方面,自动决定神经网络隐藏层节点个数,实现神经网络结构优化,从而确保其泛化能力,达到提高预测性能的目的。通过准确率、敏感度、特异度、MCC (Matthews Correlation Coefficient)和AUC (Area Under Curve)五种指标评价预测效果。结果表明,通过该方法得到的特征子集具有优秀的预测性能,将得到的特征子集进行决策融合后使预测性能得到大幅提高。此外,通过分析得到的特征子集,确定八肽序列中靠近断裂点的P1、P1'、P2和P2'位点对决定八肽序列的可剪切性起到重要作用。 第二,针对HIV-PR剪切位点预测改进BPFS (Binary Projection Feature Selection)特征选择算法,将其用于本文的研究,成功地简化了特征空间和分类器结构,保证了分类器的泛化能力。同时,对支持向量机(Support Vector Machine, SVM)进行参数优化以提高预测性能。将得到的特征子集进行特征融合,并利用优化参数后的SVM进行预测,得到了出色的预测性能。试验结果表明,该工作得到的结果优于当前基于特征提取的HIV-PR剪切位点预测研究。 第三,提出基于无空位全序列比对的相似度,并用于HIV-PR剪切位点预测。该相似度能很好地描述序列样本间的关系,并以此为基础实现HIV-PR剪切位点预测。基于替换矩阵计算不同样本间的相似度,进而得到相似度矩阵,利用此矩阵并结合使用SVM得到了出色的预测性能。这表明,基于相似度进行HIV-PR剪切位点预测的思路是有效
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:R512.91;R3411

【参考文献】

中国博士学位论文全文数据库 前1条

1 刘惠;蛋白质序列数据的分类预测研究[D];上海交通大学;2007年

中国硕士学位论文全文数据库 前2条

1 刘丹青;面向信号肽预测的若干数据挖掘算法研究[D];上海交通大学;2007年

2 祝庆燕;生物序列比对算法的研究与实现[D];哈尔滨工业大学;2007年



本文编号:1200890

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/1200890.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户40fdd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com