当前位置:主页 > 科技论文 > 化学论文 >

蛋白质—核酸相互作用位点预测新方法研究

发布时间:2017-05-22 10:06

  本文关键词:蛋白质—核酸相互作用位点预测新方法研究,,由笔耕文化传播整理发布。


【摘要】:蛋白质-核酸相互作用的发生,对于细胞中的很多生命现象都有重要的维持和促进作用。因此,蛋白质-核酸相互作用机理的研究,对于我们了解诸如细胞遗传信息的传递途径、细胞的新陈代谢,细胞分化、增值和衰老、细胞的信号转导方式等重要的细胞内活动,都有重要的理论意义。在蛋白质-核酸相互作用中,蛋白质中的核酸结合位点对于分子间的相互作用起到联系和桥梁的作用。因此对于核酸结合位点的识别,使我们能够进一步从残基和原子水平上对蛋白质-核酸相互作用的方式和细节进行深入了解。在蛋白质中核酸位点的识别中,传统的实验手段在具有很高的精确度的同时,也存在着实验技术复杂、周期长、成本较高等缺点。所以需要发展出其他的方法来确定蛋白质中的核酸结合位点。基于机器学习的计算方法就是在这样的背景下提出来的。通过使用从蛋白质序列和结构中提取得到的特征信息,可以对蛋白质中的残基进行编码,得到表征蛋白质序列残基的特征向量。在这些特征向量的基础上,可以使用机器学习算法建立蛋白质中的核酸结合位点预测模型,从而预测蛋白质序列中的核酸结合位点。本论文的工作具体包括以下几个方面:本论文的第一部分首先论述了蛋白质-核酸的相互作用方式和复合物在细胞中具有的生物功能。接下来总结了已经发展出来的RNA结合位点预测模型和DNA结合位点预测模型。在这些模型的构建中,常用的机器学习算法包括支持向量机、人工神经网络、贝叶斯方法和随机森林等。在这些方法中使用了包括蛋白质序列信息和蛋白质结构信息作为输入特征训练模型,取得不错的成果。最后,论述了现存方法中存在的问题,包括(1)模型泛化能力不高;(2)数据集中正负样本数据不平衡的现象;(3)模型的预测能力差的问题。针对上述问题,我们提出了一系列的有针对性的解决方法,结果表明我们提出的方法具有较好的问题解决能力。论文接下来的第二、三部分对于上述解决方法进行了具体的阐述。本论文的第二部分提出了基于随机森林算法的RNA位点识别模型。在这个模型中,使用了两种三种蛋白质序列特征和两种蛋白质结构特征作为特征向量。然后使用滑动窗口方法和光滑窗口方法对特征向量进行编码,使特征向量的维数和表征RNA结合位点的信息得到扩充。为了解决数据不平衡现象和模型预测准确率不高的问题,我们使用了合成正样本方法和一致性建模方法来构建RNA结合位点的分类模型。通过对测试集的预测结果可以看到,我们提出的RNA位点的预测模型具有较好的外部预测能力,对测试集序列中的RNA结合位点的预测准确率比较高。接下来我们使用两种方法对特征向量中的特征进行了打分和排序,对其中的重要特征的种类和数量进行了分析。得到蛋白质序列的位点特异性得分矩阵特征在RNA位点的识别中占有重要的作用。最后,我们和其他的RNA位点预测方法在测试集上进行了对比,结果也说明对于给定的测试集,我们提出的基于随机森林方法的预测准确率比较高。本论文的第三部分中,构建了基于随机森林算法的DNA位点预测模型。在该方法中,使用了五种蛋白质序列和结构信息作为输入特征。这些特征包括,蛋白质序列的组成特征,残基的物理化学性质,预测二级结构特征,可及化表面特征和B因子特征,使用这些特征来表征蛋白质序列中的残基。在其他模型构建方法的基础上,这些方法包括对特征向量使用窗口方法,在解决数据不平衡时,使用SMOTE方法和一致性建模方法,我们构建了对于测试集中DNA结合位点的预测准确度比较高的模型。最后,对特征向量中的重要特征,我们使用计算信息增益的方法,对特征进行排序,提取150个重要性特征。在这些重要特征的基础上,重新建立模型并预测测试集,也得到了比较好的预测结果。说明我们选取的特征具有比较好的代表性,能够有效地识别蛋白质序列中的DNA结合位点。在论文的最后一部分,对于提出的蛋白质中的核酸结合位点的预测模型进行了总结和展望。同时,也对基于机器学习方法的蛋白质序列的核酸结合位点的预测方法的发展方向进行了总结,指出更多的核酸结合蛋白质结构和序列的获得,是得到有效特征和提高模型准确率的关键途径。
【关键词】:蛋白质-核酸相互作用 核酸结合位点的预测 蛋白质序列和结构特征 SMOTE方法 一致性建模方法
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O641.3
【目录】:
  • 中文摘要3-5
  • 英文摘要5-11
  • 第一章 蛋白质-核酸结合位点预测的研究进展11-29
  • 1.1 蛋白质核酸相互作用简介11-16
  • 1.1.1 核酸结合蛋白质的功能特征分类11-14
  • 1.1.1.1 DNA结合蛋白质的功能特征12-13
  • 1.1.1.2 RNA结合蛋白质的功能特征13-14
  • 1.1.2 核酸结合蛋白质的结构域特征分类14-16
  • 1.1.2.1 RNA结合域的特征14-15
  • 1.1.2.2 DNA结合域的特征15-16
  • 1.2 蛋白质-RNA作用位点预测方法研究进展16-18
  • 1.3 蛋白质-DNA结合位点预测方法研究进展18-19
  • 1.4 本论文的选题背景和研究思路19-22
  • 参考文献22-29
  • 第二章 蛋白质中RNA结合位点的预测29-51
  • 2.1 研究背景29-30
  • 2.2 数据集30-31
  • 2.2.1 训练集30-31
  • 2.2.2 测试集131
  • 2.2.3 测试集231
  • 2.3 随机森林算法的原理31-32
  • 2.4 蛋白质序列的特征信息32-34
  • 2.4.1 位点特异性得分矩阵32
  • 2.4.2 溶剂可及化表面和相对溶剂可及化表面32
  • 2.4.3 物理化学性质32-33
  • 2.4.4 预测二级结构33
  • 2.4.5 蛋白质-RNA相互作用性质33-34
  • 2.5 模型构建过程中使用的方法34-36
  • 2.5.1 对位点特异性得分矩阵的处理34-35
  • 2.5.1.1 滑动窗口的使用34-35
  • 2.5.1.2 光滑窗口的使用35
  • 2.5.2 合成正样本方法的介绍35-36
  • 2.5.3 集成学习方法的介绍36
  • 2.6 模型评价体系36-37
  • 2.7 预测结果37-40
  • 2.7.1 窗口的优化37-38
  • 2.7.2 训练集的预测结果38-39
  • 2.7.3 测试集的预测结果39-40
  • 2.8 有效特征的提取方法40-43
  • 2.8.1 特征组选取法41
  • 2.8.2 单个特征选取法41-43
  • 2.9 影响RNA结合的重要特征分析43-46
  • 2.9.1 位点特异性得分矩阵特征分析43-44
  • 2.9.2 可及化表面特征分析44
  • 2.9.3 物理化学性质特征分析44-45
  • 2.9.4 蛋白质相互作用特征分析45
  • 2.9.5 预测二级结构特征分析45-46
  • 2.10 本工作和其他方法的比较46-47
  • 2.11 结论47-48
  • 参考文献48-51
  • 第三章 蛋白质中DNA结合位点的预测51-73
  • 3.1 研究背景51-52
  • 3.2 数据集52-53
  • 3.2.1 训练集52
  • 3.2.2 测试集52-53
  • 3.3 蛋白质序列的特征信息53-55
  • 3.3.1 蛋白质残基的组成信息53
  • 3.3.2 溶剂可及化表面和相对溶剂可及化表面53-54
  • 3.3.3 物理化学性质54
  • 3.3.4 预测二级结构54-55
  • 3.3.5 B因子特征55
  • 3.4 模型构建过程中使用的方法55-57
  • 3.4.1 滑动窗口和光滑窗口的使用55-56
  • 3.4.2 SMOTE方法和一致性建模方法56-57
  • 3.5 模型的评价体系57
  • 3.6 预测结果57-59
  • 3.6.1 窗口的优化57-58
  • 3.6.2 训练集的预测结果58-59
  • 3.6.3 测试集的预测结果59
  • 3.7 重要特征的提取方法59-62
  • 3.7.1 基于信息增益选取最优特征60-62
  • 3.8 影响RNA结合的重要特征分析62-64
  • 3.8.1 氨基酸组成特征分析62
  • 3.8.2 物理化学性质特征分析62-63
  • 3.8.3 可及化表面特征分析63-64
  • 3.8.4 B因子特征分析64
  • 3.9 结论64-65
  • 参考文献65-73
  • 在校期间的研究成果73-74
  • 致谢74

【相似文献】

中国期刊全文数据库 前7条

1 管维红;徐振源;朱平;;用非线性预测方法研究蛋白质序列的特性(Ⅱ)[J];食品与生物技术学报;2008年02期

2 张艳萍;贺平安;;蛋白质序列的图形表示及其应用[J];浙江理工大学学报;2010年02期

3 梅娟;何胜;王正祥;石贵阳;李炜疆;;基于网络模块性的蛋白质序列聚类[J];食品与生物技术学报;2010年01期

4 仇建烨;朱平;;P53基因蛋白质序列的相似性及其聚类分析[J];计算机与应用化学;2013年09期

5 姜小莹;魏蓉;董彩霞;李晓波;;基于最大熵模型预测蛋白质结构的分类[J];计算机与应用化学;2007年11期

6 张玲;高洁;;甲型流感病毒HA蛋白质序列的预测[J];食品与生物技术学报;2013年08期

7 ;[J];;年期

中国重要会议论文全文数据库 前4条

1 光宣敏;郭延芝;李梦龙;汪夏;;支持向量机预测蛋白质序列中胱氨酸氧化还原态[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

2 李通化;孙江明;李大鹏;唐胜男;丛培盛;;从蛋白质序列到结构和功能[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

3 肖奕;;蛋白质序列的对称性[A];第十次中国生物物理学术大会论文摘要集[C];2006年

4 陈文理;庞小峰;;LC/MS技术在蛋白质序列检测上的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年

中国重要报纸全文数据库 前1条

1 荐文;专利保护什么[N];医药经济报;2001年

中国博士学位论文全文数据库 前9条

1 徐海松;蛋白质序列中的折叠和去折叠信息[D];北京工业大学;2011年

2 林卫中;蛋白质序列离散灰色模型及其在药物开发中的应用研究[D];东华大学;2013年

3 吴自凯;信息度量的蛋白质序列、结构、质谱数据研究[D];大连理工大学;2007年

4 王栋;蛋白质序列的并行分类方法研究[D];天津大学;2010年

5 李明锋;结构对称蛋白质性质研究[D];华中科技大学;2008年

6 杨凡;生物序列分析中若干问题的研究[D];电子科技大学;2011年

7 王彤;高维生物数据的分类与预测研究[D];上海交通大学;2009年

8 刘亮伟;木聚糖酶蛋白质序列分析、分子进化和分子模拟[D];江南大学;2005年

9 余宏杰;生物序列特征信息提取方法及其应用[D];中国科学技术大学;2013年

中国硕士学位论文全文数据库 前10条

1 许时超;蛋白质序列一级结构图形构造及相似性分析[D];浙江理工大学;2015年

2 王绍鹏;蛋白质—核酸相互作用位点预测新方法研究[D];兰州大学;2015年

3 吴海燕;基于图能量的蛋白质图形表示及应用研究[D];山东大学;2015年

4 张艳萍;蛋白质序列的数学描述及其应用[D];浙江理工大学;2010年

5 李明锋;蛋白质序列和结构关系研究[D];华中科技大学;2005年

6 张X;基于粒度下的蛋白质序列的分析[D];江南大学;2011年

7 钱盼盼;蛋白质序列新的表示方法[D];山东大学;2011年

8 孔芬;蛋白质序列相似性分析的几种数学方法[D];浙江理工大学;2013年

9 张羊;基于谱的蛋白质序列比对方法研究[D];西安电子科技大学;2009年

10 贺晓梅;蛋白质序列特征表达及其在亚细胞定位预测中的应用[D];湖南大学;2012年


  本文关键词:蛋白质—核酸相互作用位点预测新方法研究,由笔耕文化传播整理发布。



本文编号:385354

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/huaxue/385354.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3871c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com