蛋白质-RNA相互作用的集成算法预测研究及统计分析
发布时间:2017-05-25 12:23
本文关键词:蛋白质-RNA相互作用的集成算法预测研究及统计分析,由笔耕文化传播整理发布。
【摘要】:蛋白质-RNA相互作用与生物体内的多种生命活动密切相关。因此,探讨蛋白质-RNA相互作用的分子机制,对于理解生物学过程、疾病病理研究以及药物设计具有重要的指导意义。目前,生物学家通过X-射线晶体衍射和核磁共振等实验方法得到蛋白质-RNA复合物的结构数据仍然较少,主要是由于实验测定过程较为复杂繁琐,时间和经费方面花费比较大,并且有些蛋白质-RNA复合物结晶很难通过实验方法来获得。因此,随着蛋白质-RNA复合物结构数据的不断积累,研究人员逐渐尝试从生物信息学角度研究蛋白质-RNA的相互作用。 本学位论文以蛋白质-RNA复合物为研究对象,综合应用多种统计学和生物信息学方法,探讨了蛋白质-RNA相互作用的几个关键问题:RNA结合蛋白识别、RNA结合氨基酸残基识别、RNA结合残基偏好性以及氨基酸-RNA结合模式的统计分析,希望建立以蛋白质序列和结构信息为基础的RNA结合蛋白、RNA结合位点的预测模型,并对蛋白质-RNA相互作用界面进行系统分析,为蛋白质-RNA相互作用机制研究提供更为深入的参考信息。本论文的具体研究工作包括以下几个方面: 1、建立了基于随机森林算法和支持向量机算法的RNA结合蛋白识别的集成算法预测模型。建立预测模型过程中,我们充分考虑了蛋白质的序列信息和结构信息,即蛋白质的物理化学性质、进化信息以及溶剂可及化表面积。由于每条蛋白质链的长度不一致,需要通过一定的方法将这些长度不等的蛋白质特征转换为长度相同的数值信息。基于转换后的特征信息,我们采用基于随机森林算法和支持向量机为基础分类器的集成学习方法来构建分类模型,以解决数据集中不同类样本量的不平衡问题。集成模型还可以有效提高模型的准确率和泛化能力。模型的预测结果显示,本工作采用的方法获得了令人满意的结果。进一步讨论分析发现支持向量机方法的预测能力和拟合能力优于随机森林方法,并且集成算法也确实有效地解决了样本不平衡问题。 2、基于蛋白质序列和结构的综合特征信息,我们构建了RNA结合残基的集成预测模型。首先基于蛋白质序列,我们计算了氨基酸的进化信息、保守性信息和物理化学信息。其次根据蛋白质的三维结构计算得到氨基酸的溶剂可及化表面积和蛋白质的残基相互作用网络参数。根据随机森林方法对这些特征进行筛选以得到与蛋白质-RNA相互作用密切相关的描述符。最后将所选取的特征子集作为随机森林模型的输入,构建RNA结合位点识别的预测模型。本工作中我们共构建了50个独立的随机森林预测模型,最后将所有独立模型进行集成分析。结果显示,我们所建立的模型得到了令人满意的预测结果。另一方面,通过特征选择找到了影响氨基酸与RNA发生作用的重要特征信息,有助于蛋白质-RNA相互作用的作用机制的研究。 3、基于数据集RBP86,我们对复合物相互作用界面上的RNA结合残基、氨基酸-RNA结合模式以及重要特征在结合位点和非结合位点上的分布情况进行了统计分析。统计分析结果表明:(1)20种氨基酸中碱性氨基酸易于和RNA分子发生作用,尤其是赖氨酸(K)和精氨酸(R)。这主要是由于碱性氨基酸侧链带有正电荷,容易与带负电荷的RNA分子相互作用,并且碱性氨基酸的侧链都比较长,因此灵活性好,柔性大,易于和RNA分子作用。进一步发现氨基酸的极性也是影响蛋白质-RNA相互作用的重要影响因素;(2)在不同的蛋白质二级结构中,我们发现Turn类和Coil类结构的相对使用偏好性比较大。主要是由于这两类结构具有高曲率,灵活性好,有利于氨基酸与RNA发生结合;(3)两个相邻残基同时与RNA分子发生结合时,R、K和G之间的协同作用比较大,并且在残基相互作用网络中R与其他氨基酸之间的协同作用比较强烈。(4)本章还统计了6类不同氨基酸-RNA组合在复合物结构中发生结合的相对使用偏好性,结果显示结合氨基酸中碱性氨基酸和具有turn结构的氨基酸与RNA中的磷酸基团结合具有很高的结合偏好性,并且R和K所具有的结合偏好性最大。(5)针对重要描述符特征值在结合残基和非结合残基中的数值分布情况的统计分析发现,除了平均最短路径、连通性和节点度外,其他各类网络参数和保守性指数在低数值区域内,非结合位点残基发生的概率明显高于结合位点残基。相反,在高数值区域内,结合位点残基发生的概率高于非结合位点残基。
【关键词】:蛋白质-RNA相互作用 残基相互作用网络 界面分析 结合蛋白识别 结合位点识别 集成算法
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:R3411
【目录】:
- 摘要3-5
- Abstract5-10
- 第一章 研究背景与方法介绍10-37
- 1.1 蛋白质-RNA相互作用概述10-16
- 1.1.1 RNA结合蛋白的特征11-12
- 1.1.2 蛋白质-RNA相互作用的研究12-16
- 1.2 本文所使用的特征描述符介绍16-23
- 1.2.1 基于序列的蛋白质结构、物理化学性质表征17-20
- 1.2.2 基于序列的遗传信息表征20
- 1.2.3 基于结构的溶剂可及化表面积20-21
- 1.2.4 基于结构的残基相互作用网络特征参数21-23
- 1.3 本论文中应用的主要研究方法23-29
- 1.3.1 特征选择方法23-24
- 1.3.2 机器学习方法24-26
- 1.3.3 集成学习方法26-28
- 1.3.4 模型评价及验证28-29
- 1.4 本论文的选题思路29-30
- 参考文献30-37
- 第二章 基于机器学习算法集成的RNA结合蛋白的预测研究37-47
- 2.1 研究背景介绍37-38
- 2.2 数据来源和方法38-40
- 2.2.1 数据来源38-39
- 2.2.2 特征描述39-40
- 2.2.3 建模及验证40
- 2.3 结果和讨论40-44
- 2.3.1 训练集交互验证和测试集结果40-41
- 2.3.2 特征分析41-43
- 2.3.3 与其它方法的结果比较43-44
- 2.4 结论44-45
- 参考文献45-47
- 第三章 基于序列和结构信息的RNA结合残基集成预测模型47-60
- 3.1 研究背景介绍47-49
- 3.2 数据来源和方法49-51
- 3.2.1 数据来源49
- 3.2.2 特征描述49-51
- 3.2.3 建模及验证51
- 3.3 结果和讨论51-56
- 3.3.1 随机森林集成方法的预测结果51-53
- 3.3.2 与其他方法的结果比较53-54
- 3.3.3 重要特征分析54-56
- 3.4 结论56-58
- 参考文献58-60
- 第四章 蛋白质-RNA相互作用界面的统计分析60-73
- 4.1 研究背景介绍60-61
- 4.2 数据来源和方法61-63
- 4.2.1 数据来源61
- 4.2.2 结合偏好性61-63
- 4.2.3 残基保守性和网络特征分析63
- 4.3 结果和讨论63-71
- 4.3.1 蛋白质-RNA复合物中RNA结合残基的偏好性63-66
- 4.3.2 蛋白质-RNA复合物中氨基酸-RNA结合对的偏好性66-68
- 4.3.3 重要特征在RNA结合残基和非结合残基上的分布差异性68-71
- 4.4 结论71-72
- 参考文献72-73
- 在学期间的研究成果73-74
- 致谢74
【参考文献】
中国期刊全文数据库 前1条
1 马昕;郭静;孙啸;;蛋白质中RNA-结合残基预测的随机森林模型[J];东南大学学报(自然科学版);2012年01期
本文关键词:蛋白质-RNA相互作用的集成算法预测研究及统计分析,,由笔耕文化传播整理发布。
本文编号:393732
本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/393732.html
最近更新
教材专著