分子生物学系统建模及蛋白质功能预测相关问题研究
本文选题:分子生物学系统建模 + 蛋白质功能预测 ; 参考:《山东大学》2016年博士论文
【摘要】:生命科学是研究生命活动规律、生命本质、生命发育规律,以及各种生物之间和生物与环境之间相互关系的科学。进入21世纪后,生命科学蓬勃发展,取得了重大突破。生命科学的广阔应用前景备受瞩目,其不仅有助于揭示生命活动的基本规律,而且为疾病的诊断和治疗提供重要的理论基础。DNA双螺旋结构模型的建立使分子生物学成为生命科学领域的重要分支学科,开创了在分子水平上研究生命现象的新纪元。基因表达是分子生物学的理论基石,是遗传信息从DNA传向蛋白质的过程。基因表达生物学机理的研究为DNA计算的诞生奠定了理论基础。自20世纪以来,分子生物学发展迅速。然而,生物化学实验研究方法的成本相对较高。因此,建立有效的分子生物学系统模型并进行分析和预测,揭示生命过程所蕴含的奥秘,已经成为本领域亟待解决的问题。蛋白质是生命活动的物质基础和最终执行者,直接表征人体的生命现象和生理机能。对蛋白质进行功能预测将有助于在分子、细胞和生物体等多个层次上全面揭示生命现象的本质,为疾病发生机制的探究、药物的研发开辟全新的途径。除此之外,蛋白质功能预测对于食品、农业生产、环境监控等领域具有巨大的推动作用。上世纪80年代以来,基因组测序计划的持续开展累积了海量的蛋白质序列,且其增长速度日益加快。实验测定的蛋白质功能远远落后于新发现的蛋白质序列的增长速度,单纯依靠实验研究已不能满足全基因组范围内对蛋白质功能进行注释的需要。如何缩小已知序列的蛋白质数量和已测定功能的蛋白质数量之间的差距已经成为分子生物学的一个重要研究课题。开发先进高效的计算方法辅助实验技术,建立蛋白质功能的预测模型及在线预测平台,势在必行。虽然分子生物学系统建模和蛋白质功能预测相关研究问题在过去的十多年中取得了很大的进展,但依然存在很大的探索空间。基于基础数学理论和机器学习理论,本学位论文研究了分子生物学系统建模和蛋白质功能预测相关问题,具体研究工作概述如下:(1)目前对于遗传密码的生物学机理、生物特征及生物学意义的研究,已较为深入。然而,受限于遗传密码精确数学模型的缺失,对密码子与其它生命体或生物过程的关系研究很难进一步展开。基于群模型在刻画对称、互补等特性的优势,在复平面上建模了遗传密码,并建立了遗传密码、氨基酸与群元素的对应关系,得到了一些有价值的命题,尤其定义了同一类氨基酸的不同编码密码子之间的函数关系。上述模型将为定量分析和理解基因表达过程提供参考,同时有助于分析基因突变对蛋白质合成的影响,进而揭示复杂生物系统的运行机制。(2)DNA计算具有广阔的应用前景。为降低实验的开销,有必要首先针对DNA计算算法进行计算机仿真,然后再开展相应的DNA计算实验工作。数学模型具有提炼生物学特征、刻画生物学过程、计算生物学系统动态演化过程的潜质。基于元间数学理论,建模了 DNA计算求解哈密尔顿路径问题的实验过程,从数学角度给出了节点的编码规则,得到了适用于求解多节点哈密尔顿路径问题的推广元间模型。上述模型可作为一种求解哈米尔顿路径问题的仿生计算方法,有助于将DNA计算与计算机仿真相结合,为先仿真再实验的DNA计算技术研究方法提供模型基础。(3)细胞外基质蛋白的多样性是细胞外基质在组织形态发生、分化和体内平衡等多个生物过程中发挥调控作用的基础。抗冻蛋白吸附到冰晶的表面并抑制冰晶的生长是越冬生物在严寒环境中生存的前提。蛋白质类别预测是蛋白质功能预测领域的重要研究分支。细胞外基质蛋白的预测将有助于理解相关的生物过程和药物开发。抗冻蛋白的预测将为揭示AFP与冰晶的相互作用机制提供重要线索。现有的细胞外基质蛋白和抗冻蛋白预测系统基于单分类器预测算法,在一定程度上限制了其预测性能。为此,基于集成学习算法,分别构建了细胞外基质蛋白和抗冻蛋白预测系统。实验结果表明,上述预测系统远远优于同类其它方法。(4)高尔基体主要负责蛋白质的存储、包装和分发。高尔基蛋白类型通常分为顺面膜囊蛋白和反面膜囊蛋白,使蛋白质有序的进出高尔基体。高尔基体蛋白的功能障碍会导致营养不良、糖尿病、癌症和其它遗传疾病。正确预测高尔基体蛋白质类型将有助于阐明高尔基体在有关生物学过程的功能,并为理解疾病的发作机制提供重要线索。基于共空间模式(Common Spatial Patterns,CSP)的概念,开发了一种用于区分顺面膜囊蛋白和反面膜囊蛋白的预测模型。实验结果显示,CSP方法的性能稍差于传统方法,特征维数却是传统方法的1/20,极大地降低了计算复杂度。综合考虑预测性能和特征维数,CSP是一种有效的特征提取方法。通过少数类过采样算法,解决了数据集不平衡问题。利用递归搜索的方法排除了冗余的特征,进一步提高了预测性能。通过与现存方法进行比较,证实了该方法的强大预测能力。(5)蛋白质表面与其它生物分子发生相互作用的结合位点,对于蛋白质功能的实现非常重要。蛋白质功能预测的另一重要研究方向是区分结合位点与蛋白质其它表面区域。以黄素腺嘌呤二核苷酸(Flavin Adenine Dinucleotide,FAD)相互作用残基为研究对象,通过多种特征提取策略,构建了蛋白质结合位点预测模型。鉴于邻接残基的相互依赖关系,在提取进化信息时对位置特异性打分矩阵(Position Specific Scoring Matrix,PSSM)进行 了平滑。为进一步深入理解 FAD 相互作用残基(FAD-Interacting Residues,FIRs)形成的机制,对各种类型的特征进行了定量分析。结果表明,所提取的特征对于FIRs和non-FIRs具有较好的区分能力。为降低计算复杂度并提高预测模型的精度,利用特征选择技术有效地选取了最优特征集合,并对最优特征进行了分析,在一定程度上揭示了 FAD与蛋白质发生相互作用的机制。训练集上的交叉验证结果显示,该方法的预测效果明显优于现有其它方法。(6)PSSM广泛应用于蛋白质序列进化信息的提取。现已有很多用于提取蛋白质序列信息的网络服务器,然而,还缺乏利用PSSM提取进化信息的网络服务器,极大地限制了其实际应用价值。基于上述原因,首先把从PSSM进行特征提取的方法划分为3类;然后,基于各类特征提取方法,搭建了用于提取蛋白质序列进化特征的网络服务器—PSSM-PROREP;最后阐明了网络服务器的用法。PSSM-PROREP的设计灵活、可配置、并具人性化。专家用户和非专家用户均可方便的评估这些特征的预测能力,从而选择合适的特征开发鲁棒性较强的预测算法。PSSM-PROREP有望成为蛋白质功能预测领域的有效工具。
[Abstract]:The research on the biological mechanism of molecular biology has made great progress in the field of molecular biology . In order to reduce the cost of the experiment , it is necessary to carry out computer simulation on the DNA computing algorithm , and then carry out the corresponding DNA calculation experiment . The model is based on the theory of meta - mathematics , which can help to understand the biological process and drug development . In order to reduce the computational complexity and to improve the accuracy of the prediction model , the paper constructs a network server for extracting protein sequence information .
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q51
【相似文献】
相关期刊论文 前10条
1 曾岚,徐晋麟,李亦学,石铁流;大规模蛋白质功能预测方法的进展[J];生命的化学;2005年01期
2 卢宏超;石秋艳;石宝晨;张治华;赵屹;唐素勤;熊磊;王强;陈润生;;基于蛋白质网络功能模块的蛋白质功能预测[J];生物化学与生物物理进展;2006年05期
3 王繁业;李亚非;;用于新药开发的新的蛋白质功能预测方法[J];化学与生物工程;2006年09期
4 王秀鹤;王正华;王勇献;张振慧;;基于分组重量编码的蛋白质功能预测[J];生物信息学;2007年01期
5 倪青山;王正志;黎刚果;孟祥林;;基于K近邻的蛋白质功能的预测方法[J];生物医学工程研究;2009年02期
6 蒋英芝;贺连华;刘建军;;蛋白质功能研究方法及技术[J];生物技术通报;2009年09期
7 胡敏菁;吴建盛;施识帆;刘宏德;孙啸;;面向蛋白质功能位点识别的机器学习平台构建[J];生物信息学;2010年01期
8 赵研;卢奕南;权勇;;基于模糊积分多源数据融合的蛋白质功能预测[J];南京大学学报(自然科学版);2012年01期
9 吴建盛;;基于新型机器学习方法的蛋白质功能预测与分析[J];信息通信;2012年05期
10 刘言;沈素萍;方慧生;陈凯先;;蛋白质功能预测方法概述[J];生物信息学;2013年01期
相关会议论文 前10条
1 卢乃浩;张燕;李海玲;高中洪;;蛋白质酪氨酸硝化修饰对蛋白质功能影响及抗氧化剂的作用[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
2 郭延芝;李梦龙;;蛋白质功能预测中的特征筛选与优化[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
3 汪世华;;蛋白质芯片用于快速检测的研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
4 郭延芝;文志宁;李梦龙;;基于序列信息的蛋白质功能预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
5 王靖;李霞;高磊;朱明珠;杨德武;;蛋白质功能位点和结构域与人类蛋白质互作关联分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
6 刘克良;梁远军;;肽类药物研究进展[A];2006第六届中国药学会学术年会大会报告集[C];2006年
7 刘俊峰;王新泉;王占新;安晓敏;常文瑞;梁栋材;;造血干细胞中特异表达新基因kd93的重组表达和晶体结构研究[A];中国科协2005年学术年会生物物理与重大疾病分会论文摘要集[C];2005年
8 常珊;李春华;龚新奇;陈慰祖;王存新;;蛋白质不同区域的氨基酸保守性网络分析[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 张长胜;来鲁华;;基于关键相互作用的蛋白质功能设计[A];第五届全国化学生物学学术会议论文摘要集[C];2007年
10 李亦学;;蛋白质组功能注释[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年
相关重要报纸文章 前4条
1 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
2 刘云涛;北大蛋白质功能设计研究获新进展[N];中国医药报;2007年
3 记者 吴仲国;日首次公开招募研究人员[N];科技日报;2001年
4 华琳 王治强;我校三项“973”项目通过科技部验收[N];新清华;2005年
相关博士学位论文 前10条
1 滕志霞;基于序列和PPI网络的蛋白质功能预测方法研究[D];哈尔滨工业大学;2016年
2 杨润涛;分子生物学系统建模及蛋白质功能预测相关问题研究[D];山东大学;2016年
3 孙承磊;基于数据挖掘技术的蛋白质功能预测研究[D];上海大学;2013年
4 窦永超;预测蛋白质功能位点的几种新数学模型[D];大连理工大学;2011年
5 施绍萍;基于支持向量机的蛋白质功能预测新方法研究[D];南昌大学;2012年
6 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年
7 张同亮;基于智能计算的蛋白质功能预测研究[D];东华大学;2008年
8 马志强;蛋白质功能预测的非同源性计算方法研究[D];吉林大学;2009年
9 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
10 张拓;两种特殊类型蛋白质功能残基的预测与生物序列比对[D];南开大学;2009年
相关硕士学位论文 前10条
1 郭金文;基于序列循环关系网络模型的蛋白质功能预测技术研究[D];福建师范大学;2015年
2 刁印;基于图理论和互作网络的蛋白质功能预测研究[D];大连理工大学;2015年
3 张信;基于多数据源融合的蛋白质功能预测方法研究[D];大连理工大学;2015年
4 刘殿昆;NaHCO_3胁迫下柽柳(T.hispida)根部差异表达蛋白质的研究[D];东北林业大学;2016年
5 梁华东;基于流形学习的蛋白质功能预测与优化[D];安徽大学;2017年
6 王博;基于频繁功能模式的蛋白质功能预测[D];吉林大学;2012年
7 赵研;模糊积分在蛋白质功能预测上的应用[D];吉林大学;2012年
8 李希;基于序列特征的蛋白质功能类预测方法研究[D];湖南大学;2010年
9 王秀鹤;基于序列和相互作用的蛋白质功能预测[D];国防科学技术大学;2006年
10 邓小龙;基于随机游走的蛋白质功能预测方法的研究[D];吉林大学;2012年
,本文编号:1809495
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/1809495.html