当前位置:主页 > 科技论文 > 基因论文 >

基于序列模式挖掘识别基因剪接位点的研究

发布时间:2017-04-25 07:05

  本文关键词:基于序列模式挖掘识别基因剪接位点的研究,,由笔耕文化传播整理发布。


【摘要】:生物信息学是融合了计算机科学和生命科学形成的一门新兴交叉学科。生物信息学不仅成为了生物医学研究的基础学科,也成为了信息科学研究最为活跃的领域之一。基因表达调控是分子生物学研究的核心问题之一。基因剪接是基因表达过程中连接转录和翻译的中枢步骤。DNA通过转录得到前体RNA,前体RNA剪接后得到成熟RNA序列,根据成熟RNA序列编码蛋白质产物。研究基因剪接和剪接机制,能够为我们更深入了解基因表达提供重要证据,目前已成为生物信息学研究的一个重要方向。分子生物学理论研究表明影响剪接的核心顺式调控元件之一是剪接位点。医学工作者研究也表明多种人类疾病致病机理均和剪接位点突变有关联。所以,正确识别基因中存在的剪接位点是研究剪接机制和剪接位点突变的前提,并能为致病机制的研究提供依据和指导。围绕这个难题,本文通过挖掘剪接位点序列中蕴含的序列特征,融合PSSM(Position-Specific Scoring Matrix,位置特异分值矩阵)算法,提出了一个基于序列模式挖掘模型,可以实现对剪接位点信号强度的定量度量,进而识别剪接位点。基因剪接机制是多种不同顺式元件和蛋白质之间相互影响而进行的组合调控。为了更深入、更全面的研究剪接机制,我们在序列模式挖掘模型的基础上,进一步对剪接位点组合调控机制进行了研究。本文主要研究工作和创新之处如下:(1)提出一个能够定量分析剪接位点序列的模型。根据基因序列本身包含的丰富分类信息和保守型特征,本文应用频繁模式挖掘理论和算法融合PSSM算法,提出序列模式挖掘模型。通过该模型,挖掘出剪接位点序列中蕴含的碱基相关性,分别计算出供体剪接位点位点、受体剪接位点和致病基因突变剪接位点信号强度值,从而进行识别和分类。实验数据均按照生物理论,从UCSC数据库中的人类全基因序列抽取。通过对该模型的实验验证,可有效区分真、假剪接位点和识别致病剪接位点突变。并且其识别结果不仅优于最大信息熵模型,且本身具有良好鲁棒性。(2)剪接位点组合调控研究。剪接位点序列存在保守型(剪接位点上下游单聚体、二聚体、三聚体组成具有强相关性)是能够有效识别剪接位点的最大依据,现今的识别算法和模型也都是基于抽取的序列保守特征信息来构造分类器。但是,在基因剪接过程中,剪接位点、分支位点和剪接调控元件三种顺式序列以及不同的蛋白质均可以对剪接产生调控作用。并且,每一个内含子序列两端的5’端和3’端剪接位点本身也相互存在影响。研究不同剪接信号的相互作用和补偿机制,可以为提高剪接位点识别效果和深入研究剪接机制提供思路和证据。本文基于序列模式挖掘模型设计实验,对同一内含子5’端和3’端剪接位点信号强度进行量化,得出5’端剪接位点信号强度越大,3’端剪接位点就具有更多的选择,反之则不能的结论,阐明了两种不同剪接位点信号之间存在的关系。并进一步统计强弱5’端、3’端剪接位点延长序列上的四类剪接调控元件分布密度,得出剪接调控元件与剪接位点之间也存在相互补偿机制的证据。
【关键词】:生物信息学 剪接位点识别 序列模式 致病突变
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q78
【目录】:
  • 摘要3-5
  • Abstract5-13
  • 第一章 绪论13-18
  • 1.1 引言13-14
  • 1.2 选题目的与意义14-15
  • 1.3 剪接位点识别研究现状15-16
  • 1.4 本文的主要工作和内容安排16-18
  • 第二章 真核基因剪接的生物学基础18-25
  • 2.1 引言18
  • 2.2 生物学基础知识18-19
  • 2.3 基因的表达控制19-21
  • 2.3.1 真核基因的转录调控20-21
  • 2.3.2 真核基因的翻译调控21
  • 2.4 真核基因的剪接机制21-23
  • 2.5 生物分子数据库23-24
  • 2.6 本章小结24-25
  • 第三章 序列模式挖掘模型25-34
  • 3.1 引言25-26
  • 3.2 序列模式26-29
  • 3.2.1 频繁项集和关联规则挖掘26-27
  • 3.2.2 频繁模式挖掘经典算法——Apriori27-29
  • 3.3 基于序列模式挖掘建模单核苷酸短序列29-33
  • 3.3.1 模型数学形式化描述30-32
  • 3.3.2 建模流程32-33
  • 3.4 本章小结33-34
  • 第四章 基于序列模式挖掘模型的真核基因剪接位点识别34-47
  • 4.1 引言34
  • 4.2 识别定义剪接位点的最佳上下游序列长度34-38
  • 4.3 评价指标38-39
  • 4.4 数据提取39-41
  • 4.4.1 真假剪接位点提取39-40
  • 4.4.2 突变剪接位点提取40-41
  • 4.5 实验结果及讨论41-46
  • 4.5.1 序列模式挖掘模型区分真、假剪接位点41-42
  • 4.5.2 序列模式挖掘模型对比实验42-43
  • 4.5.3 序列模式挖掘模型的鲁棒性验证43-45
  • 4.5.4 序列模式挖掘模型识别剪接位点突变实验45-46
  • 4.6 本章小结46-47
  • 第五章 剪接位点组合调控研究47-53
  • 5.1 引言47
  • 5.2 5 ’端剪接位点调控3’端剪接位点的多样性47-50
  • 5.2.1 实验设计48
  • 5.2.2 实验结果及讨论48-50
  • 5.3 剪接调控元件与剪接位点间的补偿机制50-52
  • 5.3.1 实验数据准备50
  • 5.3.2 调控元件在剪接位点上下游密度分布实验50-52
  • 5.4 本章小结52-53
  • 第六章 总结和展望53-55
  • 6.1 工作总结53-54
  • 6.2 工作展望54-55
  • 参考文献55-61
  • 致谢61-62
  • 攻读硕士学位期间发表的学术论文62-63
  • 攻读硕士学位期间参加的科研项目63

【相似文献】

中国期刊全文数据库 前10条

1 夏慧煜,周晴,李衍达;隐Markov模型在剪接位点识别中的应用[J];清华大学学报(自然科学版);2002年09期

2 晏春,杜耀华,高青斌,王正志;基于支持向量机的人类5'非翻译区剪接位点识别[J];生物物理学报;2005年04期

3 刘利;李前忠;樊国梁;;低维输入空间的支持向量机识别人类剪接位点[J];生物物理学报;2008年01期

4 杨乌日吐;李前忠;林昊;杨科利;;预测竞争性和非竞争性剪接位点对(英文)[J];内蒙古大学学报(自然科学版);2008年03期

5 冯桂海;何涛;汪莉;王玉民;;果蝇非经典剪接位点的生物信息学预测[J];生物技术通讯;2010年06期

6 郑毅,丁达夫;果蝇内含子3'剪接位点的选择机制[J];生物物理学报;1994年03期

7 冯秀程,钱敏平,邓明华,马小土,严熙婷;隐半马氏模型在 3′剪接位点识别中的应用(英文)[J];生物化学与生物物理进展;2004年05期

8 晏春;杜耀华;王正志;;基因短序列模式分析及其在5’剪接位点识别中的应用[J];国防科技大学学报;2006年01期

9 陈丽萍;吕军;;利用多样性增量位置得分函数预测人类5'非翻译区剪接位点[J];内蒙古工业大学学报(自然科学版);2009年04期

10 王科俊;吕俊杰;冯伟兴;王鑫;贺波;;一种新的真核基因剪接位点识别方法[J];电子学报;2011年05期

中国博士学位论文全文数据库 前2条

1 晋宏营;最大信息原理、能量及选择约束在基因剪接位点预测分析中应用的研究[D];内蒙古大学;2009年

2 刘薇;选择性剪接顺式调控元件的位置效应[D];武汉大学;2010年

中国硕士学位论文全文数据库 前10条

1 孙永山;基于序列模式挖掘识别基因剪接位点的研究[D];安徽大学;2016年

2 吕俊杰;真核基因剪接位点识别算法研究[D];哈尔滨工程大学;2010年

3 李燕青;基于支持向量机方法的剪接位点预测[D];福建农林大学;2012年

4 夏慧煜;剪接位点识别与选择性剪接机制的初步研究[D];清华大学;2004年

5 雷静;人类基因剪接供体位点识别的研究[D];北京工业大学;2004年

6 黄倩;脊椎动物基因组的超级保守序列及剪接位点分析[D];天津大学;2008年

7 朱建丽;水稻基因组序列分析与基因结构预测[D];华中科技大学;2007年

8 闫晓强;RNA剪接识别研究[D];吉林大学;2009年

9 高晓阳;smn-1与uaf-1相互作用调节秀丽隐杆线虫寿命和运动功能[D];中南大学;2014年

10 刘波;基因组中可移动元素的研究[D];内蒙古大学;2007年


  本文关键词:基于序列模式挖掘识别基因剪接位点的研究,由笔耕文化传播整理发布。



本文编号:325846

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/325846.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户85eb1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com