内含子保留型可变剪切的识别方法和相关特征研究
本文关键词:内含子保留型可变剪切的识别方法和相关特征研究,由笔耕文化传播整理发布。
【摘要】:可变剪切使同一基因因选择不同的剪切位点而产生多个不同的剪切异构体,它是调节基因表达和产生蛋白质多样性的重要机制。随着新一代测序技术的发展,提供了海量的和植物特定组织和生长条件相关的高通量转录组测序数据,使研究者们不但在发生较少可变剪切的植物群体内发现了越来越多的可变剪切事件;而且还发现和动物群体不同,植物群体中主要发生的是内含子保留型可变剪切。目前,从这些庞大的数据中全面的识别出内含子保留型可变剪切及与之相关的特征的研究相对较少。模式植物拟南芥的基因组和转录组数据较其他植物丰富,本研究以它们为数据基础,探索了内含子保留型可变剪切的识别方法,分析了与内含子保留型可变剪切相关的特征,主要工作和结论如下:1)针对植物群体中内含子保留型可变剪切认识不充分,数据信息不完善的问题设计了两种保留型内含子和组成型内含子的识别算法。第一种是根据最新拟南芥基因组注释文件和序列文件,从mRNA和基因组序列比对坐标的角度设计保留型内含子和组成型内含子识别算法。第二种是基于RNA-seq并考虑转录本表达量计算的识别算法,其完整的处理方案包括:CLC数据预处理,gsnap读段定位,cufflinks转录本重构,cuffmerge转录本合并并修正转录本组装,cuffdiff2转录本表达量计算和样本间差异评估;之后重构第一种保留型内含子和组成型内含子识别算法完成两类内含子的识别,同时计算了两类内含子所在的转录本的表达量信息。算法和已有的同类识别算法相比,去除了保留型内含子的冗余记录,修正了组成型内含子的记录,产生了最新的保留型内含子和组成型内含子数据库,包括不同组织和非生物胁迫数据中共识别的4856个保留型内含子(1384个TAIR10注释文件中已识别的和3472个新识别的保留型内含子)和58436个组成型内含子;全新的生物胁迫测序数据中共识别了2262条保留型内含子,其中675条是在TAIR10注释文件中已识别的,1587条是新识别的保留型内含子。2)针对保留型内含子的相关特征识别的问题设计新的复合特征提取算法用于保留型内含子和组成型内含子的分类预测。新的特征提取算法综合考虑了两类内含子的序列结构特征,频繁度差异特征和生物学特征。分别使用随机森林和PSOSVM(作者设计的利用粒子群优化算法优化基于RBF核的SVM参数的分类器)两种分类器对应用了这种新的特征提取算法和其他四种不同的特征提取算法的数据集进行分类预测,实验结果证明新的特征提取算法取得了较好的分类性能。3)针对分类预测性能不理想的问题研究了影响内含子保留型可变剪切识别的关键因子。转录本的表达量是研究内含子保留型可变剪切的一个关键特征,但当我们仅把表达量作为新的特征引入我们的特征集,两种分类器分类预测的各项性能指标均不理想。论文研究了内含子保留型可变剪切的相对表达强度。发生了内含子保留型可变剪切的基因中存在两类剪切异构体,内含子保留型剪切异构体和未发生内含子保留型剪切异构体。相对表达强度就是比较内含子保留型剪切异构体的表达量(和未发生内含子保留型剪切异构体的表达量()的相对强弱,文中用Rirate进行量化。分析发现如果采用强于的标准(Rirate0)重新划分正例集(RIgzero),再利用随机森林和PSOSVM进行分类预测的准确率分别由0.741和0.653提高到0.928和0.892,最好的AUC(The area under the receiver operating characteristics curve)值达到了0.985,分类预测性能得到了显著提高。实验证明了分析中使用的Rirate是影响内含子保留型可变剪切识别的关键因子。4)针对内含子保留型可变剪切和生物逆境胁迫的关系研究了生物逆境胁迫下发生RIs的显著差异基因。论文首次对接种烟草花叶病毒(TMV)的处理本和抗病毒药物云芝多糖的处理本进行了转录组的高通量测序,识别了健康对照本和两个处理本中所有的内含子保留型可变剪切;分别从四个不同的角度判断发生了内含子保留型可变剪切的基因是否存在不同处理间的显著差异,进而识别出与RIs相关的显著差异基因;通过对这些显著差异的基因进行GO富集分析,发现它们多在新陈代谢过程、应激响应过程、蛋白激酶活性和腺嘌呤核苷酸结合功能中发挥着重要作用。论文中的发现有力地说明了拟南芥正是利用内部的内含子保留型可变剪切机制来调节应对外界生物胁迫造成的压力。5)针对组成型内含子和保留型内含子之间的差异问题研究了拟南芥中保留型内含子有别于组成型内含子的典型特征。论文对比分析了所识别的不同类型数据集中的内含子特征,发现了保留型内含子有显著区别于组成型内含子的特征包括:在3’剪切位点附近(11~52bp)不容易发现剪切分支位点保守基序“YTRAY”;“GC”含量相对较高,剪切位点强度相对较弱,剪切位点两侧序列相似度较高;研究推定拟南芥中的内含子剪切抑制子是富ag/ga-rich基序,像“gaag”,“gaga”,“agag”,“agga”。内含子剪切增强子是含tttt基序(4~5bp)。
【关键词】:可变剪切 保留型内含子 组成型内含子 随机森林 PSOSVM 复合特征提取算法
【学位授予单位】:西北农林科技大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q811.4
【目录】:
- 摘要5-7
- ABSTRACT7-12
- 第一章 绪论12-31
- 1.1 论文的研究背景12-17
- 1.1.1 真核生物的基因结构和表达12-13
- 1.1.2 剪切和可变剪切13-15
- 1.1.3 国内外研究现状15-17
- 1.2 可变剪切的研究方法17-27
- 1.2.1 可变剪切的生物学方法17-19
- 1.2.2 可变剪切的计算方法19-27
- 1.3 论文的主要工作和研究方法27-29
- 1.3.1 论文的主要工作27-28
- 1.3.2 论文的研究方法和技术路线28-29
- 1.4 论文组织结构29-31
- 第二章 基于全基因组注释和序列文件对拟南芥中内含子保留型可变剪切的研究31-52
- 2.1 引言31
- 2.2 RIs和CSIs的识别算法31-33
- 2.3 数据集33-35
- 2.4 新的复合特征提取方法35-42
- 2.4.1 A序列组成特征提取35-36
- 2.4.2 B频繁子序列的特征提取36-38
- 2.4.3 C剪切位点和内含子剪切位点两侧序列差异特征提取38-40
- 2.4.4 实验特征向量集40-42
- 2.5 分类算法及性能评价指标42-46
- 2.5.1 PSOSVM算法43-45
- 2.5.2 性能评价指标45-46
- 2.6 分类预测及结果分析46-50
- 2.7 小结50-52
- 第三章 基于不同组织和非生物胁迫的RNA-seq对拟南芥中RIs的研究52-78
- 3.1 引言52
- 3.2 基于RNA-seq的保留型内含子识别方法52-57
- 3.2.1 RNA-seq的数据来源和识别方法的设计思路52-54
- 3.2.2 CLC Genomics Workbench数据预处理54-55
- 3.2.3 gsnap读段定位55
- 3.2.4 cufflinks组装转录本55
- 3.2.5 cuffdiff2定量表达组装的转录本55-56
- 3.2.6 RI识别56-57
- 3.3 建立RIs集合,比较六样本及第二章产生的RIs间的异同57-60
- 3.4 RIs和CSIs的分类预测60-76
- 3.4.1 新特征提取60
- 3.4.2 第一次实验方法和结果60-63
- 3.4.3 RIs数据集分析63-64
- 3.4.4 第二次实验方法和结果分析64-76
- 3.5 小结76-78
- 第四章 生物逆境胁迫下拟南芥中RIs研究78-95
- 4.1 引言78
- 4.2 测序样本的实验室准备和测序78-80
- 4.2.1 实验室样本准备78-79
- 4.2.2 建库测序79
- 4.2.3 测试数据预处理79-80
- 4.3 测试数据的基本处理80-81
- 4.4 识别所属基因具有显著差异的内含子保留型可变剪切81-82
- 4.5 T,V对H中的RIs相对增强或者削弱的显著差异基因的识别82-83
- 4.6 GO富集分析83-89
- 4.7 基于GBrowse的剪切分析结果的可视化89-94
- 4.8 小结94-95
- 第五章 结论与展望95-98
- 5.1 结论95-96
- 5.2 创新点96-97
- 5.3 展望97-98
- 参考文献98-106
- 致谢106-107
- 作者简介107
【相似文献】
中国期刊全文数据库 前10条
1 黄国华;;基于相对高度的曲线特征提取算法[J];邵阳学院学报(自然科学版);2011年01期
2 刘劲;扶晓;李东旭;;基于模糊数学的虹膜特征提取算法评估[J];电脑编程技巧与维护;2012年18期
3 杨征;;一种改进的无损可逆时频联合特征提取算法[J];科技通报;2014年06期
4 赵月萍;王明泉;冯晓夏;;一种有效的指纹细节特征提取算法的研究[J];应用光学;2010年03期
5 刘靖;;基于改进局部保持映射的图像特征提取算法[J];哈尔滨师范大学自然科学学报;2010年06期
6 张晓东,陈锋;基于非线性回归的自适应特征提取算法[J];阜阳师范学院学报(自然科学版);2004年02期
7 罗敏;朱晓岷;李小红;余纯武;;基于径向小波变换的图像特征提取算法[J];武汉大学学报(信息科学版);2008年01期
8 谈文蓉;刘莉;;基于汉语相似性文献检测的特征提取算法研究[J];西南民族大学学报(自然科学版);2011年03期
9 向旭宇;;汉字轮廓特征提取算法及其实现[J];邵阳学院学报(自然科学版);2006年01期
10 杨小冬;宁新宝;尹义龙;;自动指纹识别系统预处理技术及细节特征提取算法的研究[J];南京大学学报(自然科学版);2006年04期
中国重要会议论文全文数据库 前10条
1 周宽久;陈雪峰;;人体脉搏波特征提取算法研究[A];2006中国控制与决策学术年会论文集[C];2006年
2 管鲁阳;鲍明;李晓东;;基于简化耳蜗模型的车辆声信号特征提取算法[A];中国声学学会2007年青年学术会议论文集(下)[C];2007年
3 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 吴晴;郑杰;徐龙;;基于中心扫描细化断点的指纹特征提取算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
5 谢志宏;颜巾惠;白羽;魏磊;;完全仿射不变的图像特征提取算法研究[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
6 傅明;万励;刘国英;;一种新的图像特征提取算法——DCDSH[A];第二届全国信息获取与处理学术会议论文集[C];2004年
7 翟来娟;许小剑;;基于sinc模型的目标散射中心峰值特征提取算法[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
8 张伟;张建勋;郭锐;;一种新的基于TLLE的特征提取算法[A];2010振动与噪声测试峰会论文集[C];2010年
9 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前6条
1 毛锐;内含子保留型可变剪切的识别方法和相关特征研究[D];西北农林科技大学;2015年
2 袁晓彤;非参数核密度聚类与特征提取算法研究[D];中国科学院研究生院(自动化研究所);2009年
3 赵启斌;EEG时空特征分析及其在BCI中的应用[D];上海交通大学;2008年
4 张振慧;蛋白质分类问题的特征提取算法研究[D];国防科学技术大学;2006年
5 苏雅茹;高维数据的维数约简算法研究[D];中国科学技术大学;2012年
6 龙潜;噪声环境下的语音识别技术研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 杜鹏飞;心电信号的预处理及特征提取算法研究[D];郑州大学;2015年
2 刘宁;Lp范数约束的广义主成分分析在人脸识别中的应用[D];中国矿业大学;2015年
3 唐肖芳;面向运动想象的脑电信号特征选择与特征提取算法研究[D];西南科技大学;2015年
4 杨立波;雷达辐射源无意调制特征提取算法研究[D];电子科技大学;2014年
5 邱捷;基于云计算的社会化图片分享移动应用系统设计与实现[D];电子科技大学;2015年
6 欧晓文;摄像头运动状态下目标特征提取和跟踪的研究[D];华南理工大学;2015年
7 周杭;基于交叉频率扫描技术的脑机接口设计与实现[D];电子科技大学;2015年
8 张思远;基于视频的单目标跟踪研究[D];电子科技大学;2014年
9 王宪佼;基于整体和局部的人脸识别的研究[D];兰州交通大学;2015年
10 刘金莲;人脸识别中的局部保持特征提取算法研究[D];重庆师范大学;2013年
本文关键词:内含子保留型可变剪切的识别方法和相关特征研究,,由笔耕文化传播整理发布。
本文编号:420928
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/420928.html