高通量全长转录组测序数据的表达水平计算研究
发布时间:2020-07-30 08:29
【摘要】:转录组表达水平测量计算是基因功能研究的重要手段,而真核生物选择性剪切的存在给准确计算基因异构体表达水平带来了困难。近几年诞生的第三代测序技术是转录组研究的一种新的实验方法,其显著特点是可以获得超长读段,弥补了第二代测序技术中的读段过短,异构体检测较为困难的缺点。PacBio公司针对转录组提出的ISO-seq测序技术,给转录组研究尤其是检测新型异构体领域带来了新机遇。但目前对于ISO-seq数据在转录组研究的应用中极少有工作涉及异构体表达水平的计算,一部分研究工作通过结合RNA-seq技术数据,使用ISO-seq与RNA-seq混合数据进行表达水平的计算。而这些研究工作大多只用到小部分的全长读段数据,丢失了大部分非全长读段数据中较多有用信息,因而数据没有得到充分利用,造成数据通量低。另外,使用ISO-seq和RNA-seq混合数据的方法虽同时兼顾了两种测序技术的优点,但其计算复杂程度高,且获取同一样本下两种测序技术数据的成本高。本文针对这些问题,在保留非全长读段的基础上,提出了仅使用ISO-seq单一数据同时预测异构体结构和计算其表达比例的两个模型DSIDP和MCIDP。具体完成的工作如下:1)鉴于现有的预处理框架并不能满足本文保留非全长读段的需求,本文首先提出了一套保留全长和非全长读段的数据预处理方法。从ISO-seq原始数据出发,经过下机数据处理、读段纠错、读段比对和外显子序列整理四个步骤,最终获得模型的输入数据。2)针对具有全长读段的异构体表达水平计算问题,提出了DSIDP模型,从全长读段中建立异构体预测集,同时采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题。模型在模拟数据和真实数据上得到了有效验证。3)针对没有全长读段的超长异构体检测问题,提出了MCIDP模型,采用马尔科夫链模拟基因外显子之间的选择性剪接,该模型除了从全长读段中建立异构体预测集外,还能预测出数据中没有全长读段的超长异构体,这对新型异构体的发现具有重要意义。模型在模拟数据和真实数据上得到了有效验证。
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4
【图文】:
南京航空航天大学硕士学位论文基因中外显子与内含子。在经过选择性剪接事件之后,内含子被剪去,外显子之间拼接成两个成熟的 mRNA,指导不同蛋白质的合成。一条 mRNA 指导翻译出一个蛋白质,基转录出的 mRNA 数量越多,该基因表达出的蛋白质越多。因此通常使用某一基因转录出mRNA 数量来量化该基因的表达情况,这一量化指标被称为基因表达水平。图 2.2 展示过程中一个基因转录生成出了两个不同的 mRNA 分子,这样的现象被称为选择性剪接,有极为重要的意义,具体描述将在后续章节给出。图 2. 1 遗传信息传递方式一
图 2. 4 标准测序模式[31]图 2. 5 环形一致测序模式[31]对转录组测序,PacBio 公司基于其单分子实时测序技术提出了全长转录组测eq 技术,对 RNA 分子不做任何打断处理直接逆转录出 cDNA 构建测序文库,利用上可超长测序的优势,能够获取到完整异构体的碱基序列,为后续选择性剪接、等位达、同源异构体的研究提供精确数据保障。图 2.6 展示了 ISO-seq 技术的整个实验流程提取样本中所有RNA提取PolyA尾的mRNA逆转录出cDNA序列
图 2. 5 环形一致测序模式[31]对转录组测序,PacBio 公司基于其单分子实时测序技术提出了全长转录组测seq 技术,对 RNA 分子不做任何打断处理直接逆转录出 cDNA 构建测序文库,利用上可超长测序的优势,能够获取到完整异构体的碱基序列,为后续选择性剪接、等位达、同源异构体的研究提供精确数据保障。图 2.6 展示了 ISO-seq 技术的整个实验流程提取样本中所有RNA提取PolyA尾的mRNA逆转录出cDNA序列size-selection获取不同长度范围的cDNA序列构建环状ISO-seq测序文库SMRT测序仪测序
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4
【图文】:
南京航空航天大学硕士学位论文基因中外显子与内含子。在经过选择性剪接事件之后,内含子被剪去,外显子之间拼接成两个成熟的 mRNA,指导不同蛋白质的合成。一条 mRNA 指导翻译出一个蛋白质,基转录出的 mRNA 数量越多,该基因表达出的蛋白质越多。因此通常使用某一基因转录出mRNA 数量来量化该基因的表达情况,这一量化指标被称为基因表达水平。图 2.2 展示过程中一个基因转录生成出了两个不同的 mRNA 分子,这样的现象被称为选择性剪接,有极为重要的意义,具体描述将在后续章节给出。图 2. 1 遗传信息传递方式一
图 2. 4 标准测序模式[31]图 2. 5 环形一致测序模式[31]对转录组测序,PacBio 公司基于其单分子实时测序技术提出了全长转录组测eq 技术,对 RNA 分子不做任何打断处理直接逆转录出 cDNA 构建测序文库,利用上可超长测序的优势,能够获取到完整异构体的碱基序列,为后续选择性剪接、等位达、同源异构体的研究提供精确数据保障。图 2.6 展示了 ISO-seq 技术的整个实验流程提取样本中所有RNA提取PolyA尾的mRNA逆转录出cDNA序列
图 2. 5 环形一致测序模式[31]对转录组测序,PacBio 公司基于其单分子实时测序技术提出了全长转录组测seq 技术,对 RNA 分子不做任何打断处理直接逆转录出 cDNA 构建测序文库,利用上可超长测序的优势,能够获取到完整异构体的碱基序列,为后续选择性剪接、等位达、同源异构体的研究提供精确数据保障。图 2.6 展示了 ISO-seq 技术的整个实验流程提取样本中所有RNA提取PolyA尾的mRNA逆转录出cDNA序列size-selection获取不同长度范围的cDNA序列构建环状ISO-seq测序文库SMRT测序仪测序
【相似文献】
相关期刊论文 前10条
1 李法君;;降解组测序技术及其研究进展[J];生物学教学;2017年04期
2 彭桂兰;陈嘉慧;荣丹箐;;第四代测序技术[J];农村经济与科技;2017年10期
3 王海;;高通量测序技术新名词的理解和辨析[J];中国科技术语;2017年04期
4 权冰娥;李树;;新一代DNA测序技术在法医实践中的应用及其研究进展[J];辽宁警察学院学报;2017年06期
5 郑秋燕;李清;毛华明;冷静;;测序技术的发展对瘤胃元基因组研究的影响[J];黑龙江畜牧兽医;2015年21期
6 韩齐;李媛媛;孙方达;孔保华;陈倩;;新一代测序技术在食品微生物学中的应用[J];食品工业;2016年01期
7 杜兵兵;;第二代高通量测序技术的原理及其在医学中的应用进展[J];中国继续医学教育;2016年03期
8 周莹;许冰莹;;二代测序技术在临床医学上的相关应用[J];昆明医科大学学报;2016年03期
9 乌日拉嘎;徐海燕;冯淑贞;孙志宏;孟和毕力格;张和平;;测序技术的研究进展及三代测序的应用[J];中国乳品工业;2016年04期
10 郭海燕;程国虎;李拥军;张昊;秦康乐;;高通量测序技术及其在生物学中的应用[J];当代畜牧;2016年12期
相关会议论文 前10条
1 赵洁;赵志军;贾伟;师志云;赵颖;张玉英;赵s
本文编号:2775284
本文链接:https://www.wllwen.com/projectlw/swxlw/2775284.html