基于机器学习的siRNA沉默效率预测方法研究

发布时间:2018-03-24 14:02

  本文选题:siRNA设计 切入点:RNA干扰 出处:《吉林大学》2017年博士论文


【摘要】:RNA干扰(RNA interference,RNAi)是一种利用双链RNA(double-stranded RNA,ds RNA)依据碱基互补配对原则,实现转录后的基因沉默现象。植物、真菌、无脊椎动物和哺乳动物等真核生物都能够实现RNAi过程。在哺乳动物细胞中,ds RNA被剪切成较短的21-23nt的双链RNA,即小干扰RNA(small interfering RNA,siRNA),诱导靶标m RNA的降解。近年来RNAi在研究基因功能、基因治疗以及药物研发中具有非常广泛的应用,对于RNAi技术过程中起关键作用的siRNA,更是受到了研究人员的关注。由于靶向同一m RNA不同位置的一系列siRNA会产生不同的沉默效率,且大部分的siRNA产生的沉默效率都不理想,因此,如何设计高效的siRNA使得靶标m RNA的沉默效率达到最高,已成为RNAi研究中最关键的问题。siRNA设计是将RNAi技术应用到研究基因功能与药物研发等领域的重要前提,也已经成为RNAi研究的一个热点。目前siRNA设计方法主要分为两类:基于统计规则的siRNA设计方法以及基于机器学习的siRNA设计方法。研究表明,基于机器学习的siRNA设计方法能够更准确地定量预测siRNA对靶标m RNA的沉默效率。然而,尽管目前已经产生了一系列基于机器学习的siRNA设计算法,但预测效率仍有待提高,siRNA序列上与siRNA沉默效率相关的潜在特征还需进一步发掘,许多新颖的高性能机器学习模型尚待尝试用于siRNA效率预测。本文将从siRNA序列中挖掘潜在影响RNAi过程的特征,并在此基础上提出基于随机森林预测模型定量预测siRNA沉默效率的方法;此外,为探测siRNA序列中不同长度motif对siRNA沉默效率的影响,本文还提出了基于卷积神经网络的siRNA效率预测模型。全文的主要研究内容如下:1、提出将二模和三模motif位置编码作为siRNA沉默效率预测的新特征,并建立随机森林预测模型定量预测siRNA的沉默效率。由于siRNA序列是影响RNAi效率的重要因素,从siRNA序列中挖掘更多潜在的特征也一直是研究的重点。有研究表明,当siRNA序列中每一位的2-3bp RNA被DNA代替,RNAi的效率会发生一定的变化。这说明,不仅单碱基位置与组成与RNAi效率相关,siRNA序列上特定位置的二模和三模motif也与RNAi效率相关。本文首先根据已知的siRNA样本验证siRNA序列中不同位置二模和三模motif在高效siRNA和低效siRNA之间存在显著的偏好性;然后,提出将二模和三模motif位置编码作为新的预测特征;随后,利用基于z-score的最优特征集合搜索方法,筛选与siRNA沉默效率最相关的特征子集,构建基于随机森林的siRNA沉默效率预测模型,并据此开发高效siRNA沉默效率在线预测平台siRNApred。在Huesken数据集上进行的验证实验表明,siRNApred预测结果的PCC值达0.722,比Biopredsi、i-score、Thermo Composition-21、DSIR等已有siRNA沉默效率预测方法分别提高了9.39%,10.39%,9.56%和7.76%。此外,在多个独立数据集上进行预测实验考察siRNApred的泛化能力,结果均显示其比其他方法性能更稳定。siRNApred工具的在线地址为http://www.jlucomputer.com:8080/RNA/。2、设计卷积神经网络实现siRNA siRNA沉默效率预测方法。siRNA序列对RNAi效率的影响不仅在于二模和三模motif,多模motif也可能与siRNA沉默效率密切相关。然而,现有的siRNA特征提取方法未能体现多模motif对siRNA沉默效率的贡献。为探寻多模motif对siRNA沉默效率的影响,本文提出基于卷积神经网络的siRNA效率预测模型。在卷积神经网络中的卷积层,设计合理尺寸的卷积核作为motif探测器,以数据驱动方式自动学习多模motif更抽象、更贴近本质、更利于分类的潜在特征模式,并形成综合多模motif作用共同预测siRNA沉默效率的模型。该模型经过实验调校模型超参数,形成由一个卷积层,一个池化层和一个输出层构成的卷积神经网络。其中卷积层使用6×4至19×4共14种尺寸卷积核探测潜在motif特征模式,池化层使用最大值算子和均值算子选取最具代表性神经元构成特征表达,输出层使用逻辑回归映射预测结果。在综合多个siRNA数据集的大规模样本上进行比较实验,结果显示该方法的PCC值和AUC值达0.717和0.894,均高于Biopredsi,DSIR以及siRNApred方法。这体现该方法能够深入挖掘siRNA序列中不同长度motif对siRNA沉默效率的贡献,更充分地将siRNA序列的局部特性、碱基和motif组成以及位置排列等有价值线索蕴含于特征模式中。这种由数据驱动的特征学习模式比依赖专家知识预设的特征提取模式性能更优。本文主要创新点包括:(1)、首先提出将二模和三模motif位置编码作为siRNA沉默效率预测的新特征,其次提出基于z-score的特征选择算法并对siRNA单碱基编码、siRNA和m RNA序列组成、二模和三模motif位置编码和热力学参数进行特征筛选,最后开发siRNA沉默效率在线预测平台siRNApred;(2)、设计用于探测siRNA序列中多模motif特征模式的卷积核,提出并验证基于卷积神经网络的siRNA效率预测模型。综上所述,本文旨在进一步挖掘与siRNA沉默效率相关的特征,并综合多种siRNA特征表示和特征选择算法,建立依据生物学属性的最佳特征集合,并在随机森林分类器上提升siRNA沉默效率预测效果;同时,设计合理的卷积神经网络结构,数据驱动地学习多模motif潜在特征模式,从而设计更高效siRNA。文章提出了两个siRNA效率预测模型,并详细描述了每个模型的细节,设计比较实验验证这两个模型的精度,结果显示本文方法与当前主流的siRNA沉默效率预测方法相比性能均有所提升。
[Abstract]:......
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:Q811.4;TP181

【相似文献】

相关期刊论文 前10条

1 ;Protein functional-group 3D motif and its applications[J];Chinese Science Bulletin;2000年22期

2 ;Identification of protein superfamily from structure-based sequence motif[J];Chinese Science Bulletin;2002年16期

3 许诗蓉;汪四水;;用网络方法识别生物序列motif[J];生物信息学;2008年04期

4 周俊;贾国卿;冯兆池;李灿;;i-Motif在分子拥挤条件下的性质[J];高等学校化学学报;2010年02期

5 孙远平;王红岩;马志强;;基于高阶位置特异性得分矩阵的motif识别[J];硅谷;2009年14期

6 刘陶陶;CpG motif的免疫调节作用及机制[J];生物技术通讯;2002年01期

7 徐悦;陈虎;璩玉杰;Artem K.Efremov;黎明;欧阳钟灿;刘冬生;严洁;;Mechano-chemical selections of two competitive unfolding pathways of a single DNA i-motif[J];Chinese Physics B;2014年06期

8 Mani Udayakumar;Palaniyandi Shanmuga-priya;Kamalakannan Hemavathi;Rengasamy Seenivasagam;;Active motif finder-a bio-tool based on mutational structures in DNA sequences[J];Journal of Biomedical Research;2011年06期

9 ;A cooperative fast annealing coevolutionary algorithm for protein motif extraction[J];Chinese Science Bulletin;2007年03期

10 ;Mutational analysis of the SDD sequence motif of a PRRSV RNA-dependent RNA polymerase[J];Science China(Life Sciences);2011年09期

相关会议论文 前10条

1 ;Motif Based Gene Discovery in Plant and Bacteria[A];第十二届全国植物基因组学大会论文集[C];2011年

2 Tao Zhang;Cheng Zhu;Changsheng Zhang;Luhua Lai;;TNFαbinding protein design using a de novo designedβαβmotif[A];生命的分子机器及其调控网络——2012年全国生物化学与分子生物学学术大会摘要集[C];2012年

3 Yawei Shi;Jiang Yu;Yuan Jia;;Redox-regulated lipid membrane binding of the PICK1 PDZ domain[A];中国生物化学与分子生物学会第十届会员代表大会暨全国学术会议摘要集[C];2010年

4 薛蓉;刘昀;李晓晶;吴亦洁;郑易之;裴奉奎;;LEA3蛋白11-氨基酸motif的结构研究[A];第十六届全国波谱学学术会议论文摘要集[C];2010年

5 海锦慧;鲁嘉;周芳;杨小弟;李卉卉;;人类原癌基因c-myb启动子i-motif的形成及性质[A];中国化学会第29届学术年会摘要集——第22分会:化学生物学[C];2014年

6 Ye Zhao;Mark T.Gregory;Biertümpfel;Yue-Jin Hua;Fumio Hanaoka;Wei Yang;;Mechanism of somatic hypermutation at the WA motif by human DNA polymerase eta[A];第四届中国结构生物学学术讨论会论文摘要集[C];2013年

7 Jianchuan Wang;Chen Zhong;Fang Wang;Fangfang Qu;Jianping Ding;;Crystal structures of S6K1 provide insights into the regulation mechanism of S6K1 by the hydrophobic motif[A];第四届中国结构生物学学术讨论会论文摘要集[C];2013年

8 ;A Conserved C-terminal Motif is Essential for the Self-interaction of Barley Stripe Mosaic Virus TGB3 Protein[A];中国植物病理学会2009年学术年会论文集[C];2009年

9 王虹;滕脉坤;李旭;;Crystal structure of the two N-terminal RRM domains of the human mRNA stability factor HuR[A];生命的分子机器及其调控网络——2012年全国生物化学与分子生物学学术大会摘要集[C];2012年

10 Lixia Sun;Xiuzhen Hu;;PredictingβαβMotifs Based on SVM Algorithm by Using the ID and MS values[A];第五届全国生物信息学与系统生物学学术大会论文集[C];2012年

相关博士学位论文 前2条

1 韩烨;基于机器学习的siRNA沉默效率预测方法研究[D];吉林大学;2017年

2 邢丽娟;CK1δ/ε对SR motif激酶活性的进化[D];南京大学;2013年

相关硕士学位论文 前10条

1 段德昌;有关网络模糊motif及其精确化算法的研究[D];西安电子科技大学;2014年

2 王珂;光牵引脉孢菌系统的滤波效应[D];苏州大学;2016年

3 应乐;基于荧光共振能量转移的i-motif探针用于细胞内外pH值检测[D];湖南大学;2016年

4 许诗蓉;用网络的方式识别生物基因序列motif[D];苏州大学;2008年

5 李鑫;网络图的motif发现算法研究[D];南开大学;2013年

6 杨松;表面粗糙度的三维motif评定方法研究[D];南京农业大学;2008年

7 吕沙沙;基于启发式策略的快速motif发现方法研究[D];北京交通大学;2011年

8 朱燕平;i-motif结构折叠与解折叠机理研究[D];东华大学;2014年

9 王文星;对G-quadruplex及i-motif性质研究[D];四川师范大学;2008年

10 陈鑫;石墨烯量子点稳定和诱导i-motif DNA结构的形成[D];华东理工大学;2013年



本文编号:1658615

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1658615.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bd69e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com