当前位置:主页 > 理工论文 > 生物学论文 >

RNA互作文本挖掘工具开发及应用研究

发布时间:2020-08-20 18:33
【摘要】:RNA互作组学(RNA interactomics)是RNA组学(RNomics)研究的重要组成。其中,(1)RNA互作数据的收集和归纳以及(2)RNA相关互作网络的分析与挖掘是RNA互作组学研究的重要内容。目前生物学家已经开发了各种RNA互作相关的高通量实验技术、预测算法以及数据库,为RNA互作组学中数据收集和归纳研究提供了有力支撑。然而,还有大量生物实验发现的RNA互作数据分散在海量的文献中,缺乏系统的收集和归纳,这是RNA互作组学领域亟待解决的问题之一。开发针对相关数据的文本挖掘算法,是解决这个问题的重要途径。同时,RNA互作网络通常包含了海量的信息,这种级别的数据往往是传统生物学实验和技术难以应对的。因此,从数学和统计角度分析RNA互作网络,根据分析结果指导实验研究将成为RNA互作组学研究的新方法。本论文针对散在于文献中的海量RNA互作数据,开发了RIscoper(RNA Interactome Scoper)文本挖掘系统,可提取收集海量文献中各种RNA-RNA互作(RNA-RNA interaction,RRI)数据。然后,针对基于RIscoper软件辅助收集的RRI数据形成的RNA互作网络,选择对其中病毒-宿主间非编码RNA(non-coding RNA,ncRNA)介导的串扰(crosstalk)网络进行深入挖掘,尝试揭示病毒感染过程中潜在的分子机制。本论文的主要研究内容如下:1.基于N-元语义模型(N-gram model)设计和开发RIscoper算法流程及软件。算法流程第一步为语句标准化(sentence standardization),包括语句分割和词形还原等内容;第二步是对语句中的RNA名称进行命名实体识别(named entity recognition);第三步是语句打分(sentence scoring),用分值评价语句是否包含RRI数据信息,具体包括利用N-元语义模型计算语句的最大似然概率、利用柯蒂斯平滑算法(Katz smoothing algorithm)对概率矩阵进行平滑处理以及利用几何平均值对语句长度进行标准化处理。2.构建了一个包括13,377条RRI阳性语句的语料库作为RIscoper标准训练集。该语料库内所有语句均是通过人工阅读大量的专业文献而获取的(来源于超过5,000篇专业期刊文献),覆盖多种RNA互作信息。3.使用10-折交叉验证方法评价软件的性能。结果证明RIscoper在RRI数据(精确度:90.4%,召回率93.9%)和蛋白质-蛋白质互作(protein-protein interaction,PPI)数据(精确度:90.3%,召回率94.1%)提取上都有很高的性能。此外,案例研究的结果发现RIscoper可提取到绝大部分有效的RRI信息,这些结果表明RIscoper软件具有良好的准确性和实用性。4.收集整理多个数据库和平台的病毒-宿主(人类)间以及人类的PPI以及ncRNA-蛋白质互作(ncRNA-protein interaction,NPI)网络数据(其中NPI网络数据来自于RIscoper软件的辅助),分析病毒ncRNA靶向的宿主蛋白质以及ncRNA在PPI以及NPI网络中的中心性(度与介数),结果发现病毒ncRNA靶向的宿主蛋白质和ncRNA在网络中倾向于是中枢节点(hub node)以及瓶颈节点(bottleneck node)(靶向蛋白质:Wilcoxon秩和检验,度:P=1.99E-11,介数:P=9.32E-09;靶向ncRNA:Wilcoxon秩和检验,度:P2.2E-16,介数:P2.2E-16)。提示病毒在感染过程中倾向于攻击宿主分子调控网络的重要节点。例如,EBV原始病原体miR-BHRF1-1直接靶向人类PPI网络中枢和瓶颈蛋白质P53,控制EBV晚期裂解复制;ebv-miR-BHRF1-2直接靶向BCL2,抑制细胞早期凋亡。5.对病毒ncRNA和蛋白质共同靶向的人类蛋白质的中心性和功能进行分析,发现其度和介数显著高于其他靶向蛋白质,且显著参与到细胞死亡相关生物学功能中,尤其是参与到自噬相关的调控网络。6.定义和筛选病毒-人类间功能同源性ncRNA对,通过对ncRNA共同靶向的基因数量进行显著性分析,得到820条潜在的病毒-人类间功能同源性ncRNA对(P0.01),提示部分病毒ncRNA和人类ncRNA倾向于调节类似的靶基因集合,存在功能上的同源性。7.基于病毒-人类间ncRNA串扰网络,利用重启随机游走算法对病毒进行聚类分析,结果发现了6个不同的病毒簇。功能富集分析发现不同的病毒簇具有不同的功能倾向而同一病毒簇的功能趋向于相同。这提示不同病毒簇间存在着不同的感染和发病机制而同一病毒簇可能存在机制上的同源性。综上所述,本研究围绕着RNA互作组学目前的需求和方向,基于自然语言处理开发了挖掘文献中RRI信息的工具RIscoper,为未来RNA组学研究提供数据积累和技术支撑。然后,针对RIscoper辅助挖掘得到的病毒-宿主间ncRNA介导的串扰网络进行深入挖掘和研究,揭示病毒感染的一些潜在的分子机制,为全面解析病毒感染机制以及开发相应治疗方案提供有效的信息和线索。
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.1;Q811.4
【图文】:

示意图,中枢,节点,瓶颈


图 1-1 网络的中枢节点和瓶颈节点以及 k-核的示意图。(a)网络的中枢节点与瓶颈节点的示意图;(b)网络的 k-核的示意图表 1-4 网络中的一些基本术语及拓扑学特征的定义术语 定义

算法流程,语句,实体


图 2-1 RIscoper 算法流程。第一步是语句标准化,RIscoper 通过 OpenNLP 工具将文章分割成语句,并通过 BioLemmatizer 工具对所有单词进行词形还原;第二步是命名实体识别(NER),RIscoper 集成一个预设实体语料库用于 NER;第三步是语句打分,RIscoper 通过 N-gram 模型进行评分;此外,RIscoper 提供了一个可选模块(RNA 名称实体过滤器),用于过滤掉不包含 RNA 名称的语句

模型图,二元语义,语料库,模型


0.01 0.0245 0.9846 0.6457 0.77982.4.2.2 使用PPI语料库评价性能本章研究还整理和收集了一套 PPI 语料库对 RIscoper 性能进行评价。PPI 语料库来源于 BioCreative III 语料库[137],其是一个用于评估生物与医学领域内文本挖掘和信息提取软件的标准语料库。首先,通过 10-折交叉验证方法将阳性集(1,617条阳性语句)和阴性集(1,617 条阴性语句)分别平均分成十份,九份阳性集用来估计模型参数,构建打分矩阵。九份阴性集用于判断 FDR 阈值的背景。另两份具有类别标签,用来测试软件性能。然后通过 ROC 曲线评价性能,结果发现 AUC为 0.962(见图 2-4b)。最后,分别取 FDR 为 0.01,0.05 以及 0.1 三个阈值,计算精确度,召回率以及 F1-值,结果与 RRI 语料库的评估结果类似(见表 2-2),在FDR 分别为 0.1 与 0.05 的情况下,F1-值均超过 0.9(0.9217,0.9118)。而 FDR为 0.01 时,阈值设置相对严格,导致召回率显著下降,最终 F1-值不到 0.8(0.7805)。以上结果显示,基于 1:1 的 PPI 阳性和阴性语句数据集,RIscoper 仍然具有很好的性能。

【相似文献】

相关期刊论文 前8条

1 刘树业;;非编码RNA调节异常在肝细胞癌发生发展中的作用[J];世界华人消化杂志;2019年18期

2 郑凌伶;戚益军;屈良鹄;;走向国际科技前沿的中国RNA研究[J];中国科学:生命科学;2019年10期

3 林琳;刘建华;吴丽娜;;甲状腺癌RNA分子研究进展[J];肿瘤防治研究;2019年11期

4 杨莹洁;赵虹;;竞争性内源RNA在神经退行性疾病中的作用研究进展[J];内科理论与实践;2019年05期

5 刘凯;叶远舟;吴雨宸;苏俭生;;非编码RNA在牙髓炎中的研究进展[J];中华临床医师杂志(电子版);2019年03期

6 秦少杰;王晓燕;林利;;环状RNA的生物学功能及其在心血管疾病中的作用[J];临床与病理杂志;2019年10期

7 张硕;王非凡;刘洪臣;;环状RNA调控骨髓间充质干细胞成骨分化的研究进展[J];口腔颌面修复学杂志;2019年05期

8 杨宗霖;王艺;马田田;霍春月;刘晓;阚云超;李丹丹;;有翅和无翅豌豆蚜中翅型分化信号通路相关微小RNA及其靶基因的表达差异[J];昆虫学报;2019年11期

相关会议论文 前10条

1 张畅斌;尹爱华;何天文;王波;邓文喻;赖有行;;一种经济便捷的手足口病原RNA提取方法[A];广东省遗传学会第九届代表大会暨学术研讨会论文及摘要汇编[C];2014年

2 李园园;陆俊梅;程松;崔振玲;;RNA恒温扩增实时检测技术鉴定鸟分枝杆菌和胞内分枝杆菌[A];第四届中国临床微生物学大会暨微生物学与免疫学论坛论文汇编[C];2013年

3 Jingrong Wang;Junping Kou;Hilda Yau;Wanrong Zong;Tongmeng Yan;Zhi-Hong Jiang;;Protective Effect and Sequences of RNA Fragments from Ginseng's Larger RNAs against Myocardial Ischemia Injury in Mice[A];中国化学会第十一届全国天然有机化学学术会议论文集(第一册)[C];2016年

4 郭晓强;张巧霞;黄卫人;蔡志明;;长链非编码RNA与肾细胞癌发生[A];遗传多样性:前沿与挑战——中国的遗传学研究(2013-2015)——2015中国遗传学会大会论文摘要汇编[C];2015年

5 吴建军;李勋;黄锦坤;杨倜;徐益勤;杨巧媛;蒋义国;;环境化学物暴露血液非编码RNA标志物研究[A];中国毒理学会第七次全国毒理学大会暨第八届湖北科技论坛论文集[C];2015年

6 李成云;梁戈玉;姚文卓;隋静;申娴;张艳秋;马书梅;尹立红;浦跃朴;;胃癌相关长链非编码RNA的鉴定及肿瘤标志物的筛选研究[A];中国毒理学会第七次全国毒理学大会暨第八届湖北科技论坛论文集[C];2015年

7 徐勇;张付全;张克让;Yin Yao Shugart;;精神分裂症中转录因子-微小RNA交互调控网络的异常[A];中华医学会第十三次全国精神医学学术会议论文汇编[C];2015年

8 韩艳华;陈红印;张礼生;;RNA干扰技术在昆虫滞育机制研究中的应用[A];植保科技创新与农业精准扶贫——中国植物保护学会2016年学术年会论文集[C];2016年

9 王小利;吴佳海;舒健虹;牟琼;;高羊茅光周期调控基因RNA干扰表达载体构建[A];中国草学会2013学术年会论文集[C];2013年

10 魏任雄;;长链非编码RNA与男性不育的研究进展[A];中华中医药学会第十四次男科学术大会论文集[C];2014年

相关重要报纸文章 前10条

1 中科院上海生科院上海植物生理生态所 毛颖波;寻找小RNA世界里的另一道风景[N];科学时报;2011年

2 本报记者 沈则瑾;破解环形RNA之谜[N];经济日报;2019年

3 记者 颜维琦;我科学家深度“解码”环形RNA[N];光明日报;2019年

4 唐一尘;新“剪刀”能暂时编辑RNA[N];中国科学报;2019年

5 赵熙熙;实验室“原始汤”生成RNA碱基[N];中国科学报;2019年

6 记者 黄辛;科学家实现活细胞RNA标记与无背景成像[N];中国科学报;2019年

7 记者 耿挺;RNA剪接基因编辑新方法[N];上海科技报;2018年

8 记者 聂翠蓉;基因检测“神探夏洛克”问世[N];科技日报;2017年

9 本报记者 聂翠蓉;让RNA处理器在活细胞中“奔腾”[N];科技日报;2017年

10 记者 毛黎;脂质分子可提高RNA干扰技术效率[N];科技日报;2009年

相关博士学位论文 前10条

1 龚朵;CCDC80下调血管平滑肌细胞LPL表达对动脉粥样硬化的影响及机制[D];南华大学;2019年

2 张杨;RNA互作文本挖掘工具开发及应用研究[D];电子科技大学;2019年

3 卢梅华;革兰氏阳性菌RNA降解关键酶的结构与功能研究[D];浙江大学;2019年

4 陈小翔;长链非编码RNA-ZFAS1促进结直肠癌发生发展机制及其作为潜在标志物的初步研究[D];东南大学;2019年

5 王熵;siRNA的非对称结构对RNA干扰的影响研究[D];湖南师范大学;2016年

6 邓世江;长链非编码RNA GLS-AS介导的c-Myc/GLS通路在胰腺癌中的作用及机制[D];华中科技大学;2019年

7 周虎;基于非编码RNA的胃癌标志物筛选鉴定研究[D];武汉大学;2016年

8 肖明扬;环状RNA hsa_circ_0051488的筛选验证及其在多环芳烃致肺癌变中的生物学功能及作用机制研究[D];中国医科大学;2019年

9 马明辉;长链非编码RNA ZBE1-AS1作为竞争内源性RNA促进胃癌发展的机制研究[D];中国医科大学;2019年

10 靳建军;长非编码RNA SYISL对肌肉生长发育的影响及其分子机制研究[D];华中农业大学;2018年

相关硕士学位论文 前10条

1 胡桥;TbCSV及其卫星TbCSB来源的部分siRNA功能研究[D];西南大学;2019年

2 代涛;基于类修饰DNA探针和免疫竞争法的RNA N~6-甲基腺苷电化学检测方法研究[D];重庆医科大学;2019年

3 张润姣;Nrf2通过mmu_circRNA_32463调控α-SYN的表达[D];河北医科大学;2019年

4 吕成伟;基于集成学习的σ~(54)启动子及RNA修饰位点的预测[D];桂林电子科技大学;2019年

5 李家恒;长链非编码RNA 9130024F11Rik在小鼠脑发育过程中的作用初探[D];华侨大学;2019年

6 刘玲;双连接探针在RNA原位检测中的开发和应用[D];华侨大学;2019年

7 张科;烟草蛋白-TCV P8互作影响病毒诱导的RNA沉默在细胞间传播机制的初步研究[D];杭州师范大学;2019年

8 刘曼迪;猪源产肠毒素大肠杆菌总RNA的免疫保护作用研究[D];河北农业大学;2019年

9 杜莹;环状RNA hsa_circ_0011940在抗结核药物性肝损伤患者外周血中的表达及功能研究[D];华北理工大学;2019年

10 李双;高通量测序分析湖南地区动脉瘤性蛛网膜下腔出血患者外周血长链非编码RNA表达差异[D];湖南师范大学;2019年



本文编号:2798304

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2798304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9ad1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com