当前位置:主页 > 医学论文 > 药学论文 >

文本挖掘用于药物活跃基因筛选及雷帕霉素案例分析

发布时间:2020-03-31 22:50
【摘要】:在人们一直面临药物短缺的难题的情况下,耐药性现象的爆发更加剧了药物短缺情况。然而,新药研发始终面临研发成本高昂的问题。药物重定位,即发现已上市药物新的治疗活性,这一低成本药物发现方法逐渐兴起。由于药物已经进入临床阶段,药物安全问题已解决,这意味着药物重定位方法耗时短,成本低。然而,目前药物重定位中还存在诸多挑战,其中,如何通过基因构建药物疾病关系是药物重定位领域的重要研究方向之一。本文在此基础上,引入基因通路信息,通过构建药物-基因-基因通路-疾病关系,达到药物疾病关系构建的目的,从而完成药物重定位。这一研究过程中需要海量的生物实体关系数据,这类数据绝大多数以文本的形式储存。海量的文本通过人工阅读来抽提其中的生物实体关系高成本低效率。因此,使用文本挖掘方法通过计算机辅助文本中的知识抽提成为解决这一问题的重要途经。文章具体实施路线:首先,以19种典型药物重定位药物的药物名为关键词在PubMed中检索相关文献共获得303,443摘要文本,通过文本挖掘方法从文本中挖掘出含有互作关系的基因作为药物相关基因集;然后,将药物基因集富集到基因通路上得到有序的药物基因通路列表;接着,根据基因通路和疾病的直接关联信息将药物关联到疾病上,从而完成构建药物疾病关系的目标。在这一过程中的主要工作重点:1,比较了4种文本挖掘方法在本文药物发现策略上的应用效果。这4种方法分别是基于PubTator摘要共显,基于PubTator句子共显,基于PubTator句子依存树关系共显和Turku Event Extraction System 2.1(TEES)。挖掘方法的评价共两方面:一方面为文本挖掘得到的基因集在获得药物已知基因集上的准确率。4种文本挖掘方法的基因集依次计算与空白对照组基因集(KEGG数据库中人类通路中全部的基因集)在发现药物已知靶标基因集准确率上的比值,比较结果依次为:12.322,14.062,32.547和101.193,比值越大准确度越高效果越好,因此TEES方法最佳。另一个方面为比较基因通路富集结果得到的通路列表中药物已知通路的排名情况。已知药物基因通路在富集结果中排列越前,则该方法越好,结果表明TEES方法最佳。2,以药物雷帕霉素为例,进行案例分析。通过TEES方法得到雷帕霉素的活跃基因集,然后采用9种通路富集方法对活跃基因集进行基因通路富集分析,得到对应的有序基因通路列表。和CTD数据库提供的已知药物通路列表比较相似性,得到对应F值,我们设计的IPF_box方法和P值效果这三种富集方法较好。综合这三种富集结果,排名前五疾病通路乳腺癌等均由文献验证为雷帕霉素适应症。此外,我们以乳腺癌-雷帕霉素关系为案例,验证了文本挖掘具有药物疾病预测的功能。3,开发文本网络可视化工具用于本文策略得到的药物-疾病关系验证。从疾病出发通过Literature Network文本网络可视化工具构建疾病基因网络,观察药物相关基因在疾病基因网络中的情况,推理可能的药物疾病作用机制,以达到验证药物-疾病关系的目的。
【图文】:

基因,中包,数据库,信息


文本挖掘用于药物活跃基因筛选及雷帕霉素案例分析理研究不是单一的基因和单一疾病关系的构建,而是基因-通路-疾病关系的构建。因此,在药物发现过程中还需要基因通路信息。KEGG 是一个为代谢、遗传信息、加工环境、信息加工、细胞过程、生物系统、人类疾病和药物开发提供分子相互作用、反应和关系网络的数据库。KEGG 通路数据库有以下数据:331 个人类通路信息,38,680 个人类基因信息,其中出现在 KEGG 定义的人类基因通路的基因数为7,467,基因通路和基因关系信息共 30,619 条。同时 331 个通路中,仅 301 个通路包含基因互作关系。本文的通路标准为 301 个基因通路。

检索界面


应用程序所针对的问题,,是合适的软件平台。String 应用程序是知名的蛋白互作网络构建程序,然而在这次问题中,String 应用程序构建的蛋白互作信息来源多样包括文本信息,然而 string 提供的文本信息缺乏支持关系构建的文本展示功能,由于现阶段文本挖掘技术的误判性依旧明显,提供文本展示以供用户验证依旧十分必要。故新应用程序的构建是必要的。在此情况下,已有名为 AgilentLiteratureSearch 的应用程序,Cytoscape 平台中拥有 4,313 次下载,在其 App Store343 个程序中下载排名第 8。说明了该应用程序的需求是明显存在的。然而这个应用程序明显的缺陷在于限制参考文章总数在 1000 篇,对于海量的文献来说,仅胰腺癌一例即在中检索出98244 篇文献,1000 的上限过于小,由此构成的基因互作网络意义有限。然而于此同时应用程序非开源程序版权归公司所有且不对外开放,同时目前该公司无人维护此程序。开发一个新的应用程序是必要的。由此展开了 Literature network 应用程序的开发。
【学位授予单位】:华中农业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R91

【相似文献】

相关期刊论文 前10条

1 陶洁;;文本挖掘领域研究现状与趋势分析[J];武汉船舶职业技术学院学报;2018年02期

2 陈莹玉;;让标点符号教学“厚实”起来[J];福建基础教育研究;2016年12期

3 杨明智;张召浦;;基于文本挖掘的商学院数字创新课程研究[J];当代教研论丛;2017年04期

4 郭瑞华;崔雷;;文本挖掘在药物靶位研究中的应用[J];中华医学图书情报杂志;2017年03期

5 王继钢;;文本挖掘重点技术研究[J];漯河职业技术学院学报;2015年05期

6 鹿鹏;庄敏;龙刚;林宋伟;;文本特征提取研究现状分析与展望[J];科技创新与品牌;2017年04期

7 汪顺玉;赵晴;;基于文本挖掘的不同层次大学生英语作文的词汇和主题特征分析[J];英语研究;2017年01期

8 陈皓琰;;基于文本挖掘的电子商务市场表现研究[J];科学中国人;2017年12期

9 徐浙君;;基于云计算的海量文本挖掘关键技术研究[J];信息与电脑(理论版);2014年08期

10 Cade Metz;文本挖掘[J];个人电脑;2003年08期

相关会议论文 前10条

1 潘若愚;姚浩浩;朱克毓;;基于词频统计分析国内外文本挖掘的研究热点[A];第十二届(2017)中国管理学年会论文集[C];2017年

2 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

3 高飞;荆继武;向继;;文本挖掘系统的可视化方法研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

4 汤宁;;基于文本挖掘的电力工单分析[A];2018智能电网新技术发展与应用研讨会论文集[C];2018年

5 钱程扬;龙毅;徐震;孙昊;;基于Web文本挖掘的地理位置信息重建技术[A];中国地理学会2007年学术年会论文摘要集[C];2007年

6 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年

7 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

8 吴威;;基于Web文本挖掘算法预防现实危害的研究[A];第31次全国计算机安全学术交流会论文集[C];2016年

9 刘晔诚;田鹏飞;林海潮;;基于文本挖掘和SVM的股票市场择时交易研究[A];2017年(第五届)全国大学生统计建模大赛获奖论文选[C];2017年

10 陈小峰;齐晓明;赵雅迪;张利鹏;;电网生产业务工单分类的文本挖掘方法应用[A];生态互联 数字电力——2019电力行业信息化年会论文集[C];2019年

相关重要报纸文章 前8条

1 郭勉愈 编译;文本挖掘:预测未来的水晶球[N];科学时报;2011年

2 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年

3 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年

4 整理 中国出版传媒商报记者 龚牟利;技术手段推动出版科技化[N];中国出版传媒商报;2015年

5 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年

6 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年

7 记者 贺建业 侯利红;拓尔思拟发行3000万股[N];上海证券报;2011年

8 记者 吴正懿;全面布局大数据时代 拓尔思舆情监测业务爆发[N];上海证券报;2012年

相关博士学位论文 前10条

1 何馨宇;基于文本挖掘的生物事件抽取关键问题研究[D];大连理工大学;2019年

2 张海彬;贝叶斯统计在文本挖掘的若干研究[D];华东师范大学;2019年

3 杨超;基于SAO结构的科技文本挖掘方法及应用研究[D];北京理工大学;2016年

4 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年

5 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年

6 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年

7 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年

8 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

9 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年

10 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年

相关硕士学位论文 前10条

1 王浩宇;基于网络游记文本挖掘的赴三亚国内旅游者偏好研究[D];海南大学;2019年

2 刘玄;基于文本挖掘的高铁经济研究现状及趋势研究[D];北京交通大学;2019年

3 韩博;基于文本挖掘的企业竞争情报系统分析与设计[D];上海交通大学;2016年

4 吴雨希;基于文本挖掘的视频标签生成及视频分类研究[D];上海交通大学;2016年

5 高雅婷;基于刑事案件要素的文本挖掘系统研究与实现[D];长安大学;2019年

6 崔鹏程;基于文本挖掘的学术文献内容智能识别方法研究[D];北京交通大学;2019年

7 王伟超;基于网络信息文本挖掘的股市危机预警体系研究[D];浙江大学;2019年

8 秦璇;文本挖掘用于药物活跃基因筛选及雷帕霉素案例分析[D];华中农业大学;2019年

9 韩利利;中标公告文本挖掘方法及在政府采购中的应用研究[D];山东财经大学;2018年

10 李清镇;基于文本挖掘的笔记本电脑网评分析[D];兰州财经大学;2019年



本文编号:2609678

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyaoxuelunwen/2609678.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cde31***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com