基于RDF的肺癌医学大数据的药物治疗分析研究
发布时间:2021-02-12 14:33
近年来,伴随着知识工程的持续发展,研究发现基于语义网的数据集规模呈指数级增长,尤其是在这些大规模的语义数据集中相当大一部分是生物医学数据集。这些生物医学数据集中蕴涵了丰富的语义信息,是面向生物医学领域进行深入数据分析的重要基础。但这些数据集侧重点不同,数据格式、标准不统一,需要进行有效的知识融合和组织表示。因此如何将这些生物医学数据集中的知识以统一的标准组织存储、挖掘知识并加以分析利用是我们研究的方向和主题。目前,肺癌不管是在国内还是国外都有极高的发病率及致死率,同时肺癌及心血管疾病一直是宁夏地区的医疗重点研究方向。本文以肺癌的药物治疗为视角,从多个生物医学数据集中获取与肺癌相关的基因,蛋白质,药物,代谢通路等信息,通过有效的数据融合方法建立语义丰富的肺癌医学知识网络,并在此基础上探索发现语义网络中的重要结点、计算结点的相似度、进行聚类分析,为疾病治疗的研究发展提供新的解决方案。本文首先介绍了近年来网络生物学的研究现状,介绍了非结构化语义数据的存储现状,总结了近年来关于网络链接分析方法的算法和研究现状以及其存在的问题等;接下来以医学领域中的肺癌RDF大数据为研究对象,探索在分布式系统下...
【文章来源】:宁夏大学宁夏回族自治区 211工程院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
图2-1肺癌药物治疗通路RDF示例??
第二章相关理论与技术??许用户浏览它,还可以设置各种规则或视图,以便使用者从不同的角度对数据进行分析。界??面如图2-2所示:??>:.???上???g?Ki3??9S?■?m^sns?;?:M5?awr.?;??u*Bi?mm?-?m?:?swk?:.?*se??x??ir?vtwr?v%rr?\' ̄r:-<:?Tr.?^????;r???'??ii^isa:?ivr??C--?>?@Sr?H0OZj?j?Leam?about?Neo4j?Jump?into?code??.''t'::?■.-?*?^?AnVv7.???as&?veu?at*?Cyp^?'iwtf-?vtr,???-■j?)?Ca-r??,,-??'><?r???\r—rz?nwew'lajry*?M?-t?]?RXUSKSocr??、>W:,.心先聲,fk%?辦:?Z^ywr^,??'?'?Mwi?d<i?omqK?do?voi??:)titoi;-??fll^83BS3SEBi?SSES^SES^^SB!??'::-,lL'?Monitor?the?system??Ktj?firKS-???****%?£>????l?H^N?I?Cidm?acsxn??图2-2Neo4j界面展示??2.5小结??本章介绍了图的定义和一些基础理论;概述了?RDF图模型的定义并通过一个肺癌数据??三元组的示例详细解释了?RDF三元组;接着介绍了本文所涉及的三种网络链接分析方法的??理论知识
通过对比分析现有数据集的内容和权威性,我们在互联网中选择了以下5个生物医学数??据库:ChEMBL、KEGG、DrugBank、UniPort和PubMed获取本文所需的肺癌相关信息。??图3-1说明了这些数据集之间的关联关系。在这些数据集中,每个数据记录都有自己的ID,??通过分析发现,这些ID在五个数据集中相互包含,具有相互引用关系,可以作为分析数据??集关联的重要途径。其中KEGG数据集中的基因与UniProt数据集里的蛋白质具有编码关系,??它们之间通过UniProt?ID连接;ChEMBL数据集为化合物信息,它与UniProt数据集中肺癌??蛋白信息通过ChEMBL?ID连接;从DrugBank数据集提取的有关治疗肺癌的药物与UniProt??数据集的蛋白质具有作用关系,通过UniProt?ID连接。??I?KEGG?N.??V?Disease?^?????、、1一’,?、、??/?KEGG?S,?T?/?KEG6?)??CH&MBL1DUniProtlD??f?CHEMBL?W——A:HEMBUD3?=W?Un.prot?)??J?UniProtiD?PMID??\??CHEMBLID/?PM,D??UniProtlP^jkA??(DrugBank?f?PubMed?)??V?y??图3-1肺癌医学数据集之间的关联关系??ChEMBL[57]由欧洲分子生物学实验室(EMBL)的欧洲生物信息学研宄所(EBI)维护
【参考文献】:
期刊论文
[1]基于学习自动机和用户兴趣的PageRank算法研究[J]. 姜金川,王冲. 计算机工程与应用. 2020(03)
[2]基于PageRank与HITS的改进算法的网页排名优化[J]. 库珊,刘钊. 武汉科技大学学报. 2019(02)
[3]Hadoop2.0平台概述[J]. 司雅楠. 科技与创新. 2019(05)
[4]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[5]一种基于异构网络算法的药物-蛋白关联性研究方法[J]. 徐婷,龚家瑜,宋晖. 智能计算机与应用. 2019(01)
[6]面向大规模时序图SimRank的计算方法[J]. 苗壮,袁野,乔百友,王一舒,马玉亮,王国仁. 清华大学学报(自然科学版). 2018(12)
[7]生物信息学研究进展[J]. 李洪东,朱晓姝,王建新. 玉林师范学院学报. 2018(05)
[8]基于P2P分布式网络的类FTP共享系统的设计实现[J]. 杜庆宣. 电子测试. 2018(18)
[9]网络链接分析的研究现状及其发展趋势[J]. 夏琦. 现代商贸工业. 2018(26)
[10]基于上下文特征的领域文献实体消歧算法[J]. 王静,谭绍峰,贺东东,陈建辉,闫健卓. 北京生物医学工程. 2018(04)
硕士论文
[1]基于HITS算法的微博采集系统设计与实现[D]. 乔静轩.山东师范大学 2018
[2]问答社区中的动态演化推荐算法研究[D]. 林政.华南理工大学 2018
[3]协同过滤算法在药物重定位中的研究与应用[D]. 章啸.东华大学 2017
[4]基于科研论文合作者关系图的同名排歧方法研究[D]. 陈未路.杭州电子科技大学 2017
[5]基于上下文建模的协同过滤算法研究[D]. 宋爽.广西师范大学 2016
[6]图上的智能随机游走分类算法研究及应用[D]. 陆林.扬州大学 2014
[7]面向在线分析的语义网数据存储系统研究[D]. 常冰琳.华中科技大学 2009
本文编号:3031008
【文章来源】:宁夏大学宁夏回族自治区 211工程院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
图2-1肺癌药物治疗通路RDF示例??
第二章相关理论与技术??许用户浏览它,还可以设置各种规则或视图,以便使用者从不同的角度对数据进行分析。界??面如图2-2所示:??>:.???上???g?Ki3??9S?■?m^sns?;?:M5?awr.?;??u*Bi?mm?-?m?:?swk?:.?*se??x??ir?vtwr?v%rr?\' ̄r:-<:?Tr.?^????;r???'??ii^isa:?ivr??C--?>?@Sr?H0OZj?j?Leam?about?Neo4j?Jump?into?code??.''t'::?■.-?*?^?AnVv7.???as&?veu?at*?Cyp^?'iwtf-?vtr,???-■j?)?Ca-r??,,-??'><?r???\r—rz?nwew'lajry*?M?-t?]?RXUSKSocr??、>W:,.心先聲,fk%?辦:?Z^ywr^,??'?'?Mwi?d<i?omqK?do?voi??:)titoi;-??fll^83BS3SEBi?SSES^SES^^SB!??'::-,lL'?Monitor?the?system??Ktj?firKS-???****%?£>????l?H^N?I?Cidm?acsxn??图2-2Neo4j界面展示??2.5小结??本章介绍了图的定义和一些基础理论;概述了?RDF图模型的定义并通过一个肺癌数据??三元组的示例详细解释了?RDF三元组;接着介绍了本文所涉及的三种网络链接分析方法的??理论知识
通过对比分析现有数据集的内容和权威性,我们在互联网中选择了以下5个生物医学数??据库:ChEMBL、KEGG、DrugBank、UniPort和PubMed获取本文所需的肺癌相关信息。??图3-1说明了这些数据集之间的关联关系。在这些数据集中,每个数据记录都有自己的ID,??通过分析发现,这些ID在五个数据集中相互包含,具有相互引用关系,可以作为分析数据??集关联的重要途径。其中KEGG数据集中的基因与UniProt数据集里的蛋白质具有编码关系,??它们之间通过UniProt?ID连接;ChEMBL数据集为化合物信息,它与UniProt数据集中肺癌??蛋白信息通过ChEMBL?ID连接;从DrugBank数据集提取的有关治疗肺癌的药物与UniProt??数据集的蛋白质具有作用关系,通过UniProt?ID连接。??I?KEGG?N.??V?Disease?^?????、、1一’,?、、??/?KEGG?S,?T?/?KEG6?)??CH&MBL1DUniProtlD??f?CHEMBL?W——A:HEMBUD3?=W?Un.prot?)??J?UniProtiD?PMID??\??CHEMBLID/?PM,D??UniProtlP^jkA??(DrugBank?f?PubMed?)??V?y??图3-1肺癌医学数据集之间的关联关系??ChEMBL[57]由欧洲分子生物学实验室(EMBL)的欧洲生物信息学研宄所(EBI)维护
【参考文献】:
期刊论文
[1]基于学习自动机和用户兴趣的PageRank算法研究[J]. 姜金川,王冲. 计算机工程与应用. 2020(03)
[2]基于PageRank与HITS的改进算法的网页排名优化[J]. 库珊,刘钊. 武汉科技大学学报. 2019(02)
[3]Hadoop2.0平台概述[J]. 司雅楠. 科技与创新. 2019(05)
[4]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[5]一种基于异构网络算法的药物-蛋白关联性研究方法[J]. 徐婷,龚家瑜,宋晖. 智能计算机与应用. 2019(01)
[6]面向大规模时序图SimRank的计算方法[J]. 苗壮,袁野,乔百友,王一舒,马玉亮,王国仁. 清华大学学报(自然科学版). 2018(12)
[7]生物信息学研究进展[J]. 李洪东,朱晓姝,王建新. 玉林师范学院学报. 2018(05)
[8]基于P2P分布式网络的类FTP共享系统的设计实现[J]. 杜庆宣. 电子测试. 2018(18)
[9]网络链接分析的研究现状及其发展趋势[J]. 夏琦. 现代商贸工业. 2018(26)
[10]基于上下文特征的领域文献实体消歧算法[J]. 王静,谭绍峰,贺东东,陈建辉,闫健卓. 北京生物医学工程. 2018(04)
硕士论文
[1]基于HITS算法的微博采集系统设计与实现[D]. 乔静轩.山东师范大学 2018
[2]问答社区中的动态演化推荐算法研究[D]. 林政.华南理工大学 2018
[3]协同过滤算法在药物重定位中的研究与应用[D]. 章啸.东华大学 2017
[4]基于科研论文合作者关系图的同名排歧方法研究[D]. 陈未路.杭州电子科技大学 2017
[5]基于上下文建模的协同过滤算法研究[D]. 宋爽.广西师范大学 2016
[6]图上的智能随机游走分类算法研究及应用[D]. 陆林.扬州大学 2014
[7]面向在线分析的语义网数据存储系统研究[D]. 常冰琳.华中科技大学 2009
本文编号:3031008
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3031008.html