基于语义关系和链接分析的疾病知识提取研究
发布时间:2017-05-14 07:44
本文关键词:基于语义关系和链接分析的疾病知识提取研究,,由笔耕文化传播整理发布。
【摘要】:近年来,生物医学领域的在线文献数量呈指数增长,大量的文献查询费时费力,无法高效地提供给用户所需的生物医学信息。信息检索技术和信息抽取技术在生物医学领域的应用,极大地促进了传统生物医学文献查询方式的变革。信息检索技术的应用为生物医学文献的搜索提供了便利,例如在线生物医学资源库PubMed,可以根据输入的查询语句检索到相关主题的文献返回给用户。然而,信息检索技术需要给出适当的查询词,并且查询后返回的文献依然很多。信息抽取技术在一定程度上解决了文献阅读数量巨大的问题,对特定主题进行信息提取,给用户提供文献的文本摘要。本文基于语义网络,利用信息抽取技术对生物医学文献进行知识提取,并以网络图的形式将特定主题提取得到的语义知识网络呈现出来。本文基于显著信息提取算法,从疾病相关的语义网络数据集中抽取与疾病相关的基因、药物以及基因和药物之间的关系。显著信息提取算法得到疾病相关的单层语义网络提取结果,并实现了疾病知识提取可视化系统。本文在显著信息提取算法启发下提出了一种基于链接分析的深层知识提取方法。实验应用一种新的显著信息提取算法KM,对特定疾病的基因数据集中的语义类型和关系谓词进行提取,得到与主题直接相关的基因。显著信息提取算法得到的疾病和基因的提取结果作为第一层关系,利用深度搜索得到疾病与基因之间的深层关系,并通过随机游走RRW的转移概率矩阵对深层关系网络进行过滤,最终得到疾病知识网络可视化呈现。基于链接分析的深层知识提取方法在三种疾病数据上进行了推广和应用。实验结果表明,该方法在疾病知识提取方面具有一定的有效性和普适性。生物医学语义网络知识提取,能够有效地提炼跟特定生物医学主题相关的重要信息。本文的实验方法对比Combo生物医学信息提取算法有一定提高,并在多个疾病语料集上进行了验证,能够有效地提高生物医学知识的获取效率。
【关键词】:信息抽取 语义网络 显著信息提取算法 深度搜索 随机游走RRW
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R319;TP391.1
【目录】:
- 摘要4-5
- Abstract5-8
- 1 绪论8-12
- 1.1 研究背景8-9
- 1.2 研究现状9-11
- 1.2.1 信息检索和机器学习在生物医学领域的应用9-10
- 1.2.2 图理论在生物医学实体关系中的应用10-11
- 1.3 本文主要工作和章节安排11-12
- 2 相关资源与技术12-18
- 2.1 生物医学文献及工具12-15
- 2.1.1 UMLS12-14
- 2.1.2 SemRep14-15
- 2.2 链接分析算法15-16
- 2.3 可视化工具16-17
- 2.3.1 JUNG16-17
- 2.3.2 Gephi17
- 2.4 小结17-18
- 3 基于语义关系的疾病、基因和药物提取系统18-27
- 3.1 系统流程18-19
- 3.2 实验数据19
- 3.3 显著信息提取算法19-21
- 3.3.1 KLD19-20
- 3.3.2 RlogF20
- 3.3.3 显著信息提取算法20-21
- 3.4 实验结果分析21-24
- 3.4.1 膀胱癌相关的基因21-22
- 3.4.2 膀胱癌相关的药物22-24
- 3.4.3 基因与药物之间的关系24
- 3.5 疾病知识提取可视化系统24-26
- 3.6 小结26-27
- 4 基于链接分析的疾病知识深层提取27-50
- 4.1 系统流程27-28
- 4.2 膀胱癌数据集选取28
- 4.3 一种新的显著信息提取算法28-29
- 4.3.1 互信息28-29
- 4.3.2 KM算法29
- 4.4 基于链接分析的深层关系提取29-33
- 4.4.1 深层关系提取29-30
- 4.4.2 Repeated Random Walk30-33
- 4.5 实验结果分析33-41
- 4.5.1 膀胱癌实验结果评估33-36
- 4.5.2 膀胱癌实验结果分析36-41
- 4.6 疾病知识提取方法的应用和推广41-49
- 4.6.1 相关疾病数据集选取41-42
- 4.6.2 老年痴呆症实验结果分析42-44
- 4.6.3 艾滋病实验结果分析44-47
- 4.6.4 帕金森病实验结果分析47-49
- 4.7 小结49-50
- 结论50-51
- 参考文献51-55
- 攻读硕士学位期间发表学术论文情况55-56
- 致谢56-57
【相似文献】
中国重要会议论文全文数据库 前1条
1 颜伟;王洁;尚英;宋柔;;《中国大百科全书》人物传记知识提取加工规范[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前2条
1 吴晓芳;基于语义关系和链接分析的疾病知识提取研究[D];大连理工大学;2015年
2 朱琳玲;基于扩展概念格的多数据库知识提取研究[D];合肥工业大学;2003年
本文关键词:基于语义关系和链接分析的疾病知识提取研究,由笔耕文化传播整理发布。
本文编号:364542
本文链接:https://www.wllwen.com/yixuelunwen/swyx/364542.html