基于概念和段落检索的生物医学文献知识发现
发布时间:2023-10-15 19:13
从生物医学文献中抽取潜在的生物学关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。但是,随着生物医学文献的快速增长,依靠人工阅读来获取知识是非常困难的。美国芝加哥大学情报学教授Don.R.Swanson创立的非相关文献知识发现方法可以在大量医学文献中揭示学科间隐藏联系,形成合理的假设来指导科学实践。他的知识发现方法逐渐受到人们的关注,成为研究的热点。 概念检索计算简单直观,实验采用共现分析技术,对生物医学文献数据库MEDLINE中的MeSH概念进行隐含知识挖掘的研究。重点发现疾病与化学药品、药物、基因或者分子序列之间的新颖的、尚未被发现的生物学关系。实验利用三种计算方法:z分值、TFIDF(Term Frequency Inverse Document Frequency)和PMI(Pointwise MutualInformation),模拟Swanson的三组经典实验:Alzheimer’s disease(老年痴呆症)、Migraine(偏头疼)、Schizophrenia(精神分裂症)。同时使用LitLinker系统提出的评测方法,计算了各组实验结果的正确率和召回率。...
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 文本挖掘技术综述
1.2.1 文本挖掘定义
1.2.2 文本挖掘的主要技术
1.2.3 文本挖掘在生物医学文献中的应用
1.3 知识发现研究现状
1.4 生物医学文献隐含知识发现研究现状
1.5 本文的结构
2 生物医学文献隐含知识发现相关知识及算法研究综述
2.1 生物医学文献资源
2.1.1 医学主题词
2.1.2 医学一体化语言系统
2.2 开放式发现算法和闭合式发现算法
2.2.1 开放式发现算法
2.2.2 闭合式发现算法
2.2.3 开放式发现算法和闭合式发现算法的区别
2.2.4 主要知识发现系统算法
3 概念检索开放式知识发现
3.1 共现分析
3.1.1 共现定义
3.1.2 共现分析在文本挖掘中的作用
3.1.3 共现分析在隐含知识发现中的实现思路
3.2 方法
3.2.1 建立MeSH概念索引
3.2.2 开放式知识发现
4 段落检索开放式知识发现
4.1 段落检索
4.1.1 段落检索研究背景
4.1.2 句子级重叠窗口
4.2 方法
4.2.1 建立索引
4.2.2 句子级重叠窗口索引的段落检索
4.3 计算工具hadoop
4.3.1 hadoop定义
4.3.2 hadoop结构
4.3.3 hadoop在实验中的应用
5 实验结果分析
5.1 实验数据
5.2 评测
5.3 发现的关系分析
5.3.1 Alzheimer's disease(老年痴呆症)和indomethacin(消炎痛)
5.3.2 Migraine(偏头疼)和Magnesium(镁)
5.3.3 Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)
5.4 实验方法讨论
5.4.1 z分值、TFIDF、PMI结果对比分析
5.4.2 语义类型和阈值分析
5.4.3 融合计算分析
5.4.4 概念检索和段落检索方法分析
结论
参考文献
致谢
本文编号:3854505
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 文本挖掘技术综述
1.2.1 文本挖掘定义
1.2.2 文本挖掘的主要技术
1.2.3 文本挖掘在生物医学文献中的应用
1.3 知识发现研究现状
1.4 生物医学文献隐含知识发现研究现状
1.5 本文的结构
2 生物医学文献隐含知识发现相关知识及算法研究综述
2.1 生物医学文献资源
2.1.1 医学主题词
2.1.2 医学一体化语言系统
2.2 开放式发现算法和闭合式发现算法
2.2.1 开放式发现算法
2.2.2 闭合式发现算法
2.2.3 开放式发现算法和闭合式发现算法的区别
2.2.4 主要知识发现系统算法
3 概念检索开放式知识发现
3.1 共现分析
3.1.1 共现定义
3.1.2 共现分析在文本挖掘中的作用
3.1.3 共现分析在隐含知识发现中的实现思路
3.2 方法
3.2.1 建立MeSH概念索引
3.2.2 开放式知识发现
4 段落检索开放式知识发现
4.1 段落检索
4.1.1 段落检索研究背景
4.1.2 句子级重叠窗口
4.2 方法
4.2.1 建立索引
4.2.2 句子级重叠窗口索引的段落检索
4.3 计算工具hadoop
4.3.1 hadoop定义
4.3.2 hadoop结构
4.3.3 hadoop在实验中的应用
5 实验结果分析
5.1 实验数据
5.2 评测
5.3 发现的关系分析
5.3.1 Alzheimer's disease(老年痴呆症)和indomethacin(消炎痛)
5.3.2 Migraine(偏头疼)和Magnesium(镁)
5.3.3 Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)
5.4 实验方法讨论
5.4.1 z分值、TFIDF、PMI结果对比分析
5.4.2 语义类型和阈值分析
5.4.3 融合计算分析
5.4.4 概念检索和段落检索方法分析
结论
参考文献
致谢
本文编号:3854505
本文链接:https://www.wllwen.com/tushudanganlunwen/3854505.html