MEDLINMEDLINE生物医学文本聚类研究
发布时间:2020-07-20 20:32
【摘要】:生物医学是21世纪的热门研究领域,近年来该学科文献增长速度惊人,但同时也导致了严重的信息过载现象:从大量的文献中找到自己感兴趣的论文,跟踪最新的进展,成为一个越来越困难的任务。生物医学文本聚类技术通过将相似的文档聚在一起,不相似的文档分开,能帮助用户(如生物学家)有效地组织、概括、导航和定位生物医学文献信息。因此,作为一种有效的生物医学文本挖掘工具,生物医学文本聚类具有重要的理论研究意义和广阔的应用前景。 本文以生物医学文本为主要研究对象,提出了一种新的计算语义相似度的方法并且应用于生物医学本体——医学主题词表MeSH (Medical Subject Headings)。同时针对医学文本的特性,提出了基于主辅信息融合策略的半监督聚类算法SSNCut,并且应用于生物医学文本的聚类研究,实验表明该方法提高了生物医学文本聚类的精度。 本文的具体内容包括: 1)介绍了生物医学文本挖掘当前的研究进展,概述了文本聚类的模型表示、评估标准以及常用的聚类算法。此外,回顾了生物医学文本聚类的相关研究,指出了当前研究的不足。 2)针对MEDLINE独有的MeSH本体,综述了基于本体的语义相似度度量方法,提出了一种更精确的语义相似度度量方法,并且提出了两种基于MeSH本体计算语义相似度的框架,实验验证了我们提出的相似度算法优于一般的语义相似度度量方法。 3)针对MEDLINE文献包含的局部内容信息(bag of words)、MeSH语义信息和全局内容信息(相关文献列表),提出一种融合这三种信息的半监督聚类算法,实验验证了该算法可以有效利用这三种信息来提高生物医学文本聚类的精度。
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:R-5;TP391.1
本文编号:2763914
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:R-5;TP391.1
【参考文献】
相关期刊论文 前2条
1 王浩畅;赵铁军;;生物医学文本挖掘技术的研究与进展[J];中文信息学报;2008年03期
2 张永彪,褚嘉yP;表观遗传学与人类疾病的研究进展[J];遗传;2005年03期
本文编号:2763914
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2763914.html