面向术语的信息检索关键问题研究
发布时间:2019-12-02 15:14
【摘要】:随着信息技术的发展,特别是互联网在全球范围内的不断普及和应用,网络资源越来越丰富,互联网已经成为人们获取信息的必要途径和重要手段。科学技术的迅猛发展带来了大量的新术语,由于术语不仅能够帮助人们认知周围的客观事物,同时也是人们交流思想和传播知识的理想媒介,因此,准确理解术语在具体领域、场合及问题上的含义具有重要的意义。当人们不了解这些术语的确切含义时,往往借助于搜索引擎进行信息检索。如何有效地开发和利用丰富的网络信息资源,从大量的信息中快速准确地获取用户所需的术语定义以及相关信息,成为了一项极具研究和实用价值的课题。在面向术语的信息检索中,涉及的关键技术包括了术语定义的自动抽取以及术语语义相关性的计算,本文就这两个方面的内容进行了分析和研究。 当前很多搜索引擎,虽然可以提供所查术语的大量解释或描述性信息,但往往无法直接提供完整的术语定义。靠人工从海量信息中查找到术语的定义是件费时费力的事情,因此,在传统信息检索技术的基础上,引入对术语定义的自动抽取技术,将检索的粒度由原来的以篇章为单位转变为以知识元为单位,帮助用户快速定位、抽取出所需的定义信息就非常关键。本文在分析现有的基于规则的术语定义句抽取方法特点的基础上,提出了一种将硬模板匹配与软模板匹配技术相结合的综合术语定义句抽取方法。 本文在对传统信息检索技术分析后发现,传统搜索引擎提供的检索服务大多是通过对文档和查询关键字之间的机械匹配来实现的,缺乏对自然语言理解的支持。为了增强搜索引擎的智能化程度,提高用户的检索效率,在搜索引擎中加入对语义知识的理解就显得非常重要。在面向术语的信息检索中,计算术语间的语义相关度是进行语义知识理解的基础。本文在对现有的术语间语义相关度计算方法进行研究和总结的基础上,给出了使用维基百科进行相关度计算的可行性。本文充分挖掘了维基百科中的文本、链接以及分类信息,分析了各类语义资源以及相应相关度算法的优缺点。在此基础上,提出了一种基于中文维基百科的综合的术语间语义相关度算法。 本文的主要工作包括以下几个方面。 1)通过分析现有的基于规则的术语定义抽取方法的优势与不足,提出了一种结合硬模板匹配和软模板匹配技术的综合术语定义自动抽取方法。首先使用硬模板库对待抽取文本进行初步的定义句匹配抽取。其中,硬模板库由手工模板和词类格模板两部分组成。接着,通过使用基于N元语言模型的软模板匹配模型来计算待匹配文本中每个句子与软模板之间的匹配度,并通过设定上、下限阈值来抽取定义句或过滤掉错误召回的非定义句。 2)结合维基百科预处理工具WikiPrep对中文维基百科中文本、链接以及分类信息进行了抽取和整理,并使用JGraphT图形工具库进行了维基百科分类图的自动构建。 3)分析当前以维基百科为背景的语义相关度研究中的不足之处,充分挖掘了维基百科提供的包括文本信息、链接信息、分类信息在内的各种语义信息,并对各语义资源优缺点进行了分析,提出了一种基于特征融合的综合术语间语义相关度计算方法。 本文最后设计实现了一个具有术语定义检索功能以及基于语义的概念查询扩展功能的信息检索原型系统,以验证本文所提出的各项关键技术的正确性和有效性。
【图文】:
维基百科由来自世界各地的志愿者合作编辑完成,具有多语种、覆盖领域范围广(如图4-1所示)的特点。截止到2012年3月,维基百科己经拥有284种语言版本,其中,英文版本是最大的,,有超过389万篇文章,而中文版本也包含了超过40万的中文条目。维基甜:分类索引 中文维基百ft分类费51生活.化 但界音地/5? ?33-饮食-flg 装-SES-体育■获宁、-■-麟■断-IS-fi 乐- - itm - SfHifH - wm -挪-输-棚-电视-R
本文编号:2568807
【图文】:
维基百科由来自世界各地的志愿者合作编辑完成,具有多语种、覆盖领域范围广(如图4-1所示)的特点。截止到2012年3月,维基百科己经拥有284种语言版本,其中,英文版本是最大的,,有超过389万篇文章,而中文版本也包含了超过40万的中文条目。维基甜:分类索引 中文维基百ft分类费51生活.化 但界音地/5? ?33-饮食-flg 装-SES-体育■获宁、-■-麟■断-IS-fi 乐- - itm - SfHifH - wm -挪-输-棚-电视-R
本文编号:2568807
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2568807.html