当前位置:主页 > 社科论文 > 图书档案论文 >

基于知网的多关键字检索研究

发布时间:2020-04-14 01:10
【摘要】: 随着因特网信息的飞速膨胀,网络成为人们获取信息的主要渠道,而信息检索也成为人们上网的主要目的之一。但是,如何从这样一个庞大的信息资源库中获取需要的准确信息,已成为人们面临的一个重要问题。现有的搜索引擎往往采用机械式的字符串匹配的搜索技术,在处理单一关键词时,基本可以满足用户要求,但在处理多关键词时,问题就出现了。首先,由于只是基于字符串匹配,使得位置靠后的关键词很可能被忽略掉。再者,即使多个关键词都匹配到,但没有注重关键词的各自的重要度,从而导致检索结果与用户意图不符,降低查询的准确度。 在处理多关键词时,需要一个强大的知识库的支持。《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为自然语言信息处理的研发提供了丰富的知识资源。因此,本文选定《知网》来实现多关键词的处理,使得检索不再是简单的基于关键词的机械式匹配,而是注重关键词间的语义关系,用以解决当前搜索引擎查准率低的问题。 本文认真研究《知网》后提出了基于知网的多关键词知晓模型,模型主要包括三大模块的实现:词义消歧模块、语义关系知晓模块、复合词处理模块。词义消歧模块:一词多义是制约语义关系知晓的重要因素。因此,本文提出了影响相关度的五种因素,并通过计算多关键词的语义相关度进行词义消歧。语义关系知晓模块:根据汉语的特点,本文提出了八种多关键词语义关系、核心关键词与分级权重,并根据不同的语义关系设置不同的分级权重,以提高查询的准确度。复合词处理模块:对于《知网》中未出现的词语,即复合词,本文基于语义关系知晓提出了概念组合法,以确定复合词义原表示项,并解决了复合词无法参与语义关系判断的难题。 为了验证模型的合理性,本文分别对三个模块进行了实验,并结合多关键词的知晓技术设计了一个元搜索引擎检索模型。从实验结果来看,基于知网的多关键词知晓模型在搜索引擎中的应用是可行的,提高了搜索引擎的查准率。
【图文】:

知识架构,知网


图 3.1 知网的知识架构Fig.3.1 Knowledge frame of HowNet知网中有两个主要的概念:“概念”与“义原”。“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。什么是义原,跟什么是词一样难以定义。但是也跟词一样并不因为它难于定义人们就无法把握和利用它们。大体上说,义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看作为一个义原。可以这样设想,所有的概念都可以分解成各种各样的义原,同时也应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,就有可能建立知识系统。利用中文来寻求这个有限的集合,应该说是个捷径。中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念

知识网络,体系,知网


为过去、现在和未来。没有一种事物只能是部件,,而不能是整体;也没有一种事物只能是整体,而不会是部件。一个事物被视为是整体还是部件,可以因系统的不同,而不同对待。关于对属性的认识是:任何一个事物都一定包含着多种属性事物之间的异或同是由属性决定的,没有了属性就没有了事物。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。计算机化是知网的重要特色。知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能构件。知网是一个网而不是树。它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共性。知网在主要特性文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病的经验者。对于“富翁”和“穷人”,“美女”和“丑八怪”而言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、“丑”等不同的属性值,则是它们的个性。同时知网还着力要反映概念之间和概念的属性之间的各种关系。知网把下面的一种知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:G250.74;G354

【参考文献】

相关期刊论文 前10条

1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期

2 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期

3 孙继明;李舟军;文健;;基于《知网》的汉语词语词义消歧方法[J];计算机与信息技术;2007年03期

4 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期

5 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期

6 陈伟雄,马少平,步建华;基于元搜索引擎的多关键词检索技术[J];计算机工程与应用;2004年24期

7 夏天;;汉语词语语义相似度计算研究[J];计算机工程;2007年06期

8 龚永恩;袁春风;武港山;;基于语义的词义消歧算法初探[J];计算机应用研究;2006年03期

9 杨晓峰,李堂秋,洪青阳;基于实例的汉语句法结构分析歧义消解[J];中文信息学报;2001年03期

10 李峰;李芳;;中文词语语义相似度计算——基于《知网》2000[J];中文信息学报;2007年03期

相关硕士学位论文 前2条

1 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年

2 李佳;基于知网的中文本体映射研究[D];北京邮电大学;2007年



本文编号:2626675

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2626675.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户049fc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com