74基于本体技术的语义检索及其语义相似度研究
本文关键词:基于本体技术的语义检索及其语义相似度研究,由笔耕文化传播整理发布。
(3)检索结果的显示:从模型中检索出来的满足条件;5.6实验系统测试;实验系统选取了50部手机作为样本,如表5—1是其;功能需求“收音机”;功能;关键词检索结果;语义检索结果9部16部“USB数据接口”功能13;表5一l;5;本体的良好的概念层次结构和对逻辑推理的支持,使得;第六章基于本体技术的语义相似度研究;6.1概念相似度理论;概念相似性计算是自然语言处
(3)检索结果的显示:从模型中检索出来的满足条件的信息数据需要通过一定的机制展示给用户。本实验系统采用JSP+JavaBean技术,JavaBean负责对最终结果的处理和反馈。
5.6实验系统测试
实验系统选取了50部手机作为样本,如表5—1是其中的3个检索实例,结果表明基于本体的语义检索比传统的关键词检索具有更好的查全率,更加符合用户的真实语义需求。
功能需求“收音机”
功能
关键词检索结果
语义检索结果9部16部“USB数据接口”功能13部38部操作系统“WindowsMobile”2部5部
表5一l
5。7手机两品语义检索系统实验用例结果本章小结
本体的良好的概念层次结构和对逻辑推理的支持,使得基于本体的信息检索提供了语义上的智能知识检索,能够更加符合用户的语义要求,有效地提高了检索性能。本章在前面章节的关键技术理论和系统技术设计的基础上,实现了基于本体的手机商品语义检索系统,使得系统可以更好地理解用户提交的检索需求,更加准确和全面地查询到用户需要的手机商品信息。本章介绍了实现系统结构、相应的开发平台和工具、系统算法和推理实现,以及系统实现界面等,并对系统进行了实验用例测试,表明基于本体的语义检索更加符合用户的真实语义需求。
第六章基于本体技术的语义相似度研究
6.1概念相似度理论
概念相似性计算是自然语言处理研究的重要组成部分,也是人工智能应用中亟待解决的问题。概念相似度计算的基础理论主要来源于离散数学中的图和树的匹配技术、数据库中模式的类似处理技术和一阶谓词中类似的处理技术(如用机器学习来解决相似性的问题)。其中一些方法来自于自然语言处理NLP领域,如信息检索,采用传统的文档相似计算方法,选取一些单个词语作为文档特征词,但是没有考虑词语之间的关系。
概念相似度在不同的应用领域中可能会有不同的含义。例如,在信息整合领域中,相似度一般指的是文本与文本能够匹配的程度;而在信息检索领域中,相似度则反映与用户查询在语义上的匹配程度,相似度越高,表明该文本与用户的请求越相近。本文的研究即是信息检索领域。同时,同一个词语在不同的上下文中可能会有不同的语义,即语义多元化。本文是在已经对词语排除歧义的基础上,对概念的语义进行比较。
6.1.1概念的相关性和相似性
概念的相关性和相似性是两个联系紧密、容易混淆的概念。刘群等姗辨析了词汇语义的相关性和相似性之间的关系,认为:概念相似性反映了概念之间的聚合特点,而概念相关性反映了概念之间的组合特点。相关性和相似性之间存在着密切的联系。如果两个概念之间非常相似,那么这两个概念之间的相关性程度会比较高。同时相似的概念之间一般都是相关的,但是相关却不一定相似。例如“苹果"和“维生素"两个概念,“苹果"含有很多“维生素",其相关性非常高,但是这两个概念之间的相似性却非常低。而“苹果"和“葡萄"作为水果则有相当的相似性。可以认为,相似是因为有着相类似的特征,从不同角度看,可能有不同的类似点,从而产生不同的聚合。因此,相似性在很大程度上受到人的主观因素的影响。而相关性则是因为自然界中的普遍规律而存在,它往往部受人的主观因素影响,指示受到入的认识水平的影响。
本文将相关性定义为概念之间相互关联的关系,它体现出来的是一种概念之间的依赖关系。而将相似性看作是相关性的一种特例。概念之间的相关度是相关的程度,取值在[O,1]之间的实数。如果在一个确定的概念化体系中,两个概念之间存在连通的路径,那么这两个概念就是相关的,而且可以计算相关度,相等
的概念之间的相关度为1;如果两个概念之间不存在连通的路径,那么这两个概念之间的相关度为O。
6.1.2词语相似度与词语距离
在语言学研究中,词汇之间的距离是词汇之间的一种重要关系:一般而言,词语距离是一个在[0,∞)之间的实数。一个词语与其本身的距离为0。词语距离与词语相似度之间的关系密切。两个词语的距离越大,其相似度越低;反之,两个词语的距离越小,其相似度越大。二者之间可以建立一种简单的对应关系。这种对应关系需要满足以下几个条件:
两个词语距离为O时,其相似度为1;
两个词语距离为无穷大时,其相似度为0;
两个词语的距离越大,其相似度越小(单调下降)。
在很多情况下,直接计算词语的相似度比较困难,通常可以先计算词语的距离,然后再转换成词语的相似度。
对于两个词语W1和w2,记其相似度为Sim(w1,W2),其词语距离为Dis(wl,W2),可以定义一个满足以上条件的简单的转换关系:
砌zf形1,形2)=———二二—一D括(形1.矿2)+口、7
其中口是一个可调节的参数。口的含义是:当相似度为O.5时的词语距离值。这种转换关系并不是唯一的,这里只是给出其中的一种可能。
6.1.3相似度定义
计算概念的相似度,在著名的韦氏字典给出的相似度的定义为:具有共同的严格可比的特征。我们使用其给出的相似度的形式化定义啪3:定义概念x和y之间的相似度函数既掰【毛川,则有:
?
●
?
●sf聊(石,y)∈[0,1】s‘历【石,yJ2l专xu2夕表示两个实体是相同的J2聊【z,y)2表示两个实体互不相交,互不相关表示相似度的对称性s2珑【x,y)2s‘掰【y,x)
6.2概念相似度的计算方法
一般来讲,国内外对概念间语义相似度的研究大致可以分为两类:(1)利用语料库统计的方法伽,根据两个概念在上下文出现的频率,计算概念间语义相似度;(2)利用语义词典如WorNet、HoWNet等的同义词或义原组成的树状层次体系结构口7’删,通过计算两个概念之间的信息嫡或语义距离,计算概念间的语义距离。55
6.2.1应用语料库统计的计算方法
词语相似度的计算方法可以利用大规模的语料库来统计。例如,利用词语的相关性来计算词语的相似度。事先选择一组特征词,然后计算这一组特征词与每个词的相关性,通常用这组词在实际的大规模语料库中该组词的上下文中出现的频率来度量,于是对于每个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度(通常用向量的夹角余弦来计算)作为这两个词的相似度。这种方法的假设是,凡是语义相近的词,他们的上下文也应该相似。
6.2.2应用词典的计算方法
根据词典来计算词语语义距离的方法,一般是利用一部同义词词典(Thesaurus),同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。当一个词汇级语义关系需要研究时,有许多潜在的关系可以考虑进去:层次关系(subClassOf/partof)、因果关系、等同关系等等。在这些关系中层次关系是最主要和最重要的。层次关系在人类的认知分类关系中得到广泛的研究和应用。特别地,subClassof关系是层次关系中的典型代表。
词汇分类系统中,分类法通常表现为一个层次性的结构,它可以看作为一个特别的网络结构,在网络中评估节点间的语义相似性可以利用网络中蕴含的结构信息。在层次语义网络中有多种方法测定两个词汇之间的概念相似性。总体上可以分为基于节点和基于边的方法,分别对应于信息内容方法和概念距离方法。
6.2.2.1基于信息内容的相似度计算方法
基于节点的计算概念相似性的方法称为信息内容方法,给出了一个多维空间,其中的一个节点代表包含一定数量信息的唯一概念,边代表两个概念之间的直接联系,两个概念之间的相似度是他们所共有信息的程度。考虑到在这样的层次性概念/类空间中,共享信息的载体可以看做是层次结构中同时包含这两个信息的特定的概念节点。超类必须是层次结构中向上搜索到的同时包含这两个类的第一个超类。相似性的值定义为这个特定的上位类的信息含量。一个类的信息含量的值通过估计这个类在大量文本语料库中出现的频率来获取。
依照信息理论中的符号,一个概念/类c的信息含量(InformationContent,IC)量化为
』C(c)=三昭qP(c)
其中P(c)为概念c的实例出现的概率。
一、_7概念c在语料库中出现的次数n,^、,,I,?-=————————————————●—————一语料厍的总敢
在这样的层次结构中,一个概念包含结构中低位的概念,这意味着在层次结构中往上移动p(c)单调上升。当节点的概率上升时,它的信息含量递减。如果层次结构中有一个唯一的顶层节点,,那么它的概率为1,因此它的信息含量为0.56
这样,依照上面概念信息的量化公式,可以得到层次网络中任意两个概念之间的语义相似度计算模型
s咖(cl,c2):兰:塑型!趔、‘’托?(c1)+圮(c2)
其中Anc(cl,c2)表示概念节点c1和c2在层次网络中的最近共同祖先节点。6.2.2.2基于概念距离的相似度计算
基于边的方法在分类系统中是一种更自然和更直接的估算语义相似度的方法。它估算了对应于要比较的概念/类的节点之间的距离(如边的长度)。给定多维的概念系统,概念的距离可以方便地通过度量与概念相对应的节点距离来求得。显然,从一个节点到另一个节点的距离越短,它们的相似度越高。
在层次型的分类中,距离应满足度量衡量标准的性质,即零属性、对称属性、正属性和三角不等性。此外,在IS—A语义网络中,最简单的度量两个概念节点的形式是连接这两个节点的最短路径的长度。
我们知道,在一棵树形图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量对于用边来计算距离来度量概念距离,一个最主要最直接的争论是关于其前提假设:概念之间边或连接表示了相同的距离。在大部分分类学的本体中,处于层次结构中高位的概念比低位的概念更抽象、更普遍一些。在抽象的概念中一个边的距离表示的语义距离比具体概念中的要大一些。因此,仅仅计算节点之间的边的数量是远远不够的。除了结点间的路径长度外,还考虑到了其他一些因素。例如:
概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其语义距离较小;比如说:“动物”和“植物"、“哺乳动物”和“爬行动物”,这两对概念间的路径长度都是2,但前一对词处于语义树的较高层,因此认为其语义距离较大,后一对词处于语义树的较低层,其语义距离更小;
概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中高密度区域,其语义距离应大于位于低密度区域。由于wordnet中概念描述的粗细程度不均,例如动植物分类的描述及其详尽,而有些区域的概念描述又比较粗疏,所以加入了概念层次树区域密度对语义距离的影响。
这两种方法各有特点。基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。基于词典的方法简单有效,也比较直观、易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间57
下载地址:74基于本体技术的语义检索及其语义相似度研究_图文.Doc
【】最新搜索
基于本体技术的语义检索及其语义相似度研究_图文
32民主评议党员个人党性分析报告
工程资料专员
精神病专项协议书
172016届高考《政治生活》知识框架与核心知识归纳_图文
酒店点菜系统— 详细设计说明书
培优第一课:初一名词单复数_讲义
华图判断推理谁讲的好
建构主义学习理论的主要观点和代表人物
开发部报批报建管理制度v1.073
本文关键词:基于本体技术的语义检索及其语义相似度研究,由笔耕文化传播整理发布。
本文编号:228036
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/228036.html