当前位置:主页 > 科技论文 > 软件论文 >

基于特征的本体词语相似度算法研究

发布时间:2018-11-11 12:21
【摘要】:词语相似度计算不仅是自然语言处理中的一个重要基础性研究课题,它也被广泛应用于知识管理、信息检索、生物医学、认知科学和心理学等领域。随着信息时代的到来,人们更迫切需要解决词语相似度计算的问题。鉴于本体中丰富的语义关系和便于计算的结构,越来越多研究学者开始对基于本体的词语相似度算法进行研究,因此本文针对本体,提出了一种概念特征与分类学参数的映射模型,并在以往基于特征的计算词语相似度的基本算法模型的基础上提出了本文基于特征计算词语相似度的基本算法公式。以该映射模型和本文基于特征计算词语相似度的基本算法公式为基础,针对《知网》和WordNet两个知识本体分别提出了几种基于特征的词语相似度算法模型去解决以往算法中出现的一些尚未解决的问题并提高其算法精度。对《知网》提出了一种基于特征的快速计算词语相似度的算法模型。为使《知网》可以直接利用上下位关系计算词语相似度,省去计算义项相似度前需要计算义原相似度的过程,进而简化计算词语相似度的过程,本文根据《知网》义项语义表达式(DEF)中各义原的关系,在以往义原树的基础上构建了一棵义项树。首先,将《知网》义项DEF中带有关系约束的第一独立义原定义成抽象概念,从而将义项语义表达式转换成一个多层次的抽象概念组。然后根据义项定义中的抽象概念将义项挂到《知网》现有的义原树中,形成一棵包含义原、抽象概念与义项的义项树。通过本文提出的概念特征与分类学参数的映射模型将概念特征映射为义项树中概念间的深度和路径,并以本文基于特征计算词语相似度的基本算法公式作为本算法模型的基本公式,在此基础上对公式进行改进,并利用两个概念对应义项DEF中的义原对概念特征进行补偿,通过参数调节义项定义中各义原对特征的贡献大小。另外考虑到深度和路径对计算词语相似度的贡献并不相同,通过映射模型将概念特征映射为义项树中概念间的深度和路径,并采用本文基于特征计算词语相似度的基本算法公式作为本算法模型的基本公式,在此基础上将公式变换成公共特征和不相同特征均带参数的公式,提出了一种基于加权特征的词语相似度计算模型。实验证明,针对《知网》提出的两种计算模型,MC30词对计算的相似度值与人工判定值相比,分别取得了 0.85和0.86的皮尔森相关系数,该结果达到了目前优秀词语相似度算法的水平。另外本文测试了以往相关论文中使用的测试词对,实验结果表明,本文的两个算法模型计算效果都较之前的要好。对WordNet提出了一种基于特征的多源信息的融合模型计算词语相似度。通过本文提出的概念特征与分类学参数的映射模型将概念特征映射为概念间路径和深度以及信息内容这些分类学参数,以概念间最近公共上位的深度为概念间共有特征,概念间最短路径为概念间不相同特征,并以本文基于特征计算词语相似度的基本算法公式作为本算法模型的基本公式,在此基础上对公式进行改进,并利用密度补偿概念间特征差异,改善了前人优秀算法计算的相似度呈现的非线性偏高问题,并引入编码差异性克服了信息源单一造成的计算结果区分度不高的缺陷并微调概念间特征差异问题。最后,通过引入正弦计算的边权重和调节参数合理的考虑了路径、深度和独立编码对计算词语相似度的贡献程度。实验证明,对于RG65、MC30、SimLex999中的666对名词、SimLex999中的222对动词、YP130词对,采用相同参数本文计算的相似度值与人工判定值计算可以分别取得0.88、0.88、0.61、0.52、0.80的皮尔森相关系数,不使用相同参数最好可以分别取得0.88、0.89、0.61、0.55、0.81的皮尔森相关系数,该结果均达到了目前优秀词语相似度算法的水平。为证明算法通用性,本文将该算法移植到和WordNet结构极为相似的SNOMED CT医学本体中利用国际通用的医学测试集Pedersen30数据集进行测试。实验证明,本文的算法模型应用到SNOMED CT中与Pedersen30数据集的人工判定值计算最好可以取得0.86的皮尔森相关系数,该结果也达到了目前优秀词语相似度算法的水平。
[Abstract]:......
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 朱新华;马润聪;孙柳;陈宏朝;;基于知网与词林的词语语义相似度计算[J];中文信息学报;2016年04期

2 朱征宇;孙俊华;;改进的基于《知网》的词汇语义相似度计算[J];计算机应用;2013年08期

3 张瑞霞;杨国增;吴慧欣;;基于《知网》的汉语未登录词语义相似度计算[J];中文信息学报;2012年01期

4 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

5 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[J];中文信息学报;2010年06期

6 刘青磊;顾小丰;;基于《知网》的词语相似度算法研究[J];中文信息学报;2010年06期

7 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期

8 刘春辰;刘大有;王生生;赵静滨;王兆丹;;改进的语义相似度计算模型及应用[J];吉林大学学报(工学版);2009年01期

9 周粉;夏幼明;;一种改进的基于知网的语义相似度计算方法[J];云南大学学报(自然科学版);2008年S2期

10 江敏;肖诗斌;王弘蔚;施水才;;一种改进的基于《知网》的词语语义相似度计算[J];中文信息学报;2008年05期

相关博士学位论文 前1条

1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年



本文编号:2324818

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2324818.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户05850***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com