知识库与语料库相结合的语义相似度的研究与实现
本文关键词:知识库与语料库相结合的语义相似度的研究与实现,,由笔耕文化传播整理发布。
【摘要】:语义相似度计算作为自然语言处理的基础之一,在词义消歧、机器翻译、拼写修正、文本分类和自动问答系统等领域有着广泛的应用。当前语义相似度计算方法主要有两个发展方向,其一是基于语料库的空间向量模型的相似度计算方法;其二是基于知识库结构的语义相似度计算方法。词向量由大规模语料经过神经网络语言模型训练得到,由于缺少语义信息很难计算词与词之间的内在关系;知识库中包含了丰富的语义信息,能反映词与词之间的关系,但受制于语义词典的容量难以准确地计算文本之间的相似度。本文的创新点为在计算语义相似度时,结合了知识库与语料库的相似度计算方法,在词语的相似度计算和短文本的相似度计算上取得了较好的成果。针对词语相似度的计算,本文分析了基于知识库和基于语料库的相似度计算方法的优劣之处并取长补短,提出了基于知识库与语料库相结合的语义相似度计算方法。首先,基于连续词袋模型对语料库进行训练得到初始词向量,利用WordNet对词向量进行语义信息加强,然后,通过最大相似度计算模型计算得到词与词之间的相似度值,并在RG-65、MC-30和WS-353三个基准数据集上进行了实验验证。针对短文本相似度的计算,本文引入了相似度矩阵方法作为短文本相似度计算的主要方法,分别计算短文本的基于知识库的相似度特征、基于语料库的相似度特征、基于知识库与语料库相结合的相似度特征,在微软研究院释义数据集上的实验取得了较好的准确率、召回率以及F1值。最后本文将语义相似度计算应用到Web服务匹配领域,提出基于词语相似度计算的输入、输出属性相似度和基于短文本相似度计算的文本描述属性相似度的Web服务综合相似度计算方法,在OWLS-TC数据集上的Web服务匹配实验验证了该算法的可行性和有效性。
【关键词】:语义相似度计算 WordNet 词语相似度 短文本相似度 Web服务匹配
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-9
- 序言9-13
- 1 绪论13-22
- 1.1 研究背景13-14
- 1.2 研究意义14-16
- 1.3 国内外研究现状16-20
- 1.3.1 基于知识库的语义相似度计算方法16-17
- 1.3.2 基于语料库的语义相似度计算方法17-19
- 1.3.3 语义相似度混合计算方法19-20
- 1.4 本文主要工作20-21
- 1.5 论文组织结构21-22
- 2 基于知识库与语料库相结合的词语相似度计算方法22-39
- 2.1 WordNet中的关系22-25
- 2.1.1 注释语义属性22-23
- 2.1.2 上下位关系23-24
- 2.1.3 同义关系24-25
- 2.2 连续词袋模型25-26
- 2.3 词语相似度计算方法26-30
- 2.3.1 多原型词向量模型26-27
- 2.3.2 知识库与语料库融合实验设计27-29
- 2.3.3 单词相似度计算29-30
- 2.4 实验与分析30-33
- 2.4.1 语料库30-31
- 2.4.2 语料预处理模块31-32
- 2.4.3 基准数据集32-33
- 2.5 实验数据与分析33-37
- 2.6 本章小结37-39
- 3 基于知识库与语料库综合特征的短文本分类方法39-51
- 3.1 基于相似度矩阵的短文本相似度计算方法39-40
- 3.2 实体间相似度计算方法40-43
- 3.2.1 基于WordNet路径的相似度计算方法41-42
- 3.2.2 基于WordNet信息内容的相似度计算方法42-43
- 3.3 微软研究院释义语料库数据集43-44
- 3.4 短文本相似度特征值的计算44-45
- 3.5 文本分类方法45-47
- 3.5.1 朴素贝叶斯分类算法45-46
- 3.5.2 K近邻分类算法46
- 3.5.3 支持向量机46-47
- 3.6 实验与分析47-50
- 3.6.1 实验环境47-48
- 3.6.2 文本分类评价指标48
- 3.6.3 实验结果及分析48-50
- 3.7 本章小结50-51
- 4 基于语义相似度的Web服务匹配51-62
- 4.1 Web服务本体语言OWL-S52-54
- 4.2 基于语义相似度的Web服务发现框架54-58
- 4.2.1 Web服务相似度计算54-55
- 4.2.2 Web服务匹配框架55-58
- 4.3 Web服务测试数据集58-59
- 4.4 实验与分析59-61
- 4.4.1 实验环境60
- 4.4.2 语义Web服务匹配评价指标60
- 4.4.3 实验结果与分析60-61
- 4.5 本章小结61-62
- 5 总结与展望62-64
- 5.1 总结62-63
- 5.2 展望63-64
- 参考文献64-68
- 作者简历及攻读硕士学位期间取得的研究成果68-70
- 学位论文数据集70
【相似文献】
中国期刊全文数据库 前10条
1 胡艳波;崔新春;路青;;2002~2011年国内语义相似度研究计量分析[J];情报科学;2013年07期
2 王家琴;李仁发;李仲生;唐剑波;;一种基于本体的概念语义相似度方法的研究[J];计算机工程;2007年11期
3 刘俊;;基于语义相似度的关键词生成在企业搜索引擎营销中应用[J];电脑知识与技术;2008年14期
4 宗裕朋;吴刚;;一种基于上下文的语义相似度算法[J];微计算机信息;2008年30期
5 刘春辰;刘大有;王生生;赵静滨;王兆丹;;改进的语义相似度计算模型及应用[J];吉林大学学报(工学版);2009年01期
6 徐猛;刘宗田;周文;;一种基于知网语义相似度计算的应用研究[J];微计算机信息;2010年03期
7 孙海霞;钱庆;成颖;;基于本体的语义相似度计算方法研究综述[J];现代图书情报技术;2010年01期
8 魏椺;向阳;陈千;;计算术语间语义相似度的混合方法[J];计算机应用;2010年06期
9 马续补;郭菊娥;;基于《知网》语义相似度的企业事实主题诊断研究[J];情报杂志;2010年05期
10 魏凯斌;冉延平;余牛;;语义相似度的计算方法研究与分析[J];计算机技术与发展;2010年07期
中国重要会议论文全文数据库 前10条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
3 冯新元;魏建国;路文焕;党建武;;引入领域知识的基于《知网》词语语义相似度计算[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 石静;邱立坤;王菲;吴云芳;;相似词获取的集成方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 陈明;鹿e
本文编号:384016
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/384016.html