汉语词汇上下位关系获取及其应用研究
发布时间:2017-09-01 20:17
本文关键词:汉语词汇上下位关系获取及其应用研究
更多相关文章: 上下位 语义词典 网络百科 词嵌入 文本分类
【摘要】:知识获取是人工智能的核心问题之一,其中,语义关系获取是知识获取的研究热点,常见语义关系主要包括:同义、上下位、部分一整体和因果关系。上下位关系是一种非常重要的语义关系,常用于词典和知识库的构建。随着互联网的飞速发展,网络中新鲜词汇层出不穷,人们也对某些传统词汇赋予新的含义,这些改变对于传统的语义词典的构建造成严重的挑战。本文主要针对汉语词汇上下位关系获取及其应用进行研究,旨在对现有语义词典进行更新、完善,进一步提高语义词典的处理能力,使其更好地服务于各项自然语言处理任务。具体内容包括如下三个方面:(1)上下位关系获取。利用《中文概念词典》和《中国分类主题词表》作为词典资源,提出一种针对特定属性类型概念实例的抽取方法,准确地抽取词典中蕴含的上下位关系。同时,以中文维基百科、百度百科和互动百科作为知识获取来源,获取大规模候选下位词。此外,本文还对基于模式匹配的方法在人民日报语料中的语言现象进行了讨论。(2)上下位关系验证。首先,分析基于词典信息获取的上下位词对,发现这些词语在字形上具有相似性,因此从字面相似度去验证上下位关系。其次,从信息检索的角度,根据上下位词语在搜索引擎中的共现情况计算相似度。单独使用上述两种方法,通过设定相似度阈值过滤非下位词,会使召回率下降较大,影响候选下位词集合的规模。因此,本文提出一种将字面相似度和信息检索融入词向量模型的上下位关系验证方法,该方法可以从正确率和召回率上提高上下位关系验证的性能。最后,结合人工校对技术,对语义词典进行后处理,进一步提升下位词集合的质量。(3)语义词典的构建及应用。南京师范大学自然语言处理小组在NLPCC2012中文语义关系获取评测中取得了同义词评测的第一名,通过评测证明了其同义词获取方法的可行性,结合本文提出的上下位关系获取方法,以《现代汉语语法信息词典》(GKB)名词部分为目标,构建了同义词典GKB_SYN和上下位词典GKB_HYP。在文本分类实验中, GKB_SYN比同义词词林拥有更好的分类效果。以人民日报语料作为标注对象,GKB_SYN和GKB HYP在标注规模和覆盖两个指标均超过了GKB。
【关键词】:上下位 语义词典 网络百科 词嵌入 文本分类
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-9
- 第1章 绪论9-17
- 1.1 课题的来源与研究意义9-10
- 1.2 研究现状10-13
- 1.3 研究内容13-15
- 1.4 创新之处15
- 1.5 组织结构15-17
- 第2章 上下位关系获取17-30
- 2.1 基于词典资源的方法17-20
- 2.1.1 中文概念词典17-18
- 2.1.2 中国分类主题词表18-20
- 2.2 基于网络百科的方法20-22
- 2.3 基于模式匹配的方法22-25
- 2.4 实验25-29
- 2.4.1 实验语料25-26
- 2.4.2 评价指标26-27
- 2.4.3 实验结果及分析27-29
- 2.5 本章小结29-30
- 第3章 上下位关系验证30-52
- 3.1 基于字面相似度的方法30-31
- 3.2 基于信息检索的方法31-35
- 3.2.1 相似度计算31-32
- 3.2.2 网络爬虫及搜索技巧32-35
- 3.3 基于词向量的方法35-40
- 3.3.1 背景介绍35
- 3.3.2 word2vec35-37
- 3.3.3 上下位关系验证37-40
- 3.4 人工标注40-41
- 3.5 实验41-50
- 3.6 本章小结50-52
- 第4章 语义词典的应用52-65
- 4.1 语义词典的构建52-57
- 4.1.1 同义词典GKB SYN53-54
- 4.1.2 上下位词典GKB HYP54-57
- 4.2 语义词典的应用57-64
- 4.2.1 词义标注57-58
- 4.2.2 文本分类58-64
- 4.3 本章小结64-65
- 第5章 总结与展望65-68
- 5.1 本文工作总结65-66
- 5.2 下一步工作66-68
- 参考文献68-73
- 在读期间参加的科研项目与公开发表的论文73-74
- 致谢74
【参考文献】
中国期刊全文数据库 前7条
1 张清;;知识获取问题[J];计算机科学;1987年05期
2 刘磊;曹存根;王海涛;陈威;;一种基于“是一个”模式的下位概念获取方法[J];计算机科学;2006年09期
3 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
4 俞士汶,朱学锋,王惠;《现代汉语语法信息词典》的新进展[J];中文信息学报;2001年01期
5 俞士汶,段慧明,朱学锋,张化瑞;综合型语言知识库的建设与利用[J];中文信息学报;2004年05期
6 俞士汶,朱学锋,王惠,,张芸芸;现代汉语语法信息词典规格说明书[J];中文信息学报;1996年02期
7 陈震;吴斌;沈崇玮;张忠辉;王柏;;一种改进的基于质心的文本分类算法[J];计算机应用与软件;2013年01期
本文编号:774195
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/774195.html