基于深度学习的汉语词义消歧方法研究
本文关键词:基于深度学习的汉语词义消歧方法研究
更多相关文章: 词义消歧 未登录词词义预测 深度学习 序列标注 词向量
【摘要】:自然语言中一词多义现象是普遍存在的。词义消歧(word sense disambiguation,WSD)任务是依据上下文语境确定词的词义,词义消歧任务可以直接影响机器翻译(Machine Translation,MT)、信息检索(Information Retrieval,IR)等任务的性能。本文在机器学习框架下研究汉语词义消歧和未登录词词义预测问题。具体而言,本文将从以下三个方面展开研究:(1)基于序列标注的汉语词义消歧。本文将词义消歧任务形式化为序列标注问题,研究不同序列标注模型和不同特征的消歧性能。实验结果表明:融入五级标注词义特征的条件随机场模型消歧效果较好。(2)基于词向量的汉语词义消歧。为了进一步提高词义消歧性能,本文尝试将包含语义信息的词向量融入词义消歧中。一方面,利用上下文共现词频与句法依存信息缩减歧义词词义的候选数量,而后在神经网络模型下,通过计算学习获得的词义标记向量与歧义词向量的语义相似度确定词义;另一方面,我们对最大熵模型进行优化,并通过确定性区别词和语义相似度对语料进行扩展,以提高词义消歧的准确率。实验结果表明,利用扩展语料在神经网络最大熵模型的消歧效果最佳。(3)基于词向量的汉语未登录词的词义预测。在词义消歧的基础之上,本文探索未登录词的词义预测问题,分为两个子问题:词义候选构造与词义预测。在构造词义候选阶段,本文分别采用基于词性、内部语素、语义相似度的方法以及多方法融合进行构造;在词义预测阶段,本文利用不同粒度的词向量语义相似度对候选的词义进行预测。实验结果显示:基于多方法融合的方法构造未登录词的预测词义效果最佳。
【关键词】:词义消歧 未登录词词义预测 深度学习 序列标注 词向量
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP181
【目录】:
- 中文摘要4-5
- Abstract5-10
- 第1章 绪论10-20
- 1.1 研究背景和意义10-11
- 1.2 国内外研究现状11-16
- 1.2.1 词义消歧研究现状11-14
- 1.2.2 汉语词义消歧研究现状14-15
- 1.2.3 未登录词词义预测研究现状15-16
- 1.3 相关研究存在的主要问题16
- 1.4 本文主要研究内容16-18
- 1.5 本文的组织安排18-20
- 第2章 基于序列标注的汉语词义消歧20-33
- 2.1 引言20
- 2.2 基于序列标注的汉语词义消歧任务描述20-21
- 2.3 词义消歧的序列标注模型21-23
- 2.3.1 基于最大熵模型的词义消歧21-22
- 2.3.2 基于条件随机场模型的词义消歧22-23
- 2.4 词义消歧特征23-28
- 2.4.1 词形特征24
- 2.4.2 词性特征24-25
- 2.4.3 词义特征25-27
- 2.4.4 特征模板27-28
- 2.5 实验结果与分析28-32
- 2.5.1 语料库来源及评价指标28-29
- 2.5.2 基于最大熵模型的词义消歧实验结果29-30
- 2.5.3 基于CRF模型的词义消歧实验结果30
- 2.5.4 两种模型的词义消歧结果对比与分析30-32
- 2.6 本章小结32-33
- 第3章 基于词向量的汉语词义消歧33-52
- 3.1 引言33-34
- 3.2 基于语义相似度的词义消歧34-39
- 3.2.1 基于语义相似度的词义消歧框架34
- 3.2.2 歧义词词义候选的缩减34-37
- 3.2.3 词向量的学习37-38
- 3.2.4 基于语义相似度的消歧38-39
- 3.3 基于神经网络最大熵模型的词义消歧39-40
- 3.3.1 基于神经网络最大熵模型的消歧框架39
- 3.3.2 神经网络最大熵模型39-40
- 3.3.3 词义消歧的特征40
- 3.4 词义消歧语料的扩展40-43
- 3.4.1 语料扩展消歧框架40-41
- 3.4.2 语料扩展原则41-43
- 3.5 实验结果与分析43-51
- 3.5.1 语料库来源及评价指标43
- 3.5.2 基线系统43-45
- 3.5.3 基于相似度的词义消歧实验结果及分析45-47
- 3.5.4 基于神经网络最大熵模型的实验结果及分析47-51
- 3.6 本章小结51-52
- 第4章 基于词向量的汉语未登录词词义预测52-67
- 4.1 引言52-53
- 4.2 汉语未登录词的特点53-54
- 4.3 汉语未登录词词义预测问题描述54-55
- 4.4 汉语未登录词词义候选构造55-59
- 4.4.1 基于词性的词义候选构造55-56
- 4.4.2 基于语素的词义候选构造56-58
- 4.4.3 基于聚类的词义候选构造58-59
- 4.4.4 多方法融合的词义候选构造59
- 4.5 汉语未登录词词义预测59-62
- 4.5.1 词向量的学习60-62
- 4.5.2 基于语义相似度的词义预测62
- 4.6 实验结果与分析62-66
- 4.6.1 实验数据与测评指标62-63
- 4.6.2 词义候选构造实验结果63-64
- 4.6.3 词义预测实验结果64-66
- 4.7 本章小结66-67
- 结论67-69
- 参考文献69-74
- 致谢74-76
- 攻读硕士学位期间发表的学术论文及参加的科研项目76
【相似文献】
中国期刊全文数据库 前10条
1 吴云芳;;词义消歧相关术语简介[J];术语标准化与信息技术;2010年03期
2 金澎;;词义消歧和词义消歧评测简介[J];术语标准化与信息技术;2010年03期
3 于林林;魏琦;宋丽芳;;基于多种方法相融合的词义消歧的研究[J];电脑知识与技术;2010年33期
4 李生;张晶;赵铁军;姚建民;;词义消歧研究的现状与发展方向[J];计算机科学;2001年09期
5 郭池 ,陈家骏 ,王启祥;一种基于语料库的词义消歧策略[J];计算机工程与应用;2003年35期
6 全昌勤,何婷婷,姬东鸿,刘辉;基于指示词的词义消歧方法[J];计算机工程;2005年16期
7 全昌勤,何婷婷,姬东鸿,刘辉;从搭配知识获取最优种子的词义消歧方法[J];中文信息学报;2005年01期
8 全昌勤,何婷婷,姬东鸿,刘辉;基于义类的无导词义消歧方法的研究[J];计算机应用研究;2005年04期
9 胡蓉;词义消歧方法初探[J];洛阳工业高等专科学校学报;2005年01期
10 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
中国重要会议论文全文数据库 前10条
1 曲维光;董宇;陈钟;陈小荷;;基于语境计算模型的词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 郭宇航;车万翔;刘挺;;基于语言模型验证的词义消歧语料获取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 秦颖;王小捷;;组合中文词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 王菁华;刘建毅;王枞;;语义网络结构下的词义消歧[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
5 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 于丽丽;丁德鑫;曲维光;陈小荷;石民;;基于多分类器集成的古代汉语词义消歧[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
8 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 赫兰光;王轩;李露;范士喜;;基于最大熵分类器的谓词识别与词义消歧[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 吴崇斌;张全;;上下文边界可变的贝叶斯分类器词义消歧方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前9条
1 周云;基于统计学习的词义消歧关键技术研究[D];国防科学技术大学;2014年
2 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
3 陈俊鹏;词义消歧中若干关键技术研究[D];武汉大学;2012年
4 鹿文鹏;基于依存和领域知识的词义消歧方法研究[D];北京理工大学;2014年
5 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
6 王菁华;文本中知识的获取[D];北京邮电大学;2008年
7 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
8 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
9 涂锟;基于自然语言与记忆再重构的常识推理模型[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 卞月峰;面向全文标注的中文词义消歧研究与实现[D];南京师范大学;2015年
2 张振景;基于SVM的离合词词义消歧[D];河北大学;2016年
3 张晶莹;基于深度学习的汉语词义消歧方法研究[D];黑龙江大学;2016年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 但汉辉;一种汉语词义消歧方法的研究[D];重庆大学;2009年
6 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
7 潘兆志;有监督方法在词义消歧中的应用[D];苏州大学;2009年
8 于林林;基于知网的汉语词义消歧方法的研究[D];沈阳航空工业学院;2008年
9 陈浩;基于二阶上下文的无导词义消歧研究[D];华中师范大学;2005年
10 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
,本文编号:579147
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/579147.html