基于VCK-vector模型的中文多义词消歧方法研究

发布时间:2021-05-17 02:27
  自计算机被研发问世以来,人类从最开始使用二进制码与计算机进行互动,到使用汇编语言给计算机发送指令,再到之后的使用高级编程语言调用计算机的各项功能,经历了漫长的发展。但是即便使用高级编程语言与计算机进行交互,依然没有达到人类不懈追求的最终目标—“让计算机理解人类的自然语言”。因此,如何让计算机理解人类的自然语言这一研究领域应运而生,即自然语言处理(NLP)。而在NLP中,存在最大的问题就是自然语言并不像高级编程语言或者汇编语言那样,每一条代码或者指令最后都只会转化为一条唯一确定的计算机能够理解的二进制编码。这是由于在自然语言中,无论文章、句子还是词语,都存在多义和歧义的特点造成的。所以如何消除自然语言中的歧义成为了自然语言处理研究中的重点和难点问题。自然语言处理中的歧义问题,从基础上影响和制约着自然语言在各个领域的应用效果和质量,比如在机器翻译领域中的应用、文本处理领域中的应用、信息检索领域和数据分析领域中的应用等。基于以上背景,本文将基于Viterbi算法的词性标注模型、CBOW语言模型及K-Means聚类算法进行组合,构建一种基于词向量的多义词组合消歧模型(VCK-Vector)。通... 

【文章来源】:昆明理工大学云南省

【文章页数】:101 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
        1.2.3 评述及研究问题的提出
    1.3 本文主要研究内容
    1.4 技术路线
第二章 相关概念及模型方法介绍
    2.1 自然语言处理(NLP)
    2.2 自然语言处理包含的研究内容及其体系
    2.3 词的表示方法
        2.3.1 One-hot表示法
        2.3.2 N-gram模型
        2.3.3 共现矩阵
    2.4 SVD(奇异值分解)
    2.5 中文词语向量化的语言模型
        2.5.1 CBOW和 Skip-gram语言模型
        2.5.2 Hierarchical Softmax算法
        2.5.3 Negative Sampling算法
    2.6 Viterbi算法
    2.7 K-Means聚类
    2.8 词义消歧
        2.8.1 基于人工定义规则的消歧方法
        2.8.2 基于知识库的消歧方法
        2.8.3 基于统计学的消歧方法
        2.8.4 基于实例的消歧方法
    2.9 本章小结
第三章 VCK-vector模型的构建
    3.1 研究问题描述
    3.2 消歧模型的消歧原理及构建流程
    3.3 上下文特征的提取
    3.4 结合词性标注的上下文特征改进
    3.5 结合上下文特征的词向量训练及其处理过程
    3.6 VCK-vector模型
    3.7 本章小结
第四章 VCK-vector模型的实现
    4.1 维基百科中文语料库的预处理
        4.1.1 语料库格式转换
        4.1.2 语料库字体转换
        4.1.3 清洗语料库
    4.2 分词及词性标注
        4.2.1 分词
        4.2.2 词性标注
    4.3 训练词向量
    4.4 K-Means聚类
    4.5 本章小结
第五章 模型对比及实验结果分析
    5.1 实验环境及开发环境(IDE)
    5.2 N-gram与基于Viterbi算法的词性标注模型
    5.3 CBOW与 Skip-gram语言模型
    5.4 未标注与已标注语料库的词向量对比
    5.5 K-Means聚类改进后的词向量
    5.6 VCK-vector模型与百度AI词向量的对比
    5.7 VCK-vector模型的验证与评价
    5.8 本章小结
第六章 结论与展望
    6.1 结论
    6.2 展望
致谢
参考文献
附录
学术论文和科研成果


【参考文献】:
期刊论文
[1]基于GloVe模型的词向量改进方法[J]. 陈珍锐,丁治明.  计算机系统应用. 2019(01)
[2]基于词向量的向量空间模型的改进[J]. 殷功俊.  现代计算机(专业版). 2018(36)
[3]一种基于多义词向量表示的词义消歧方法[J]. 李国佳,赵莹地,郭鸿奇.  智能计算机与应用. 2018(04)
[4]基于语义信息的中文分词研究[J]. 张生杰,霍丹.  电脑知识与技术. 2018(22)
[5]基于上下文信息的中文命名实体消歧方法研究[J]. 王旭阳,姜喜秋.  计算机应用研究. 2018(04)
[6]一种半监督的汉语词义消歧方法[J]. 张春祥,徐志峰,高雪瑶.  西南交通大学学报. 2019(02)
[7]基于双向LSTM神经网络模型的中文分词[J]. 金宸,李维华,姬晨,金绪泽,郭延哺.  中文信息学报. 2018(02)
[8]两种词义消歧方法分析与比较[J]. 张国清.  信息与电脑(理论版). 2017(19)
[9]基于N-gram模型的中文分词算法的研究[J]. 丁洁,赵景惠.  福建电脑. 2017(05)
[10]一种多义词词向量计算方法[J]. 曾琦,周刚,兰明敬,王濛.  小型微型计算机系统. 2016(07)

硕士论文
[1]多义词向量的优化研究[D]. 唐波.北京邮电大学 2016
[2]面向全文标注的中文词义消歧研究与实现[D]. 卞月峰.南京师范大学 2015
[3]基于维基百科的命名实体消歧的研究与实现[D]. 杨雪.北京邮电大学 2014
[4]中文分词关键技术研究[D]. 曹卫峰.南京理工大学 2009



本文编号:3190891

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3190891.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bce86***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com