基于主题模型词向量的柬埔寨语命名实体识别
发布时间:2021-11-27 00:06
命名实体识别任务作为自然语言处理领域中的一项基本任务,其对于文本的理解和翻译均具有积极的推动作用。由于不同语言之间的差异性使得传统中英文命名实体技术难以移植到柬埔寨语上。为了丰富柬埔寨语自然语言处理工作的理论和应用,本文使用BiLSTM-CRF模型进行柬埔寨语命名实体识别的研究,并将基于HDP主题模型得到的主题词向量作为BiLSTM神经网络的输入特征。本文的主要工作具体如下:(1)针对单一词向量中存在的一词多义和一义多词的问题,提出了一种基于HDP主题模型的主题词向量的构造方法。该方法是在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-gram模型同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得更好的效果,因而本文获取的主题词向量具有更多的语义信息。(2)针对传统命名实体方法过多依靠人工特征工程的问题,提出了基于BiLSTM-CRF神经网络的柬埔寨语命名实体识别方法。该方法一方面...
【文章来源】:昆明理工大学云南省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
爬取的柬埔寨语料
第三章基于HDP主题模型的主题词向量构造方法272613dinn(3.29)其中,表示等级个数,即测试集中包含的词语对的数量。d表示两组单词之间的等级差数,d表示第i组单词的等级差。图3.6数据集SCWS在该实验任务中,进行的对比实验是将本文所得到的主题词向量模型和skip-gram模型、LDA主题模型、HDP主题模型、LDA-Skip-gram的主题词向量模型在上下文单词相似度任务上进行结果对比。(2)文本分类实验本章节中进行文本分类实验采用的数据集是基于柬埔寨语官方网站爬取的,其中80%的语料作为实验训练集,20%的语料用于实验的测试集。然后对这些语料进行整理并进行预处理的训练。文本的预处理是对原始语料进行分词和去停用词的处理,使用的分词工具是KhmerUnicodeLineBreake。为了能够提取文档的特征,本文引入文档向量:dP(|)wzcwdwd(3.30)其中,表示一个拥有一定主题数目的文档,是该文档中的单词。为简化计算,本文中采用TFIDF权重算法来对P(|)进行计算,此时文档的特征向量便可求出,即为所有主题词向量的加权求和。然后再使用基于支持向量机的分类方法的方法得到最终的文本分类。在该实验任务中,将本文的到的主题词向量模型和LDA主题模型、skip-gram模型、HDP主题模型以及LDA-skip-gram主题词向量模型进行对比。其中,LDA主题模型和HDP主题模型均是使用其模型中的主题分布来代表文档;skip-gram模型中则是将对文本中所有单词
第五章基于主题模型词向量的柬埔寨语命名实体识别原型系统45第五章基于主题模型词向量的柬埔寨语命名实体识别原型系统5.1引言柬埔寨语的命名实体识别是柬埔寨语诸多自然语言处理任务的基础工作,柬埔寨语命名实体识别效果的好坏直接影响着对柬埔寨语研究的其他上层自然语言处理任务的进行。因此,进行柬埔寨语的命名实体识别原型系统的建立是十分有必要的。本文的第二章主要介绍了LSTM神经网络模型的原理以及前向后向传播的过程,为理解BiLSTM神经网络模型打下理论基础;第三章主要介绍了基于HDP主题模型的主题词向量的构造方法;第四章主要介绍了了基于BiLSTM-CRF神经网络的柬埔寨语的命名实体识别的方法,并验证通过此方法能够在现有基础上提高柬埔寨语命名实体识别的效果。本章将将上述章节中的研究开发成果进行整理并开发出柬埔寨语的命名实体识别的原型系统。5.2语料的收集本文语料的收集分为两部分,一部分是来自于PLC官网网上公开的语料集KCorpus(如下图5.1所示),该语料集是一个已经进行过分词和词性标注的语料集,在本文中只需要对其分词和标注的结果进行人工校对即可。另一部分的语料集是源于爬取柬埔寨官方网站上的语料集(如图3.5所示),该语料集首先使用实验室开发的柬埔寨语的分词工具,然后针对其分词结果进行预处理。图5.1KCorpus语料
【参考文献】:
期刊论文
[1]基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 李雁群,何云琪,钱龙华,周国栋. 计算机工程. 2018(11)
[2]基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J]. 买买提阿依甫,吾守尔·斯拉木,帕丽旦·木合塔尔,杨文忠. 计算机工程. 2018(08)
[3]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[4]主题联合词向量模型[J]. 吴旭康,杨旭光,陈园园,王营冠,张阅川. 计算机工程. 2018(02)
[5]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[6]中文电子病历命名实体标注语料库构建[J]. 曲春燕,关毅,杨锦锋,赵永杰,刘雅欣. 高技术通讯. 2015 (02)
[7]基于规则的越南语命名实体识别研究[J]. 闫丹辉,毕玉德. 中文信息学报. 2014(05)
[8]基于条件随机场的越南语命名实体识别方法[J]. 潘清清,周枫,余正涛,郭剑毅,线岩团. 山东大学学报(理学版). 2014(01)
[9]基于条件随机场的维吾尔人名识别方法[J]. 艾斯卡尔·肉孜,宗成庆,姑丽加玛丽·麦麦提艾力,热合木·马合木提,艾斯卡尔·艾木都拉. 清华大学学报(自然科学版). 2013(06)
[10]基于最大熵模型的中国人名自动识别[J]. 曹波,苏一丹,邓琦. 计算机工程与应用. 2009(04)
硕士论文
[1]基于主题模型和词向量的短文本语义挖掘研究[D]. 李思宇.太原理工大学 2018
[2]基于递归神经网络的生物医学命名实体识别[D]. 金留可.大连理工大学 2016
[3]基于约束条件随机场的柬埔寨语命名实体识别研究[D]. 黄淑慧.昆明理工大学 2016
[4]基于条件随机场的柬埔寨语词法分析方法研究[D]. 潘华山.昆明理工大学 2014
本文编号:3521192
【文章来源】:昆明理工大学云南省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
爬取的柬埔寨语料
第三章基于HDP主题模型的主题词向量构造方法272613dinn(3.29)其中,表示等级个数,即测试集中包含的词语对的数量。d表示两组单词之间的等级差数,d表示第i组单词的等级差。图3.6数据集SCWS在该实验任务中,进行的对比实验是将本文所得到的主题词向量模型和skip-gram模型、LDA主题模型、HDP主题模型、LDA-Skip-gram的主题词向量模型在上下文单词相似度任务上进行结果对比。(2)文本分类实验本章节中进行文本分类实验采用的数据集是基于柬埔寨语官方网站爬取的,其中80%的语料作为实验训练集,20%的语料用于实验的测试集。然后对这些语料进行整理并进行预处理的训练。文本的预处理是对原始语料进行分词和去停用词的处理,使用的分词工具是KhmerUnicodeLineBreake。为了能够提取文档的特征,本文引入文档向量:dP(|)wzcwdwd(3.30)其中,表示一个拥有一定主题数目的文档,是该文档中的单词。为简化计算,本文中采用TFIDF权重算法来对P(|)进行计算,此时文档的特征向量便可求出,即为所有主题词向量的加权求和。然后再使用基于支持向量机的分类方法的方法得到最终的文本分类。在该实验任务中,将本文的到的主题词向量模型和LDA主题模型、skip-gram模型、HDP主题模型以及LDA-skip-gram主题词向量模型进行对比。其中,LDA主题模型和HDP主题模型均是使用其模型中的主题分布来代表文档;skip-gram模型中则是将对文本中所有单词
第五章基于主题模型词向量的柬埔寨语命名实体识别原型系统45第五章基于主题模型词向量的柬埔寨语命名实体识别原型系统5.1引言柬埔寨语的命名实体识别是柬埔寨语诸多自然语言处理任务的基础工作,柬埔寨语命名实体识别效果的好坏直接影响着对柬埔寨语研究的其他上层自然语言处理任务的进行。因此,进行柬埔寨语的命名实体识别原型系统的建立是十分有必要的。本文的第二章主要介绍了LSTM神经网络模型的原理以及前向后向传播的过程,为理解BiLSTM神经网络模型打下理论基础;第三章主要介绍了基于HDP主题模型的主题词向量的构造方法;第四章主要介绍了了基于BiLSTM-CRF神经网络的柬埔寨语的命名实体识别的方法,并验证通过此方法能够在现有基础上提高柬埔寨语命名实体识别的效果。本章将将上述章节中的研究开发成果进行整理并开发出柬埔寨语的命名实体识别的原型系统。5.2语料的收集本文语料的收集分为两部分,一部分是来自于PLC官网网上公开的语料集KCorpus(如下图5.1所示),该语料集是一个已经进行过分词和词性标注的语料集,在本文中只需要对其分词和标注的结果进行人工校对即可。另一部分的语料集是源于爬取柬埔寨官方网站上的语料集(如图3.5所示),该语料集首先使用实验室开发的柬埔寨语的分词工具,然后针对其分词结果进行预处理。图5.1KCorpus语料
【参考文献】:
期刊论文
[1]基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 李雁群,何云琪,钱龙华,周国栋. 计算机工程. 2018(11)
[2]基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J]. 买买提阿依甫,吾守尔·斯拉木,帕丽旦·木合塔尔,杨文忠. 计算机工程. 2018(08)
[3]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[4]主题联合词向量模型[J]. 吴旭康,杨旭光,陈园园,王营冠,张阅川. 计算机工程. 2018(02)
[5]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[6]中文电子病历命名实体标注语料库构建[J]. 曲春燕,关毅,杨锦锋,赵永杰,刘雅欣. 高技术通讯. 2015 (02)
[7]基于规则的越南语命名实体识别研究[J]. 闫丹辉,毕玉德. 中文信息学报. 2014(05)
[8]基于条件随机场的越南语命名实体识别方法[J]. 潘清清,周枫,余正涛,郭剑毅,线岩团. 山东大学学报(理学版). 2014(01)
[9]基于条件随机场的维吾尔人名识别方法[J]. 艾斯卡尔·肉孜,宗成庆,姑丽加玛丽·麦麦提艾力,热合木·马合木提,艾斯卡尔·艾木都拉. 清华大学学报(自然科学版). 2013(06)
[10]基于最大熵模型的中国人名自动识别[J]. 曹波,苏一丹,邓琦. 计算机工程与应用. 2009(04)
硕士论文
[1]基于主题模型和词向量的短文本语义挖掘研究[D]. 李思宇.太原理工大学 2018
[2]基于递归神经网络的生物医学命名实体识别[D]. 金留可.大连理工大学 2016
[3]基于约束条件随机场的柬埔寨语命名实体识别研究[D]. 黄淑慧.昆明理工大学 2016
[4]基于条件随机场的柬埔寨语词法分析方法研究[D]. 潘华山.昆明理工大学 2014
本文编号:3521192
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3521192.html
最近更新
教材专著