基于拼音特征与动态嵌入向量的文本语义匹配方法研究

发布时间:2022-01-17 09:51
  随着互联网和计算机科学技术的快速发展,人们对智能客服、机器翻译等人工智能应用的需求越来越多,对计算机处理人类自然语言能力的要求也越来越高。文本语义匹配作为自然语言处理技术中的核心内容之一,可将用户输入文本和计算机数据库中已有文本进行语义匹配,辅助计算机理解人类自然语言。由于中文语料字词表规模庞大,导致语料数据稀疏,字词表中元素对应的语义特征嵌入向量无法得到充分训练。同时,传统word2vec嵌入模型将字词表中元素固定映射为单一语义特征嵌入向量,无法实现元素多义表征。针对以上问题,本课题采用汉语拼音声母、韵母和声调作为字词表基本单位,解决中文语料字词表规模庞大的问题。同时,为实现拼音特征嵌入向量多义表征,本课题将拼音文本与基于Transformer的双向编码表示(BERT)嵌入模型相结合。通过多头自注意力机制根据拼音文本中元素的前后文信息实现拼音特征嵌入向量动态映射。另外,为提高嵌入向量的表征效果,本课题对现有BERT嵌入模型预训练方法进行改进,提出一种适用于文本语义匹配任务的预训练方法,并在拼音语料上对BERT嵌入模型重新进行预训练。实验结果显示,所提出的文本语义匹配模型在大规模中文问... 

【文章来源】:哈尔滨理工大学黑龙江省

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

基于拼音特征与动态嵌入向量的文本语义匹配方法研究


拼音序列表示示意图

语料,格式,全局,向量


第3章文本语义匹配模型设计-25-图3-7预训练语料格式Fig.3-7Pre-trainingcorpusformatSSP预训练方法通过对BERT嵌入模型进行语句间同义语义关系的专项训练,能够以较少的预训练数据完成对BERT嵌入模型的预训练,并在文本语义匹配任务上保证较好的模型效果。通过将SSP预训练方法和原有MLM预训练方法相结合对BERT嵌入模型进行预训练,能够在提高BERT嵌入模型对同义语句语义关系判断能力的同时,降低模型预训练所需的运算量。3.4注意力池化层针对分类任务的神经网络模型通常采用神经网络分类器作为模型最后一层来输出分类结果。由于分类层需要根据单个输入向量(而不是一组向量)进行分类,因此本课题采用池化方法将BERT嵌入模型提取到的语义特征嵌入向量序列E降维并聚合,得到包含两个输入待匹配文本1S和2S间语义匹配信息的语义匹配表征向量v,作为模型分类层的输入。池化方法起源于计算机视觉领域,其目的在于对输入图像的特征进行压缩,在降低特征维数的同时进行特征筛选以得到有效特征。本课题对多种不同的序列池化方法效果进行对比,包括全局最大池化(GlobalMaxPooling,GMP)、全局平均池化(GlobalAveragePooling,GAP)和注意力池化(AttentionPooling,AP)[44]。3.4.1全局最大池化与全局平均池化全局最大池化和全局平均池化示意图如图3-8所示。全局最大池化和全局平均池化分别通过求嵌入向量序列E中所有嵌入向量ie相同位置元素的最大和平均值,对嵌入向量序列E中包含的重要信息和全局信息进行聚合,得到语义表征向量Mv和Av。全局最大池化和全局平均池化的计算公式为:H1n21M,...,maxiiiieeev(3-1)

损失曲线,损失曲线,模型,语义匹配


第4章实验与结果分析-33-和100%。BERT嵌入模型预训练总体损失曲线如图4-3所示。图4-3BERT嵌入模型预训练损失曲线Fig.4-3Thelosscurveofpre-trainingBERTembeddingmodel可以看出,BERT模型在SSP+MLM预训练方法上的预训练过程共100万个训练步(每步包含16个预训练样本)。在预训练初期,模型损失值迅速下降,ADAM优化算法的搜索方向抵达损失函数的极小点附近。随着ADAM优化算法自适应地降低模型学习率,模型损失值的下降逐渐平缓,使模型稳定收敛。由于时间限制,本课题将预训练的终止步数设置为与BERT原文相同的100万步。本课题对BERT嵌入模型进行充分的预训练,使BERT嵌入模型对语料字词表中每个元素的语义信息和序列中各个元素之间的语义关系形成有效的提取能力。同时,增强BERT嵌入模型对语句间同义关系的判断能力。4.4.2文本语义匹配模型训练本课题将预训练后的BERT嵌入模型参数迁移到所提出的PY-BERT语义匹配模型嵌入层,以带标签的有监督训练方式在LCQMC训练集上对PY-BERT文本语义匹配模型进行训练。设置最大序列长度为128n,训练数据批大小为16batch_size,与预训

【参考文献】:
期刊论文
[1]融合BERT语义加权与网络图的关键词抽取方法[J]. 李俊,吕学强.  计算机工程. 2020(09)
[2]基于对抗正则化的自然语言推理[J]. 刘广灿,曹宇,许家铭,徐波.  自动化学报. 2019(08)
[3]基于BERT嵌入的中文命名实体识别方法[J]. 杨飘,董文永.  计算机工程. 2020(04)
[4]神经机器翻译综述[J]. 李亚超,熊德意,张民.  计算机学报. 2018(12)
[5]基于上下文的深度语义句子检索模型[J]. 范意兴,郭嘉丰,兰艳艳,徐君,程学旗.  中文信息学报. 2017(05)
[6]深度文本匹配综述[J]. 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗.  计算机学报. 2017(04)
[7]中文分词十年回顾[J]. 黄昌宁,赵海.  中文信息学报. 2007(03)
[8]自动问答综述[J]. 郑实福,刘挺,秦兵,李生.  中文信息学报. 2002(06)

硕士论文
[1]基于深度神经网络的文本匹配算法研究[D]. 李宏广.中国科学技术大学 2019
[2]基于注意力池化机制和额外知识的事实型知识问答研究[D]. 汪欢.浙江大学 2019
[3]基于LSTM的语义关系分类研究[D]. 胡新辰.哈尔滨工业大学 2015



本文编号:3594515

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3594515.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户53f3e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com