基于孪生网络的中文语义匹配算法研究

发布时间:2021-01-16 07:26
  语义匹配在自然语言处理中有很多应用,包括问答系统、释义识别和文本蕴含等。孪生网络是计算语义匹配常用框架,它的特点是具有两个结构相同且共享权重的子网络。孪生网络的两个输入端同时接受一个文本信息,通过共享权重的子网络将这两个文本转化为向量,再使用某一种距离度量算法计算两个文本向量的距离。文本匹配面临几方面的难点,一是语义的多样性,表现在多词同义和一词多义;二是文本的结构性,相同数量的词汇按照不同顺序可以构成相同含义的句子,也可以表达出不同语义;三是目前现有知识对长文本表示困难,难以构建和认知长文本中层次信息;四是是否可以设计出更高效的语义匹配模型。深度学习的快速发展颠覆了语义匹配之前需要手工设计特征的时代,本文在孪生网络的基础上结合CNN、RNN和注意力机制设计出适用于不同场景的语义匹配模型。BERT作为通用预训练模型,又助力自然语言处理在多数场景下更进一步,本文在此基础上将孪生网络与BERT相结合,更好地处理了长文本匹配的问题。本文共提出了三种文本匹配算法模型,具体内容如下:(1)从如何更高效地进行语义匹配角度出发,利用SWEM设计了一种高效的语义匹配模型。SWEM是一个以词向量为基础、... 

【文章来源】:江南大学江苏省 211工程院校 教育部直属院校

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

基于孪生网络的中文语义匹配算法研究


LSTM和GRU内部示意图[11]

结构图,结构图,句子


饔檬蔷龆ㄍ?嵌嗌俟?サ男畔ⅲ??旅啪龆ǘ??男┬?息以及添加哪些新信息。一个普通RNN模型就蕴含在GRU中,只要重置门100%通过,更新门关闭就行。GRU更新门的作用类似于LSTM的忘记和输入门。GRU的张量运算较少;因此,与LSTM相比,GRU的训练速度更快。但是不同场景下,LSTM和GRU表现不同,所以需要实践才能明确哪个更好。2.2.2基于LSTM的孪生网络结构论文[42]提出了基于长短期记忆或LSTM的网络结构用于计算两个文本之间的相似度,由于使用了Manhattan距离,所以该模型被称为ManhattanLSTMModel,模型结构图如图2-3。图2-3ManhattanLSTMModel结构图[42]模型的输入是两个经过分词之后的句子,每个单词需要以词向量的形式按序输入,紧接着两个句子都通过一个LSTM进行表示,这两个LSTM共享权重,LSTM的最后一个隐藏状态作为整个句子的表示,计算两个句子向量的曼哈顿距离,就可以得到模型的输出。上述模型是早期基于LSTM的孪生网络,后期有很多改进工作。这些改进工作围绕着句子向量的表示、句子交互、距离表示等方面进行。以ESIM为例,ESIM是EnhancedLSTMforNaturalLanguageInference的简称,专用于文本推断的句子对模型,在诸多文本匹配实验中有着非常不错的效果。ESIM主要有三个组成部分,分别是输入编码,局部推理建模和推理组合。输入编码采用双向长短期记忆(BiLSTM)构建输出编码,局部推理则是用点积的方式计算两个句子表示的注意力权重获取句子之间的交互信息,推理组成部同样使用向长短期记忆(BiLSTM)进行信息提取并进行最大池化和平均池化。2.3基于卷积神经网络和孪生网络的语义匹配算法

过程图,卷积,二维,过程


江南大学硕士学位论文122.3.1卷积神经网络(CNN)卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种利用卷积运算的神经网络,最大的特点是权重共享和平移不变性,它一般由若干卷积层和池化层组成,在图像视频分类、识别、自然语言处理、推荐系统、医疗图像分析和金融数据分析等方面都有应用。卷积是一种特殊的线性运算。卷积神经网络中最重要的一个概念是“感受野”(ReceptiveField),首次出现在1962年Hubel和Wiesel[43]对猫脑视觉皮层的研究报告中,“感受野”对后来的卷积神经网络的发展有着重要启示。感受野是卷积神经网络每一层输出的特征图(featuremap)上的像素点的计算与输入图像上某个区域的影响。1989年,LeCun[44]结合权值共享的卷积神经层,在反向传播算法基础之上,发明了卷积神经网络,随后又提出了一个经典卷积网络模型:LeNet-5。图2-4二维卷积的计算过程[46]一个卷积神经网络主要包括5种结构:输入层、卷积(convolutional)层、池化(pooling)层、全连接层及输出层[45]。卷积层是核心层,它由多个过滤器组成,滤波器可以看作是二维数字矩阵。将滤波器覆盖在图像的某个位置,然后将图像位置对应像素的数值与滤波器中的值进行相乘,将这些乘积加起来就可以得到输出图像对应位置像素的数值。将上述操作在图像所有位置重复操作,输出新图像,整个操作就是“卷积”操作。图2-4[46]是一个2维卷积的例子,这里只对核完全处在图像中的位置进行有效卷积。卷积的过程中会出现输出图像与希望得到的图像大小不一致,那么需要在图像周围添加多个0,这样就可以叠加更多的滤波器,而这种操作就是“填充”(Padding)。图像中相邻的像素位置绝大多数都具有相近的数值,所以卷积之后的特诊图上相邻输出像素的数值也相近,

【参考文献】:
期刊论文
[1]基于改进的Jaccard系数文档相似度计算方法[J]. 俞婷婷,徐彭娜,江育娥,林劼.  计算机系统应用. 2017(12)
[2]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军.  计算机学报. 2017(06)
[3]深度文本匹配综述[J]. 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗.  计算机学报. 2017(04)
[4]基于改进编辑距离的中文相似句子检索[J]. 车万翔,刘挺,秦兵,李生.  高技术通讯. 2004 (07)



本文编号:2980404

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2980404.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7e393***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com