基于集成深度学习的文本匹配研究
发布时间:2021-01-12 02:42
随着我国信息化建设的逐渐完善,人们需要更智能和准确的信息检索和自动问答等人工智能领域的服务。为了不断提高算法的性能来提供更高效和舒适的服务,大量研究者投入到了自然语言处理的研究中。文本匹配是自然语言处理领域的核心和基础问题,经历了从早期的基于统计的传统文本匹配方法到近年来的深度文本匹配方法。本文研究了当前流行的几类深度学习文本匹配方法,包括单语义表达的文本匹配、多语义表达的文本匹配和注意力机制的文本匹配。在当前广泛使用的算法的基础上提出了多通道匹配金字塔模型、循环注意力机制的文本匹配模型和动态参数的模型堆叠集成算法,本文的主要工作包括:首先,提出了多通道匹配金字塔模型(MCMP),MCMP模型属于多语义表达的文本匹配模型,针对现有的多数基于表达的文本匹配模型在匹配过程中存在的信息丢失等问题,MCMP模型融合了多个通道,分别获取词语的匹配分数、词语重要性、上下文相关信息和位置信息。实验结果表明,MCMP模型在两组实验数据的各项指标上均优于其它基于表达的文本匹配模型,证明融合多通道的文本匹配方法是有效的。其次,提出了循环注意力机制的文本匹配模型(RAMM),RAMM模型由多个结构相同的匹配...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【图文】:
NNLM语言模型[63]
第二章深度文本匹配的相关技术理论11图2-2Cbow语言模型[64]通过嵌入层将词语映射成词向量的计算过程如前面所介绍的公式(2-1)所示,嵌入层的参数为vkC,其中v表示词汇集合的大小,k表示词向量的维度。模型在训练时会设置一个上下文滑动窗口的大小,如图2-2所示,滑动窗口的大小以2为例。目标词tw前后均选择2个词语t1w,t2w,t1w+,t2w+,并通过词向量映射函数得到滑动窗口大小内每个词的词向量t1x,t2x,t1x+,t2x+。然后,模型将这几个词向量直接相加,如公式(2-6)所示:t1t2t1t2xxxxx++=+++(2-6)求和得到的向量x作为隐藏层,并通过前馈神经网络得到概率向量y,如公式(2-7)所示,W和b为前馈神经网络的参数。y=b+Wx(2-7)为了保证每个词语的概率和为1,输出层会使用Softmax函数对概率向量进行归一化,然后计算交叉熵,如公式(2-8)和(2-9)所示。()11()1(|,...,)ywtttntvywiiepwwwe+==(2-8)111log((|,...,))ttnttLpwwwT+=(2-9)T表示所有训练的样本,L表示模型的损失,训练时使用梯度下降算法优化损失。训练好之后,参数C则是所需要的词向量。可以看出,Cbow语言模型在拟合的过程中,上下文接近的词语会学到比较相近的词表征。和前面介绍的NNLM语言模型相比,采取了词向量直接相加的方式,减少了计算量。NNLM语言模型的
电子科技大学硕士学位论文12隐藏层是将词向量合并成长向量,所以计算量和序列长度成正比,在训练时所设置的序列长度将会受到限制。Cbow语言模型虽然减小了计算量,但直接相加没有考虑到词语之间的顺序。2.1.3Skip-gram语言模型Skip-gram语言模型的整体思想是通过中间词语来预测前后词语,模型的整体结构如图2-3所示,模型将中间的词语映射到词向量,直接将中间词语的词向量作为隐藏层,并接入多个前馈神经网络来预测前后多个词语。图2-3Skip-gram语言模型[64]通过嵌入层将词语映射成词向量的计算过程如前面所介绍的公式(2-1)所示,嵌入层的参数为vkC,其中v表示词汇集合的大小,k表示词向量的维度。模型在训练时会设置一个上下文滑动窗口的大小,以图2-2的情况为例,滑动窗口的大小为2,则表示预测前后2个词语。中间词语tw映射后得到词向量为tx作为隐藏层,后面接入4个前馈神经网络,得到4个概率向量t2y、t1y、t1y+和t2y+,分别表示前后两个词语的概率向量。计算过程如公式(2-10)到公式(2-13)所示。t2t2t2tybWx=+(2-10)t1t1t1tybWx=+(2-11)t1t1t1tybWx+++=+(2-12)t2t2t2tybWx+++=+(2-13)然后通过Softmax函数对概率向量进行归一化,并计算出损失。归一化和损失
本文编号:2971980
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【图文】:
NNLM语言模型[63]
第二章深度文本匹配的相关技术理论11图2-2Cbow语言模型[64]通过嵌入层将词语映射成词向量的计算过程如前面所介绍的公式(2-1)所示,嵌入层的参数为vkC,其中v表示词汇集合的大小,k表示词向量的维度。模型在训练时会设置一个上下文滑动窗口的大小,如图2-2所示,滑动窗口的大小以2为例。目标词tw前后均选择2个词语t1w,t2w,t1w+,t2w+,并通过词向量映射函数得到滑动窗口大小内每个词的词向量t1x,t2x,t1x+,t2x+。然后,模型将这几个词向量直接相加,如公式(2-6)所示:t1t2t1t2xxxxx++=+++(2-6)求和得到的向量x作为隐藏层,并通过前馈神经网络得到概率向量y,如公式(2-7)所示,W和b为前馈神经网络的参数。y=b+Wx(2-7)为了保证每个词语的概率和为1,输出层会使用Softmax函数对概率向量进行归一化,然后计算交叉熵,如公式(2-8)和(2-9)所示。()11()1(|,...,)ywtttntvywiiepwwwe+==(2-8)111log((|,...,))ttnttLpwwwT+=(2-9)T表示所有训练的样本,L表示模型的损失,训练时使用梯度下降算法优化损失。训练好之后,参数C则是所需要的词向量。可以看出,Cbow语言模型在拟合的过程中,上下文接近的词语会学到比较相近的词表征。和前面介绍的NNLM语言模型相比,采取了词向量直接相加的方式,减少了计算量。NNLM语言模型的
电子科技大学硕士学位论文12隐藏层是将词向量合并成长向量,所以计算量和序列长度成正比,在训练时所设置的序列长度将会受到限制。Cbow语言模型虽然减小了计算量,但直接相加没有考虑到词语之间的顺序。2.1.3Skip-gram语言模型Skip-gram语言模型的整体思想是通过中间词语来预测前后词语,模型的整体结构如图2-3所示,模型将中间的词语映射到词向量,直接将中间词语的词向量作为隐藏层,并接入多个前馈神经网络来预测前后多个词语。图2-3Skip-gram语言模型[64]通过嵌入层将词语映射成词向量的计算过程如前面所介绍的公式(2-1)所示,嵌入层的参数为vkC,其中v表示词汇集合的大小,k表示词向量的维度。模型在训练时会设置一个上下文滑动窗口的大小,以图2-2的情况为例,滑动窗口的大小为2,则表示预测前后2个词语。中间词语tw映射后得到词向量为tx作为隐藏层,后面接入4个前馈神经网络,得到4个概率向量t2y、t1y、t1y+和t2y+,分别表示前后两个词语的概率向量。计算过程如公式(2-10)到公式(2-13)所示。t2t2t2tybWx=+(2-10)t1t1t1tybWx=+(2-11)t1t1t1tybWx+++=+(2-12)t2t2t2tybWx+++=+(2-13)然后通过Softmax函数对概率向量进行归一化,并计算出损失。归一化和损失
本文编号:2971980
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2971980.html
最近更新
教材专著