检索式医疗问答系统中问句匹配算法研究
发布时间:2022-01-16 09:07
本世纪以来,随着生活与科技水平的提升,民众对健康问题的关注日益增多。智能医疗问答系统,能够快速反馈用户所需的专业医学信息,具有非常重要的研究与应用价值。目前,大多数智能医疗问答系统为检索式问答系统,主要包括两个核心模块:问题召回和问句重排序。问句召回模块基于字词相似度快速召回top k个候选匹配问题;重排序模块使用文本匹配模型根据语义相似度对召回的k个候选问句重新进行排序。文本匹配模型排序结果对应的答案即为最后返回给用户的答案。因此,文本匹配模型的性能,极大程度影响了检索式问答系统的性能。本文主要研究检索式医疗问答系统中的问句匹配问题。受前人工作的启发,本文提出了基于动态路由与注意力机制的语义匹配模型,通过双向长短时记忆网络对文本进行上下文信息的编码,引入注意力机制对文本对进行交互匹配信息的建模,使用动态路由机制对上下文信息的编码和注意力表示进行加权。为验证该模型有效性,本文构建了大规模的医疗文本匹配数据集进行对比实验,实验证明本文提出的模型F1值达到86.66%,优于现有主流匹配模型。此外,对模型进行消融对比实验,证明了本文提出的模型可以很好的对句子的语义信息与匹配交互信息进行建模。...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
基于全连接神经网络的DSSM模型
窗口内捕捉到的词转换成单词N-grams。在CDSSM的输入中,仍然使用DSSM形式的三元组布尔向量对输入进行表示。对每个滑动窗口,将该窗口中所有单词的布尔向量拼接为该窗口的特征向量,进行后续的卷积运算。而后将每个窗口输出的特征向量输入到一个前馈网络中,以提取该窗口的高层语义特征。最大池层采用所有滑动窗口的网络输出向量的元素最大值,来获得最终的句向量表示。通过这样的模型设计,可以将可变长度的输入文本,输出为固定长度的特征向量。最后在最大池层之上加入一个前馈网络,输出最终的输入文本语义表示向量。图2-2基于交互式卷积神经网络的文本匹配模型DSSM和CDSSM都属于文本匹配领域比较早的深度学习模型,随着word2vec[29],Glove[30]等词向量的出现,使得词向量越来越变成主流的文本匹配模型的输入,取代了DSSM提出的三元组布尔映射输入。Hu等人[12]使用卷积神经网络来对文本的输入向量进行建模,提出了2个不同形式的CNN文本匹配模型。ARC-I如图2-2所示,分别使用参数共享的卷积神经网络来对输入的文本对进行卷积池化,获得固定长度的文本表示,而后不同于CDSSM直接使用余弦相似度作为两个句子的相似度,ARC-I选择拼接这两个向量作为全连接多层神经网络的输入去进行相似度打分,从而将这个多层全连接神经网络的输出处理后作为最终相似度。ARC-II则是基于句子对交互式的匹配模型,在除了保持句子序列信息之外,该模型还会对对两个文本的局部之间进行匹配学习。
哈尔滨工业大学工学硕士学位论文-22-络(BidirectionalLongShort-TermMemory,BiLSTM)作为文本编码器,LSTM作为循环神经网络的一个常见变种,结构如图3-2所示,LSTM的门控设计使得其对长文本有更好的建模效果。图3-2LSTM模型结构在语义匹配任务中,希望能够对两个文本进行精细的语义交互匹配,本文引入注意力机制,对两个文本进行匹配信息交互。注意力机制架构如图3-3所示,注意力机制可以描述为将和一组<key,value>对映射到输出,其中query,<key,value>对和输出都是向量。输出被计算为value的加权和,而其中分配给每个的权重则由和对应的值通过函数计算获得。图3-3注意力机制架构具体attention的形式化表述如公式3-1到3-3所示:=(,)(3-1)=∑(3-2)(,,)=∑(3-3)其中,(,)为query和任意key之间相似度的计算函数,这里有很多不
【参考文献】:
期刊论文
[1]深度文本匹配综述[J]. 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗. 计算机学报. 2017(04)
本文编号:3592353
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
基于全连接神经网络的DSSM模型
窗口内捕捉到的词转换成单词N-grams。在CDSSM的输入中,仍然使用DSSM形式的三元组布尔向量对输入进行表示。对每个滑动窗口,将该窗口中所有单词的布尔向量拼接为该窗口的特征向量,进行后续的卷积运算。而后将每个窗口输出的特征向量输入到一个前馈网络中,以提取该窗口的高层语义特征。最大池层采用所有滑动窗口的网络输出向量的元素最大值,来获得最终的句向量表示。通过这样的模型设计,可以将可变长度的输入文本,输出为固定长度的特征向量。最后在最大池层之上加入一个前馈网络,输出最终的输入文本语义表示向量。图2-2基于交互式卷积神经网络的文本匹配模型DSSM和CDSSM都属于文本匹配领域比较早的深度学习模型,随着word2vec[29],Glove[30]等词向量的出现,使得词向量越来越变成主流的文本匹配模型的输入,取代了DSSM提出的三元组布尔映射输入。Hu等人[12]使用卷积神经网络来对文本的输入向量进行建模,提出了2个不同形式的CNN文本匹配模型。ARC-I如图2-2所示,分别使用参数共享的卷积神经网络来对输入的文本对进行卷积池化,获得固定长度的文本表示,而后不同于CDSSM直接使用余弦相似度作为两个句子的相似度,ARC-I选择拼接这两个向量作为全连接多层神经网络的输入去进行相似度打分,从而将这个多层全连接神经网络的输出处理后作为最终相似度。ARC-II则是基于句子对交互式的匹配模型,在除了保持句子序列信息之外,该模型还会对对两个文本的局部之间进行匹配学习。
哈尔滨工业大学工学硕士学位论文-22-络(BidirectionalLongShort-TermMemory,BiLSTM)作为文本编码器,LSTM作为循环神经网络的一个常见变种,结构如图3-2所示,LSTM的门控设计使得其对长文本有更好的建模效果。图3-2LSTM模型结构在语义匹配任务中,希望能够对两个文本进行精细的语义交互匹配,本文引入注意力机制,对两个文本进行匹配信息交互。注意力机制架构如图3-3所示,注意力机制可以描述为将和一组<key,value>对映射到输出,其中query,<key,value>对和输出都是向量。输出被计算为value的加权和,而其中分配给每个的权重则由和对应的值通过函数计算获得。图3-3注意力机制架构具体attention的形式化表述如公式3-1到3-3所示:=(,)(3-1)=∑(3-2)(,,)=∑(3-3)其中,(,)为query和任意key之间相似度的计算函数,这里有很多不
【参考文献】:
期刊论文
[1]深度文本匹配综述[J]. 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗. 计算机学报. 2017(04)
本文编号:3592353
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3592353.html
最近更新
教材专著