面向非结构化文本的问答系统中答案抽取技术研究

发布时间：2021-01-14 00:02

　　搜索引擎是用户获取知识和答案的重要渠道,通过用户在搜索框中输入的query,搜索引擎返回排序好的网页集合供用户浏览,用户需要快速浏览一些网页,根据自身的辨别能力找到目标答案的具体位置,整个流程费时费力。基于自然语言处理技术的问答系统是传统搜索引擎的重要改进方向,能够帮助用户获取精确简短的答案。维基百科,百度百科等非结构化文本是构建问答系统的重要数据来源。和基于知识图谱等结构化知识的问答系统相比,非结构化文本数据规模庞大而且容易获取,为了提高系统返回答案的准确性,首先根据问题的意图缩小答案候选句子集合,然后进行答案精确定位。本文针对问答系统中候选答案句子选择及精确答案定位技术进行了研究。对于候选答案句子选择,本文从两方面进行了研究:1)本文使用传统机器学习方法对问题句和答案句之间的关系进行建模,提取三个方面的特征:基于句子向量表征的相似度特征,基于词共现的特征以及句子本身的长度等基本特征,本文使用SVM和Xgboost分类器,给出问题句和每一个候选答案句子的分数,用于答案排序。2)本文还使用CNN,LSTM等深度学习模型对句子进行语义表示,采用pairwise方法进行训练,实验结果优于传...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：67 页

【学位级别】：硕士

【部分图文】：

WMD示例图

基础结构,单词

哈尔滨工业大学工程硕士学位论文¤( ) ( ) ( ) (3-利用 Bayes 公式，公式(3-4)可以写作：¤( ) ( ) π ( ) π ( ) ( ) (3-传统方法使用 n-gram 模型假设一个词出现的概率与它前面的个相关，根据语料库计算词频概率表示单词出现的条件概率，理论上 n 越大效果越好，而实践中发现，n 在 1 到 2，与 2 到 3 时模型效果提升明显，而后效果的提升不再显著，对于一个词，只覆盖前 n 个词，不能适应长度较长的单词序列。相比于传统的 ngram 模型，新的语言模型是利用 RNN 对列建模，复用不同时刻的线性非线性单元及权值，理论上之前所有的单词都会影响到预测单词。如图 3-8 所示，为 RNN 模型的结构图。

模型图,注意力机制,模型

图 3-12 引入句间注意力机制的模型如图 3-12 所示，对于该任务，使用 Attentive Pooling 注意力构建模型。模型主要分为以下几部分：（1）输入层输入层包括两部分：一个是长度为 m 个单词的问题句 Q，以及包含 n 个词的答案句 A。Embedding 层分别输出两个句子的词向量矩阵和，分为表示为： (3-13)（2）编码层首先使用两个共享权重的 Bi-LSTM 提取时序特征，对答案句子的隐藏层表示为矩阵 A，对问题句子的隐藏层表示为矩阵 B，使用¨ ￠ ( )计算矩阵 G，G 中第 m 行，n 列的数值为 A 中第 m 个位置与 B 中第 n 个位置的匹配得分。对于矩阵 G，我们逐列选取最大的分数，构成向量 M；对 G 中逐行

本文编号：2975796

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2975796.html

上一篇：面向卫星遥感数据的火山灰云识别方法及应用研究
下一篇：荧光法溶解氧传感器的研制

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|