机器阅读理解中特征表示与模型融合对正确率影响的研究
发布时间:2021-03-13 18:38
人工智能领域中机器阅读理解是自然语言处理(Natural Language Processing,NLP)方向的核心研究任务之一,其研究目标是让机器阅读原文之后,能够正确的回答与原文内容相关的问题。提高机器对文本阅读理解的正确率,可以促进机器翻译的准确度,信息检索的精准度,问答(Question Answer,QA)等NLP任务的研究,与此同时,文本特征的表示方式对机器做阅读理解的正确率也有一定的影响,所以文本特征表示和机器阅读理正确率提升的研究是一个很有实际应用价值的研究。为此,本文描述了文本特征处理过程,改进了2016年Mahmoud Nabil论文中对文本特征的表示方式,对于英文中带有“’”的单词,原来将其分成两个单词来对待的不合理的方式改为恢复补全缩写词.同时,将填充词用于待移除高低频的占位方式改为用另外一个词来代替,原来的填充词只做填充之用。在文本特征数值化后,不改变原有文本特征顺序的前提下,做到真正完全移除高低频词;在模型融合阶段,使用了已训练的词向量或位置词向量表征文本的语法和语义信息,同时基于现有的经典神经网络模型搭建系统融合需要的各个子模型。最后选取正确率高于65%的...
【文章来源】:云南大学云南省 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
原始html数据组织图结构图
从原始数据解析后的instance数据
train-set数据集统计图
【参考文献】:
期刊论文
[1]基于深度循环神经网络的时间序列预测模型[J]. 杨祎玥,伏潜,万定生. 计算机技术与发展. 2017(03)
[2]基于SVM结合依存句法的金融领域舆情分析[J]. 黄进,阮彤,蒋锐权. 计算机工程与应用. 2015(23)
[3]基于朴素贝叶斯算法的垃圾邮件网关[J]. 刘宏伟,黄静. 微计算机信息. 2006(18)
本文编号:3080721
【文章来源】:云南大学云南省 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
原始html数据组织图结构图
从原始数据解析后的instance数据
train-set数据集统计图
【参考文献】:
期刊论文
[1]基于深度循环神经网络的时间序列预测模型[J]. 杨祎玥,伏潜,万定生. 计算机技术与发展. 2017(03)
[2]基于SVM结合依存句法的金融领域舆情分析[J]. 黄进,阮彤,蒋锐权. 计算机工程与应用. 2015(23)
[3]基于朴素贝叶斯算法的垃圾邮件网关[J]. 刘宏伟,黄静. 微计算机信息. 2006(18)
本文编号:3080721
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3080721.html