当前位置:主页 > 科技论文 > 软件论文 >

基于分布式表示的答案质量自动评价

发布时间:2020-03-01 04:56
【摘要】:高考答题机器人是人工智能问答技术在实际场景中的应用,答案自动评价也是与之相关的一个重要课题,本课题面向高考历史简答题进行答案质量自动评价。早期的简答题答案自动评价系统依赖结构化的数据,使用规则进行学生答案和参考答案的匹配计算。后来,研究者们基于字符串、词汇、浅层语义特征计算学生答案和参考答案的匹配度。然而依据规则进行答案评价通用性不强,而浅层语义特征无法准确表达文本真实语义。基于深度学习的分布式表示方法将文本映射到语义空间中,近年来被应用于多种自然语言处理任务中并取得成功。本课题主要研究基于分布式表示进行历史简答题学生答案自动评价的方法,并与传统的基于特征工程的评价方法进行比较。本文主要包括以下三个部分:第一,使用传统机器学习方法融合多种特征组合,计算学生答案和参考答案的相似度作为答案评价依据,为基于分布式表示的答案质量评价方法提供一个较强的基线。分析字词共现特征、基于信息检索模型的相关性特征以及基于深度学习的语义特征对于计算学生答案和参考答案相关性的作用,使用排序支持向量机(Ranking SVM)线性融合三类特征并进行特征选择。由于学生答案与参考答案长度不一致,需要进行参考答案的扩展,对模型评价性能也有所提高。第二,将基于分布式表示的文本对匹配度计算、基于pair-wise的有监督排序学习模型融合到一个框架,根据学生答案与参考答案的匹配度进行排序学习。使用现有的基于深度神经网络的文本向量表示方法,训练得到参考答案和学生答案的段落分布式表示。并使用余弦相似度、相似度矩阵模型、张量模型计算学生答案和参考答案的匹配度,根据其匹配度进行学生答案评价。由于实验数据有限,本文构造伪数据进行训练,得到的模型在历史简答题答案评价任务上的表现与特征工程方法相当。第三,在小规模数据上训练一个基于深度神经网络的答案质量评估模型,分别使用双向LSTM和CNN-LSTM对学生答案和题目进行建模得到其分布式表示,计算两个向量的余弦相似度进行答案质量估计。在现有的真实小规模数据上进行模型训练和测试,通过调整训练数据规模,从而探究实验数据规模对模型训练的影响。
【图文】:

框架图,框架,向量表示,答案


表示技术表示是将字、词、短语、一个句子、一个段落等不同粒续、稠密的语义空间中,用特定维度的向量表示文本片度可用向量之间的距离表示。本章根据参考答案进行学转换成学生答案和参考答案的匹配度计算。先训练得到分布式表示,并基于其分布式向量表示计算学生答案和ph Vector 是一个无监督学习框架,可以用来学习任意长表示。该模型是由 Word2vec 模型发展而来,能够实现等任意长度文本的向量表示。ec 模型根据上下文学习预测一个词的向量表示,,并使用的词。Word2vec 模型框架如图 3-1 所示,上下文(the 的向量表示。

模型图,模型,似然,哈夫曼树


哈尔滨工业大学工学硕士学位论文给定训练数据为一个词序列Tw ,w,w,...,w123,词向量模型的学习目标是最大化平均对数似然 £ ( ) 。使用多分类分类器如 softmax 根据公式 3-1 进行词的预测。¤( ) = (3-1)其中, 是没有归一化的词 i 的对数似然,计算方法如公式 3-2 所示。 = U ( W) (3-2)其中 U 和 W 是 softmax 的参数,h 通常是由上下文词向量的拼接或者取平均值得到。根据词表中词在语料中出现频率构建哈夫曼树,使用多次二分类预测当前词,能够加速模型训练过程。Word2vec 模型有两种:CBOW 模型和 Skip-gram 模型,模型结构如图 3-2 和 3-3 所示。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 ;北京日报招聘夜班编辑试题参考答案[J];新闻与写作;1985年06期

2 ;有奖自测问答(3)参考答案[J];音响技术;1999年06期

3 ;1985年攻读硕士学位研究生入学试题参考答案[J];电信科学;1985年10期

4 ;上期《百错文》参考答案[J];编辑之友;1999年06期

5 周庆林;《尽快了解研究性学习的练习》参考答案[J];网络科技时代;2005年03期

6 黄柳柳;黄河燕;史树敏;;面向代码相似度检测的指纹选取方法[J];计算机工程与应用;2010年27期

7 郑炜冬;;试卷相似度自动评估技术的研究[J];智能计算机与应用;2011年06期

8 赵涛;肖建;;二型模糊相似度及其应用[J];计算机工程与应用;2013年08期

9 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期

10 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期

相关会议论文 前10条

1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 陆劲挺;路强;刘晓平;;对比相似度计算方法及其在功能树扩展中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

3 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

5 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年

6 洪文学;王金甲;常凤香;宋佳霖;刘文远;王立强;;基于图形特征增强的相似度分类器的研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年

7 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年

9 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

10 徐春玉;;基于泛集的神经网络的混沌性[A];1996中国控制与决策学术年会论文集[C];1996年

相关重要报纸文章 前10条

1 郭振清;值得称道的“参考答案异议制”[N];工人日报;2004年

2 三门峡市实验中学 杨丽;怎样培养学生的想象力[N];河南日报;2011年

3 吴学安;“考试改变命运”折射社会病态[N];人民日报海外版;2012年

4 曾宪一;老师对待考试的四种境界[N];中国教育资讯报;2002年

5 任定保;“水”能生出火吗?[N];中国教育资讯报;2002年

6 美国明尼苏达大学社会学博士 密西西比州立大学国家战略规划与分析研究中心资深助理研究员 陈心想;维护好创新的“神经网络硬件”[N];中国教师报;2014年

7 卢业忠;脑控电脑 惊世骇俗[N];计算机世界;2001年

8 葛一鸣 路边文;人工神经网络将大显身手[N];中国纺织报;2003年

9 马效军;我省高考顺利结束[N];甘肃日报;2004年

10 中国科技大学计算机系 邢方亮;神经网络挑战人类大脑[N];计算机世界;2003年

相关博士学位论文 前10条

1 操震洲;矢量数据动态多尺度网络传输研究[D];南京大学;2015年

2 程亮;基于本体的疾病数据整合与挖掘方法研究[D];哈尔滨工业大学;2014年

3 刘振宇;基于区域相似度和特征降维的极化SAR影像分类[D];武汉大学;2013年

4 曹

本文编号:2583937


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2583937.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ef69a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com