对外汉语看图说话题自动评分模型的构建研究
发布时间:2020-09-19 08:44
本研究以HSKK(中级)中的看图说话题为例,借助先进的智能语音和自然语言处理等技术提取能够有效评估看图说话题的评分特征,通过回归分析来构建看图说话题目的自动评分模型并验证其有效性。首先,对看图说话题的题型特点、考查要求和评分标准进行分析,将看图说话题自动评分的评分特征分为内容相关性、表达流利性和语法准确性三个方面。内容相关性方面的特征包括关键词覆盖率和语量,表达流利性方面的特征包括发音得分、停顿频率以及重复和纠正次数,语法准确性特征是语法错误数。其次,运用了先进的智能语音技术和自然语言处理技术提取评分特征。在计算关键词覆盖率时运用了腾讯AI的关键词检索技术,通过式子kcr=m/n计算关键词覆盖率。在计算语量时,运用腾讯AI的长语音识别技术将应试者的答题语音转换成文字,然后对转换后的文字进行适当的校对,最后统计字数从而得到应试者的语量。在获取应试者的发音标准程度时,生成参考文本的步骤与计算语量时相同,最后采用科大讯飞的语音评测技术获得应试者的发音得分。在计算停顿频率时,首先利用基于短时能量和过零率双门限的端点检测技术将答题语音中有声段和静音段切分出来,接着统计静音段的个数(首尾的停顿除外)和发音总时长,最后用每分钟的停顿次数来表示停顿频率。由于口语中的重复和纠正现象比较复杂,重复和纠正次数主要通过人工标记的方式的获取。在获得语法错误时,采取的是将语音转换成文字,然后在对文本进行语法错误检测的方法,用到的主要技术是“小红笔”文本自动校对技术。最后,构建评分模型。首先收集了70条答题语音数据,并将其随机分成两组:构建组(50条)和检验组(20条)。在构建组的数据基础上,将三位评分员的平均分作为因变量,提取出来评分特征作为自变量,采用多元逐步线性回归分析方法进行回归分析,最终进入回归方程的评分特征有四个:关键词覆盖率(kcr)、语量(nwords)、重复和纠正次数(rac)、语法错误数(nge),得到的看图说话题的评分模型如下:score=2.52+8.223*kcr+0.073*nwords-0.903*rac-0.397*nge评分模型构建完成之后,在检验组上进行评分模型的性能测试,得到预测分数与原始分数的整体相关性大小为0.832,一致率和相邻一致率分别为70%和100%,验证了本研究提取的评分特征和构建的评分模型的有效性。
【学位单位】:南京师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:H195
【部分图文】:
图3.1邋HSKK邋(级)
逡逑要位置,整个关键词检索过程如图4.1所示,分为识别和检索两个阶段。第一阶逡逑段,把待检索语音送入大词汇量连续语音识别引擎中进行语音形式到文字形式的逡逑转换,但语音识别难以达到100%的正确率,因此通常会针对不能完全确定的的逡逑词生成若干个假设,并在此基础上建立倒排索引构成索引库,提高检索效率;第逡逑二阶段,利用文本搜索技术在上述索引库中进行检索,来确定指定关键词是否出逡逑现,同时给出关键的置信度和时间信息。[841逡逑^^邋逦邋逦逡逑语音文逦?语音识别邋'——?索引建立逡逑桤库逦丨逦丨逡逑V逦J逡逑^逦、逡逑索引库逡逑%煎邋五义瞎丶叔危薰丶仕阉鳎蘩弥眯挪舛儒危拮钪蘸蜓″义襄五邋危慑谓腥啡襄未踟时礤义贤迹矗庇镆艄丶始焖飨低车幕炯芄瑰义媳狙绣巢捎玫挠镆艄丶始焖骷际跏翘谘叮霖瞥龅墓丶始焖骷际酰眉煎义鲜醪捎玫氖且晕谋咀魑淙牖诖蟠驶懔苛镆羰侗鸬姆椒ǎ劳形⑿牛粒傻腻义嫌颰吋际
本文编号:2822296
【学位单位】:南京师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:H195
【部分图文】:
图3.1邋HSKK邋(级)
逡逑要位置,整个关键词检索过程如图4.1所示,分为识别和检索两个阶段。第一阶逡逑段,把待检索语音送入大词汇量连续语音识别引擎中进行语音形式到文字形式的逡逑转换,但语音识别难以达到100%的正确率,因此通常会针对不能完全确定的的逡逑词生成若干个假设,并在此基础上建立倒排索引构成索引库,提高检索效率;第逡逑二阶段,利用文本搜索技术在上述索引库中进行检索,来确定指定关键词是否出逡逑现,同时给出关键的置信度和时间信息。[841逡逑^^邋逦邋逦逡逑语音文逦?语音识别邋'——?索引建立逡逑桤库逦丨逦丨逡逑V逦J逡逑^逦、逡逑索引库逡逑%煎邋五义瞎丶叔危薰丶仕阉鳎蘩弥眯挪舛儒危拮钪蘸蜓″义襄五邋危慑谓腥啡襄未踟时礤义贤迹矗庇镆艄丶始焖飨低车幕炯芄瑰义媳狙绣巢捎玫挠镆艄丶始焖骷际跏翘谘叮霖瞥龅墓丶始焖骷际酰眉煎义鲜醪捎玫氖且晕谋咀魑淙牖诖蟠驶懔苛镆羰侗鸬姆椒ǎ劳形⑿牛粒傻腻义嫌颰吋际
本文编号:2822296
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2822296.html