英语口语机器评分和人工评分的对比研究
发布时间:2021-01-17 19:59
本研究对比了讯飞口语自动评分系统和人工评分员对206名学生的朗读、复述和口头作文三类口试任务录音的评分结果,发现机器对朗读的评分偏高,对复述的评分偏低,评分结果与人评结果的一致率和一致性较低,机器对这两类任务的评分存在显著的偏差;机器对口头作文的评分与人工评分比较接近,两者的一致率和一致性均较好;机评和人评的内部一致性均比较稳定,但机评与人评以及人工评分员之间的严厉度均有显著的差异。这些结果可以对口语自动评分算法和技术的优化和完善提供参考,也对现有的评分模式具有一定的启发。
【文章来源】:外语研究. 2020,37(04)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
讯飞口语自动评分系统所提取的评分特征
图3是评分者和任务的偏差情况。由图可知,机器在评判学生的朗读和复述任务的表现时出现了非常显著的偏差(t朗读=15.18,t复述=-10.16),R1和R2对这两个任务的评分也有显著的偏差,但偏差幅度小于机器:R1和朗读及复述的偏差t值分别为-9.15和5.59,R2和两个任务的偏差t值分别为-7.09和8.56。4.讨论
本次口语测试三个任务的机评和人评的平均分比较如图2所示(RA代表机器,R1~R3代表3位人工评分员)。由图可知,朗读任务机评与人评的平均分差异较大,机评与人评平均分的差异大于三位评分员之间的差异;而其他两个任务机评与人评的分差较小,机评与人评的差异小于人与人之间的差异。具体来讲,机器对朗读的打分比3位评分员都高,机器与R3分差最小(MD=0.66),与R2的分差最大(MD=3.30);复述任务机器打分偏低,机器与R2的分差最小(MD=0.21),与R3的差异最大(MD=1.73);机器和R1对口头作文的评分分差最小(MD=0.45),与R2的分差最大(MD=1.70),机评结果比较接近3位评分员的平均分(MRA=5.57,MR1~R3=5.16)。结合机评和人评的一致率来看(见表1),朗读任务机评与R3的完全一致率和临近分数(分差小于2)一致率均远高于其他两位评分员,复述任务机评与R2的完全一致率和临近分数一致率最高,口头作文机评与R1和R3的一致率均比较高。机器与3位人工评分员对三个任务的评分结果的相关系数如表2所示:朗读的机评分与人工分的相关系数较低,在0.279~0.469之间,均具有统计学上的显著意义;复述和口头作文的机器与人工评分结果呈显著的中高度相关,相关系数在0.600~0.703之间。总体上机评与人评的相关性低于人评之间的一致性系数,但有些任务中机器与个别评分员的相关系数高于人与人之间的相关系数,例如,口头作文机评与R3的相关系数(r=0.703)高于该任务3个评分员两两之间的相关系数(r1/2=0.663,p<0.01;r1/3=0.653,p<0.01;r2/3=0.619,p<0.01)。
【参考文献】:
期刊论文
[1]机助英语听说考试计算机自动评分的多层面Rasch模型分析[J]. 周燕,曾用强. 外语测试与教学. 2016(01)
[2]智能测评技术在大规模英语口语考试评卷中的探索与实践[J]. 吕鸣. 中国考试. 2015(10)
[3]多特征融合的英语口语考试自动评分系统的研究[J]. 李艳玲,颜永红. 电子与信息学报. 2012(09)
[4]PETS计算机辅助口试自动评分技术研究[J]. 乔辉,董滨,刘常亮. 外语测试与教学. 2012(03)
[5]大规模英语口语考试跟读题型采用机器阅卷的可行性分析与实践研究[J]. 宫力,梁维谦,丁玉国. 外语电化教学. 2009(02)
[6]大规模大学英语口语测试朗读题型机器阅卷可行性研究与实践[J]. 李萌涛,杨晓果,冯国栋,吴敏,陈纪梁,胡国平. 外语界. 2008(04)
本文编号:2983504
【文章来源】:外语研究. 2020,37(04)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
讯飞口语自动评分系统所提取的评分特征
图3是评分者和任务的偏差情况。由图可知,机器在评判学生的朗读和复述任务的表现时出现了非常显著的偏差(t朗读=15.18,t复述=-10.16),R1和R2对这两个任务的评分也有显著的偏差,但偏差幅度小于机器:R1和朗读及复述的偏差t值分别为-9.15和5.59,R2和两个任务的偏差t值分别为-7.09和8.56。4.讨论
本次口语测试三个任务的机评和人评的平均分比较如图2所示(RA代表机器,R1~R3代表3位人工评分员)。由图可知,朗读任务机评与人评的平均分差异较大,机评与人评平均分的差异大于三位评分员之间的差异;而其他两个任务机评与人评的分差较小,机评与人评的差异小于人与人之间的差异。具体来讲,机器对朗读的打分比3位评分员都高,机器与R3分差最小(MD=0.66),与R2的分差最大(MD=3.30);复述任务机器打分偏低,机器与R2的分差最小(MD=0.21),与R3的差异最大(MD=1.73);机器和R1对口头作文的评分分差最小(MD=0.45),与R2的分差最大(MD=1.70),机评结果比较接近3位评分员的平均分(MRA=5.57,MR1~R3=5.16)。结合机评和人评的一致率来看(见表1),朗读任务机评与R3的完全一致率和临近分数(分差小于2)一致率均远高于其他两位评分员,复述任务机评与R2的完全一致率和临近分数一致率最高,口头作文机评与R1和R3的一致率均比较高。机器与3位人工评分员对三个任务的评分结果的相关系数如表2所示:朗读的机评分与人工分的相关系数较低,在0.279~0.469之间,均具有统计学上的显著意义;复述和口头作文的机器与人工评分结果呈显著的中高度相关,相关系数在0.600~0.703之间。总体上机评与人评的相关性低于人评之间的一致性系数,但有些任务中机器与个别评分员的相关系数高于人与人之间的相关系数,例如,口头作文机评与R3的相关系数(r=0.703)高于该任务3个评分员两两之间的相关系数(r1/2=0.663,p<0.01;r1/3=0.653,p<0.01;r2/3=0.619,p<0.01)。
【参考文献】:
期刊论文
[1]机助英语听说考试计算机自动评分的多层面Rasch模型分析[J]. 周燕,曾用强. 外语测试与教学. 2016(01)
[2]智能测评技术在大规模英语口语考试评卷中的探索与实践[J]. 吕鸣. 中国考试. 2015(10)
[3]多特征融合的英语口语考试自动评分系统的研究[J]. 李艳玲,颜永红. 电子与信息学报. 2012(09)
[4]PETS计算机辅助口试自动评分技术研究[J]. 乔辉,董滨,刘常亮. 外语测试与教学. 2012(03)
[5]大规模英语口语考试跟读题型采用机器阅卷的可行性分析与实践研究[J]. 宫力,梁维谦,丁玉国. 外语电化教学. 2009(02)
[6]大规模大学英语口语测试朗读题型机器阅卷可行性研究与实践[J]. 李萌涛,杨晓果,冯国栋,吴敏,陈纪梁,胡国平. 外语界. 2008(04)
本文编号:2983504
本文链接:https://www.wllwen.com/jiaoyulunwen/xueshengguanli/2983504.html