基于集成学习的主观题自动判分算法研究
发布时间:2024-03-22 20:44
近年来随着互联网在线教育的快速发展,人们的学习模式逐渐地由传统的线下教育过渡到了线上学习,这一方面带来了大规模的线上判分任务,另一方面使得计算机自动评分相关的需求猛增。由于每道主观题都要由两名老师评分,成本很高,标准化的考试(包括笔试)变得越来越昂贵。当前现有主观题智能阅卷系统,主要通过正则匹配得分关键词的方式,完成判分。该判分方式存在判分精确度低、判分维度少、无法识别同义作答等问题。为此,本文提出了基于多模型特征集成的机器学习算法,克服了以上传统判分模型中的种种问题,高效地完成了主观题自动判分相关任务。多模型特征集成的机器学习算法是通过利用不同机器学习模型对相同数据样本提取不同维度特征,再利用相关机器学习算法完成相关预测的算法。本文研究了当前主要的判分方法,并进一步地定义了主观题判分问题。通过研究主观题判分相关逻辑,完成相应作答文本的数据处理,同时从多个维度提取了TF-IDF、Word2vec、LDA等表征语义的向量特征,并最终比较不同机器学习分类模型在当前特征上的预测的效果。实验结果表明在XGBoost模型上作答文本得分点预测精确率达到82%以上。通过本文提取出的多模型特征集成的机...
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
本文编号:3934935
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
图3-1判分逻辑框架图
武汉邮电科学研究院硕士学位论文26答案中公共的概念数量,在进行判分。其中每个概念本质上是每个答案中的不可在细分的概念,同时为每个概念分配特定的权重,将学生作答中合格的概念中包含的权重分数加起来的分数就是该题学生获得的总分数。传统主观题判分逻辑主要通过分析整段学生作答文本与整个参考....
图4-1语义相似度模型
武汉邮电科学研究院硕士学位论文35图4-1语义相似度模型本语义相似度模型主要融合了LDA、Word2vec、TFIDF、文本共显词数目、文本长度比值,文本字符串之间的编辑距离等多个语义相似度值,进一步将这些特征值做归一化,使得各个维度的特征值的幅值都在0到1之间。通过捕获不同维度....
本文编号:3934935
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3934935.html
最近更新
教材专著