基于教育数据挖掘的高校学生学业表现建模研究
发布时间:2021-08-23 14:28
在分析国内外研究的基础上,提出从社会及人口统计特征、学校环境、个人特征和学生投入等四个维度构建高校学生学业表现研究框架。以A大学为例,构建整合型教育数据系统,基于不同数据来源,应用决策树、贝叶斯网络、人工神经网络和支持向量机分别建立分类模型,并对模型有效性进行评判。结果表明,所建立的高校学生学业表现分类模型具有一定的有效性和实用价值,可为高校应用教育数据挖掘进行科学管理和完善学业支持体系提供参考。
【文章来源】:黑龙江高教研究. 2020,38(02)北大核心
【文章页数】:6 页
【部分图文】:
高校学生学业表现研究框架
整合型教育数据系统将分散在高校各种管理信息系统、业务处理系统、问卷调查系统中的数据,经过筛选、清理、转换后,集中存储,统一进行管理。整合型教育数据系统分为数据源、数据整合和数据应用等三个层次,总体结构见图2。数据源层包括学校中的各类管理信息系统中的数据、问卷调查数据和其他相关数据,这个层次中的数据有以下四个特征:一是数据存储类型不一致;二是数据标准不一致;三是数据更新频度不一致;四是数据采集难度不一致。数据整合层是经过处理过后的数据,有以下三个特征:一是数据标准化,不同数据源对于同一对象的表示采用统一的标准,比如性别统一为1(男)和0(女);二是面向主题,可以依据不同的主题分为学生主题数据、教师主题数据、课程主题数据等;三是数据稳定性,进入数据整合层,各主题库的数据是与业务处理系统分离的,数据在一段时间内几乎不变动,相对较为稳定。数据整合层是整合型教育数据系统的核心,其中,各主题数据库(数据集市)需要进行设计。数据应用层包括数据可视化和教育数据挖掘等。在该层中,用户直接运用相关工具软件对数据整合层的数据进行查询、统计、分析、可视化和数据建模,相关结果不影响数据整合层中的数据,但当用户在进行数据应用,发现需要补充或更新数据时,数据整合层再从数据源层采集数据,并进行清洗、存储,更新主题数据库。
表2 基于整合型教育数据系统全部数据的支持向量机分类模型评价指标 分类器 数据集 正确率 精确度 灵敏度 F1 学业表现优秀 训练集 99.35% 100.00% 100.00% 1.00 测试集 75.68% 52.17% 44.44% 0.48 学业表现良好 训练集 99.35% 100.00% 100.00% 1.00 测试集 60.36% 51.22% 47.73% 0.49 学业表现一般 训练集 95.47% 93.88% 83.64% 0.88 测试集 90.99% 100.00% 70.00% 0.82 学业表现较低 训练集 95.79% 90.32% 77.78% 0.83 测试集 97.30% 100.00% 80.00% 0.88表2和图3分别为整合型教育数据系统全部数据的支持向量机分类模型的评价指标和ROC曲线,我们可以发现,“学业表现优秀”和“学业表现良好”两个分类器训练的精确度和灵敏度、F1都达到100%,但测试集F1值都只有0.5不到,说明这两个分类器极其有效但不稳定,存在过拟合现象。“学业表现一般”和“学业表现较低”分类器的F1值均稳定在0.8以上。总体而言,该模型是一个比较好的学生学业表现分类模型。
【参考文献】:
期刊论文
[1]以学为本,提高质量,内涵发展:中国大学生学情研究的学术涵义与政策价值[J]. 史静寰,王文. 华东师范大学学报(教育科学版). 2018(04)
[2]基于教育数据挖掘学生表现预测模型构建研究[J]. 彭涛,丁凌云. 黑龙江高教研究. 2015(11)
[3]基于教育数据挖掘的大学生学习成果分析[J]. 舒忠梅,屈琼斐. 东北大学学报(社会科学版). 2014(03)
[4]未完成的转型——普及化阶段首都高等教育的人才培养与学生发展[J]. 鲍威. 北京大学教育评论. 2010(01)
本文编号:3358041
【文章来源】:黑龙江高教研究. 2020,38(02)北大核心
【文章页数】:6 页
【部分图文】:
高校学生学业表现研究框架
整合型教育数据系统将分散在高校各种管理信息系统、业务处理系统、问卷调查系统中的数据,经过筛选、清理、转换后,集中存储,统一进行管理。整合型教育数据系统分为数据源、数据整合和数据应用等三个层次,总体结构见图2。数据源层包括学校中的各类管理信息系统中的数据、问卷调查数据和其他相关数据,这个层次中的数据有以下四个特征:一是数据存储类型不一致;二是数据标准不一致;三是数据更新频度不一致;四是数据采集难度不一致。数据整合层是经过处理过后的数据,有以下三个特征:一是数据标准化,不同数据源对于同一对象的表示采用统一的标准,比如性别统一为1(男)和0(女);二是面向主题,可以依据不同的主题分为学生主题数据、教师主题数据、课程主题数据等;三是数据稳定性,进入数据整合层,各主题库的数据是与业务处理系统分离的,数据在一段时间内几乎不变动,相对较为稳定。数据整合层是整合型教育数据系统的核心,其中,各主题数据库(数据集市)需要进行设计。数据应用层包括数据可视化和教育数据挖掘等。在该层中,用户直接运用相关工具软件对数据整合层的数据进行查询、统计、分析、可视化和数据建模,相关结果不影响数据整合层中的数据,但当用户在进行数据应用,发现需要补充或更新数据时,数据整合层再从数据源层采集数据,并进行清洗、存储,更新主题数据库。
表2 基于整合型教育数据系统全部数据的支持向量机分类模型评价指标 分类器 数据集 正确率 精确度 灵敏度 F1 学业表现优秀 训练集 99.35% 100.00% 100.00% 1.00 测试集 75.68% 52.17% 44.44% 0.48 学业表现良好 训练集 99.35% 100.00% 100.00% 1.00 测试集 60.36% 51.22% 47.73% 0.49 学业表现一般 训练集 95.47% 93.88% 83.64% 0.88 测试集 90.99% 100.00% 70.00% 0.82 学业表现较低 训练集 95.79% 90.32% 77.78% 0.83 测试集 97.30% 100.00% 80.00% 0.88表2和图3分别为整合型教育数据系统全部数据的支持向量机分类模型的评价指标和ROC曲线,我们可以发现,“学业表现优秀”和“学业表现良好”两个分类器训练的精确度和灵敏度、F1都达到100%,但测试集F1值都只有0.5不到,说明这两个分类器极其有效但不稳定,存在过拟合现象。“学业表现一般”和“学业表现较低”分类器的F1值均稳定在0.8以上。总体而言,该模型是一个比较好的学生学业表现分类模型。
【参考文献】:
期刊论文
[1]以学为本,提高质量,内涵发展:中国大学生学情研究的学术涵义与政策价值[J]. 史静寰,王文. 华东师范大学学报(教育科学版). 2018(04)
[2]基于教育数据挖掘学生表现预测模型构建研究[J]. 彭涛,丁凌云. 黑龙江高教研究. 2015(11)
[3]基于教育数据挖掘的大学生学习成果分析[J]. 舒忠梅,屈琼斐. 东北大学学报(社会科学版). 2014(03)
[4]未完成的转型——普及化阶段首都高等教育的人才培养与学生发展[J]. 鲍威. 北京大学教育评论. 2010(01)
本文编号:3358041
本文链接:https://www.wllwen.com/jiaoyulunwen/jiaoyugaigechuangxinlunwen/3358041.html
最近更新
教材专著