基于特征工程的MOOC辍学预测研究 ——以学堂在线为例
发布时间:2021-04-05 14:54
MOOC(massive Open Online Course)全称为“大规模在线开放课程”,因其资料共享性、课程开放性、教育自主性和终身性等传统教育行业欠缺的优质特色吸引了全球数以万计的学习者加入。此外它不受时间、地点限制的特性,实现了以学生自学为主的学习形式,更让优质的教学资源得到了充分利用,并且为学生提供了专业且个性化的学习服务,这是一种教学方式,更是一个完整、全面的教学系统。但同时也因其自主选择性而导致极高的辍学率,成为制约MOOC普及和发展的主要原因。想要解决上述问题,需要充分掌握学习者日常的学习行为,对学习行为数据进行统计分析,并对其是否辍学进行预测。通过对学习者学习行为的分析来准确的预测其趋势和学习模式,可以帮助教师、平台管理者了解学习者的学习情况,及时采取相应措施来减少辍学率。在本文中,将10天没有学习行为的学习者归为辍学者,界定原则为某个时间点后面10天是否有日志记录。所以对学习者的是否辍学建模研究是一个二分类问题。本文主要有两部分构成:第一部分对学习者学习行为进行了分析,并采用特征工程,提取了三种形式的特征进行整合。第二部分为辍学预测部分,使用六种不同的模型对提取的...
【文章来源】:江西财经大学江西省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
Sigmoid函数图像
第2章理论基础15图2.2支持向量与间隔(图2.2来源于网络)支持向量机的基本型是找到其中最大间隔的划分超平面,即最大;,2max..()1,1,2,...,bTiistyxbim+=(2.8)为让间隔最大化,只需最大化1,也就是最小化2,即2,1min2..()1,1,2,...,bTiistyxbim+=(2.9)对约束条件添加拉格朗日乘子0i,并运用拉格朗日乘子法来得到它的对偶问题,求解,,ib来得到最大间隔超平面。2.2.3决策树不同于逻辑回归,决策树属于非线性模型,可应用于分类,也可进行回归,是最实用的和使用最广泛的归纳推理方法之一。它是一种归纳学习且建立在实例基础上,其流程结构图为树形,遵循if-then规则。它的基本思想为:从顶部开始往下来构建一棵以度量为标准下降最快的树,其中以信息增益(或基尼系数、
基于特征工程的MOOC辍学预测研究——以学堂在线为例16信息增益比等)为度量。树中的一个节点表示一个属性的判别,从上往下进行决策直到叶子节点处只剩下同一类别的样本。它的决策流程如下所示:图2.3决策树分类流程图(图2.3来源于网络)一棵决策树主要按照以下3个步骤来生成:⑴特征选择:从数据中的多个特征中选一个特征为当前节点的决策标准。选用不同的评估标准,挑选出来的特征也有所不同,最终产生不同的决策树算法。⑵决策树生成:按照上面选择的特征评估标准,从上往下依次确定子节点,当数据集中只剩下属于同一类的样本时,停止决策树的生长。⑶剪枝:决策树在生成过程中容易出现过拟合问题,通常是通过剪枝来解决,其中包括预剪枝和后剪枝两种剪枝技术。决策树算法中最关键的是如何进行特征选择,其中对数据集的划分最重要的一个原则是:使数据无序转变有序,将同一类别划分到一个样本内,使决策树中的叶节点“纯度”最高。其中划分属性的指标通常有三种:信息增益、增益率、基尼指数。⑴信息增益:假设样本集合D中第k类样本占总样本的比例为kP(k=1,2,.K),则D的信息熵为:
【参考文献】:
期刊论文
[1]基于GBDT+特征工程方法对电量的预测的研究[J]. 张帆,郭雅鑫,杨靖,顾洪建. 电子质量. 2020(01)
[2]基于AdaBoost算法的MOOC退课预测研究[J]. 杨璐,郭文锋,贺强,高宇鹏. 计算机时代. 2019(08)
[3]基于特征工程的网络广告收益转化精准度研究[J]. 赵又霖,张慧敏. 武汉理工大学学报(信息与管理工程版). 2018(06)
[4]MOOC学习者特征聚类分析研究综述[J]. 王梦倩,范逸洲,郭文革,汪琼. 中国远程教育. 2018(07)
[5]集成学习之随机森林算法综述[J]. 王奕森,夏树涛. 信息通信技术. 2018(01)
[6]基于MOOC数据的学习者辍课预测研究[J]. 王雪宇,邹刚,李骁. 现代教育技术. 2017(06)
[7]MOOC质量评价体系的构建探究[J]. 童小素,贾小军. 中国远程教育. 2017(05)
[8]一种基于滑动窗口模型的MOOCs辍学率预测方法[J]. 卢晓航,王胜清,黄俊杰,陈文广,闫增旺. 数据分析与知识发现. 2017(04)
[9]MOOC学习行为的统计、预测与展望[J]. 伍杰华,付慧平. 工业和信息化教育. 2017(02)
[10]基于随机森林的用户对在线课程的放弃预测[J]. 王晓杰,孙仁诚,邵峰晶. 青岛大学学报(工程技术版). 2016(04)
博士论文
[1]网络学习行为分析及建模[D]. 彭文辉.华中师范大学 2012
硕士论文
[1]基于用户行为序列的网络购买行为预测[D]. 段文强.江西财经大学 2019
[2]基于特征工程的用户购买预测模型研究[D]. 吴非.长安大学 2019
[3]基于特征工程的MOOC学习者行为分析和辍课预测[D]. 李若晨.华东师范大学 2019
[4]基于随机森林与GBDT的社会医疗保险欺诈识别问题研究[D]. 裴晨.东北财经大学 2018
[5]MOOC学习行为挖掘和辍学预测方法研究[D]. 陈立德.西北农林科技大学 2018
[6]MOOC用户流失率的统计建模和预测技术的研究[D]. 刘文彦.北京邮电大学 2016
本文编号:3119842
【文章来源】:江西财经大学江西省
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
Sigmoid函数图像
第2章理论基础15图2.2支持向量与间隔(图2.2来源于网络)支持向量机的基本型是找到其中最大间隔的划分超平面,即最大;,2max..()1,1,2,...,bTiistyxbim+=(2.8)为让间隔最大化,只需最大化1,也就是最小化2,即2,1min2..()1,1,2,...,bTiistyxbim+=(2.9)对约束条件添加拉格朗日乘子0i,并运用拉格朗日乘子法来得到它的对偶问题,求解,,ib来得到最大间隔超平面。2.2.3决策树不同于逻辑回归,决策树属于非线性模型,可应用于分类,也可进行回归,是最实用的和使用最广泛的归纳推理方法之一。它是一种归纳学习且建立在实例基础上,其流程结构图为树形,遵循if-then规则。它的基本思想为:从顶部开始往下来构建一棵以度量为标准下降最快的树,其中以信息增益(或基尼系数、
基于特征工程的MOOC辍学预测研究——以学堂在线为例16信息增益比等)为度量。树中的一个节点表示一个属性的判别,从上往下进行决策直到叶子节点处只剩下同一类别的样本。它的决策流程如下所示:图2.3决策树分类流程图(图2.3来源于网络)一棵决策树主要按照以下3个步骤来生成:⑴特征选择:从数据中的多个特征中选一个特征为当前节点的决策标准。选用不同的评估标准,挑选出来的特征也有所不同,最终产生不同的决策树算法。⑵决策树生成:按照上面选择的特征评估标准,从上往下依次确定子节点,当数据集中只剩下属于同一类的样本时,停止决策树的生长。⑶剪枝:决策树在生成过程中容易出现过拟合问题,通常是通过剪枝来解决,其中包括预剪枝和后剪枝两种剪枝技术。决策树算法中最关键的是如何进行特征选择,其中对数据集的划分最重要的一个原则是:使数据无序转变有序,将同一类别划分到一个样本内,使决策树中的叶节点“纯度”最高。其中划分属性的指标通常有三种:信息增益、增益率、基尼指数。⑴信息增益:假设样本集合D中第k类样本占总样本的比例为kP(k=1,2,.K),则D的信息熵为:
【参考文献】:
期刊论文
[1]基于GBDT+特征工程方法对电量的预测的研究[J]. 张帆,郭雅鑫,杨靖,顾洪建. 电子质量. 2020(01)
[2]基于AdaBoost算法的MOOC退课预测研究[J]. 杨璐,郭文锋,贺强,高宇鹏. 计算机时代. 2019(08)
[3]基于特征工程的网络广告收益转化精准度研究[J]. 赵又霖,张慧敏. 武汉理工大学学报(信息与管理工程版). 2018(06)
[4]MOOC学习者特征聚类分析研究综述[J]. 王梦倩,范逸洲,郭文革,汪琼. 中国远程教育. 2018(07)
[5]集成学习之随机森林算法综述[J]. 王奕森,夏树涛. 信息通信技术. 2018(01)
[6]基于MOOC数据的学习者辍课预测研究[J]. 王雪宇,邹刚,李骁. 现代教育技术. 2017(06)
[7]MOOC质量评价体系的构建探究[J]. 童小素,贾小军. 中国远程教育. 2017(05)
[8]一种基于滑动窗口模型的MOOCs辍学率预测方法[J]. 卢晓航,王胜清,黄俊杰,陈文广,闫增旺. 数据分析与知识发现. 2017(04)
[9]MOOC学习行为的统计、预测与展望[J]. 伍杰华,付慧平. 工业和信息化教育. 2017(02)
[10]基于随机森林的用户对在线课程的放弃预测[J]. 王晓杰,孙仁诚,邵峰晶. 青岛大学学报(工程技术版). 2016(04)
博士论文
[1]网络学习行为分析及建模[D]. 彭文辉.华中师范大学 2012
硕士论文
[1]基于用户行为序列的网络购买行为预测[D]. 段文强.江西财经大学 2019
[2]基于特征工程的用户购买预测模型研究[D]. 吴非.长安大学 2019
[3]基于特征工程的MOOC学习者行为分析和辍课预测[D]. 李若晨.华东师范大学 2019
[4]基于随机森林与GBDT的社会医疗保险欺诈识别问题研究[D]. 裴晨.东北财经大学 2018
[5]MOOC学习行为挖掘和辍学预测方法研究[D]. 陈立德.西北农林科技大学 2018
[6]MOOC用户流失率的统计建模和预测技术的研究[D]. 刘文彦.北京邮电大学 2016
本文编号:3119842
本文链接:https://www.wllwen.com/shoufeilunwen/shuoshibiyelunwen/3119842.html