基于多策略的高校助学金精准预测的研究与应用
发布时间:2024-05-13 04:35
近年来随着高等教育的普及,高校人数也随之激增。同时对于高校中经济有一定困难的学生,党和政府也下发了一系列文件来帮助困难学生,使他们顺利完成学业。当前高校决定是否资助贫困生以及确定资助学生的助学金发放等级是按照“学生申请—老师签字—学校审批”的程序来进行的,这样的程序不可避免的会受到一些人为因素的影响。与此同时,随着大数据和互联网时代的到来为高校处理精准资助问题提供了新的思路和技术支持。本论文采用四川某高校2013—2015两年的学生在校行作为数据挖掘对象,使用数据挖掘技术和机器学习算法建立高校助学金精准预测模型并以F1值作为该模型的评估指标。本文首先进行数据预处理,接着进行探索性数据分析和特征工程以期获得优秀的特征数据。随后通过交叉验证法校验模型精度,并在模型构建过程中对比了随机森林算法、AdaBoost算法、支持向量机以及GBDT算法在助学金精准预测模型上的效果,初步发现GBDT算法效果相对最优。为了进一步提高助学金预测模型的性能,本文利用集成学习中的Stacking方法进行多模型融合,最后结合GBDT算法,AdaBoost算法和随机森林算法通过一定比例融合由此进一步提升了模型的性能...
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
本文编号:3972386
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1二分类间隔最大分离平面图
图2.1二分类间隔最大分离平面图撑向量对于确立分离超平面很关键,因此将这种分类模支撑向量一般情况下并不会太多,所以SVM是由较少基本模型推导类数据为例,已知训练样本集(x,y),i1,2,,l,xR,niix)b0,为使分界面具备分类间隔且对所有样....
图2.2支持向量机体系结构
ljijjjibyyaxx1()上述公式中下标{0}jjja。因此最优分类超平面为()wx类函数则为:nljjjjifxwxbayxxbxR()sgn{()}sgn{(())},*1*线性不可分的情况下,支持向量机主要思路是将输....
图2.3有放回抽样
第2章基础算法综述奖,也因为其state-of-art的特性成为了分类算法的首选领域得到了大规模应用,也是目前比较热门的科研算法之domForest基本模型推导林的构建主要为以下三点:颗决策树均通过抽样产生对应的训练集练集均对应一棵决策树,若需要构建n棵决策树,则....
图2.4随机森林算法示意图
第2章基础算法综述用公式计算每个变量的基尼指数,接着按基尼指数最小的原则,选取一个变量进行切分,最后通过递归的形式,构建决策树,从而产生分类规则。在CART算法中,产生叶子节点的规则主要有:1)决策树的深度大于用户设定的值;2)当前数据集的属性变量为0;3)当前数....
本文编号:3972386
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3972386.html