引入行为数据的高校学生分层算法与异常学生检测
发布时间:2021-08-24 23:35
大学生的教育问题一直以来是我国高校的头等大事,在实行素质化教育的今天,如何对学生进行精准教育成为了首要课题。在师资资源、人力资源、管理资源等有限的条件下,如何运用互联网技术解决教育分层化问题就显得尤为重要。近年来,大学生的课外活动日益丰富,校园生活更加多种多样,随着移动互联网和电子商务的兴起,学生可以足不出户处理教学事务和日常生活需要,同样也使得学生的管理变得困难与复杂。本文选取我校部分本科生的行为数据,包括参加课外活动的时长、图书馆相关的数据、食堂数据以及成绩等全方位的数据,来对学生进行一个层次的划分,通过机器学习的方式训练出一个基于学生的管理分类模式。实现对学生的划分,来方便辅导员、老师等人员对学生进行管理。本文首先采用聚类分析的思想,通过分析学生的成绩数据以及行为数据来对学生进行隐藏的评级,对于聚类结果进行标定与审核,调整算法以及参数来得到合适的聚类结果。对比行为数据引入的结果可以明显发现行为数据的有效性与可行性,这种结果可以经由辅导员或任课老师的评价方可通过。再转入到下一阶段的分类模型中,训练出一个合适的模型来对新的学生数据进行预测,异常值检测是学情检测的重要部分,通过改进的算...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
图2-1算法流程图??6??
上??所有的点在d维的坐标值均小于当前值,右子树上所有的点在d维的坐标值均大于??等于当前值,本定义对其任意子节点均成立。下面是/cd树的图示展示:??featmes?J??n——n??展开厂丨??进舞嫩大l爱维阶?(9子祷特tt点―??Assign?Partition?Ke>*?fc?ft?tcs?y?y?icaturc^?J??_^??I??■?1?■?■?■?1?'?1??[T^TTrri??MedianSeteq?S开S:子W?J?mnCtm??图2-2?kd树流程图??2.1.3关于Knn算法的本文改进??在学生分类中,我们对于学生的定位要求非常精确,基于Krni多数投票的原则??基础上,本文引进了学生置信度的概念,及最多种相邻样本i占比在p以上是才把??该学生划分为/类,公式如下:??7??
硕士学位论文??MASTER'S?THESIS??密度相连:对于样本i_和样本,若存在样本fc使得〖与^/均由fc密度可达,则??称i与y密度相连。??〇??工?3(,力、)::斧、、、??侧^?〇??图2-4?DBscan算法流程图??上图直观显示DBSCAN中这几个概念:当M〖nPts=3的时候,虚线圆圈为??e邻域,xl是核心对象,x2由;cl密度直达,Z3由xl密度可达,;c3与密??度相连。??2.3.2算法流程??1、遍历所有样本,找出所有满足邻域距离e的核心对象的集合;??2、任意选择一个核心对象,找出其所有密度可达的样本并生成聚类簇;??3、从剩余的核心对象中移除2中找到的密度可达的样本;??4、从更新后的核心对象集合重复执行2-3步直到核心对象都被遍历或移除。??2.3.3算法更新与调参??此处参考周治平的AF-DBscan算法叫针对于DBscan算法的调参问题,运用??以下方法来进行计算。计算出距离分布矩阵/)/灯_,其中£>/灯_?=?{dist(ij〇|l?S??iSn.lSjSn},上式中,ri为数据集d的对象数目,D/5Tnxn是一个71行?1列的??距离分布的实对称矩阵,其中每个元素表示数据集D中对象i与对象之间的距离。??根据经验选取=?4这条数据进行分析,发现eps参数应该在曲线急速的地方??选取,用曲线拟合后发现多项式曲线拟合效果最佳,多项式曲线拟合公式为:??10??
本文编号:3360938
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
图2-1算法流程图??6??
上??所有的点在d维的坐标值均小于当前值,右子树上所有的点在d维的坐标值均大于??等于当前值,本定义对其任意子节点均成立。下面是/cd树的图示展示:??featmes?J??n——n??展开厂丨??进舞嫩大l爱维阶?(9子祷特tt点―??Assign?Partition?Ke>*?fc?ft?tcs?y?y?icaturc^?J??_^??I??■?1?■?■?■?1?'?1??[T^TTrri??MedianSeteq?S开S:子W?J?mnCtm??图2-2?kd树流程图??2.1.3关于Knn算法的本文改进??在学生分类中,我们对于学生的定位要求非常精确,基于Krni多数投票的原则??基础上,本文引进了学生置信度的概念,及最多种相邻样本i占比在p以上是才把??该学生划分为/类,公式如下:??7??
硕士学位论文??MASTER'S?THESIS??密度相连:对于样本i_和样本,若存在样本fc使得〖与^/均由fc密度可达,则??称i与y密度相连。??〇??工?3(,力、)::斧、、、??侧^?〇??图2-4?DBscan算法流程图??上图直观显示DBSCAN中这几个概念:当M〖nPts=3的时候,虚线圆圈为??e邻域,xl是核心对象,x2由;cl密度直达,Z3由xl密度可达,;c3与密??度相连。??2.3.2算法流程??1、遍历所有样本,找出所有满足邻域距离e的核心对象的集合;??2、任意选择一个核心对象,找出其所有密度可达的样本并生成聚类簇;??3、从剩余的核心对象中移除2中找到的密度可达的样本;??4、从更新后的核心对象集合重复执行2-3步直到核心对象都被遍历或移除。??2.3.3算法更新与调参??此处参考周治平的AF-DBscan算法叫针对于DBscan算法的调参问题,运用??以下方法来进行计算。计算出距离分布矩阵/)/灯_,其中£>/灯_?=?{dist(ij〇|l?S??iSn.lSjSn},上式中,ri为数据集d的对象数目,D/5Tnxn是一个71行?1列的??距离分布的实对称矩阵,其中每个元素表示数据集D中对象i与对象之间的距离。??根据经验选取=?4这条数据进行分析,发现eps参数应该在曲线急速的地方??选取,用曲线拟合后发现多项式曲线拟合效果最佳,多项式曲线拟合公式为:??10??
本文编号:3360938
本文链接:https://www.wllwen.com/jiaoyulunwen/gaodengjiaoyulunwen/3360938.html