基于行为数据的高校经济困难学生挖掘
发布时间:2019-09-09 09:10
【摘要】:扶贫助困工作一直是高校工作中的重点难点,总体流程较长,涉及人员角色多样,传统的人工协作方式十分低效。本文以建立一个完整的学生经济水平线上评定系统为目标,利用学生在校园内产生的各种行为数据,寻找一种可靠的自动化判定学生经济水平的方法,并将其应用到实际业务当中,最终为高校贫困资助的相关工作人员提供支持和引导。总体而言,本文完整处理了从数据整合与清洗,到特征提取与选择,再到算法模型的构建与分析,最终完成系统设计与实现的整个过程。在数据整合与清洗部分,我们首先根据国家相关标准建立了高校数据标准数据库,并根据不同数据来源系统的业务特点,对其数据问题进行了针对性分析与清洗,重点对不同数据源的缺失字段进行补全处理。在特征提取与选择部分,我们结合高校运转特点,设立了天、周、月、学期等不同的时间周期,按照不同的时间周期对数据提取时序特征序列,提取的特征大体分为基本统计量特征和复杂特征两类,并在特征提取完成后,采用后剪枝的C4.5决策树方法对特征进行筛选。在算法模型的构建与分析部分,我们根据数据和特征的时序特性,决定采用RNN方法来构建模型,综合LSTM和CW-RNN这两个最为常用的RNN方法的优缺点,提出了二者的融合方法,并对其使用方法和效果进行了说明。最后,在系统设计与实现阶段,我们首先将算法模型成果应用到实际系统中,其次充分考虑业务情况,将线下业务处理为线上流程,再次,提出了扶贫工作的动态管理概念,将高校的扶贫工作从一年一度的周期性业务,改进为常态化的关注和关怀。本文取得的主要成果有以下几点:1)建立高校数据标准,在前所未有的大范围内整合学生数据,并结合实际各系统的实际业务使用情况,针对性地对各数据完成了分析与清洗;2)探索挖掘出了与学生经济情况有关的一系列特征;3)提出了一种改进的递归神经网络模型处理上述特征,并取得了较好的效果;4)结合实际高校助学金认定工作执行情况,设计开发了一套经济困难学生挖掘认证系统。最终的算法结果验证和系统使用反馈表明,贫困指数对于学生经济水平的评估具有较好的参考价值,同时也说明了利用大数据手段对高校数据进行分析处理,具有切实的可行性和实用价值。
【图文】:
图 2-1 前馈网络与递归网络[58]如图 2-1 所示,在前馈网络中,节点间的连接遵循从输入层到隐藏层,再到输出层的顺序单向连通,层级结构明显,层间节点互不连通。前馈神经网络普遍具有以下特点: 一般情况下,激活信号从输入层通过隐藏层传递到输出层,此过程严格单向; 前馈网络实现的映射是静态的; 前馈网络是无后效性的,其输出只与当前输入有关,,而与过去的输入无关。在神经网络刚刚兴起的一段时间里,前馈神经网络是研究的主流,但是随着研究的深入,其劣势逐渐暴露出来。一个普遍的例子,如果我们要预测一篇文本的下一个单词是什么,前馈网络就显得有些无能为力了,因为任何文章中的单词都不是孤立存在,而是与上下文相关联的。为了解决前馈网络这方面的严重不足,RNN 网络应运而生。相比之下,RNN 网络结构包含至少一个闭环路径,其特点如下:
第二章 背景知识与相关技术示为: ( ) = ( ) ( ) 隐藏节点的状态向量可以表示为: ( ) = ( ) ( ) ,L 个输出节点的状态可以表示为: ( ) = ( ) ( ) 表步数。输入层、隐藏层、输出层分别的连接权重则可以表示为 ( )的权重矩阵,如图 2-2:
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:G647;TP311.13
【图文】:
图 2-1 前馈网络与递归网络[58]如图 2-1 所示,在前馈网络中,节点间的连接遵循从输入层到隐藏层,再到输出层的顺序单向连通,层级结构明显,层间节点互不连通。前馈神经网络普遍具有以下特点: 一般情况下,激活信号从输入层通过隐藏层传递到输出层,此过程严格单向; 前馈网络实现的映射是静态的; 前馈网络是无后效性的,其输出只与当前输入有关,,而与过去的输入无关。在神经网络刚刚兴起的一段时间里,前馈神经网络是研究的主流,但是随着研究的深入,其劣势逐渐暴露出来。一个普遍的例子,如果我们要预测一篇文本的下一个单词是什么,前馈网络就显得有些无能为力了,因为任何文章中的单词都不是孤立存在,而是与上下文相关联的。为了解决前馈网络这方面的严重不足,RNN 网络应运而生。相比之下,RNN 网络结构包含至少一个闭环路径,其特点如下:
第二章 背景知识与相关技术示为: ( ) = ( ) ( ) 隐藏节点的状态向量可以表示为: ( ) = ( ) ( ) ,L 个输出节点的状态可以表示为: ( ) = ( ) ( ) 表步数。输入层、隐藏层、输出层分别的连接权重则可以表示为 ( )的权重矩阵,如图 2-2:
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:G647;TP311.13
【参考文献】
相关期刊论文 前6条
1 武森;冯小东;单志广;;基于不完备数据聚类的缺失数据填补方法[J];计算机学报;2012年08期
2 王宏志;樊文飞;;复杂数据上的实体识别技术研究[J];计算机学报;2011年10期
3 张建中;方正;熊拥军;袁小一;;对基于SNM数据清洗算法的优化[J];中南大学学报(自然科学版);2010年06期
4 庞雄文;姚占林;李拥军;;大数据量的高效重复记录检测方法[J];华中科技大学学报(自然科学版);2010年02期
5 陈伟,陈耿,朱文明,王昊;基于业务规则的错误数据清理方法[J];计算机工程与应用;2005年14期
6 邱越峰,田增平,季文
本文编号:2533504
本文链接:https://www.wllwen.com/jiaoyulunwen/gaodengjiaoyulunwen/2533504.html