校园大数据分析及其可视化研究
发布时间:2023-05-12 19:34
在“一库一表”工程的建设理念指导下,高校的校园信息化工程不断推进,将多年来累计的校园数据逐步整合形成了包括校务管理、教学管理、图书借阅信息、学生消费数据等数据的共享数据平台。这使得我们能有机会挖掘学生行为下潜藏的规律。本文通过分析高校校园大数据的特点,进而对反映学生行为和生活学习状态的数据进行分析,借助Spark平台对海量数据归纳,并通过阿里云的Data V工具进行可视化展示。由此让全校学生发现并改善自身的问题,同时也反馈了学校的运行情况,便于及时改善。主要工作如下:(1)对本文所需的Spark和Data V进行了介绍和部署,并从学校公共数据平台抽取并清洗相关数据,对数据进行了标准化处理。(2)针对学生行为设计了学生行为画像库,并以优化的LOF算法的改进方法进行数据的去噪工作,最后使用K-means++算法进行聚类,通过实验验证了优化的LOF算法在去噪上较传统的LOF算法在时间复杂度有较强的改进。(3)引入了关联规则分析,用以发现学生行为之间的有趣联系,介绍并改进了Apriori算法,并通过学生的消费行为、生活习惯、学习努力程度去与学生成绩关联,推导出成绩与这三者之间的关系,为学生改善...
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 引言
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 校园数据挖掘现状
1.2.2 学生画像、行为分析现状
1.3 课题的研究内容
1.4 本文的组织结构
1.5 本章小结
2 数据预处理和工具介绍
2.1 数据抽取
2.2 数据清洗
2.2.1 预处理阶段
2.2.2 缺失值清洗
2.2.3 格式内容清洗
2.2.4 逻辑错误清洗
2.3 数据标准化
2.4 Spark大数据处理平台
2.4.1 Spark简介
2.4.2 弹性分布式数据集RDD
2.4.3 Spark分布式平台环境
2.4.4 分布式平台搭建过程
2.5 数据可视化
2.5.1 数据可视化简介
2.5.2 DataV
2.5.3 轻量级数据库访问框架FastSQL
2.6 本章小结
3 学生画像库建立和聚类算法
3.1 学生“画像”特征库构建
3.2 经典聚类算法K-means介绍
3.3 LOF算法的介绍及其优化
3.3.1 传统的LOF算法
3.3.2 依赖K-means改进的LOF算法
3.3.3 改进的LOF算法实验结果分析
3.4 K-means++算法
3.5 基于LOF优化的K-means++算法并行化实现
3.6 实验结果与分析
3.7 本章小结
4 关联规则分析在学生行为分析中的应用
4.1 关联规则简介
4.2 Apriori算法介绍及其改进
4.2.1 Apriori算法介绍
4.2.2 Apriori算法的改进
4.2.3 Apriori算法改进举例说明
4.3 基于优化的Apriori算法挖掘学生行为规则
4.3.1 数据准备
4.3.2 关联规则分析结果
4.4 本章小结
5 基于DataV大数据可视化展示的实现
5.1 大数据可视化展示的工作流程
5.2 大数据可视化展示的整体结构
5.3 DataV可视化的数据整合
5.4 基于DataV的校园大数据可视化结果
5.4.1 DataV服务对象说明
5.4.2 图书馆模块成果
5.4.3 信息中心模块成果
5.4.4 学生模块成果
5.5 本章小结
6 总结与展望
6.1 本文工作总结
6.2 未来工作展望
参考文献
个人成果
致谢
本文编号:3814499
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 引言
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 校园数据挖掘现状
1.2.2 学生画像、行为分析现状
1.3 课题的研究内容
1.4 本文的组织结构
1.5 本章小结
2 数据预处理和工具介绍
2.1 数据抽取
2.2 数据清洗
2.2.1 预处理阶段
2.2.2 缺失值清洗
2.2.3 格式内容清洗
2.2.4 逻辑错误清洗
2.3 数据标准化
2.4 Spark大数据处理平台
2.4.1 Spark简介
2.4.2 弹性分布式数据集RDD
2.4.3 Spark分布式平台环境
2.4.4 分布式平台搭建过程
2.5 数据可视化
2.5.1 数据可视化简介
2.5.2 DataV
2.5.3 轻量级数据库访问框架FastSQL
2.6 本章小结
3 学生画像库建立和聚类算法
3.1 学生“画像”特征库构建
3.2 经典聚类算法K-means介绍
3.3 LOF算法的介绍及其优化
3.3.1 传统的LOF算法
3.3.2 依赖K-means改进的LOF算法
3.3.3 改进的LOF算法实验结果分析
3.4 K-means++算法
3.5 基于LOF优化的K-means++算法并行化实现
3.6 实验结果与分析
3.7 本章小结
4 关联规则分析在学生行为分析中的应用
4.1 关联规则简介
4.2 Apriori算法介绍及其改进
4.2.1 Apriori算法介绍
4.2.2 Apriori算法的改进
4.2.3 Apriori算法改进举例说明
4.3 基于优化的Apriori算法挖掘学生行为规则
4.3.1 数据准备
4.3.2 关联规则分析结果
4.4 本章小结
5 基于DataV大数据可视化展示的实现
5.1 大数据可视化展示的工作流程
5.2 大数据可视化展示的整体结构
5.3 DataV可视化的数据整合
5.4 基于DataV的校园大数据可视化结果
5.4.1 DataV服务对象说明
5.4.2 图书馆模块成果
5.4.3 信息中心模块成果
5.4.4 学生模块成果
5.5 本章小结
6 总结与展望
6.1 本文工作总结
6.2 未来工作展望
参考文献
个人成果
致谢
本文编号:3814499
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3814499.html