基于Hadoop的校园卡数据挖掘的研究与实现
本文选题:校园卡 + hadoop ; 参考:《南昌航空大学》2017年硕士论文
【摘要】:随着高校内的各种业务系统不断增加,高校内积累的师生数据急剧的增长,已经形成了典型的大数据环境。校园卡作为数字校园的一部分,存储着所有师生的各种校内活动的记录,包括食堂餐饮消费记录、开水消费记录、超市购物记录、图书馆出入记录、电费缴纳记录、图书借阅记录、体育场馆使用记录等。这些记录当中隐藏着大量有价值的信息,但我们很难凭借直观的感觉发现它,必须通过数据挖掘的方法挖掘出来。通过对这些数据的深入挖掘,发现其中的有价值的信息,学校管理者就能对师生的消费规律、学习情况有一个更理性、清晰的认识。这将为高校资源的合理分配,校园的规划建设及师生的管理等工作提供有价值的参考。本文基于校园卡近几年来产生的大量数据,采用主流的Hadoop生态下的大数据处理框架进行校园卡数据的清洗、分析、挖掘等工作。首先,本文分析了挖掘校园卡数据的重要性及其相关技术的研究现状。然后对数据挖掘中使用的Hadoop相关技术(HDFS文件系统,Hive数据仓库,MapReduce分布式计算框架)、FP-Growth算法及决策树算法进行了介绍。最后,采用sqoop、Hive等技术,对校园卡数据建立以校园消费为主题的数据仓库。在此数据仓库之上做了以下三项工作:第一、统计各个时间段中各食堂就餐人数,发现了在校就餐人数的周期性变化,对学校的早中晚就餐高峰时间也有了一个更直观的认识。第二、统计学生的各类消费金额,使用C4.5决策树算法建立学生贫困程度预测模型,通过剪枝等优化手段后评估准确率达到85.4%,对学校的贫困生评定有一定的参考价值。第三、统计学生常去商家,运用FP-Growth算法挖掘出大量频繁模式,得出大量学生与商户之间、商户与商户之间的关联规则,使得学校及商户对学生的消费习惯有更清晰的认识。目前大多数高校的信息化平台还只关注在建立事务管理系统,对数据挖掘的运用还不多见。相信随着大数据、机器学习等技术的不断发展,校园数据的分析挖掘在辅助学校管理中将会扮演越来越重要的角色。
[Abstract]:With the increasing of various business systems in colleges and universities, the accumulation of data between teachers and students in colleges and universities is increasing rapidly, which has formed a typical big data environment. As part of the digital campus, the campus card stores records of all kinds of campus activities of teachers and students, including dining hall consumption records, boiling water consumption records, supermarket shopping records, library entry and exit records, and electricity payment records. Books borrowing records, stadiums use records, etc. There is a lot of valuable information hidden in these records, but it is difficult to find it by intuitive sense, which must be mined by the method of data mining. Through the deep mining of these data, find out the valuable information, the school administrator can have a more rational and clear understanding of the law of the consumption of teachers and students and the situation of learning. This will provide valuable reference for the rational allocation of university resources, the planning and construction of campus and the management of teachers and students. Based on a large number of data generated by campus cards in recent years, this paper adopts the big data processing framework under the mainstream Hadoop ecology to clean, analyze and mine campus card data. Firstly, this paper analyzes the importance of mining campus card data and the research status of related technologies. Then the FP-Growth algorithm and decision tree algorithm are introduced for Hadoop related technology (HDFS file system Hive data warehouse / MapReduce distributed computing framework) used in data mining. Finally, using sqoop Hive and other technologies, the campus card data warehouse with the theme of campus consumption is established. The following three tasks have been done on this data warehouse: first, the number of dining rooms in each time period has been counted, the periodic changes of the number of diners in school have been found, and a more intuitive understanding of the peak time of the morning, middle and late dining in the school has also been obtained. Secondly, statistics of all kinds of consumption amount of students, using C4.5 decision tree algorithm to establish the model of student poverty degree prediction, through pruning and other optimization means, the accuracy of evaluation reached 85.40.It has a certain reference value for the evaluation of poor students in schools. Thirdly, statistics students often go to business, use FP-Growth algorithm mining out a large number of frequent patterns, get a large number of students and merchants, business and business between the association rules, so that schools and businesses have a clearer understanding of students' consumption habits. At present, the information platform of most colleges and universities only pays attention to the establishment of transaction management system, and the application of data mining is rare. It is believed that with the development of big data, machine learning and other technologies, the analysis and mining of campus data will play a more and more important role in assisting school management.
【学位授予单位】:南昌航空大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:G647;TP311.13
【参考文献】
相关期刊论文 前10条
1 张亮;宁芊;;CART决策树的两种改进及应用[J];计算机工程与设计;2015年05期
2 先晓兵;陈凤;王继元;王加年;;基于大数据的高校学生管理工作研究与实践[J];中国教育信息化;2015年10期
3 李学龙;龚海刚;;大数据系统综述[J];中国科学:信息科学;2015年01期
4 吕伟;张祥云;叶逢福;赖勇强;;“智慧校园”浪潮下的高教变革展望[J];高教探索;2014年04期
5 吴学雁;莫赞;;基于Aproiri算法的频繁项集挖掘优化方法[J];计算机系统应用;2014年06期
6 孙大为;张广艳;郑纬民;;大数据流式计算:关键技术及系统实例[J];软件学报;2014年04期
7 胡钦太;郑凯;林南晖;;教育信息化的发展转型:从“数字校园”到“智慧校园”[J];中国电化教育;2014年01期
8 刘师语;周渊平;杜江;;基于HADOOP分布式系统的数据处理分析[J];通信技术;2013年09期
9 张霄宏;海林鹏;贾宗璞;沈记全;赵文涛;;同构Hadoop环境作业执行时间计算方法[J];计算机工程与应用;2014年10期
10 申德荣;于戈;王习特;聂铁铮;寇月;;支持大数据管理的NoSQL系统研究综述[J];软件学报;2013年08期
相关硕士学位论文 前10条
1 王小雨;基于校园一卡通开水数据的分析[D];北京化工大学;2015年
2 张建明;基于数据挖掘的高校贫困生认定系统设计和分析[D];东南大学;2015年
3 陈尧;支持多计算模式的大数据系统的研究[D];电子科技大学;2015年
4 李铁;面向海量小文件存取的HDFS优化研究[D];东华大学;2015年
5 卢俊华;HDFS存储机制的分析与研究[D];武汉理工大学;2014年
6 李俊;基于块聚集的MapReduce性能研究与优化[D];北京交通大学;2014年
7 郝向涛;基于Hadoop的分布式文件系统技术分析及应用[D];武汉理工大学;2013年
8 亢洁;云环境下面向数据密集型应用的数据布局策略研究[D];南京邮电大学;2013年
9 王磊;一种高性能HDFS存储平台的研究与实现[D];西安电子科技大学;2013年
10 胡昊;Key-Value数据存储加速技术研究[D];国防科学技术大学;2012年
,本文编号:2059412
本文链接:https://www.wllwen.com/jiaoyulunwen/gaodengjiaoyulunwen/2059412.html