当前位置:主页 > 科技论文 > 软件论文 >

基于大数据的高考志愿数据分析关键技术研究

发布时间:2019-06-08 08:34
【摘要】:随着高考网上志愿填报系统的普及,招生管理单位掌握了大量的考生填报数据。然而由于缺乏高效的分析平台,造成这些数据未能得到有效的利用。而大数据技术的出现,使得这一问题能够得以解决。在此背景下,本文就目前流行的Hadoop分布式处理平台进行深入研究,并围绕高考志愿填报数据分析开展了一系列研究工作,主要研究内容及创新点如下:(1)对分布式处理平台的架构和原理进行了分析和研究,并对Hadoop分布式处理平台的架构进行阐述,分析了Hadoop文件系统,MapReduce计算模型的结构和设计思想。(2)针对大数据处理基本流程,结合高考志愿填报数据的特点并在借鉴了Hadoop设计模式的基础上,设计了一个由核心控制节点、数据预处理节点、计算节点和监控节点组成的分布式数据处理模型,以满足高考志愿数据分析的需求。(3)提出并实现了一种基于遗传算法的任务调度算法,将任务的执行时间和成本纳入到考虑范围,降低任务消耗时间,节约运行成本。对比实验表明,该算法同Hadoop平台采用的FIFO调度算法相比,在任务总响应时间和任务执行成本方面有显著降低。(4)提出了一个改进的协同过滤高考志愿推荐算法,并实现了算法的并行化。实验结果表明,该算法可以为高考考生提供准确的志愿推荐。通过对比串行算法和并行算法的执行效率,验证了算法在不同数量节点下的运行效率。
[Abstract]:With the popularity of the online voluntary filling system for college entrance examination, the enrollment management unit has mastered a large number of candidates to fill in the data. However, due to the lack of an efficient analysis platform, these data can not be used effectively. With the emergence of big data technology, this problem can be solved. Under this background, this paper makes an in-depth study on the popular Hadoop distributed processing platform, and carries out a series of research work around the analysis of the voluntary filling data of the college entrance examination. The main research contents and innovations are as follows: (1) the architecture and principle of distributed processing platform are analyzed and studied, and the architecture of Hadoop distributed processing platform is described, and the Hadoop file system is analyzed. The structure and design idea of MapReduce computing model. (2) according to the basic process of big data processing, combined with the characteristics of college entrance examination voluntary filling data, and on the basis of drawing lessons from Hadoop design pattern, a core control node is designed. A distributed data processing model composed of data preprocessing node, computing node and monitoring node is proposed and implemented to meet the needs of voluntary data analysis of college entrance examination. (3) A task scheduling algorithm based on genetic algorithm is proposed and implemented. The execution time and cost of the task are taken into account to reduce the task consumption time and save the operation cost. The experimental results show that compared with the FIFO scheduling algorithm used in Hadoop platform, the total task response time and task execution cost of this algorithm are significantly reduced. (4) an improved cooperative filtering voluntary recommendation algorithm for college entrance examination is proposed. The parallelization of the algorithm is realized. The experimental results show that the algorithm can provide accurate voluntary recommendation for college entrance examination candidates. By comparing the execution efficiency of serial algorithm and parallel algorithm, the running efficiency of the algorithm under different number of nodes is verified.
【学位授予单位】:长春理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:G637;TP311.13

【参考文献】

相关期刊论文 前10条

1 陈骞;;韩国发展大数据的计划与行动[J];上海信息化;2015年10期

2 ;国务院关于印发促进大数据发展行动纲要的通知[J];中华人民共和国国务院公报;2015年26期

3 郭嘉凯;;大数据战略[J];软件和集成电路;2015年08期

4 廖建新;;大数据技术的应用现状与展望[J];电信科学;2015年07期

5 徐兰静;李珊;严钊;;基于协同过滤的高考志愿推荐系统[J];计算机系统应用;2015年07期

6 李学龙;龚海刚;;大数据系统综述[J];中国科学:信息科学;2015年01期

7 李彬;;大数据背景下日本信息产业发展成效与问题[J];东北亚学刊;2015年01期

8 闫建;高华丽;;发达国家大数据发展战略的启示[J];理论探索;2015年01期

9 冷亚军;陆青;梁昌勇;;协同过滤推荐技术综述[J];模式识别与人工智能;2014年08期

10 张引;陈敏;廖小飞;;大数据应用的现状与展望[J];计算机研究与发展;2013年S2期

相关博士学位论文 前1条

1 林文辉;基于Hadoop的海量网络数据处理平台的关键技术研究[D];北京邮电大学;2014年

相关硕士学位论文 前10条

1 张永芳;基于Hadoop平台的并行数据挖掘算法研究[D];安徽理工大学;2016年

2 汲磊举;大数据环境下动车组故障关联关系分析关键技术研究与实现[D];北京交通大学;2016年

3 陈敏伟;大数据技术在铁路货运电子商务系统中的基本应用研究[D];西南交通大学;2015年

4 党永亮;大数据分析在移动通信网络优化中的应用研究[D];华中师范大学;2015年

5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年

6 王淑芬;基于大数据的制造运行监测与分析平台研究[D];广东工业大学;2014年

7 李步源;基于云计算的协同过滤算法并行化研究[D];郑州大学;2013年

8 赵莎;分布式海量数据处理系统计算节点的设计与实现[D];电子科技大学;2012年

9 杨浩杰;高考志愿填报的数据分析研究[D];河南大学;2011年

10 殷员分;高考考生志愿数据分析与挖掘研究[D];西南大学;2010年



本文编号:2495155

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2495155.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户750ca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com