基于Hadoop的并行化算法实现及GPS数据实例分析

发布时间：2017-10-17 17:50

本文关键词：基于Hadoop的并行化算法实现及GPS数据实例分析

【摘要】：随着云计算、物联网和移动互联网的快速发展,大数据正成为信息技术的新热点,产业发展的新方向,对人类的生产与生活产生巨大影响。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理平台的分析与挖掘,产生新的知识用以支撑决策或业务智能化运转,大数据时代的到来给数据管理与分析提出了新的挑战,数据处理方法的合理性和时效性成为了大数据统计分析的研究热点。近年来,基于数据挖掘算法的大数据分析是研究的重要方向,但大都是以传统单机环境下数据挖掘算法改进为主,由于受内存、扩展性等限制,不能有效满足激增的海量数据处理需求,为此本文研究传统数据挖掘算法在MapReduce并行编程环境下的实现方法,同时,针对大数据时代海量数据的存在形式及Hadoop平台处理海量小文件数据时的性能瓶颈,提出海量小文件处理策略,最后,以出租车GPS数据为实例,对MapReduce实现短时交通路预测的高效性进行验证,在Hadoop环境下,改进基于MapReduce的K近邻短时交通流预测算法,以提高预测准确性。基于以上情况,本文具体做了以下三项工作：(1)针对单机环境下传统数据挖掘算法在对大规模数据分析时存在“内存消耗高、计算性能低、扩展性差和可靠性弱”等问题,提出MapReduce并行环境下KNN、Apriori和K-Means算法的实现方法,并以“可行性、加速比和扩展性”为指标,采用不同大小的真实数据集,在由不同节点组成的集群中进行实验验证。实验结果表明,该实现方法是可行和有效的,能提高KNN、Apriori和K-Means算法的整体性能和挖掘效率,以满足大规模数据挖掘的需要。(2)分析了Hadoop平台的设计初衷是专门处理流式大文件,而现实环境中大部分数据是以海量小文件形式存在,针对Hadoop在处理海量小文件时,存在“内存消耗高、处理效率低”等固有缺陷,本文中实现了CombineFileInputFormat(CFIF)、Hadoop Archive(HA)、Sequence File(SF)等三种处理海量小文件的有效方法,并结合不同用户的实际需求,提出了相应的处理策略,以"Namenode内存消耗、MapReduce运行速度”为指标,验证策略选择的合理性和有效性。实验结果表明,所实现的处理方法和提出的策略选择,能最大化地发挥Hadoop的整体性能,提高海量小文件的处理效率。(3)以海量出租车GPS数据为研究实例,一是利用(1)所述基于MapReduce的并行化K近邻算法解决海量GPS数据预测短时交通流时效率低的问题；二是在短时交通流预测前,引入(2)所述小文件处理方法和策略,对大量出租车GPS数据小文件进行预处理,弥补海量小文件读写速度慢、处理效率低等缺陷：三是在MapReduce环境下,对K近邻短时交通流预测算法的状态向量和距离向量进行改进,解决短时交通流预测准确性问题。通过本文的理论研究、实验验证及实例分析,希望为基于Hadoop平台的大数据分析提供有价值参考,有效解决大数据时代海量数据挖掘与分析问题。
【关键词】：大数据 MapReduce 小文件 并行化 交通流预测
【学位授予单位】：西南大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP311.13;P228.4
【目录】：

摘要5-7
Abstract7-9
第1章绪论9-15
1.1 课题背景9-10
1.2 研究现状10-11
1.3 研究内容11-12
1.4 研究目的及意义12-13
1.5 论文组织结构13-15
第2章相关介绍、问题定义及环境搭建15-27
2.1 Hadoop概述15-20
2.1.1 MapReduce并行计算框架15-16
2.1.2 HDFS分布式文件系统16-20
2.1.3 Hadoop特性20
2.1.4 其它组件20
2.2 Hadoop处理海量小文件问题20-21
2.3 海量出租车GPS数据短时交通流预测问题21-23
2.4 Hadoop集群搭建23-25
2.5 本章小结25-27
第3章基于MapReduce的并行化算法实现及实验分析27-39
3.1 KNN算法MapReduce并行化实现27-29
3.2 Apriori算法MapReduce并行化实现29-31
3.3 K-Means算法MapReduce并行化实现31-34
3.4 实验及结果分析34-37
3.4.1 实验环境、数据及评价指标34
3.4.2 实验测试及结果分析34-37
3.5 本章小结37-39
第4章基于Hadoop的海量小文件处理的有效方法和策略39-45
4.1 小文件处理实现方法39-40
4.1.1 Hadoop Archive方法39
4.1.2 Sequence File方法39-40
4.1.3 CombineFileInputFormat方法40
4.2 小文件处理策略分析40-41
4.2.1 分析“Namenode内存消耗”40-41
4.2.2 分析“MapReduce运行速度”41
4.3 实验评估41-43
4.3.1 实验环境及数据集41-42
4.3.2 实验及结果分析42-43
4.4 本章小结43-45
第5章出租车GPS数据实例分析45-59
5.1 K近邻非参数回归短时交通流预测建模及改进45-48
5.1.1 状态向量模型45-47
5.1.2 距离向量模型47
5.1.3 预测函数47-48
5.1.4 K值个数48
5.2 基于MapReduce的KNN短时交通流预测算法48-52
5.2.1 Map函数设计及实现49-50
5.2.2 Combine函数设计及实现50-51
5.2.3 Reduce函数设计及实现51-52
5.3 历史样本数据库建立52-54
5.3.1 路段选择及校准52-53
5.3.2 数据采集及处理53-54
5.3.3 评估指标54
5.4 实验测试及结果讨论54-57
5.4.1 实验环境54
5.4.2 不同K值对实验结果影响54-55
5.4.3 不同距离向量对实验结果影响55-56
5.4.4 不同状态向量对结果影响56-57
5.5 本章小结57-59
第6章总结与展望59-61
6.1 总结59
6.2 展望59-61
参考文献61-65
致谢65-67
硕士期间发表的论文和参与的课题67

【参考文献】

中国期刊全文数据库前6条

1 干宏程;汪晴;范炳全;;基于宏观交通流模型的行程时间预测[J];上海理工大学学报;2008年05期

2 张建民;姚亮;胡学钢;;一种面向数据缺失问题的K-means改进算法[J];合肥工业大学学报(自然科学版);2008年09期

3 王振华;侯忠生;高颖;;布尔序列的一种KNN改进算法[J];模式识别与人工智能;2009年02期

4 曾志勇;杨辉;余建坤;;基于HMT和哈希树的Apriori并行算法研究[J];计算机工程与设计;2012年01期

5 秦钰;荆继武;向继;张爱华;;基于优化初始类中心点的K-means改进算法[J];中国科学院研究生院学报;2007年06期

6 许朝阳;;基于多标记文本分类的ML-KNN改进算法[J];江苏师范大学学报(自然科学版);2012年03期

，

本文编号：1050218

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/dizhicehuilunwen/1050218.html

上一篇：利用GNSS技术确定地球自转参数
下一篇：《城市地名规划:理论与实践》评介

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|