基于Hadoop的并行化算法实现及GPS数据实例分析
发布时间:2017-10-17 17:50
本文关键词:基于Hadoop的并行化算法实现及GPS数据实例分析
更多相关文章: 大数据 MapReduce 小文件 并行化 交通流预测
【摘要】:随着云计算、物联网和移动互联网的快速发展,大数据正成为信息技术的新热点,产业发展的新方向,对人类的生产与生活产生巨大影响。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理平台的分析与挖掘,产生新的知识用以支撑决策或业务智能化运转,大数据时代的到来给数据管理与分析提出了新的挑战,数据处理方法的合理性和时效性成为了大数据统计分析的研究热点。近年来,基于数据挖掘算法的大数据分析是研究的重要方向,但大都是以传统单机环境下数据挖掘算法改进为主,由于受内存、扩展性等限制,不能有效满足激增的海量数据处理需求,为此本文研究传统数据挖掘算法在MapReduce并行编程环境下的实现方法,同时,针对大数据时代海量数据的存在形式及Hadoop平台处理海量小文件数据时的性能瓶颈,提出海量小文件处理策略,最后,以出租车GPS数据为实例,对MapReduce实现短时交通路预测的高效性进行验证,在Hadoop环境下,改进基于MapReduce的K近邻短时交通流预测算法,以提高预测准确性。基于以上情况,本文具体做了以下三项工作:(1)针对单机环境下传统数据挖掘算法在对大规模数据分析时存在“内存消耗高、计算性能低、扩展性差和可靠性弱”等问题,提出MapReduce并行环境下KNN、Apriori和K-Means算法的实现方法,并以“可行性、加速比和扩展性”为指标,采用不同大小的真实数据集,在由不同节点组成的集群中进行实验验证。实验结果表明,该实现方法是可行和有效的,能提高KNN、Apriori和K-Means算法的整体性能和挖掘效率,以满足大规模数据挖掘的需要。(2)分析了Hadoop平台的设计初衷是专门处理流式大文件,而现实环境中大部分数据是以海量小文件形式存在,针对Hadoop在处理海量小文件时,存在“内存消耗高、处理效率低”等固有缺陷,本文中实现了CombineFileInputFormat(CFIF)、Hadoop Archive(HA)、Sequence File(SF)等三种处理海量小文件的有效方法,并结合不同用户的实际需求,提出了相应的处理策略,以"Namenode内存消耗、MapReduce运行速度”为指标,验证策略选择的合理性和有效性。实验结果表明,所实现的处理方法和提出的策略选择,能最大化地发挥Hadoop的整体性能,提高海量小文件的处理效率。(3)以海量出租车GPS数据为研究实例,一是利用(1)所述基于MapReduce的并行化K近邻算法解决海量GPS数据预测短时交通流时效率低的问题;二是在短时交通流预测前,引入(2)所述小文件处理方法和策略,对大量出租车GPS数据小文件进行预处理,弥补海量小文件读写速度慢、处理效率低等缺陷:三是在MapReduce环境下,对K近邻短时交通流预测算法的状态向量和距离向量进行改进,解决短时交通流预测准确性问题。通过本文的理论研究、实验验证及实例分析,希望为基于Hadoop平台的大数据分析提供有价值参考,有效解决大数据时代海量数据挖掘与分析问题。
【关键词】:大数据 MapReduce 小文件 并行化 交通流预测
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;P228.4
【目录】:
- 摘要5-7
- Abstract7-9
- 第1章 绪论9-15
- 1.1 课题背景9-10
- 1.2 研究现状10-11
- 1.3 研究内容11-12
- 1.4 研究目的及意义12-13
- 1.5 论文组织结构13-15
- 第2章 相关介绍、问题定义及环境搭建15-27
- 2.1 Hadoop概述15-20
- 2.1.1 MapReduce并行计算框架15-16
- 2.1.2 HDFS分布式文件系统16-20
- 2.1.3 Hadoop特性20
- 2.1.4 其它组件20
- 2.2 Hadoop处理海量小文件问题20-21
- 2.3 海量出租车GPS数据短时交通流预测问题21-23
- 2.4 Hadoop集群搭建23-25
- 2.5 本章小结25-27
- 第3章 基于MapReduce的并行化算法实现及实验分析27-39
- 3.1 KNN算法MapReduce并行化实现27-29
- 3.2 Apriori算法MapReduce并行化实现29-31
- 3.3 K-Means算法MapReduce并行化实现31-34
- 3.4 实验及结果分析34-37
- 3.4.1 实验环境、数据及评价指标34
- 3.4.2 实验测试及结果分析34-37
- 3.5 本章小结37-39
- 第4章 基于Hadoop的海量小文件处理的有效方法和策略39-45
- 4.1 小文件处理实现方法39-40
- 4.1.1 Hadoop Archive方法39
- 4.1.2 Sequence File方法39-40
- 4.1.3 CombineFileInputFormat方法40
- 4.2 小文件处理策略分析40-41
- 4.2.1 分析“Namenode内存消耗”40-41
- 4.2.2 分析“MapReduce运行速度”41
- 4.3 实验评估41-43
- 4.3.1 实验环境及数据集41-42
- 4.3.2 实验及结果分析42-43
- 4.4 本章小结43-45
- 第5章 出租车GPS数据实例分析45-59
- 5.1 K近邻非参数回归短时交通流预测建模及改进45-48
- 5.1.1 状态向量模型45-47
- 5.1.2 距离向量模型47
- 5.1.3 预测函数47-48
- 5.1.4 K值个数48
- 5.2 基于MapReduce的KNN短时交通流预测算法48-52
- 5.2.1 Map函数设计及实现49-50
- 5.2.2 Combine函数设计及实现50-51
- 5.2.3 Reduce函数设计及实现51-52
- 5.3 历史样本数据库建立52-54
- 5.3.1 路段选择及校准52-53
- 5.3.2 数据采集及处理53-54
- 5.3.3 评估指标54
- 5.4 实验测试及结果讨论54-57
- 5.4.1 实验环境54
- 5.4.2 不同K值对实验结果影响54-55
- 5.4.3 不同距离向量对实验结果影响55-56
- 5.4.4 不同状态向量对结果影响56-57
- 5.5 本章小结57-59
- 第6章 总结与展望59-61
- 6.1 总结59
- 6.2 展望59-61
- 参考文献61-65
- 致谢65-67
- 硕士期间发表的论文和参与的课题67
【参考文献】
中国期刊全文数据库 前6条
1 干宏程;汪晴;范炳全;;基于宏观交通流模型的行程时间预测[J];上海理工大学学报;2008年05期
2 张建民;姚亮;胡学钢;;一种面向数据缺失问题的K-means改进算法[J];合肥工业大学学报(自然科学版);2008年09期
3 王振华;侯忠生;高颖;;布尔序列的一种KNN改进算法[J];模式识别与人工智能;2009年02期
4 曾志勇;杨辉;余建坤;;基于HMT和哈希树的Apriori并行算法研究[J];计算机工程与设计;2012年01期
5 秦钰;荆继武;向继;张爱华;;基于优化初始类中心点的K-means改进算法[J];中国科学院研究生院学报;2007年06期
6 许朝阳;;基于多标记文本分类的ML-KNN改进算法[J];江苏师范大学学报(自然科学版);2012年03期
,本文编号:1050218
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/1050218.html