当前位置:主页 > 科技论文 > 测绘论文 >

基于Hadoop的并行化算法实现及GPS数据实例分析

发布时间:2017-10-17 17:50

  本文关键词:基于Hadoop的并行化算法实现及GPS数据实例分析


  更多相关文章: 大数据 MapReduce 小文件 并行化 交通流预测


【摘要】:随着云计算、物联网和移动互联网的快速发展,大数据正成为信息技术的新热点,产业发展的新方向,对人类的生产与生活产生巨大影响。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理平台的分析与挖掘,产生新的知识用以支撑决策或业务智能化运转,大数据时代的到来给数据管理与分析提出了新的挑战,数据处理方法的合理性和时效性成为了大数据统计分析的研究热点。近年来,基于数据挖掘算法的大数据分析是研究的重要方向,但大都是以传统单机环境下数据挖掘算法改进为主,由于受内存、扩展性等限制,不能有效满足激增的海量数据处理需求,为此本文研究传统数据挖掘算法在MapReduce并行编程环境下的实现方法,同时,针对大数据时代海量数据的存在形式及Hadoop平台处理海量小文件数据时的性能瓶颈,提出海量小文件处理策略,最后,以出租车GPS数据为实例,对MapReduce实现短时交通路预测的高效性进行验证,在Hadoop环境下,改进基于MapReduce的K近邻短时交通流预测算法,以提高预测准确性。基于以上情况,本文具体做了以下三项工作:(1)针对单机环境下传统数据挖掘算法在对大规模数据分析时存在“内存消耗高、计算性能低、扩展性差和可靠性弱”等问题,提出MapReduce并行环境下KNN、Apriori和K-Means算法的实现方法,并以“可行性、加速比和扩展性”为指标,采用不同大小的真实数据集,在由不同节点组成的集群中进行实验验证。实验结果表明,该实现方法是可行和有效的,能提高KNN、Apriori和K-Means算法的整体性能和挖掘效率,以满足大规模数据挖掘的需要。(2)分析了Hadoop平台的设计初衷是专门处理流式大文件,而现实环境中大部分数据是以海量小文件形式存在,针对Hadoop在处理海量小文件时,存在“内存消耗高、处理效率低”等固有缺陷,本文中实现了CombineFileInputFormat(CFIF)、Hadoop Archive(HA)、Sequence File(SF)等三种处理海量小文件的有效方法,并结合不同用户的实际需求,提出了相应的处理策略,以"Namenode内存消耗、MapReduce运行速度”为指标,验证策略选择的合理性和有效性。实验结果表明,所实现的处理方法和提出的策略选择,能最大化地发挥Hadoop的整体性能,提高海量小文件的处理效率。(3)以海量出租车GPS数据为研究实例,一是利用(1)所述基于MapReduce的并行化K近邻算法解决海量GPS数据预测短时交通流时效率低的问题;二是在短时交通流预测前,引入(2)所述小文件处理方法和策略,对大量出租车GPS数据小文件进行预处理,弥补海量小文件读写速度慢、处理效率低等缺陷:三是在MapReduce环境下,对K近邻短时交通流预测算法的状态向量和距离向量进行改进,解决短时交通流预测准确性问题。通过本文的理论研究、实验验证及实例分析,希望为基于Hadoop平台的大数据分析提供有价值参考,有效解决大数据时代海量数据挖掘与分析问题。
【关键词】:大数据 MapReduce 小文件 并行化 交通流预测
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;P228.4
【目录】:
  • 摘要5-7
  • Abstract7-9
  • 第1章 绪论9-15
  • 1.1 课题背景9-10
  • 1.2 研究现状10-11
  • 1.3 研究内容11-12
  • 1.4 研究目的及意义12-13
  • 1.5 论文组织结构13-15
  • 第2章 相关介绍、问题定义及环境搭建15-27
  • 2.1 Hadoop概述15-20
  • 2.1.1 MapReduce并行计算框架15-16
  • 2.1.2 HDFS分布式文件系统16-20
  • 2.1.3 Hadoop特性20
  • 2.1.4 其它组件20
  • 2.2 Hadoop处理海量小文件问题20-21
  • 2.3 海量出租车GPS数据短时交通流预测问题21-23
  • 2.4 Hadoop集群搭建23-25
  • 2.5 本章小结25-27
  • 第3章 基于MapReduce的并行化算法实现及实验分析27-39
  • 3.1 KNN算法MapReduce并行化实现27-29
  • 3.2 Apriori算法MapReduce并行化实现29-31
  • 3.3 K-Means算法MapReduce并行化实现31-34
  • 3.4 实验及结果分析34-37
  • 3.4.1 实验环境、数据及评价指标34
  • 3.4.2 实验测试及结果分析34-37
  • 3.5 本章小结37-39
  • 第4章 基于Hadoop的海量小文件处理的有效方法和策略39-45
  • 4.1 小文件处理实现方法39-40
  • 4.1.1 Hadoop Archive方法39
  • 4.1.2 Sequence File方法39-40
  • 4.1.3 CombineFileInputFormat方法40
  • 4.2 小文件处理策略分析40-41
  • 4.2.1 分析“Namenode内存消耗”40-41
  • 4.2.2 分析“MapReduce运行速度”41
  • 4.3 实验评估41-43
  • 4.3.1 实验环境及数据集41-42
  • 4.3.2 实验及结果分析42-43
  • 4.4 本章小结43-45
  • 第5章 出租车GPS数据实例分析45-59
  • 5.1 K近邻非参数回归短时交通流预测建模及改进45-48
  • 5.1.1 状态向量模型45-47
  • 5.1.2 距离向量模型47
  • 5.1.3 预测函数47-48
  • 5.1.4 K值个数48
  • 5.2 基于MapReduce的KNN短时交通流预测算法48-52
  • 5.2.1 Map函数设计及实现49-50
  • 5.2.2 Combine函数设计及实现50-51
  • 5.2.3 Reduce函数设计及实现51-52
  • 5.3 历史样本数据库建立52-54
  • 5.3.1 路段选择及校准52-53
  • 5.3.2 数据采集及处理53-54
  • 5.3.3 评估指标54
  • 5.4 实验测试及结果讨论54-57
  • 5.4.1 实验环境54
  • 5.4.2 不同K值对实验结果影响54-55
  • 5.4.3 不同距离向量对实验结果影响55-56
  • 5.4.4 不同状态向量对结果影响56-57
  • 5.5 本章小结57-59
  • 第6章 总结与展望59-61
  • 6.1 总结59
  • 6.2 展望59-61
  • 参考文献61-65
  • 致谢65-67
  • 硕士期间发表的论文和参与的课题67

【参考文献】

中国期刊全文数据库 前6条

1 干宏程;汪晴;范炳全;;基于宏观交通流模型的行程时间预测[J];上海理工大学学报;2008年05期

2 张建民;姚亮;胡学钢;;一种面向数据缺失问题的K-means改进算法[J];合肥工业大学学报(自然科学版);2008年09期

3 王振华;侯忠生;高颖;;布尔序列的一种KNN改进算法[J];模式识别与人工智能;2009年02期

4 曾志勇;杨辉;余建坤;;基于HMT和哈希树的Apriori并行算法研究[J];计算机工程与设计;2012年01期

5 秦钰;荆继武;向继;张爱华;;基于优化初始类中心点的K-means改进算法[J];中国科学院研究生院学报;2007年06期

6 许朝阳;;基于多标记文本分类的ML-KNN改进算法[J];江苏师范大学学报(自然科学版);2012年03期



本文编号:1050218

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/1050218.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户180ab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com