当前位置:主页 > 科技论文 > 计算机论文 >

面向物流海量数据管理及应用研究

发布时间:2017-07-26 12:32

  本文关键词:面向物流海量数据管理及应用研究


  更多相关文章: 海量数据 云存储 分布式文件系统 Hadoop 物流分析 K-Means


【摘要】:近年来,互联网、移动互联网和物联网得到了快速的发展,不断增加的网上用户数量也使得数据量不断增加。单个机器的负载能力已经不能很好的存储现在的海量数据,怎样搭建规模大、效率高、可扩展性好的存储系统尤为重要。云计算已经成为当前研究的热点问题,云计算衍生出云存储技术,国内外也开始对云存储技术做了深入的研究。研究云计算和云存储标准参考模型是基于Google File System的开源实现的Hadoop文件系统HDFS,但是HDFS架构存在很多的缺点,,较为突出的是单个NameNode易造成整个集群性能瓶颈问题。本文主要在现有HDFS的研究基础上,提出了一种基于MongoDB的多NameNode解决方案,该方案能很好的解决HDFS单一NameNode性能瓶颈问题。通过实验表明,本方案能对HDFS集群的命名空间进行拓展。 与此同时随着社会大物流的发展,企业如何从这些海量的信息中挖掘出有用的信息,己经成为该领域研究的关键。云计算具有计算能力弹性化,存储能力海量化,节约成本,提高效率方面等优点,所以,云计算已经成为能有效的处理数据挖掘技术所面临难题的方法之一。本文首先从两个方面分析MapReduce编程模型和Hadoop平台,进而深入介绍了Mahout,并且详细对Mahout内部数据表示模型做了深入探讨,采用K-Means算法,对K-Means算法进行并行化分析,详尽的阐述了K-Means聚类在MapReduce编程中的实现和在Mahout中的应用。文章最后,主要针对我国物流业具体情况,提出数据挖掘的并行和串行两种模式,主要是针对K-Means算法在这两种情况下解决海量数据挖掘问题时效率的比较,本文从不同距离度量方式,运行时间,迭代次数等方面评估了K-Means算法聚类结果,最后发现其效率差异,能对海量数据挖掘起到很好的指导实践意义。 本文通过基于MongoDB的多NameNode的HDFS云存储技术和基于MapReduce编程模型的K-Means算法并行云挖掘技术很好的处理了物流业海量数据信息的存储和计算问题,通过调用HDFS存储的海量数据,上层Mahout进行海量数据信息并行化数据挖掘,挖掘出对于物流行业有用的信息。
【关键词】:海量数据 云存储 分布式文件系统 Hadoop 物流分析 K-Means
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333;TP311.13
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 绪论9-12
  • 1.1 课题背景9-11
  • 1.2 文章主要内容及章节安排11-12
  • 第二章 相关技术的介绍12-30
  • 2.1 云计算的概念12-14
  • 2.1.1 云计算的分类12-13
  • 2.1.2 云计算特点13-14
  • 2.2 Hadoop 简介14-18
  • 2.2.1 Hadoop 历史14-15
  • 2.2.2 Hadoop 优势15
  • 2.2.3 Hadoop 子项目15-16
  • 2.2.4 Hadoop 框架模型16-18
  • 2.2.5 Hadoop 应用举例18
  • 2.3 Hadoop 关键技术18-29
  • 2.3.1 Hadoop 分布式文件系统(HDFS)18-23
  • 2.3.2 MapReduce 技术23-27
  • 2.3.3 Mahout 技术27-29
  • 2.4 本章小结29-30
  • 第三章 海量物流数据存储的设计和实现30-46
  • 3.1 现有 HDFS 架构不足30-31
  • 3.2 MongoDB 技术简介31-34
  • 3.2.1 MongoDB 集群的架构分析32-33
  • 3.2.2 MongoDB 集群的分片机制33-34
  • 3.3 可扩展的多 NameNode 节点优化原理34-37
  • 3.3.1 优化难点34
  • 3.3.2 基于 MongoDB 的解决方案34-37
  • 3.4 多 NameNode 节点的优化应以 MongoDB 为基础来实现37-43
  • 3.5 实验结果及相关分析43-45
  • 3.6 本章小结45-46
  • 第四章 物流海量数据挖掘子系统46-58
  • 4.1 云数据挖掘子系统简介46-47
  • 4.2 数据挖掘概述47
  • 4.3 文本聚类47-50
  • 4.3.1 中文分词49-50
  • 4.3.2 文本表示模型50
  • 4.4 物流海量数据 K-Means 算法并行分析50-55
  • 4.4.1 并行策略50-51
  • 4.4.2 Mahout K-Means 结构51-52
  • 4.4.3 K-Means 聚类 MapReduce 实现52-55
  • 4.5 并行挖掘与串行挖掘比较55-57
  • 4.6 K-Means 算法应用到物流行业57
  • 4.7 本章小结57-58
  • 第五章 平台搭建及实验58-68
  • 5.1 Hadoop 平台的搭建58-61
  • 5.1.1 搭建 Hadoop 集群58
  • 5.1.2 搭建 hadoop58-61
  • 5.2 安装 MongoDB 数据库61-62
  • 5.3 安装 Mahout62-65
  • 5.3.1 安装 Maven62-64
  • 5.3.2 Mahout 的下载及安装64-65
  • 5.4 实验过程65-67
  • 5.4.1 实验一65-66
  • 5.4.2 实验二66-67
  • 5.5 本章小结67-68
  • 第六章 展望与总结68-70
  • 6.1 总结68
  • 6.2 展望68-70
  • 参考文献70-73
  • 附录 2 攻读硕士学位期间撰写的论文73-74
  • 附录 3 攻读硕士学位期间申请的专利74-75
  • 附录 4 攻读硕士学位期间参加的科研项目75-76
  • 致谢76

【相似文献】

中国期刊全文数据库 前10条

1 ;中国科学院文献情报中心“99”级研究生学位论文开题介绍[J];现代图书情报技术;2001年04期

2 师春苗,肖云;研究生创新不足的原因与对策[J];科技·人才·市场;2001年04期

3 郑力,王松俊,朱鸽昀,高艳玲;情报学研究生学位论文选题发展趋势研究[J];情报理论与实践;2002年03期

4 ;本刊主办院校研究生学位论文题录[J];高校化学工程学报;2002年01期

5 ;本刊主办院校研究生学位论文题录[J];高校化学工程学报;2002年03期

6 ;本刊主办院校研究生学位论文题录[J];高校化学工程学报;2002年04期

7 ;本刊主办院校研究生学位论文题录[J];高校化学工程学报;2002年05期

8 王莹;试谈高校研究生学位论文著作权的保护问题[J];河北科技图苑;2004年03期

9 张爱林;研究生学位论文的利用与检索[J];图书馆学研究;2004年06期

10 ;本刊主办院校研究生学位论文题录[J];高校化学工程学报;2004年05期

中国重要会议论文全文数据库 前4条

1 杨黎娟;秦荣;;浅谈研究生学位论文档案管理及开发利用[A];陕西省档案学会第八次档案学术讨论会论文选辑[C];2004年

2 龚乐年;;刍议影响研究生业务培养质量的几个原因[A];第二届全国高校电气工程及其自动化专业教学改革研讨会论文集(下册)[C];2004年

3 蔡妙花;曹春;赵乃良;;优化管理提升研究生培养质量的探索和实践[A];电子高等教育学会2008年学术年会论文集[C];2008年

4 蔡妙花;曹春;赵乃良;;优化管理提升研究生培养质量的探索和实践[A];电子高等教育学会2007年学术年会论文集[C];2007年

中国重要报纸全文数据库 前10条

1 方延明;新世纪我们怎样培养研究生[N];中国教育报;2001年

2 本版编辑邋陶雷 韩仁武 范吉昌;质量在“较真”中提升[N];解放军报;2008年

3 本报记者 李玉兰;研究生学位论文“打假”的法律思考[N];光明日报;2009年

4 记者 程墨 通讯员 严莉莉 陈博;12道“金牌”倒逼研究生写好论文[N];中国教育报;2013年

5 李世彬 苏继红;培养研究生创新精神[N];光明日报;2006年

6 通讯员 杨茗;质量是研究生教育的永恒主题[N];光明日报;2006年

7 文永红;校企联合培养研究生三方受益[N];科技日报;2006年

8 黄蔚邋实习生 包莹;创新模式 锻造精英[N];贵州日报;2008年

9 王中委邋刘胜江;开启创新智慧之门[N];解放军报;2008年

10 特约记者郑水平;曙光油区建成首个“研究生培养创新基地”[N];中国石油报;2010年

中国博士学位论文全文数据库 前5条

1 刘裕;高校教育服务公平评价及效应研究[D];西南交通大学;2008年

2 Muhammad Khurram Khan;[D];西南交通大学;2006年

3 朱勇;MicroRNA-23a/27a/24-2在红系分化中的功能及作用机制研究[D];北京协和医学院;2014年

4 刘培顺;判决PN机理论及其在入侵检测中的应用[D];西南交通大学;2005年

5 李慧娟;维吾尔族妇女民间互助研究[D];兰州大学;2012年

中国硕士学位论文全文数据库 前10条

1 贾川;我国高校跨学科研究生培养机制研究[D];国防科学技术大学;2008年

2 吴巨慧;研究生创新能力培养的过程要素及整合的研究[D];浙江大学;2003年

3 王娜;美国研究生资助研究[D];河北大学;2008年

4 赵郁松;研究生创新能力培养的研究[D];重庆大学;2006年

5 罗艳;研究生导师指导量研究[D];湖南大学;2006年

6 刘威;创新型研究生培养的大学教育环境研究[D];中南大学;2007年

7 刘敏;研究生培养体制对研究生创新能力培养的影响研究[D];湖南师范大学;2007年

8 邵玲;研究生学习观的个案研究[D];广西师范大学;2007年

9 李志平;中国农业科学院研究生创新能力研究[D];中国农业科学院;2006年

10 代志军;我国体育院校篮球硕士研究生学位论文现状及影响因素的研究[D];北京体育大学;2006年



本文编号:576429

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/576429.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户78c24***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com