当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop多维时态数据挖掘模型的研究与应用

发布时间:2017-08-13 01:02

  本文关键词:基于Hadoop多维时态数据挖掘模型的研究与应用


  更多相关文章: 多维时态数据挖掘 Hadoop系统 FPCpb-Growth算法 并行化编程


【摘要】:随着信息技术与互联网技术的深入发展,全球数据量呈现出爆炸式增长。大规模数据集不仅具有时间特性,随着社会生活资料和生产资料日益繁杂,还具有明显的多维属性。如何真实的反应出现实世界中事物和事物之间、事物的不同属性之间以及不同事物的不同属性之间的联系,从而挖掘出有效的、新颖的、潜在可用的模式和规则,具有重要的研究意义。数据挖掘是从规模庞大的、有噪声的数据中提取出数据内部规律的表现特征的方法和技术。面对海量的多维时态数据,传统的存储系统以及数据挖掘模式已经不能胜任其所面临的在效率、扩展性和成本等方面的挑战。云计算技术,特别是Hadoop平台以其扩展性强、性价比高、容错性好等优势给出了解决大数据挖掘的方案。结合Hadoop云计算平台,实现大规模多维时态数据的挖掘是本论文要进行研究的。首先,从时态数据入手,构造出多维时态数据SDTE模型。总结归纳了时间相关的概念,以时间特性为中心,讨论了时态数据的多维性。从现实世界和数据库系统角度出发,结合时态数据的数值型序列、事务型序列以及事件性序列挖掘的研究,提出了并建立了统一规范的多维时态数据SDTE模型。其次,结合大规模数据挖掘和Hadoop技术平台,架构出基于Hadoop技术框架的大规模多维时态数据挖掘模型。模型采用分布式文件系统实现超大文件数据的存储和容错,同时使用MapReduce的编程模式进行并行计算。自顶向下分层分为动态交互层、业务应用层、数据挖掘层和分布式平台层。着重对数据挖掘层的数据管理模块和并行化编程模块进了整合和优化。提出了Hive-HBase集成模型对HDFS进行操作,构建了通用性的并行化编程模型。然后,基于模型改进了关联规则FP-Growth算法并进行实验。基于对多维关联规则概念的研究,在FP-Growth算法的基础上对影响算法效率较大的求子条件模式基的算法进行改进,提出了FPCpb算法。并对FPCpb算法进行并行化。最后,搭建实验环境进行实验,依据评估标准对数据进行分析,验证了Hadoop多维时态数据挖掘模型的可行性以及FPCpb-Growth算法的高效性。
【关键词】:多维时态数据挖掘 Hadoop系统 FPCpb-Growth算法 并行化编程
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-15
  • 1.1 选题背景与意义9-10
  • 1.2 研究现状10-12
  • 1.2.1 基于Hadoop大规模数据挖掘研究现状10-11
  • 1.2.2 时态数据与多维数据挖掘现状研究11-12
  • 1.3 本文主要研究内容12
  • 1.4 论文组织结构12-15
  • 第二章 多维时态数据模型构造15-23
  • 2.1 时间相关的概念与时间特征提取15-18
  • 2.2 时态数据的多维性18-20
  • 2.3 多维时态数据模型研究20-21
  • 2.4 建立多维时态数据SDTE模型21-22
  • 2.5 本章小结22-23
  • 第三章 基于Hadoop技术框架的大规模多维时态数据挖掘模型研究23-36
  • 3.1 基于Hadoop技术框架的研究23-26
  • 3.1.1 Hadoop平台系统结构简介23-24
  • 3.1.2 MapReduce计算模式24
  • 3.1.3 Hadoop数据管理24-26
  • 3.2 大规模数据挖掘过程研究26-27
  • 3.3 基于Hadoop技术框架的大规模多维时态数据挖掘模型总体架构27-29
  • 3.4 大规模多维时态数据管理优化29-32
  • 3.5 MapReduce并行编程模型研究32-35
  • 3.6 本章小结35-36
  • 第四章 多维时态关联规则算法的并行化改进36-47
  • 4.1 关联规则挖掘技术36-42
  • 4.1.1 关联规则的基本概念36-38
  • 4.1.2 关联规则的分类与拓展38-40
  • 4.1.3 关联规则的算法描述40-42
  • 4.2 基于多维时态数据的关联规则算法改进42-44
  • 4.2.1 多维事件时态关联规则模型42-43
  • 4.2.2 多维时态关联规则算法改进43-44
  • 4.3 多维时态关联规则算法的并行化改进44-46
  • 4.4 本章小结46-47
  • 第五章 实验与分析47-58
  • 5.1 实验平台的搭建47-52
  • 5.1.1 实验环境47
  • 5.1.2 搭建Hadoop集群47-51
  • 5.1.3 HBase分布式数据库的配置与运行51
  • 5.1.4 Hive数据仓库分析工具的配置与运行51-52
  • 5.2 数据与数据预处理52-55
  • 5.3 多维时态关联规则算法改进算法FPCpb-Growth实验55-56
  • 5.4 基于Hadoop多维时态数据挖掘模型的并行FPCpb-Growth算法实验56-57
  • 5.5 本章小结57-58
  • 第六章 总结与展望58-60
  • 6.1 论文总结58-59
  • 6.2 进一步工作展望59-60
  • 参考文献60-65
  • 致谢65-66
  • 攻读学位期间的研究成果66

【相似文献】

中国期刊全文数据库 前10条

1 魏槟泽;;相似发现技术在时态数据挖掘中的应用[J];硅谷;2012年10期

2 刘念祖;时态数据挖掘的探讨[J];上海第二工业大学学报;2001年02期

3 陈海庆 ,赵峰 ,金莉 ,方新城;时态数据的一种挖掘算法[J];计算机与数字工程;2003年02期

4 江兰;方思行;;电子病历管理系统中的时态数据处理[J];微计算机信息;2006年09期

5 丁国芳;汤庸;章云;;基于时态数据类型的时态数据索引方法[J];计算机工程;2006年19期

6 吴远红;陈爱萍;;共享数据库平台中的时态数据处理研究[J];电脑知识与技术;2006年32期

7 潘定;沈钧毅;;持续时态数据挖掘的研究[J];控制与决策;2007年03期

8 潘定;沈钧毅;;时态数据挖掘的相似性发现技术[J];软件学报;2007年02期

9 庄彬;孟志青;;基于支持向量机的时态数据预测方法[J];计算机工程与应用;2007年19期

10 庄彬;孟志青;周晓昕;;基于支持向量回归机的时态数据预测研究[J];温州大学学报(自然科学版);2007年05期

中国重要会议论文全文数据库 前7条

1 蔡智;岳丽华;蔡庆生;;时态数据的一种周期函数模式发现研究[A];第十六届全国数据库学术会议论文集[C];1999年

2 金文;洪润秋;陈钢;王能斌;;一个时态数据模型[A];第十一届全国数据库学术会议论文集[C];1993年

3 姚小巍;陈滢;冒志鸿;董逸生;;一个支持模式演变的时态数据模型[A];第十二届全国数据库学术会议论文集[C];1994年

4 汤庸;刘海;郭欢;叶小平;;TempDB:时态数据管理系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

5 黄亚静;郑振楣;石树刚;;面向实体的时态数据模型EOTDM[A];第十届全国数据库学术会议论文集[C];1992年

6 孟志青;万天明;杨斌;;数据仓库的时态数据采掘形式化研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

7 冒志鸿;邵勃;姚小巍;董逸生;;ETSQL:一个基于模式演变时态数据模型的查询语言[A];第十二届全国数据库学术会议论文集[C];1994年

中国博士学位论文全文数据库 前2条

1 任淑霞;基于概率的不确定时态数据建模与挖掘问题的研究[D];天津大学;2013年

2 陈填锐;确定学习理论与智能振动故障诊断[D];华南理工大学;2010年

中国硕士学位论文全文数据库 前10条

1 张云龙;基于Hadoop多维时态数据挖掘模型的研究与应用[D];浙江理工大学;2016年

2 龚冰;多粒度双时态数据模型的研究与应用[D];燕山大学;2006年

3 来升强;时态数据挖掘及其应用[D];厦门大学;2006年

4 彭慧丽;支持时间不确定性的时态数据模型研究[D];燕山大学;2006年

5 张洁;电子病历的时态数据研究[D];中南大学;2008年

6 梁晓蕾;关于时态数据关联规则挖掘的研究[D];山东大学;2008年

7 程昱;时态数据周期挖掘理论与算法的研究[D];湘潭大学;2005年

8 张庆文;应急系统中时态数据的本体表示与检索研究[D];太原理工大学;2008年

9 罗来鹏;关于时态数据关联规则挖掘研究[D];西南交通大学;2004年

10 张锡琴;时态数据流的增量聚类算法研究及其应用[D];浙江工业大学;2009年



本文编号:664548

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/664548.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7caf3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com