基于大数据的数据转换平台的设计与实现
发布时间:2017-08-21 06:40
本文关键词:基于大数据的数据转换平台的设计与实现
更多相关文章: 数据处理 云平台 孤立点检测 Hadoop K-Medoids
【摘要】:随着计算机技术的迅猛发展,人们所接触的数据量呈现爆炸式增长。数据的不断增长在给人们带来巨大价值的同时,也给人们带来了巨大的挑战,海量数据处理工作已经成为当今研究的热点问题。针对数据预处理方面的具体问题,传统的算法无论是从效率上,还是从计算复杂度上都无法满足海量数据的处理需要。云计算的发展为大数据的处理提供了新的解决方案。云计算技术通过使存储和计算能力均匀的分布到集群中的多个存储和计算节点上,从而实现了对超大数据集的巨大的存储和计算能力。同时,各个企业研发各自的云平台用于数据处理、分析数据已经成为主流趋势。本文在对海量数据处理进行具体研究的基础上,提出了可定制的数据转换平台方案来简化数据处理。为了保证数据质量,需要对数据集中的孤立点进行检测。因传统算法在聚类过程中时间复杂度较高,本文提出了一种将传统聚类算法并行化设计的孤立点检测方案。在数据规则引擎设计方案中,设计了“动作流”的方式来抽象化数据处理动作,允许用户根据实际需要自定义数据处理的流程与方式。设计并实现了“输入-处理-输出”语句形式的配置文件来代替传统的SQL语句和代码编写,减少了人力的耗费。在孤立点检测方案中,将传统的K-Medoids聚类算法进行并行化设计,使得K-Medoids算法满足处理大数据集的需要,同时设计并实现了基于距离和的孤立点检测方法,使得用户无需进行参数设置就可进行数据集中孤立点的检测。通过实验证明,改进的孤立点检测算法大大提升了孤立点检测的效率和准确性。本文的数据转换规则引擎方案适合于海量数据的处理工作,节约了大量的代码编写时间,并设计实现了基于距离和的孤立点检测算法进行孤立点的检测处理,具有较好的实用价值。
【关键词】:数据处理 云平台 孤立点检测 Hadoop K-Medoids
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 绪论8-12
- 1.1 课题研究背景8-9
- 1.2 国内外研究现状9-11
- 1.2.1 分布式数据处理9
- 1.2.2 数据清洗9-10
- 1.2.3 孤立点检测10-11
- 1.3 论文主要工作11
- 1.4 论文组织结构11-12
- 第二章 数据处理相关技术12-24
- 2.1 云计算12-13
- 2.1.1 云计算的关键技术12
- 2.1.2 云计算服务模式12-13
- 2.1.3 云计算平台13
- 2.2 分布式处理13-15
- 2.3 Hadoop平台简介15-19
- 2.3.1 HDFS文件系统15-17
- 2.3.2 MapReduce编程模型17-18
- 2.3.3 HBase数据库18-19
- 2.4 聚类分析19-22
- 2.4.1 聚类方法简介20
- 2.4.2 K-Means算法与K-Medoids算法20-21
- 2.4.3 距离度量21-22
- 2.5 孤立点检测技术22-23
- 2.6 本章小结23-24
- 第三章 数据转换平台总体设计24-40
- 3.1 基于大数据的分析评估系统简介24-26
- 3.1.1 系统结构简介24-25
- 3.1.2 各功能层分析说明25-26
- 3.2 数据转换平台设计26-28
- 3.3 数据转换规则引擎28-33
- 3.4 孤立点检测模块33-39
- 3.4.1 模块设计思路34
- 3.4.2 模块整体方案设计34-37
- 3.4.3 K-Medoids聚类算法37-39
- 3.5 本章小结39-40
- 第四章 功能模块的设计与实现40-64
- 4.1 数据抽取模块详细设计与实现40-43
- 4.1.1 数据抽取配置40
- 4.1.2 数据抽取配置文件解析40-42
- 4.1.3 抽取数据存入HDFS42-43
- 4.2 数据处理模块详细设计与实现43-47
- 4.2.1 数据处理配置43
- 4.2.2 数据处理配置文件的解析43-44
- 4.2.3 数据处理的并行化算法44-47
- 4.3 数据存储模块详细设计与实现47-49
- 4.3.1 MySql数据库存储47-48
- 4.3.2 HBase数据库存储48-49
- 4.4 孤立点检测模块详细设计49-51
- 4.4.1 K-Medoids算法并行化思路49-50
- 4.4.2 基于MapReduce的K-Medoids算法流程50-51
- 4.4.3 孤立点检测算法的并行化51
- 4.5 孤立点检测模块的实现51-57
- 4.5.1 K-Medoids算法并行化实现51-56
- 4.5.2 孤立点检测算法的实现56-57
- 4.6 数据转换平台功能测试57-63
- 4.6.1 实验环境57
- 4.6.2 数据转换规则引擎功能测试57-60
- 4.6.3 孤立点检测模块功能测试60-63
- 4.7 本章小结63-64
- 第五章 总结与展望64-66
- 5.1 总结64
- 5.2 展望64-66
- 致谢66-67
- 参考文献67-69
【相似文献】
中国期刊全文数据库 前10条
1 陈丽娜;;孤立点挖掘研究[J];内江科技;2009年03期
2 王越;刘亚辉;徐传运;;孤立点用户意义分析在质量管理中的应用[J];计算机应用;2009年11期
3 陆声链,林士敏,黄万华;基于相似系数和的孤立点检测算法[J];安徽师范大学学报(自然科学版);2004年02期
4 陆声链,林士敏;基于距离的孤立点检测及其应用[J];计算机与数字工程;2004年05期
5 汪加才;张金城;江效尧;;一种有效的可视化孤立点发现与预测新途径[J];计算机科学;2007年06期
6 姜晗;贾l,
本文编号:711403
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/711403.html