大数据环境下数据质量关键问题研究
本文关键词:大数据环境下数据质量关键问题研究
更多相关文章: 大数据 数据质量 数据不一致性 Map-Reduce K-medoids 聚类算法
【摘要】:大数据时代悄然而至,数据质量也引起人们的关注。在提高数据质量方面,很重要的一部分是解决数据不一致性问题。当分布在多个节点的数据集成时,若提供的数据出现重叠,容易引起数据不一致性的问题。如何从若干个不一致的数据中获得理想的数据答案在数据清洗中就显得至关重要。本文给出了多种聚类分析的“样本差异性”和“类簇差异性”指标,系统分析了现有聚类算法:基于联通性的,基于质心的,基于密度的等聚类算法,并把聚类算法应用于解决数据的不一致性问题。随着信息时代的快速发展,数据呈现规模性、多样性、高速性和价值性等多种特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。本文研究了Map-Reduce算法框架和Hadoop这一开源的分布式项目,结合现有的基于Map-Reduce的算法在不同领域的应用,提出了基于Map-Reduce的聚类算法,有效解决大数据环境下的数据不一致性问题。本文重点分析了K-means和K-medoids聚类算法,针对算法的不足,提出了E-medoids聚类算法,改进了聚类算法在解决字符型数据不一致性问题上的适用性,并提高了算法的运行效率。同时,又提出了EW-medoids聚类算法,引入了权重值的概念,控制聚类中心点的偏移,提高了算法的精确性。本文在对大数据条件下的数据质量问题进行分析的基础上,设计并实现了在Map-Reduce编程框架下EW-medoids聚类算法的并行化,较好地解决大数据环境中数据不一致性问题。最后,通过仿真实验验证了在大数据环境下该算法的并行性和有效性。本文的贡献:1)提出基于Map-Reduce的聚类算法解决大数据环境下数据不一致性问题。2) 改进K-medoids聚类算法,提高算法的适用性和精确性。
【关键词】:大数据 数据质量 数据不一致性 Map-Reduce K-medoids 聚类算法
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要5-6
- Abstract6-11
- 1 引言11-15
- 1.1 课题背景及意义11-12
- 1.2 国内外研究现状12-13
- 1.3 研究内容13
- 1.4 论文的组织结构13-14
- 1.5 本章小结14-15
- 2 Map-Reduce、Hadoop与聚类分析15-31
- 2.1 Map-Reduce15-17
- 2.1.1 Map-Reduce介绍15-17
- 2.1.2 Map-Reduce执行过程17
- 2.2 Hadoop17-22
- 2.2.1 Hadoop介绍17-19
- 2.2.2 Hadoop特性与优势19-20
- 2.2.3 Hadoop运行过程20-22
- 2.3 聚类分析22-28
- 2.3.1 聚类分析介绍22-23
- 2.3.2 样本差异性标准23-24
- 2.3.3 类簇差异性标准24-25
- 2.3.4 聚类算法25-28
- 2.4 本章小结28-31
- 3 聚类算法的分析31-39
- 3.1 K-means聚类算法31-34
- 3.1.1 算法的基本原理31-32
- 3.1.2 算法结构分析32-34
- 3.1.3 不足之处34
- 3.2 K-medoids聚类算法34-38
- 3.2.1 算法的基本原理34-35
- 3.2.2 Levenshtein距离35-36
- 3.2.3 算法结构分析36-37
- 3.2.4 不足之处37-38
- 3.3 本章小结38-39
- 4 基于Map-Reduce的聚类算法的设计与实现39-53
- 4.1 E-medoids聚类算法39-42
- 4.1.1 算法基本原理39
- 4.1.2 算法结构分析39-41
- 4.1.3 流程图41
- 4.1.4 伪代码41-42
- 4.2 EW-medoids聚类算法42-45
- 4.2.1 算法基本原理42
- 4.2.2 算法结构分析42-44
- 4.2.3 流程图44
- 4.2.4 伪代码44-45
- 4.3 基于Map-Reduce的聚类算法45-49
- 4.3.1 算法基本原理45-46
- 4.3.2 算法结构分析46-47
- 4.3.3 算法时间复杂度及适用性47-48
- 4.3.4 算法流程图48
- 4.3.5 伪代码实现48-49
- 4.4 Map-Reduce各类的实现49-51
- 4.4.1 Mapper类伪代码实现49
- 4.4.2 Reducer类伪代码实现49-50
- 4.4.3 Map-Reduce任务伪代码实现50-51
- 4.5 本章小结51-53
- 5 仿真与实验53-65
- 5.1 实验环境53-56
- 5.1.1 硬件参数53
- 5.1.2 SSH安装与配置53-54
- 5.1.3 Hadoop配置54-56
- 5.2 实验数据生成56-58
- 5.2.1 单机实验数据生成56-57
- 5.2.2 集群实验数据生成57-58
- 5.3 结果与分析58-62
- 5.3.1 算法的运行效率58-60
- 5.3.2 参数E对算法的影响60-61
- 5.3.3 算法精确性61-62
- 5.3.4 Hadoop平台上数据集规模对算法的影响62
- 5.4 本章小结62-65
- 6 总结与展望65-67
- 6.1 工作总结65
- 6.2 今后工作展望65-67
- 参考文献67-69
- 致谢69-70
- 个人简历70-71
- 发表的学术论文71
【相似文献】
中国期刊全文数据库 前10条
1 薛行,孙钟秀,杨培根,周建强,徐希豪;一个解决分布式内核中状态不一致性的方法[J];计算机学报;1990年06期
2 李冬梅;林友芳;黄厚宽;田萱;;基于证据理论的本体不一致性度量方法研究[J];计算机研究与发展;2013年03期
3 王清毅,陈恩红,刘贵全,蔡庆生;处理知识库中不一致性的超决定逻辑研究[J];软件学报;1998年04期
4 谢能付;;农业知识不一致性研究[J];农业网络信息;2007年06期
5 许宏吉;解志刚;王雷涛;王建;杨华中;庄文君;;协作上下文感知下无线传屏数据不一致性消除[J];天津大学学报(自然科学与工程技术版);2014年08期
6 梁丽红;路宏年;孔凡琴;;射线检测数字实时成像的不一致性研究[J];光学技术;2003年04期
7 郑笛;朱珊;;普适计算环境下上下文不一致性的消除算法研究[J];计算机应用研究;2009年01期
8 朱雪峰,金芝;关于软件需求中的不一致性管理[J];软件学报;2005年07期
9 万明坚,肖先赐;用信号子空间法校准天线阵各通道增益和相位的不一致性[J];电子学报;1992年06期
10 唐月华,付金海,肖翠娥;HIS中表间数据不一致性分析[J];医学信息;2003年07期
中国重要会议论文全文数据库 前8条
1 李平;史小卫;陈小群;王新怀;白岩夫;;通道的不一致性对干扰抑制的影响[A];2009年全国微波毫米波会议论文集(下册)[C];2009年
2 殷晓莉;孙彦;;决策不一致性机制的实验研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
3 丁孟为;王稳寅;张大强;沈耀;过敏意;;DCCI:一种分布式检测情境不一致性的方法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
4 苏畅;林伟军;张海澜;;阵元不一致性对超声相控阵聚焦声场影响研究[A];2008年全国声学学术会议论文集[C];2008年
5 张全红;路宏年;梁丽红;;基于LDA-1024线阵探测器的通道响应不一致性检定方法[A];2004全国光学与光电子学学术研讨会、2005全国光学与光电子学学术研讨会、广西光学学会成立20周年年会论文集[C];2005年
6 李春梅;王琨;;CCD像元及通道响应不一致性的矫正方法研究[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
7 张求喜;周太平;巢宁佳;;基于MapX的道路线状数据拓扑不一致性自动检测[A];华东六省一市测绘学会第十一次学术交流会论文集[C];2009年
8 聂欣;刘家兴;武向军;郑晋军;李祖洪;;导航卫星时延不一致性对三频组合差分修正算法的影响[A];第四届中国卫星导航学术年会论文集-S3精密定轨与精密定位[C];2013年
中国博士学位论文全文数据库 前2条
1 刘仲明;锂离子电池组不一致性及热管理的模拟研究[D];天津大学;2014年
2 李冬梅;本体不一致问题研究[D];北京交通大学;2014年
中国硕士学位论文全文数据库 前6条
1 郭换换;基于TIGGE资料的中期数值预报不一致性问题研究[D];南京信息工程大学;2015年
2 蒋捷;GNSS自适应阵列通道不一致性校正技术研究[D];电子科技大学;2014年
3 石红滨;高效电池均衡策略研究[D];电子科技大学;2014年
4 范令;大数据环境下数据质量关键问题研究[D];中国海洋大学;2015年
5 王祯;UML建模过程中的不一致性分析[D];山东大学;2006年
6 杨丽颖;英语写作中评分员不一致性的研究[D];山西大学;2006年
,本文编号:730126
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/730126.html