基于Hadoop的数理统计功能集的研究与实现
发布时间:2019-05-30 13:09
【摘要】:当前,许多企业尽可能详细地收集数据,使用的数据仓库的大小从TB级到PB级,企业能否对这些海量数据进行分析是市场竞争力的关键所在。数理统计分析是一种运用数理统计学的知识来分析数据的经典方法,借助于数理统计分析,用户可以直观地了解被分析数据的数量特征,这些特征包括:集中趋势、离散趋势和分布趋势。此外,使用数理统计方法分析样本数据(sample)能够对数据总体(population)进行推断。 传统单机版本的数理统计算法由于受到机器内存的限制,处理的数据规模有限。为了扩大处理数据的规模,本文基于Hadoop设计并实现了一套并行的数理统计功能集,该功能集是“基于云平台的数据挖掘工具’'(BC-PDM)的一个重要模块,基于云平台以SaaS (software-as-a-service)的方式为用户提供数理统计分析服务。 论文的主要工作包括: 首先,作者调研了当前流行的数理统计软件(SAS、IBM SPSS等),根据调研结果,将本数理统计功能集分为描述统计功能和推断统计功能两个子集。描述统计功能集包含一个分析数据数量特征的功能。推断统计功能集功能较多,包括:单因素方差分析、一元线性回归、单个正态总体均值的检验、两个正态总体均值差的检验、基于成对数据的检验、单变量分析和多变量分析。 然后,作者研究了各拟实现功能的原理并给出单机算法的设计与实现,在此基础上,进一步给出了基于MapReduce匡架的并行算法的设计与实现。 最后,作者通过大量实验检验了各并行算法的功能和性能。实验结果表明:各并行算法功能正确,处理小规模数据时,相对于单机算法并行算法性能并不占优,但随着数据规模的扩大,并行算法的性能优势就越来越明显,证明了论文设计实现的并行算法是合理、高效的。
[Abstract]:......
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP338.6
本文编号:2488871
[Abstract]:......
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP338.6
【参考文献】
相关期刊论文 前4条
1 陆冬梅;;数理统计在客观现实中的意义与作用分析[J];赤峰学院学报(科学教育版);2011年08期
2 许春玲;张广泉;;分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J];苏州大学学报(工科版);2010年04期
3 罗军舟;金嘉晖;宋爱波;东方;;云计算:体系架构与关键技术[J];通信学报;2011年07期
4 卢益阳;;NoSQL数据管理系统综述[J];企业科技与发展;2011年17期
,本文编号:2488871
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2488871.html