当前位置:主页 > 论文百科 > 农业期刊 >

大数据综述型论文_大数据系统综述

发布时间:2016-12-27 15:55

  本文关键词:大数据系统综述,由笔耕文化传播整理发布。


中国科学:信息科学2015年第45卷第1期:1–44

info.scichina.com

大数据系统综述

李学龙x*,龚海刚y

x中国科学院西安光学精密机械研究所光学影像分析与学习中心(OPTIMAL),西安710119

y电子科技大学计算机科学与工程学院,成都611731

*通信作者.E-mail:xuelongli@opt.ac.cn

收稿日期:2014–09–30;接受日期:2014–11–21

国家自然科学基金(批准号:61125106)资助项目

摘要随着科学、技术和工程的迅猛发展,近20年来,许多领域(如光学观测、光学监控、健康医护、传感器、用户数据、互联网和金融公司以及供应链系统)都产生了海量的数据(更恰当的描述或许是“无限”的数据,例如,在光学观测和监控等应用中,数据都是源源不断而来的,形成了“数据灾难”),大数据的概念也随之再次引起重视.与传统的数据相比,除了大容量等表象特点,大数据还具有其他独特的特点,例如大数据通常是无结构的,并且需要得到实时分析,因此大数据的发展需要全新的体系架构,用于处理大规模数据的获取、传输、存储和分析.本文对大数据分析平台进行了尽可能详尽的文献调研,首先介绍了大数据的基本定义和大数据面临的一些挑战;然后提出了大数据系统框架,将大数据系统分解为数据生成、数据获取、数据存储和数据分析等4个模块,这4个模块也构成了大数据价值链;随后讨论了学术界和工业界中和大数据相关的方法和机制;最后介绍了典型的大数据系统基准和大数据的一些科学问题.本文意图为非专业读者提供大数据的全景知识,也为高级读者定制自己的大数据解决方案提供辅助思想,希望能够对大数据相关的科技和工程人员起到一些参考作用.

关键词大数据数据获取数据存储数据处理数据分析

1引言

近年来,“大数据”已广为人知,并被认为是信息时代的新“石油”,这主要基于两点共识.首先,在过去20年间,数据产生速度越来越快.据国际数据公司IDC报道[1],2011年产生和复制的数据量超过1.8Z字节,是过去5年数据增长的9倍,并将以每两年翻倍的速度增长.其次,大数据中隐藏着巨大的机会和价值,将给许多领域带来变革性的发展.因此,大数据研究领域吸引了产业界、政府和学术界的广泛关注.例如,产业界报告[2]和公共媒体(Economists[3]1),NewYorkTimes[4],美国国家公共广播电台[5,6])中充斥了大数据的相关信息;政府部门设立重大项目加速大数据的发展[7];Nature2)和Science3)等期刊也发表了大数据挑战相关的论点.毫无疑问,大数据时代已经到来.

1)EconomistT.Drowninginnumbers–digitaldatawill?oodtheplanetandhelpusunderstanditbetter.

2)BigData.2008.

3)SpecialOnlineCollection:DealingwithBigData.2011.

李学龙等:大数据系统综述

大数据的数据集大小以难以想象的速度增长,给数据处理带来了极大的挑战.首先,信息技术的发展使得数据的生成和消费变得更容易.例如,每分钟有72小时长度的视频被上传到Youtube服务器4).大数据的这种大容量特性使得数据难以可伸缩地从分布式的地点收集并集成.第二,数据采集后,如何以最小的硬件和软件代价存储和管理这些海量异构数据是非常具有挑战性的问题.第三,由于大数据的异构性、规模性、实时性、复杂性和隐私性等特点,大数据分析必须在不同层次(建模、可视化、预测和优化)高效地挖掘数据以提高决策效率.这些挑战迫切地需要对整个数据管理系统的各个层次(从体系架构到具体机制)进行变革.但是如果能有效地管理大数据,就能够给许多领域,如科学和环境建模、健康医护和能源保护带来巨大的变革.国际策略咨询公司McKinsey的研究报告[2]表明,全球个人位置信息的潜在价值达到7000亿,并且能降低产品开发和集成成本的一半以上.

然而,传统的数据管理和分析系统是基于关系型数据库管理系统(RDBMS)的.这些系统在处理结构化数据时性能突出,但是对半结构化或无结构化数据的处理却无法提供有力的支持.此外,RDBMS可以通过增加昂贵的硬件向上扩展(scaleup),但是无法通过并行增加硬件实现向外扩展(scaleout).显然,传统的RDBMS无法处理如今大数据的规模和异构性.为了解决这些挑战,学术界和产业界从不同角度提出了大数据系统的解决方案.而云计算平台可以作为大数据系统的基础设施层以满足特定的基础设施需求,例如成本效率、灵活性以及向上或向下扩展的能力.

分布式文件系统[8]和NoSQL数据库[9]适用于数据持久存储和模式自由(schemefree)的海量数据管理.MapReduce[10]编程框架在处理组聚合(group-aggregation)任务,如网站排名方面,获得了极大的成功.Hadoop[11]则集成了数据存储、数据处理、系统管理和其他模块,提供了强大的系统级解决方案,成为大数据处理的主流.基于这些革新性的技术和平台,可以构建多样的大数据应用.

本文对大数据领域进行系统性的介绍,为理解大数据平台、开发大数据应用以及从事大数据的研究提供指导.本文引入了大数据系统的通用框架,该框架将大数据平台分为数据生成、数据获取、数据存储和数据分析4个处理阶段,并对每一个阶段的当前研究进展进行了调研,提出了架构设计的工程级观点,对大数据的不同分析实例进行了探讨.此外,本文还比较了大数据系统的评价基准,并归纳了大数据存在的科学问题和研究方向.

2大数据国内外现状

大数据的快速发展,使之成为信息时代的一大新兴产业,并引起了国内外政府、学术界和产业界的高度关注.

2.1国外研究现状

早在2009年,联合国就启动了“全球脉动计划”,拟通过大数据推动落后地区的发展,而2012年1月的世界经济论坛年会也把“大数据,大影响”作为重要议题之一.在美国,2009年至今,Data.gov

(美国政府数据库)全面开放了40万政府原始数据集,大数据已成为美国国家创新战略、国家安全战略以及国家信息网络安全战略的交叉领域和核心领域.2012年3月,美国政府提出“大数据研究和发展倡议”,发起全球开放政府数据运动,并投资2亿美元促进大数据核心技术研究和应用,涉及NSF,DARPA等6个政府部门和机构,把大数据放在重要的战略位置.英国政府也将大数据作为重点发展的科技领域,在发展8类高新技术的6亿英镑投资中,大数据的注资占三成.2014年7月,欧盟委员

4)YoutubeStatistics.

中国科学:信息科学第45卷第1期

会也呼吁各成员国积极发展大数据,迎接“大数据”时代,并将采取具体措施发展大数据业务.例如建立大数据领域的公私合作关系;依托“地平线2020”科研规划,创建开放式数据孵化器;成立多个超级计算中心;在成员国创建数据处理设施网络.

在学术界,美国麻省理工大学(MIT)计算机科学与人工智能实验室(CSAIL)建立了大数据科学技术中心(ISTC).ISTC主要致力于加速科学与医药发明、企业与行业计算,并着重推动在新的数据密集型应用领域的最终用户体验的设计创新.大数据ISTC由MIT作为中心学校,研究专家们来自MIT、加州大学圣巴巴拉分校、波特兰州立大学、布朗大学、华盛顿大学和斯坦福大学等6所大学.通过明确和资助领域带头人、提供合作研究中心的方式,目标是发掘共享、存储和操作大数据的解决方案,涉及Intel,Microsoft,EMC等多家国际产业巨头.同时,英国牛津大学成立了首个综合运用大数据的医药卫生科研中心,该中心的成立有望给英国医学研究和医疗服务带来革命性变化,它将促进医疗数据分析方面的新进展,帮助科学家更好地理解人类疾病及其治疗方法.该中心通过搜集、存储和分析大量医疗信息,确定新药物的研发方向,减少药物开发成本,同时为发现新的治疗手段提供线索.而以英国为首的欧洲核子中心(CERN)也在匈牙利科学院魏格纳物理学研究中心建设了一座超宽带数据中心,该中心将成为连接CERN且具有欧洲最大传输能力的数据处理中心.

在产业界,国外许多著名企业和组织都将大数据作为主要业务,例如IBM,Microsoft,EMC,DELL,HP等国际知名厂商都提出了各自的大数据解决方案或应用.IBM宣布了收购StarAnalytics(星分析公司)软件产品组合的消息.除了StarAnalytics,在IBM最新的收购计划中,Splunk和NetApp是最热门的收购目标.据不完全统计,从2005年起,IBM花费超过160亿美元收购了35家与大数据分析相关的公司.此外,IBM还和全球千所高校达成协议,就大数据的联合研究、教学、行业应用案例开发等方面开展全面的合作.

无疑,欧美等国家对大数据的探索和发展已走在世界前列,各国政府已将大数据发展提升至战略高度,大力促进大数据产业的发展.

2.2国内研究现状

我国政府、学术界和产业界也早已经开始高度重视大数据的研究和应用的工作,并纷纷启动了相应的研究计划.挂一漏万,鉴于我们的了解面所限,本文仅能够简要介绍其中的一些.

在政府层面,科技部“十二五”部署了关于物联网、云计算的相关专项.2012年,中国科学院院长白春礼院士呼吁中国应制定国家大数据战略.同年3月,科技部发布的《“十二五”国家科技计划信息技术领域2013年度备选项目征集指南》中的“先进计算”板块己明确提出“面向大数据的先进存储结构及关键技术”,国家“973计划”、“863计划”、国家自然科学基金等也分别设立了针对大数据的研究计划和专项.目前已立项“973计划”项目2项,“973计划”青年项目2项,国家自然科学基金重点项目2项.地方政府也对大数据战略高度重视,2013年上海市提出了《上海推进大数据研究与发展三年行动计划》,重庆市提出了《重庆市人民政府关于印发重庆市大数据行动计划的通知》,2014年广东省成立大数据管理局负责研究拟订并组织实施大数据战略、规划和政策措施,引导和推动大数据研究和应用工作.贵州、河南和承德等省市也都推出了各自的大数据发展规划.

在学术研究层面,国内许多高等院校和研究所开始成立大数据的研究机构.与此同时,国内有关大数据的学术组织和活动也纷纷成立和开展.2012年中国计算机学会和中国通信学会都成立了大数据专家委员会,教育部也在人民大学成立“萨师煊大数据分析与管理国际研究中心”.近年来开展了许多学术活动,主要包括:CCF大数据学术会议、中国大数据技术创新与创业大赛、大数据分析与管理国际研讨会、大数据科学与工程国际学术研讨会、中国大数据技术大会和中国国际大数据大会等.3

李学龙等:大数据系统综述

在产业层面,国内不少知名企业或组织也成立了大数据产品团队和实验室,力争在大数据产业竞争中占据领先地位.

3大数据基础

本节首先介绍了大数据的一些主流定义,随后介绍大数据的发展历史,并讨论两种大数据处理方式:流处理和批处理.

3.1大数据定义

随着大数据的流行,大数据的定义呈现多样化的趋势,达成共识非常困难.本质上,大数据不仅意味着数据的大容量,还体现了一些区别于“海量数据”和“非常大的数据”的特点.实际上,不少文献对大数据进行了定义,其中三种定义较为重要.

?属性定义(Attributivede?nition):国际数据中心IDC是研究大数据及其影响的先驱,在2011年的报告中定义了大数据[1]:“大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”.这个定义刻画了大数据的4个显著特点,即容量(volume)、多样性(variety)、速度(velocity)和价值(value),而“4Vs”定义的使用也较为广泛.类似的定义也出现在2001年IT分析公司META集团(现在已被Gartner并购)分析师DougLaney的研究报告中[2],他注意到数据的增长是三维的,即容量、多样性和速度的增长.尽管“3Vs”定义没有完整描述大数据,Gartner和多数产业界巨头如IBM[12]和Microsoft[13]的研究者们仍继续使用“3Vs”模型描述大数据[14].

?比较定义(Comparativede?nition):2011年,McKinsey公司的研究报告中[2]将大数据定义为“超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”.这种定义是一种主观定义,没有描述与大数据相关的任何度量机制,但是在定义中包含了一种演化的观点(从时间和跨领域的角度),说明了什么样的数据集才能被认为是大数据.

?体系定义(Architecturalde?nition):美国国家标准和技术研究院NIST则认为[15]“大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力,需要使用水平扩展的机制以提高处理效率”.此外,大数据可进一步细分为大数据科学(bigdatascience)和大数据框架(bigdataframeworks).大数据科学是涵盖大数据获取、调节和评估技术的研究;大数据框架则是在计算单元集群间解决大数据问题的分布式处理和分析的软件库及算法.一个或多个大数据框架的实例化即为大数据基础设施.

此外,还有不少产业界和学术界对大数据定义的讨论[16]5).

然而对于大数据定义,要达成共识非常困难.一种逻辑上的选择是接受所有的大数据定义,其中每种定义反映了大数据的特定方面.本文采取这种方式理解大数据科学和工程的共同问题和相关机制.前面提到的大数据定义给出了一系列工具,用于比较大数据和传统的数据分析,比较结果如表1所示.首先,数据集的容量是区分大数据和传统数据的关键因素.例如,Facebook报道2012年每天有27亿用户登录并发表评论[17].其次,大数据有三种形式:结构化、半结构化和无结构化.传统的数据通常是结构化的,易于标注和存储.而现在Facebook,Twitter,YouTube以及其他用户产生的绝大多数数据都是非结构化的.第三,大数据的速度意味着数据集的分析处理速率要匹配数据的产生速率.对于

5)GrobelnikM.BigDataTutorial.

中国科学:信息科学第45卷第1期

表1大数据和传统数据比较

Table1Comparisonbetweenbigdataandtraditionaldata

Traditionaldata

Volume

Generatedrate

Structure

Datasource

Dataintegration

Datastore

AccessGBPerhour,day,...StructuredCentralizedEasyRDBMSInteractiveBigdataConstantlyupdated(TBorPBcurrently)MorerapidSemi-structuredorun-structuredFullydistributedDi?cultHDFS,NoSQLBatchornearreal-time

Exabyte(EB)=210×210×210×210×210×210bytes 图1大数据主要历史里程碑

Figure1Milestonesofbigdatahistory

时间敏感的应用,例如欺诈检测和RFID数据管理,大数据以流的形式进入企业,需要尽可能快地处理数据并最大化其价值.最后,利用大量数据挖掘方法分析大数据集,可以从低价值密度的巨量数据中提取重要的价值.

3.2大数据的历史

以往对大数据的演化过程通常从单方面的观点描述,例如从年代[18]或技术里程碑[19]等方面.本文对大数据的演化过程则根据数据大小来刻画,大数据的发展历史和有效存储管理日益增大的数据集的能力紧密联系在一起.每一次处理能力的提高都伴随着新数据库技术的发展,如图1所示.因此,大数据的历史可以大致分为以下几个阶段.

?Megabyte到Gigabyte:20世纪70年代到80年代,历史上的商业数据从Megabyte达到Gigabyte的量级,从而引入最早的“大数据”挑战.当时的迫切需求是存储数据并运行关系型数据查询以完成商业数据的分析和报告.数据库计算机(databasemachine)随之产生,它集成了硬件和软件解决问题,其思想是通过硬件和软件的集成,以较小的代价获得较好的处理性能.一段时间后,专用硬件的数据库计算机难以跟上通用计算机的发展.因此,后来的数据库系统是软件系统,对硬件几乎没有什么限制,可以运行在通用计算机上.

?Gigabyte到Terabyte:20世纪80年代末期,数字技术的盛行导致数据容量从Gigabyte达到5


  本文关键词:大数据系统综述,由笔耕文化传播整理发布。



本文编号:228587

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/xxkj/228587.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a9fc8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com