大数据处理综述_大数据生态系统科学图谱综述
本文关键词:大数据系统综述,由笔耕文化传播整理发布。
大数据生态系统科学图谱综述
次
分享:
导读:就爱阅读网友为您分享以下“大数据生态系统科学图谱综述”的资讯,希望对您有所帮助,感谢您对92to.com的支持!
河南工程学院《工程数据分析与应用》
考查课课程作业
大数据生态系统科学图谱综述
学生姓名: 学院:管理工程学院
专业班级: 专业课程:工程数据分析与应用
任课教师:
2016年5月15日
目录
一、大数据生态系统概念、组成 ........................................................................ 1
(一)大数据生态系统的提出 .................................................................... 1
(二)大数据生态系统的组成结构 ............................................................ 2
(三)大数据生态系统的构建措施 ............................................................ 2
(四)大数据处理生态系统构建 ................................................................ 3
(五)大数据生态分析技术 ........................................................................ 4
1.5.1 大数据生态分析技术的机遇与挑战 .......................................... 4
1.5.2 如何对异构数据的处理 .............................................................. 5
1.5.3 大数据分析和处理技术的发展 .................................................. 6
1.5.4 大数据处理生态系统构建 .......................................................... 6
二、大数据处理及分析理论、方法、技术 ........................................................ 9
(一)大数据处理及分析建设的过程 ........................................................ 9
(二)大数据处理分析的基本理论 .......................................................... 10
(三)大数据处理及分析的方向 .............................................................. 10
(四)大数据处理及分析的方法 .............................................................. 12
(五)大数据处理的过程 .......................................................................... 12
(六)大数据处理的技术 .......................................................................... 13
(七)大数据处理及分析的意义 .............................................................. 14
(八)大数据处理及分析的发展趋势 ...................................................... 14
三、大数据处理系统架构及技术 ...................................................................... 16
(一)从分类大数据到选择大数据解决方案 .......................................... 17
(二)依据大数据类型对业务问题进行分类 .......................................... 17
(三)数据分析平台架构 .......................................................................... 20
(四)面对大数据OLAP分析的一些问题 ............................................. 21
四、大数据可视化理论及技术 .......................................................................... 24
(一)大数据可视分析综述 ...................................................................... 24
(二)大数据分析工具 .............................................................................. 24
4.2.1Hadoop ......................................................................................... 25
4.2.2HPCC ........................................................................................... 25
4.2.3Storm ............................................................................................ 26
4.2.4ApacheDrill .................................................................................. 27
4.2.5RapidMiner .................................................................................. 27
4.2.6PentahoBI ..................................................................................... 28
(三)数据化可视化分析综述 .................................................................. 28
4.3.1信息可视化、人机交互、可视分析的基本概念 ..................... 28
4.3.2支持可视分析的基础理论 ......................................................... 29
4.3.3面向大数据主流应用的信息可视化技术 ................................. 29
4.3.4支持可视分析的人机交互技术 ................................................. 30
(四)数据可视化的问题与挑战 .............................................................. 31
五、大数据应用及职业定位 .............................................................................. 33
(一)大数据应用 ...................................................................................... 33
5.1 面向在线社交网络大数据的应用 ............................................... 34
5.2 医疗健康大数据应用 ................................................................... 35
5.3 群智感知大数据的应用 ............................................................... 36
5.4 智能电网大数据的应用 ............................................................... 37
5.5 大数据在能源行业的应用 ........................................................... 38
5.6 大数据在通信行业的应用 ........................................................... 38
5.7大数据在零售业的应用 ................................................................ 38
5.8大数据在生态环境应用 ................................................................ 39
5.9大数据在工业污染监控中的应用 ................................................ 40
(二)大数据下的职业定位 ...................................................................... 41
六、大数据生态系统科学图谱组成及 .............................................................. 42
(一)大数据的生态发展 .......................................................................... 42
(二)大数据生态系统的组建 .................................................................. 44
(三)大数据生态系统的内涵 .................................................................. 46
(四)大数据生态系统的重新审视 .......................................................... 47
6.4.1产业环境:行业融合与细分协同演化 ..................................... 47
6.4.2运营模式:基于“大数据”的协同运作 ................................. 48
(五)大数据生态系统资源的多元化 ...................................................... 49
(六)大数据生态系统的个性化精准细分 .............................................. 50
(七)大数据生态系统的演化 .................................................................. 51
(八)大数据生态系统的构建策略 .......................................................... 53
6.8.1构筑以“大数据”为核心资源的企业生态系统商业模式 ..... 53
6.8.2畅通企业生态系统的数据交流渠道 ......................................... 54
6.8.3创新以“大数据”为基础的关键业务和活动流程 ................. 54
6.8.4构建精确的客户关系管理系统 ................................................. 55
6.8.5培育以“大数据”处理和应用为中心的企业生态系统文化 . 55
(九)大数据分析系统架构之探讨 .......................................................... 56
6.9.1 Hadoop生态圈 ........................................................................... 56
6.9.2 Spark生态圈 .............................................................................. 58
七、结论 .............................................................................................................. 61
参考文献 .............................................................................................................. 63
大数据生态系统科学图谱综述
摘要:大树据时代已经到来,人们对于大数据对整个社会所起到的推动作用已经逐步认识到,但大数据的应用需要整个系统的运作,需要数据的获取渠道,数据的分析工具,数据分享的平台,数据分析人员等。因此,大数据要得以应用发展,必须建立大数据生态系统。随着大数据相关企业的迅速崛起以及社会对大数据信息的需求推动,大数据产业正在逐步形成一个完整的体系,从数据产生到数据输出的全过程,各个环节环环相扣,这一过程称之为大数据生态系统。本文系统地描述了在大数据的系统建设中的各种理论概念及系统的介绍。
关键字:大数据 生态系统 综述
Abstract:Tree era has arrived, and for big data is contribute to society as a whole has been recognized, but big data applications require operation of the entire system, requires data access, data analysis tools, data-sharing platform, data analysts, and so on. Therefore, large data to application development, we must build big data ecosystem. With the data related to the rapid rise and society's demand for data, big data industry is gradually formed a complete system, from the data to the data output of the whole process, all aspects of itself, this process is called data ecosystem. Paper describes data systems in the construction of a number of theoretical concepts and systems are introduced.
Keywords: big dataecosystemsummarize
一、大数据生态系统概念、组成
(一)大数据生态系统的提出
大树据时代已经到来,人们对于大数据对整个社会所起到的推动作用已经逐步认识到,但大数据的应用需要整个系统的运作,需要数据的获取渠道,数据的
分析工具,数据分享的平台,数据分析人员等。因此,大数据要得以应用发展,必须建立大数据生态系统。随着大数据相关企业的迅速崛起以及社会对大数据信息的需求推动,大数据产业正在逐步形成一个完整的体系,从数据产生到数据输出的全过程,各个环节环环相扣,这一过程称之为大数据生态系统。IBM架构师对大数据生态系统进行了简单描述,提出大数据生态系统就是数据的生命周期,即数据采集、存储、查找、分析和可视化的过程。
(二)大数据生态系统的组成结构
CTOCTO发布的大数据生态图谱"将数百家大数据公司和IT企业从产品和商业模式划分为2种,从中我们可以看到大数据的生态结构,以及其中各个环节的发展状况和市场热点)从图谱上来看,大数据产业可以划分为*大类:大数据基础设施&大数据分析类&大数据应用类&大数据数据源类&跨基础设施分析&开源软。大数据的概念目前被炒得非常火暴,但大数据应用还不甚成熟,大数据市场仍处于初级阶段,但大量的创业者已经涌入其中,不少企业经历了失败,但也有不少企业取得了可观的成果。在竞争过程中,市场在逐步走向整合,IT巨头在现阶段已经开始了收购大战,市场在竞争中,逐步走向成熟,大数据的价值即将接受实践的检验。
(三)大数据生态系统的构建措施
大数据生态系统的构建对于企业的未来发展具有决定性的作用,未来市场竞争将更趋于信息化科学化,企业决策将依靠大量的量化信息。当然要建立大数据生态系统需要耗费企业大量的资源,由于目前技术还不是很稳定,整个社会的数据环境还不甚好,企业构建大数据生态系统存在较大的风险)但提前做好准备,为未来搭建一个坚实的基础是很有必要的。首先,要培养企业的数据文化,建立数据思维模式,充分理解数据作为一种资源对企业的重要性。从发现问题,查找数据,解决问题的思维,逐步转向使用数据进行预测,找出最优实现方案的思维模式。
其次,开拓企业数据获取渠道,随着大数据时代到来,企业需要收集的数据类型将不再局限于关系型数据,更多的是非结构化的数据,例如电子商务网站、
网上银行和外部社交媒体网站等。将各种渠道的数据进行整合,突破传统数据壁垒,构建企业全面的数据信息视图)最后,加强对数据资源的管理,数据作为企业的资产,应对其进行维护,管理大师汤姆彼得斯曾说过:一个组织如果没有认识到管理数据和信息如同管理有形资产一样重要,那么它在新经济时代将无法生存。因此,对于数据的管理,应与资产管理一样,能够做到确认、计量、记录、归档、销毁。对于数据资源的确认首先要对数据资产作出明确的定义及其确认标准,符合确认条件的数据资源是能够引起经济利益流入的资产,在满足资产的一般定义的情况下,同时要结合数据资源自身的特征。其次,数据资源的确认要进一步细化,对其进行归类,分类的标准多种多样,比如依据数据描述的对象进行初步分类,之后再按照关系密切程度进一步分类等等。总之,按照企业的业务需要,对数据资源在确认的基础上,进一步分类,既有利于企业的数据资源的管理和核算,而且可以提高使用效率。数据资源的计量是数据作为资产所必不可少的一步,对此企业可建立自身的价值评估体系,对数据的价值加以衡量。另外,信息技术的发展为大数据生态系统的建设带来了广阔的前景。大数据生态系统构建过程中,一大难题是基础设施的高投资额,这使得企业不得不考虑大数据生态能够为企业带来多大的收益,然而目前大数据的应用还在初级阶段,前景还不是很明朗的情况下,企业只能驻足观望。然而云计算的发展,以及与此相关的云服务产业为这一难题的解决带来了极大的可能性。云服务包括三个层级的服务,基础设施服务、软件研发平台服务、租用基于web的软件服务,云服务为未来大数据技术的应用提供了一种渠道,通过云服务可以节省大量的资金,降低企业风险,提高使用效率。对于小型企业,通过云服务可以在大数据时代获取更大的利益。
(四)大数据处理生态系统构建
随着大数据和分析在企业应用的深入,面临的问题和挑战也越来越多,主要有如下方面:第一,对大数据和分析平台的企业级应用的可靠性、稳定性、安全性要求会越来越高;第二,大多数企业级用户都面对着极为复杂的行业应用场景,不同类型和来源的数据需要统一地被利用,在系统较多的企业中,如何对数据进行集成管理是很大的问题,特别是新的大数据方案如何与传统的数据仓库无缝集成;第三,大多数企业级客户还处于对大数据和分析的探索初期,对于新问题的
初判和解决经验不足。
对于企业来说,随着系统的复杂性上升,最为迫切也是最为重要的问题是,如何将不同来源、不同结构的数据通过系统整合到一个平台。在这个平台上,全面涵盖大数据和分析的各个应用,采用统一架构,集成到一个系统。在这个系统上,建立全面覆盖各种复杂行业应用场景的企业级大数据和分析应用解决方案,如静态批量大数据处理、实时大数据业务处理、数据仓库整合和数据集市构建等,对于这些大量异构数据系统,整合的标准是一个非常关键的问题。同时企业又在不断发展,未来要部署包括电商、移动商务、社交网络等新的应用,都需要在这个统一的平台上展开。以上所有的应用,构成了一个大数据的生态系统。
(五)大数据生态分析技术
1.5.1大数据生态分析技术的机遇与挑战
快速捕获即时数据,创造高速价值大数据最大的特点是数据的产生速度非常快,每时每秒可以产生很多的数据。例如,每分钟facebook上的视频就可以多产生390万部,大数据的产生速度是不可想象的。据调查,53%的高管表示大部分关键信息无法及时获得,获取信息的速度越快,采取行动的速度也就越快,快速行动创造的价值越高,数据的使用和分析效率真高,企业为实现卓越的运营,需要快速捕获高速运转。行中的大数据,更加迅速地计算分析数据,将数据转为信息,信息转为洞察,实时推进业务措施,立即采取行动,从而提升企业竞争力。在这里还有一点,当企业捕获的数据越来越多,需要分析的数据量越多,需要对数据进行评判,这个数据的重要性是怎样的,有的时候需要评判这个数据的价值是多少。通过更智能的方法,对数据加以筛选,对数据进行实时的判断,提炼出有价值的数据,最终将高速数据转化为高速价值,体验即时数据以及数据处理给我们带来的便捷,进而实现实时大数据的美好前景,如图1所示:
图1.1: 大数据业务价值与响应时间关系
1.5.2如何对异构数据的处理
当今企业在发展中积累的新信息来源越来越广泛,企业应用不再是唯一的信息来源,数据来源还可以来自传感器,有的是来自网络线上交易,有的是来自消费者行为,有的是来自智能手机或者是移动设备,这些设备变得日益智能化和互联,智能设备将从2013年的13亿部增长至2020年的125亿部,非结构化数据将超出传统数据多个数量级。总体来说数据来源可以分为人为生成、互联网/云生成、机器生成这几种类型,这些不同源头的数据的格式也不一样,我们必须用有效的方式高速捕获、组织和分析。对于那些已经规模较大,系统环境高度异构的企业而言,数据越来越发挥其重要资产的作用,如何在架构整合方面有所举措,从全局的角度促进数据整合,将不同来源、不同类型的数据整合到一起同,对数据搜集、管理、分析与挖掘等领域都对技术与系统提出了更高的要求,使得数据能够为企业所用。以前,数据都是分散在各个业务系统,在大数据时代,企业需要考虑如何打破系统的边界,把不同来源的数据整合在一起,企业不仅关注外部数据源对企业的价值,也需要关注消费者的情绪如何、对企业的评价如何,互联网、微博等就是很好的信息获取渠道,怎样把结构化、半结构化、非结构化数据整合,怎样把微信、微博等非结构化数据植入商务分析,将虚拟数据和业务数据结合起来,这些外部数据源对企业也具有十分重要的意义。如何整合架构,将异构数据整合到一个系统,并在此基础上,实现业务系统和分析系统的一体化,加
速并分析大数据,满足企业的实时业务需求和分析需求,是目前亟待解决的技术难题。
1.5.3 大数据分析和处理技术的发展
正因为大数据所呈现的新的特点(4V),大数据的意义并不仅仅在于“容量之大”,其更大的意义在于通过对海量数据进行整合和分析,发现新知识,创造新价值。传统的数据分析方法和工具已不适应大数据的管理,大数据不同于普通的数据仓库、数据挖掘和商业智能分析,如没有恰当的大数据分析工具,大数据将无法发挥其价值。大数据多样、高速、海量的特点从各个领域推动着行业的技术创新,给数据的抓取、存储和分析带来了新的挑战,工具、开源以及框架设施对于大数据行业来说非常重要,开源包括软件和硬件的开源。当前,较为成熟的技术是通过采用分布式计算模式实现,如当前IT业的巨头(如谷歌等)MapReduce的云计算模型以及Hadoop的开源方案。Hadoop已经成为新的主流范式,而十几年前用的软件开发范式已经不适用了。之前几年的软件开发范式只适合处理结构化的数据,面对非结构化的数据,Hadoop是主流。Hadoop有一个有效的框架,可以处理非结构的数据,尤其是处理分布式数据。其中,Hadoop是一种分布式系统的平台,通过它可以很轻松地搭建一个高效、高质量的分布系统,有着高容错性的特点,并且设计用来部署在低廉的硬件上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。MapReduce是Hadoop的核心组件之一,可以通过MapReduce很容易在Hadoop平台上进行分布式的计算编程。
1.5.4 大数据处理生态系统构建
随着大数据和分析在企业应用的深入,面临的问题和挑战也越来越多,主要有如下方面:
第一,对大数据和分析平台的企业级应用的可靠性、稳定性、安全性要求会越来越高
第二,大多数企业级用户都面对着极为复杂的行业应用场景,不同类型和来源的数据需要统一地被利用,在系统较多的企业中,如何对数据进行集成管理是
很大的问题,特别是新的大数据方案如何与传统的数据仓库无缝集成;
第三,大多数企业级客户还处于对大数据和分析的探索初期,对于新问题的初判和解决经验不足。
对于企业来说,随着系统的复杂性上升,最为迫切也是最为重要的问题是,如何将不同来源、不同结构的数据通过系统整合到一个平台。在这个平台上,全面涵盖大数据和分析的各个应用,采用统一架构,集成到一个系统。在这个系统上,建立全面覆盖各种复杂行业应用场景的企业级大数据和分析应用解决方案,如静态批量大数据处理、实时大数据业务处理、数据仓库整合和数据集市构建等,对于这些大量异构数据系统,整合的标准是一个非常关键的问题。同时企业又在不断发展,未来要部署包括电商、移动商务、社交网络等新的应用,都需要在这个统一的平台上展开。以上所有的应用,构成了一个大数据的生态系统。这个生态系统应具备以下特点,如图2所示:
最新
数据,实时
捕获
无需准备数据,无需预先聚合,无需调 优
图1.2:大数据生态系统特点
(1) 高度整合的实时数据平台
对于现代企业来说,随着业务应用范围的广泛深入、企业积累的数据类型越来越多,包括结构化和非结构化数据,交易数据与非交易数据,
数据量呈几何级
次激增,甚至达到Z、Y级,如何高效地捕获和分析这些大数据,是企业广泛关注的事情,企业亟需一个平台,可以捕获和管理大数据的所有维度,整合数据孤岛,将不同来源、不同类型的数据库,通过整合的开发环境,在技术架构基础上,通过单一系统实现大数据并行计算列式平台管理把ERP的业务数据、半结构化、非结构化的数据整合到一个系统,直接在整个数据平台建模、计算、分析、预测,再借助BI进行图形化展示。所有可使用数据的人,实时获得分析结果,如财务数据,你只需用自然语言输入查询条件,系统提供实时解决方案,像花瓣一样呈现。在这样的平台,能够快速、高效地捕获并整合海量多元化的任意数据,实现快速分析处理海量信息,实时进行商业决策,实现业务系统和分析系统的一体化,能够同时满足企业的实时业务需求和分析需求,不但降低了企业对服务器等硬件的需求,还减少了数据从业务系统到分析系统过程中所需的数据抽取、清洗等操作,大大提高了效率。
(2)基于云的生态系统构建
2012年是中国的大数据元年,云计算概念的争论渐渐平息,而大数据的热潮随之到来。随着大数据的到来,大家对云计算的“中国梦”开始有了更清晰的认识,云计算如何落地为雨,成为2013年中国云计算的主旋律。对于大部分企业而言,“云计算之旅”都将是一场速度与耐力的较量,关键是部署的灵活性。如何在整个价值链中获得出色竞争优势,快速分析数据,发现并响应业务网络中的各种变化,借助广泛的托管功能选择,从高度安全的环境和云技术的经济优势中获益,是每个企业所要达到的理想效果。
大数据时代,云计算所发挥的主要作用是为大数据提供按需服务,主要体现在云存储、云计算、私用云、公有云的服务方面,将云共享的思想应用于企业,主要有有几种主要方式,其中一种就是嵌入式企业原有平台的OEM方式,包括移动平台、商务分析平台和数据库平台等。另一种方式是托管私有云服务的方式,那就是构建一个充满活力的生态系统,为企业提供选择上的自由,既可以选择在企业本地来搭建这个平台,也可以享受在云端来实现这个服务,实现从本地向云端的迁移。充分利用与企业原有的ERP核心系统的无缝集成,又能够与企业其他来源、其他类型的数据、其他系统如BI、ETL和备份工具的集成,实现更广泛的用户支持、数据寻源以及对现有投资的再利用,以达到协同、共同参与、分享的
目的,有效实现数据分析处理中“温数据”到“热数据”的瞬间响应,从而帮助其客户获取实时、精准的数据分析,把握瞬息万变的市场动态,获取商机。所构建的生态系统不仅仅是数据库,而是创新的基于云框架的计算平台,具有出色的云灵活性,支持自动配置计算资源,简化日常管理,将突破传统的游戏规则,它从数据到决策覆盖了整个企业的业务流程。这样一个生态系统,应基于开放式标准,提供安全可靠、易于使用的开发和运行环境。它所具备的能力主要有:加速在线交易处理,同时可以作为数据仓库进行海量数据分析;既能够加速传统的关系型数据,又能连接外部的Hadoop做非结构化数据处理,它将是一个“全能”平台,将企业日常的数据需求全部集中在一个生态系统中,企业可以根据自己的需求,个性化地选择,比如,可以任意选择各种类型的业务应用和数据处理,做交易用传统的关系型数据库,运行报表应用企业的数据仓库(EDW),处理大数据用NoSQL或者Hadoop,在这样一个大而全的生态平台,可以实现简化的IT架构,即想即得,企业将高效地应用诸多大数据技术手段,诸如分布式计算、并行处理、实时计算、高级分析与决策、数据可视化,进而实时获取答案,帮助企业快速获取洞察力,助力企业转型与发展,重塑无限可能。
二、大数据处理及分析理论、方法、技术
(一)大数据处理及分析建设的过程 随着数据的越来越多,如何在这些海量的数据中找出我们需要的信息变得尤其重要,而这也是大数据的产生和发展原因,那么究竟什么是大数据呢?当下我国大数据研发建设又有哪些方面着力呢?
一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。
二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
9
三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。
四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
(二)大数据处理分析的基本理论
图2.1:大数据特征概括为5个V
(三)大数据处理及分析的方向
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。
10
那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
表2.1:数据分析的五个方面 可视化
分析 数据挖掘耍法 预测语义数据质量与数据管理 性分析能引擎
力
大数据 大数据分析的大数 大大数据分分析的使用理论核心就是数据挖据分析最数据分析析离不开数据者有大数据掘算法,各种数据挖终要的应广泛应用质量和数据管分析专家,同掘的算法基于不同的用领域之于网络数理,高质量的数时还有普通数据类型和格式才能一就是预据挖掘,可据和有效的数用户,但是他更加科学的呈现出数测性分从用户的据管理,无论是们二者对于据本身具备的特点,析,从大搜索关键在学术研究还大数据分析也正是因为这些被全数据中挖词、标签关是在商业应用最基本的要世界统计学家所公认掘出特键词、或其领域,都能够保求就是可视的各种统计方法(可点,通过他输入语证分析结果的化分析,因为以称之为真理)才能科学的建义,分析,真实和有价值。可视化分析深入数据内部,挖掘立模型,判断用户大数据分析的能够直观的出公认的价值。另外之后便可需求,从而基础就是以上呈现大数据一个方面也是因为有以通过模实现更好五个方面,当然特点,同时能这些数据挖掘的算法型带入新的用户体更加深入大数够非常容易才能更快速的处理大的数据,验和广告据分析的话,还被读者所接数据,如果一个算法从而预测匹配。
受,就如同看得花上好几年才能得未来的数
图说话一样出结论,那大数据的据。
简单明了。 价值也就无从说起
了。
11
有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
(四)大数据处理及分析的方法
越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
(五)大数据处理的过程
大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。
1.采集
大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
2.统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
3.导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足
12
部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
4.挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。
(六)大数据处理的技术 数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解,也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
(七)大数据处理及分析的意义 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
(八)大数据处理及分析的发展趋势
随着数据的增多,人民对大数据的信息需求也在不断地增加,而大数据的未来发展趋势更人人民所关心,故未来的数据发展正在朝着以下的几个趋势发展。
图2.2:大数据的发展趋势图
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
三、大数据处理系统架构及技术
大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。
这个“大数据架构和模式”系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。
(一)从分类大数据到选择大数据解决方案
如果我们花时间研究过大数据解决方案,那么就一定知道它不是一个简单的任务。我们首先介绍术语“大数据”所描述的数据类型。为了简化各种大数据类型的复杂性,我们依据各种参数对大数据进行了分类,为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来,我们通过定义原子和复合分类模式,提出一种结构来分类大数据业务问题。这些模式有助于确定要应用的合适的解决方案模式。我们提供了来自各行各业的示例业务问题。
(二)依据大数据类型对业务问题进行分类
业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每个问题分配了一种大数据类型。
表3.1:不同类型的大数据业务问题
业务问题 大数据问题 描述
客户情绪必须与客户概要数据相集成,才能得到有意义的
结果。依据客户的人口统计特征,客户反馈可能有所不同。
IT部门正在依靠大数据解决方案来分析应用程序日志,客户服以便获取可提高系统性能的洞察。来自各种应用程序供应务:呼叫人类生成的 商的日志文件具有不同的格式;必须将它们标准化,然后监视 IT部门才能使用它们。
零售:基
于面部识Web和社交
别和社交数据
媒体的个生物识别
性化消息 零售商可结合使用面部识别技术和来自社交媒体的照片,根据购买行为和位置向客户提供个性化的营销信息。 此功能对零售商忠诚度计划具有很大的影响,但它具有严格的隐私限制。零售商需要在实现这些应用程序之前进行适当的隐私披露。
零售商可根据位置数据为客户提供特定的促销活动和优零售和营惠券。解决方案通常旨在在用户进入一个店铺时检测用户销:移动机器生成的的位置,或者通过GPS检测用户的位置。 数据和基数据 位置数据与来自社交网络的客户偏好数据相结合,使零售于位置的交易数据 商能够根据购买历史记录针对性地开展在线和店内营销目标 活动。通知是通过移动应用程序、SMS和电子邮件提供的。
欺诈管理可预测给定交易或客户帐户遇到欺诈的可能性。
解决方案可实时分析事务,生成建议的立即执行的措施,
这对阻止第三方欺诈、第一方欺诈和对帐户特权的蓄意滥
用至关重要。
解决方案通常旨在检测和阻止多个行业的众多欺诈和风
险类型,其中包括:
机器生成的信用卡和借记卡欺诈 FSS、医疗数据 存款帐户欺诈 保健:欺交易数据 技术欺诈 诈检测 人类生成的 坏账
医疗欺诈
医疗补助计划和医疗保险欺诈
财产和灾害保险欺诈
工伤赔偿欺诈
保险欺诈
电信欺诈
按类型对大数据问题分类,更容易看到每种数据的特征。这些特征可帮助我们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不同来源的数据具有不同的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(比如博客文章)。
使用大数据类型对大数据特征进行分类。按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配。
分析类型对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型:欺诈检测、分析必须实时或近实时地完成。针对战略性业务决策的趋势分析,分析可采用批量模式。
处理方法要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。
数据频率和大小—预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源。按需分析,与社交媒体数据一样,实时、持续提供(天气数据、交易数据时序。数据类型、要处理数据类型、交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。
内容格式结构化、非结构化或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。
数据源--数据的来,比如Web和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。
数据使用者—处理的数据的所有可能使用者的列表:
图3.1:处理的数据的所有可能使用者
硬件将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。
图3.2描绘用于分类大数据的各种类别。定义大数据模式的关键类别已识别并在蓝色方框中突出显示。大数据模式来自这些类别的组合。
图3.2:大数据分类
(三)数据分析平台架构
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到
1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。
3.3.1 大数据分析的分类
Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。
(1)按照数据分析的实时性,分为实时数据分析和离线数据分析两种。实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
(2)按照大数据的数据量,分为内存级别、BI级别、海量级别三种。
这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量,Facebook缓存在内存的Memcached中的数据高达320TB,而目前的PC服务器,内存也可以超过百GB。因此可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。图1是一种实际可行的MongoDB分析架构。
MongoDB大集群目前存在一些稳定性问题,会发生周期性的写堵塞和主从同步失效,但仍不失为一种潜力十足的可以用于高速数据分析的NoSQL。此外,目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也可以轻易达到内存分析的性能。随着SSD的发展,内存数据分析必然能得到更加广泛的应用。
而大多数统计分析,机器学习问题可以用MapReduce算法改写。MapReduce目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。
而大多数统计分析,机器学习问题可以用MapReduce算法改写。MapReduce目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。
(四)面对大数据OLAP分析的一些问题
OLAP分析需要进行大量的数据分组和表间关联,而这些显然不是NoSQL和传统数据库的强项,往往必须使用特定的针对BI优化的数据库。比如绝大多数针对BI优化的数据库采用了列存储或混合存储、压缩、延迟加载、对存储数据块的预统计、分片索引等技术。
Hadoop平台上的OLAP分析,同样存在这个问题,Facebook针对Hive开发的RCFile数据格式,就是采用了上述的一些优化技术,从而达到了较好的数据分析性能。
然而,对于Hadoop平台来说,单单通过使用Hive模仿出SQL,对于数据分析来说远远不够,首先Hive虽然将HiveQL翻译MapReduce的时候进行了优化,但依然效率低下。多维分析时依然要做事实表和维度表的关联,维度一多性能必然大幅下降。其次,RCFile的行列混合存储模式,事实上限制死了数据格式,也就是说数据格式是针对特定分析预先设计好的,一旦分析的业务模型有所改动,海量数据转换格式的代价是极其巨大的。最后,HiveQL对OLAP业务分析人员依然是非常不友善的,维度和度量才是直接针对业务人员的分析语言。
而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube(多维立方体)重新定义并重新生成,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统成为死板的日常报表系统。
使用Hadoop进行多维分析,首先能解决上述维度难以改变的问题,利用Hadoop中数据非结构化的特征,采集来的数据本身就是包含大量冗余信息的。同时也可以将大量冗余的维度信息整合到事实表中,这样可以在冗余维度下灵活地改变问题分析的角度。其次利用HadoopMapReduce强大的并行化处理能力,无论OLAP分析中的维度增加多少,开销并不显著增长。换言之,Hadoop可以支持一个巨大无比的Cube,包含了无数你想到或者想不到的维度,而且每次多维分析,都可以支持成千上百个维度,并不会显著影响分析的性能。
因此,我们的大数据分析架构在这个巨大Cube的支持下,直接把维度和度量的生成交给业务人员,由业务人员自己定义好维度和度量之后,将业务的维度和度量直接翻译成MapReduce运行,并最终生成报表。可以简单理解为用户快速自定义的“MDX”(多维表达式,或者多维立方体查询)语言→MapReduce的转换工具。同时OLAP分析和报表结果的展示,依然兼容传统的BI和报表产品。
一种Hadoop多维分析平台的架构整个架构由四大部分组成:数据采集模块、数据冗余模块、维度定义模块、并行分析模块。如图3.3所示。
图3.3:Hadoop多维分析平台架构图
数据采集模块采用了Cloudera的Flume,将海量的小日志文件进行高速传输和合并,并能够确保数据的传输安全性。单个collector宕机之后,数据也不会丢失,并能将agent数据自动转移到其他的colllecter处理,不会影响整个采集系统的运行。
数据冗余模块不是必须的,但如果日志数据中没有足够的维度信息,或者需要比较频繁地增加维度,则需要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源(数据库、文件、内存等),并指定扩展方式,将信息写入数据日志中。在海量数据下,数据冗余模块往往成为整个系统的瓶颈,建议使用一些比较快的内存NoSQL来冗余原始数据,并采用尽可能多的节点进行并行冗余;或者也完全可以在Hadoop中执行批量Map,进行数据格式的转化。
维度定义模块是面向业务用户的前端模块,用户通过可视化的定义器从数据日志中定义维度和度量,并能自动生成一种多维分析语言,同时可以使用可视化的分析器通过GUI执行刚刚定义好的多维分析命令。
并行分析模块接受用户提交的多维分析命令,并将通过核心模块将该命令解析为Map-Reduce,提交给Hadoop集群之后,生成报表供报表中心展示。
核心模块是将多维分析语言转化为MapReduce的解析器,读取用户定义的维度和度量,将用户的多维分析命令翻译成MapReduce程序。
根据JobConf参数进行Map和Reduce类的拼装并不复杂,难点是很多实际问题很难通过一个MapReduce解决,必须通过多个MapReduceJob组成工作流(WorkFlow),这里是最需要根据业务进行定制的部分。
MapReduce的输出一般是统计分析的结果,数据量相较于输入的海量数据会小很多,这样就可以导入传统的数据报表产品中进行展现。
当然,这样的多维分析架构也不是没有缺点。由于MapReduce本身就是以蛮力去扫描大部分数据进行计算,因此无法像传统BI产品一样对条件查询做优化,也没有缓存的概念。往往很多很小的查询需要“兴师动众”。尽管如此,开源的Hadoop还是解决了很多人在大数据下的分析问题,真可谓是“功德无量”。Hadoop集群软硬件的花费极低,每GB存储和计算的成本是其他企业级产品的百分之一甚至千分之一,性能却非常出色。我们可以轻松地进行千亿乃至万亿数据级别的多维统计分析和机器学习。
四、大数据可视化理论及技术
(一)大数据可视分析综述
可视分析是大数据分析的重要方法。大数据可视分析旨在利用计算机自动化分析能力的同时,充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互式分析方法和交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧。主要从可视分析领域所强调的认知、可视化、人机交互的综合视角出发,分析了支持大数据可视分析的基础理论,包括支持分析过程的认知理论、信息可视化理论、人机交互与用户界面理论。在此基础上,讨论了面向大数据主流应用的信息可视化技术——面向文本、网络(图)、时空、多维的可视化技术。同时探讨了支持可视分析的人机交互技术,包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向Post-WIMP的自然交互技术。最后,指出了大数据可视分析领域面临的瓶颈问题与技术挑战。
(二)大数据分析工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些
数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。大数据分析的常用工具通常有以下介绍的几种。
4.2.1Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。
Hadoop上的应用程序也可以使用其他语言编写,比如C++。
4.2.2HPCC
HPCC,HighPerformanceComputing andCommunications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。
该项目主要由五部分组成:
高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发; 基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支持这些调查和研究活动;
信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。
4.2.3Storm Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,
支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
4.2.4ApacheDrill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。ApacheDrill实现了Google'sDremel。
据Hadoop厂商MapRTechnologies公司产品经理TomerShiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌DremelHadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。
“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在AndroidMarket上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
4.2.5RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
4.2.6PentahoBI PentahoBI平台不同于传统的BI产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
PentahoSDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。
PentahoBI平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。
(三)数据化可视化分析综述
4.3.1信息可视化、人机交互、可视分析的基本概念
Card等人对信息可视化的定义为:对抽象数据使用计算机支持的、交互的、可视化的表示形式以增强认知能力。与传统计算机图形学以及科学可视化研究不同,信息可视化的研究重点更加侧重于通过可视化图形呈现数据中隐含的信息和规律,所研究的创新性可视化表征旨在建立符合人的认知规律的心理映像。经过20余年的发展,信息可视化已经成为人们分析复杂问题的强有力工具。
人机交互的定义为:人与系统之间通过某种对话语言,在一定的交互方式和技术支持下的信息交换过程。其中的系统可以是各类机器,也可以是计算机和软件。用户界面或人机界面指的是人机交互所依托的介质和对话接口,通常包含硬件和软件系统。
信息可视化的概念最早即是在ACM“用户界面软件与技术”会议中提出,其本质是一种交互式的图形用户界面范型。人机交互的发展一方面强调研究智能化的用户界面,将计算机系统变成一个有思想、有个性、有观点的智能机器人;另一方面强调充分利用计算机系统和人各自的优势,弥补彼此的不足,共同协作来分析和解决问题。
大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。
4.3.2支持可视分析的基础理论
可视化分析需要有多样的理论支持,而其中支持分析的主要认知理论模型、意义建构理论模型、人机交互分析过程的用户认知模型、分布式认知理论、信息可视化理论模型、信息可视化理论模型、人机交互与用户界面理论模型等,这些为大数据的可视化处理的实现提供了坚实的理论基础。
4.3.3面向大数据主流应用的信息可视化技术
大数据可视化技术涉及传统的科学可视化和信息可视化,从大数据分析将掘取信息和洞悉知识作为目标的角度出发,信息可视化技术将在大数据可视化中扮演更为重要的角色。Shneiderman根据信息的特征把信息可视化技术分为一维信息(1-dimensional)、二维信息(2-dimensional)、三维信息(3-dimensional)、多维信息(multi-dimensional)、层次信息(tree)、网络信息(network)、时序信息(temporal)可视化20年来,研究者围绕着上述信息类型提出众多的信息可视化新方法和新技术,并获得了广泛的应用。
随着大数据的兴起与发展,互联网、社交网络、地理信息系统、企业商业智能、社会公共服务等主流应用领域逐渐催生了几类特征鲜明的信息类型,主要包
括文本、网络或图、时空、及多维数据等。这些与大数据密切相关的信息类型与Shneiderman的分类交叉融合,将成为大数据可视化的主要研究领域。
表4.1:可视化的分类比较
4.3.4支持可视分析的人机交互技术
信息可视化中的人机交互技术主要可概括为5类:动态过滤技术与动态过滤
用户界面、整体+详细技术与用户界面、平移+缩放技术与可缩放用户界面(ZUI)、焦点+上下文技术与用户界面、多视图关联协调技术与关联多视图用户界面。根据上面对可视分析相关的任务建模的讨论,大数据可视分析中涉及的人机交互技术在融合与发展上述几大类交互基础之上,还需要重点研究对可视分析推理过程提供界面支持的人机交互技术以及更符合分析过程认知理论的自然、高效的人机交互技术。
(四)数据可视化的问题与挑战
大数据在可视化的发展过程中也面临着以下的问题和挑战。 (1)多源、异构、非完整、非一致、非准确数据的集成与接口
大数据可视化与可视分析所依赖的基础是数据,而大数据时代数据的来源众多,且多来自于异构环境。即使获得数据源,得到的数据的完整性、一致性、准确性都难以保证,数据质量的不确定问题将直接影响可视分析的科学性和准确性。大数据可视化的前提是建立在集成的数据接口,并且与可视分析系统形成松耦合的接口关系,以供各种可视化算法方便的调用,使得可视分析系统的研发者和使用者不需要关系数据接口背后的复杂机理。可见,大数据的集成和接口问题将是大数据可视分析面临的第一个挑战。
(2)匹配心理映像的可视化表征设计与评估
科学/信息可视化领域经过几十年的发展,积累了大量各具特色的可视化表征,这将为大数据可视化提供有力的支持。然而,绝大多数在当时看来创新的可视化技术,只能被少部分研究人员所接收,却难以获得广泛的认可和应用。原因在于:大量的可视化表征的创造仅仅在于追求技术角度的创新,而忽视了可视化尤其是信息可视化领域的本源——符合人的认知规律和心理映像。针对大数据所固有的特点,未来仍将涌现更多的可视化表征。
(3)最大限度发挥人、机各自优势的人机交互与最优化协作求解
如前所述,人和机器各自拥有无可替代的优势,人具有机器所不具备的视觉系统以及强大的感知认知能力,并且具有非逻辑理性的直觉判断和分析解读能力,但是人的工作记忆却只有7个左右的信息块;而计算机拥有巨大的存储系统和强大的数据处理能力,能够根据数据挖掘模型在短时间内完成大规模的计算量。因
此,大数据可视分析的过程就是充分利用各自优势并且紧密协作的过程。然而,目前大数据可视分析领域仍未能十分清晰和细致地界定在问题分析过程中,人机交互的多层次多粒度任务应该如何最优化地分布在人、机两侧。而且,目前正处于从WIMP走向Post-WIMP的过渡期,各种交互技术如何最优的匹配具体的分析任务,仍有待深入的研究与验证。
(4)以用户为中心的系统设计与开发方法论、框架以及工具
随着互联网、物联网、云计算的迅猛发展,数据随处可见、触手可及。政府的政策制定、经济与社会的发展、企业的生存与竞争以及每个人日常生活的衣食住行无不与大数据有关。因此,未来任何领域的普通个人均存在着大数据分析的需求。“人人都懂大数据、人人都能可视化”将是大数据领域的发展目标之一。可视化领域大量极具潜力的创新技术,之所以未能从学术界推广至产业界,一个重要的原因是缺乏简单易行的、以用户为中心的系统设计与开发方法论、框架以及工具。具体应用领域的用户往往不懂看似高深的可视化和交互技术,他们通常只提出问题需求或提供大数据。如何能使得最终用户快捷方便地、自助式地实现大数据可视分析系统,满足自己的个性化需求,将是大数据可视分析走向大范围应用并充分发挥价值的关键。
(5)可扩展性问题
大数据的数据规模目前已经呈现爆炸式增长,数据量的无限积累与数据的持续演化,导致普通计算机的处理能力难以达到理想的范围。同时,主流显示设备的像素数也难以跟上大数据增长的脚步,造成像素的总和还不如要可视化的数据多。而且,大量在较小的数据规模下可行的可视化技术在面临极端大规模数据时将无能为力。然而,大数据可视分析系统应具有很好的可扩展性,即感知扩展性和交互扩展性只取决于可视化的精度而不依赖数据规模的大小,以支持实时的可视化与交互操作。因此,未来如何对于超高维数据的降维以降低数据规模、如何结合大规模并行处理方法与超级计算机、如何将目前有价值的可视化算法和人机交互技术提升和拓展到大数据领域,将是未来最严峻的挑战。
五、大数据应用及职业定位
大数据应用,是利用大数据分析的结果!为用户提供辅助决策!发掘潜在价值的过程。在说大数据的应用之前,让我们先来说说大数据与大规模数据、海量数据的差别:
从对象角度看,大数据是大小超出典型数据库软件采集、储存、管理和分析等能力的数据集合。需要注意的是,大数据并非大量数据的简单无意义的堆积,数据量大并不意味着一定具有可观的利用前景。由于最终目标是从大数据中获取更多有价值的“新”信息,所以必然要求这些大量的数据之间存在着或远或近、或直接或间接的关联性,才具有相当的分析挖掘价值。数据间是否具有结构性和关联性,是“大数据”与“大规模数据”的重要差别。
从技术角度看,大数据技术是从各种各样类型的大数据中,快速获得有价值信息的技术及其集成。“大数据”与“大规模数据”、“海量数据”等类似概念间的最大区别,就在于“大数据”这一概念中包含着对数据对象的处理行为。为了能够完成这一行为,从大数据对象中快速挖掘更多有价值的信息,使大数据“活起来”,就需要综合运用灵活的、多学科的方法,包括数据聚类、数据挖掘、分布式处理等,而这就需要拥有对各类技术、各类软硬件的集成应用能力。可见,大数据技术是使大数据中所蕴含的价值得以发掘和展现的重要工具。
从应用角度看,大数据是对特定的大数据集合、集成应用大数据技术、获得有价值信息的行为。正由于与具体应用紧密联系,甚至是一对一的联系,才使得“应用”成为大数据不可或缺的内涵之一。
需要明确的是,大数据分析处理的最终目标,是从复杂的数据集合中发现新的关联规则,继而进行深度挖掘,得到有效用的新信息。如果数据量不小,但数据结构简单,重复性高,分析处理需求也仅仅是根据已有规则进行数据分组归类,未与具体业务紧密结合,依靠已有基本数据分析处理技术已足够,则不能算作是完全的“大数据”,只是“大数据”的初级发展阶段。
(一)大数据应用
大数据的类型大致可分为三类:
33
(1)传统企业数据(Traditionalenterprisedata):包括CRMsystems的消费者数据,传统的ERP数据,库存数据以及账目数据等;
(2)机器和传感器数据(Machine-generated/sensordata):包括呼叫记录(CallDetailRecords),智能仪表,工业设备传感器,设备日志(通常是Digitalexhaust),交易数据等;
(3)社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。
从三大产业的角度将大数据的核心商业价值分类讨论。大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
各个行业利用大数据价值的难易度以及发展潜力以及OpenData时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。
5.1面向在线社交网络大数据的应用
在线社交网络,是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。在线社交网络大数据主要来自即时消息、在线社交、微博和共享空间4类应用。由于在线社交网络大数据代表了人的各类活动,因此对于此类数据的分析得到了更多关注。在线社交网络大数据分析是从网络结构、群体互动和信息传播3个维度,通过基于数学、信息学、社会学、管理学等多个学科的融合理论和方法,为理解人类社会中存在的各种关系提供的一种可计算的分析方法。目前,在线社交网络大数据的应用包括网络舆情分析、网络情报搜集与分析、社会化营销、政府决策支持、在线教育等。
2013年4月,美国计算搜索引擎WolframAlpha,通过对Facebook中100多万美国用户社交数据进行分析,试图研究用户的社会行为规律。根据分析发现,大部分Facebook用户在20岁出头时开始恋爱,27岁左右时订婚,30岁左右结婚,而30~60岁之间,婚姻关系变化缓慢。这个研究结果与美国人口普查数据相比,几乎完全一致。
34
总得说来,在线社交网络大数据应用可以从以下3方而帮助我们了解人的行为,以及掌握社会和经济活动的变化规律:(1)前期警告,通过检测用户使用电子设备及服务中出现的异常,在出现危机时可以更快速地应对。(2)实时监控,通过对用户当前行为、情感和意愿等方而的监控,可以为政策和方案的制定提供准确的信息。(3)实时反馈,在实时监控的基础上,可以针对某些社会活动获得群体的反馈信息。
5.2医疗健康大数据应用 医疗健康数据是持续、高增长的复杂数据,蕴涵的信息价值也是丰富多样。对其进行有效的存储、处理、查询和分析,可以开发出其潜在价值。对于医疗大数据的应用,将会深远的影响人类的健康。
谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态。
这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防中心的报告(黄线)做比对,从图1-1可知,两者结论存在很大相关性。
谷歌把测试结果(蓝线)与美国疾病控制和预防中心的报告(黄线)做比对但它比线下收集的报告强在“时效性”上,因为患者只要一旦自觉有流感症状,在搜索和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能自己通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院而成为它们的样本的。
35
SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够??知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
大数据让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动??你再次服药。
5.3群智感知大数据的应用 随着技术的发展,智能手机和平板电脑等移动设备集成了越来越多的传感器,计算和感知能力也愈发强大。在移动设备被广泛使用的背景下,群智感知开始成为移动计算领域的应用热点。大量用户使用移动智能设备作为基本节点,通过蓝牙、无线网络和移动互联网等方式进行协作,分发感知任务分发,收集、利用感知数据,最终完成大规模的、复杂的社会感知任务。群智感知对参与者的要求很低,用户并不需要相关的专业知识或技能,只需拥有一台移动智能设备。
众包(crowdsourcing)是一种极具代表性的群智感知模式,是一种新型的解决问题的方式。众包以用户为基础,以自由参与的方式分发任务。目前众包己经被运用于人力密集的应用,如语言翻译、语音识别、图像地理信息标记、定位与导航、城市道路交通感知、市场预测、意见挖掘等。众包的核心思想是将任务分而治之,通过参与者的协作来完成个体不可能或者说根本想不到要完成的任务。无需部署感知模块和雇佣专业人员,众包就可以将感知范围扩展至城市规模甚至更大。
其实,众包的应用早于大数据的兴起,宝洁、宝马、奥迪等许多公司都曾借助众包提升自身的研发和设计能力。而在大数据时代,空间众包服务(spatialcrowdsourcing)成为了大家关注的热点。空间众包服务的工作框架如下:服务请求方要求获取与特定地点相关的资源,而愿意接受任务请求的参与者
36
将到达指定地点,利用移动设备获取相关数据(视频、音频或图片),最后将这些数据发送给服务请求方。随着移动设备使用的高速增长以及移动设备提供的功能越来越复杂,可以预见空间众包将会变得比传统形式的众包服务更加流行,如AmazonTurk和Crowdflower。
5.4智能电网大数据的应用 智能电网,是指将现代信息技术融入传统能源网络构成新的电网,通过用户的用电习惯等信息,优化电能的生产、供给和消耗,是大数据在电力系统上的应用。智能电网可以解决以下几方而的问题:
(1)电网规划:通过对智能电网中的数据进行分析,可以知道哪些地区的用电负荷和停电频率过高,甚至可以预测哪些线路可能出现故障。这些分析结果,可以有助于电网的升级、改造、维护等工作。例如,美国加州大学洛杉矶分校的研究者就根据大数据理论设计了一款”电力地图”,将人口调查信息、电力企业提供的用户实时用电信息和地理、气象等信息全部集合在一起,制作了一款加州地图。该图以街区为单位,展示每个街区在当下时刻的用电量,甚至还可以将这个街区的用电量与该街区人的平均收入和建筑物类型等相比照,从而得出更为准确的社会各群体的用电习惯信息。这个地图为城市和电网规划提供了直观有效的负荷数预测依据,也可以按照图中显示的停电频率较高、过载较为严重的街区进行电网设施的优先改造。
(2)发电与用电的互动:理想的电网,应该是发电与用电的平衡。但是,传统电网的建设是基于发-输-变-配-用的单向思维,无法根据用电量的需求调整发电量,造成电能的冗余浪费。为了实现用电与发电的互动,提高供电效率,研究者开发出了智能的用电设备-智能电表。德克萨斯电力公司(TXUEnergy)己经广泛使用智能电表,并取得了巨大的成效。供电公司能每隔15min就读一次用电数据,而不是过去的一月一次。这不仅仅节省了抄表的人工费用,而且由于能高频率快速采集分析用电数据,供电公司能根据用电高峰和低谷时段制定不同的电价,利用这种价格杠杆来平抑用电高峰和低谷的波动幅度,智能电表和大数据应用让分时动态定价成为可能,而且这对于TXUEnergy和用户来说是一个双赢变化。
37
(3)间歇式可再生能源的接入:目前许多新能源也被接入电网,但是风能和太阳能等新能源,其发电能力与气候条件密切相关,具有随机性和间歇性的特点,因此难以直接并入电网。如果通过对电网大数据的分析,则可对这些间歇式新能源进行有效调节,在其产生电能时,根据电网中的数据将其调配给电力紧缺地区,与传统的水火电能进行有效地互补。
5.5大数据在能源行业的应用 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2-3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果??买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
5.6大数据在通信行业的应用
电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
NTTdocomo把手机位置信息和互联网上的信息结合起来,为顾客??附近的餐饮店信息,接近末班车时间时,??末班车信息服务。
5.7大数据在零售业的应用
我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户??服务。公司希望向客户??差异化服务,如何定位
38
公司的差异化,他们通过从Twitter和Facebook上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战??了解决方案。Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。
零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前??,增加了高利润率自有品牌商品的比例。
5.8大数据在生态环境应用 环保业务系统数据量大、数据类型多元、模型算法复杂,因此利用大数据分析的手段对环境数据资源开发,可以成为解决环保管理问题的钥匙。而近年来,“互联网+”为解决环境管理问题创造了诸多便利条件。政府决策部门通过互联网,可以实现环境数据、信息等要素互通共享,从而推动环境问题得到整体有效解决。公众舆论借助互联网将对企业排污形成巨大压力,督促其有效治污,从而推动环境改善因素由单一政府向全社会延伸。
对环保行政主管部门而言,环保大数据的应用更加强调数据获取后的分析预测和价值挖掘。借助物联网技术,把传感器和装备嵌入到各种环境监控对象中,通过云计算技术将环保领域的各物联网设备整合起来,实现人类社会与环境业务系统的整合,以更加精确和动态的方式实现环境管理和决策的“智慧”。
对企业而言,随着“互联网+生态环保大数据”的蓬勃发展以及各界对于“互联网+”对于“大数据”的关注与重视,环境大数据变革对于排污企业就意味着违法排污将有更多双眼睛盯着,更多紧箍咒压着,污染付出的代价将会越来越沉重。而对于环保企业而言,将助力企业加快产业转型升级,打开更大市场空间,迎来产业可持续发展黄金期。
“互联网+生态环保大数据”也将提升公众服务能力,通过大数据整理计算采集来的社交信息数据、公众互动数据等,可以帮助环保部门进行公众服务的水平化设计和碎片化扩散。可以借助社交媒体中公开的海量数据,通过大数据信息
39
交叉验证技术、分析数据内容之间的关联度等,进而面向社会化用户开展精细化服务,为公众提供更多便利,产生更大价值。
环境数据中心集污染源和环境质量数据整合、数据集成、数据交换、数据管理、数据分析、数据协同共享功能于一体,将分散的各类环境数据统一集成,提高了数据的标准化水平和数据的可用性,按照数据资源规划设计的数据标准规范以及数据模型进行统一组织,依据国家有关技术规范和环境信息行业技术标准分类体系构建的数据集,对各类业务系统的数据进行分类和梳理,按照不同的专题和用途进行分类存储和使用,同时可以完成数据的共享和交换工作,解决各部门、各业务系统之间数据无法共享的问题,即解决“数据孤岛”现象,为环境管理者和决策者提供可靠、及时、全面的环境信息,从而为环境管理科学决策奠定坚实基础。
5.9大数据在工业污染监控中的应用 工业污染源全过程监控系统是在污染源在线监控的基础之上,为了确保数据可靠性和监控有效性,对企业污染治理设施的运行状态的关键参数进行实时监控。
利用工业污染源全过程监控系统,通过现场端监测设备对环境污染治理设施进行连续的、实时的跟踪监控,通过实时采集环境污染治理设施的关键参数,包括电气参数(如电压、电流、频率等)、工艺参数(物位、流量、压力、温度等),与系统内置的算法规则进行比对,监控其运行状况和治污效果并对排污超标及污染治理设施非正常运行提供报警。
通过对污染物排放和污染治理设施的在线监控,对排污生产进行自动控制,从而准确反映污染源的实际排放情况,有效减少污染物排放量,调动排污企业治理污染的积极性,预防环境污染突发事件。
针对某电厂工况数据进行分析,通过两周数据进行训练得到预测模型,去预测下周污染物排放数据,99.5%预测数据的相对误差<20%
污染源排放清单动态管理系统是基于污染源普查数据及环境统计基础数据、GIS地理信息系统和区域土地利用信息,整合重点点源实时排放数据,形成针对点源、线源、面源等各类大气污染源,综合反映区域污染源空间分布和时间排放规律信息的网格化区域大气污染物排放清单数据库平台。
40
它不仅为区域实时污染物排放状况提供了最为详实和全面的实时数据信息及空间、时间变化模型,为区域重污染天气及空气质量预测预报工作提供有效的基础数据支持。更重要的还为环保部门提供了区域污染源系统化管理工具,为区域落实污染防治政策和总量削减行动计划提供快速决策工具,从而服务于国家及地方环境保护总体战略。
(二)大数据下的职业定位 事实上,麦肯锡全球研究院的研究预测在未来6年,仅在美国本土就可能面临缺乏14万至19万具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业做出有效决策的数据的管理人员和分析师也有150万人的缺口。
Ventana研究公司的分析师DavidMenninger指出在其公司最近所作的一项调查显示,在169位公司高管中有四分之三的人认为技术人员缺乏是企业无从应对大数据挑战的重要因素。
Hadoop除了核心设计思想MapReduce和HDFS(HadoopDistributedFileSystem)外,Hadoop还包括了从类SQL查询语言HQL,到NoSQLHBase数据库(NoSQL数据库通常用来处理非结构化的数据,包括音频、视频等。),以及机器学习库Mahout等内容。Cloudera、Hortonworks和MapR都已在他们的分布式系统中加入了Hadoop项目。
而MapReduce编程模式可以被认作是云计算技术实现的灵魂。MapReduce是一种处理大型及超大型数据集并生成相关的的执行的编程模型,其主要思想是从函数式编程语言借鉴而来,同时包括从矢量编程语言借来的特性。
TechTarget的特约编辑BethStackpole就指出当今管理传统结构化数据环境的团队确实相当专业,但面对向Hadoop和MapReduce等开源大数据技术时则显得有些无从应对。导致这其中的原因是应对传统关系数据库的技能无法转化为应对大数据世界中海量非结构化数据的技能。而NoSQL数据库技术恰恰是根据新型平台核心构建的。
大数据时代的热门职业将会有以下多种:
1.大数据处理平台开发人员
大数据处理平台开发人员负责构建大数据处理平台以及用来分析数据的应用。由于其在开发领域已具备相关的经验,所以比较熟悉相关的工具或算法。这在编写、优化以及部署各种复杂的MapReduce的工作时会有所帮助。运用大数据相关技术的从业人员的作用类似传统数据库世界中DBA的定位。
2.大数据处理系统管理员
大数据处理系统管理员负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置,保证Hadoop与其他系统的有机结合。
3.数据管家
企业要提高数据质量必须考虑任命数据管家。数据管家需利用Hadoop汇集企业周围的大量数据,并将数据通过ETL的过程被清洗和规范化,进入到数据仓库中,成为一个可用的版本。然后,通过报表和分析技术,数据被切片、切块,并交付给成千上万的人。担当数据管家保证市场数据的完整性,准确性,唯一性,真实性和不冗余。
4.数据分析和数据科学家
数据分析和数据科学家基本属于同一类别的工作,这些具备专业领域知识的人士研究相应的算法分析对应的问题,而数据挖掘也是其应掌握的重要技术。帮助创建推动业务发展的相应的大数据产品和大数据解决方案。
虽然现今面临技术人员匮乏的状况,但也并非绝望。Cloudera公司的OmerTrajman就指出Hadoop做为大数据技术的解决方案并不像学习如何制造火箭那样困难。几年前,了解Hadoop的人还寥寥无几,但现在越来越多的人开始学习Hadoop。企业应当鼓励并培养技术人员学习Hadoop技术。
六、大数据生态系统科学图谱组成及
(一)大数据的生态发展
在喜新厌旧的技术初创企业界,已有3年历史“大数据”听起来似乎已经过气了。虽然Hadoop在2006年已经出来,但“大数据”这个概念大概是在2011
到2014年左右才真正火起来的。也就是在这段时间里,至少是在媒体或者专家眼里,“大数据”成为了新的“金子”或者“石油”。然而,至少在我跟业界人士交谈中,大家越来越感觉到这项技术已经在某种程度上陷入了停滞。2015年可能是数据领域的那些酷小子转移兴趣,开始沉迷于AI以及机器智能、深度学习等许多相关概念的年份。
图6.1:2016年大数据版图
抛开不可避免的炒作周期曲线态势不管,我们的“大数据版图”已经进入第4个年头了,趁这个时候退一步来反思一下去年发生了什么,思考一下这个行业的未来会怎样是很有意义的。
大数据有趣的一点在于,它不再像当初经历过那样有可能成为炒作的题材了。 经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家能够接触、可以感知,或者与大众相关联的:比如移动应用、社交网络、可穿戴、虚拟现实等。
但大数据基本上就是管道设施的一种。当然,大数据为许多消费者或商业用户体验提供了动力,但它的核心是企业技术:数据库、分析等,这些东西都是在后端运行的,没几个人能看得见。就像在那个世界工作的任何人都知道那样,用一个晚上的时间就想适应企业端的新技术是不可能的。
大数据现象在早期主要是受到了与一批骨干互联网公司的共生关系的推动,这些公司既是核心大数据技术的重度用户,同时也是这些技术的创造者。
这些公
司突然间面对着规模前所未有的庞大数据时,由于本身缺乏传统的(昂贵的)基础设施,也没有办法招募到一些最好的工程师,所以只好自己动手来开发所需的技术。后来随着开源运动的迅速发展,一大批此类新技术开始共享到更广的范围。然后,一些互联网大公司的工程师离职去创办自己的大数据初创企业。其他的一些“数字原生”公司,包括崭露头角的独角兽公司,也开始面临着互联网大公司的类似需求,由于它们自身也没有传统的基础设施,所以自然就成为了那些大数据技术的早期采用者。而早期的成功又导致了更多的创业活动发生,并获得了更多的VC资助,从而带动了大数据的起势。
快速发展了几年之后,现在我们面临的是更加广阔、但也更加棘手的机遇:让中等规模到跨国公司级别的更大一批企业采用大数据技术。这些公司跟“数字原生”公司不一样的是,他们没有从零开始的有利条件。而且他们失去的会更多:这些公司绝大部分的现有技术基础设施都是成功的。那些基础设施当然未必是功能完备的,组织内部许多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点,但他们不会一夜间就把自己的关键业务取代掉。任何革命都需要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的谨慎是可以理解的。还有,令创业者感到绝望的是,许多企业仍顽固地拒绝把数据迁移到云端。
(二)大数据生态系统的组建
还需要理解的另一个关键是:大数据的成功组建不在于实现技术的某一方面,而是需要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由产品来完成,而有的则需要人来做。一切都需要无缝集成起来。最后,要想让所有这一切发挥作用,整个公司从上到下都需要树立以数据驱动的文化,这样大数据才不仅仅是个“东西”,而且就是那个关键的“东西”。即有一堆艰苦的工作要做。
所以,这就是在经过几年引人瞩目的初创企业如雨后春笋冒头,VC投资频登头条后,我们开始步入大数据的部署期和早期成熟期的原因。
更有前瞻性的大公司在2011到2013年间开始实验大数据技术,推出了若干的Hadoop试点计划或者尝试一些点方案。他们招募了各种各样此前并不存在的
岗位。他们进行了各种努力,包括把全部数据都堆到一个数据容器,然后希望紧跟着就会发生奇迹。在逐步建设自己的内部能力,试验了各种供应商,从试点计划到生产中的局部部署,然后到现在争论要不要全企业铺开。许多情况下,他们正处在这样一个重要的拐点上,即经过大数据基础设施的数年建设后,能够展示的成果还不多,至少在公司内部的商业用户看来是这样的。但是大量吃力不讨好的工作已经做完了,现在开始进入到有影响力的应用部署阶段了。只是从目前来看,这种建构在核心架构之上的应用数量还不成比例。
接下来的一波大公司大多数时候对大数据技术是持观望态度的,对于整个大数据方面的东西,他们还在心存一定程度困惑中观望。直到最近,他们还在指望某个大型供应商会提供一个一站式的解决方案,不过现在看来这种情况近期内并不会出现。他们看待这个大数据版图的态度是心怀恐惧,在想自己是不是真的需要跟这一堆看起来并没有什么不同的初创企业合作,然后修补出各种解决方案。
随着该领域的创业活动持续进行以及资金的不断流入,加上适度的少量退出,以及越来越活跃的技术巨头,使得这个领域的公司日益增多,最后汇成了这幅2016版的大数据版图。
这张图已经很挤了,而且还有很多都没办法列进去,但在基本趋势方面,行动开始慢慢从左转到右,从基础设施层转移到分析层乃至应用层,“大数据原生应用”已经在迅速冒头—这多少符合了我们原先的一些预期。
即便在数据库的世界里,新兴的厂家也越来越多。多到市场已经难以承受的地步,这里发生了很多令人兴奋的事情,从图形数据库的成熟,到专门数据库的推出,乃至于CockroachDB的出现,数据仓库也在演变。
其实最近出现复兴的AI很大程度上算是大数据的产物。深度学习背后的算法基本上是几十年前就诞生了的,但直到最近能够以足够便宜、足够快速地应用到大规模数据之后才发挥出了它的最大潜能。AI与大数据之间的关系如此紧密,以至于业界专家现在认为AI已经令人懊恼地“与大数据陷入了热恋当中”。
不过反过来,AI现在也在帮助大数据实现后者的承诺。分析对AI/机器学习越来越多的关注也符合大数据下一步演进的趋势:现在数据我都有了,但究竟从中能得到什么样的洞察呢?当然,这件事情可以让数据科学家来解决,从一开始他们的角色就是实现机器学习,否则的话就得想出模型来发现数据的意义。但是
机器智能现在正在逐渐发挥辅助数据科学家的作用—只需要倒腾数据,新兴的产品就能从中提炼出数学公式或者自动建立和推荐最有可能返回最佳结果的数据科学模型。一批新的AI公司提供的产品能够自动识别像图像这样的复杂实体,或者提供强大的预测性分析。
但不管怎样,AI/机器学习绝不是大数据分析唯一值得关注的趋势。大数据BI平台的普遍成熟及其日益增强的实时能力也是一个令人兴奋的趋势。
随着一些核心基础设施的挑战得到解决,大数据应用层正在快速构建。在企业内部,已经出现了各种工具来帮助跨多个核心职能的企业用户。比方说,销售和营销的大数据应用通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失,且速度越来越实时化。客服应用帮助个性化服务。人力应用帮助找出如何吸引和挽留最好的员工等。
专门的大数据应用几乎在任何一个垂直行业都有出现,从医疗保健到金融、时尚乃至于执法。有两个趋势值得强调一下:
首先,这些应用很多都是“大数据原生”的,本身都是依托在最新的大数据技术基础上开发的,代表了一种客户无须部署底层大数据技术即可利用大数据的有趣方式—因为那些底层技术已经是打包的,至少对于特定功能来说是这样的。比方说,ActionIQ就是在Spark基础上开发的,所以它的客户能够在营销部门利用Spark的威力而不需要自己部署Spark,这种情况下是没有“装配线”的。
其次,AI在应用层也有很强大的存在。比方说,在猫捉老鼠的安全领域中,AI被广泛用来对付黑客,实时识别和对抗网络攻击。去年已经出现了一个AI驱动的数字助手行业,支持从任务自动化到会议安排以及购物等几乎一切事情。这些解决方案对AI的依赖程度不一,从几乎100%自动化到“有人参与”等情况各不相同,但是可以明确的是,人的能力在AI帮助下得到了增强。
(三)大数据生态系统的内涵
大数据企业生态系统最早是由美国学者JamesMoore提出的,他借用生态学的概念来解释企业组织及其与环境之间的关系。Moore,J.认为企业生态系统是指由相互作用的企业组织与个人所形成的经济群体,包括生产商、销售商、消费者、供应商、投资商、竞争者、互补者、企业所有者以及有关的政府。该概念表
示企业生态系统是一个相对开放的系统,这个系统中所有的组成要素相互影响、相互促进;同时,企业生态系统也会受到外部环境的制约和影响,企业生态系统在各种内外部力量的作用下得到演化和发展。
“大数据”背景下,企业生态系统和外部环境之间的边界日趋模糊,信息共享和知识溢出已成为企业生态系统中各成员合作竞争与协同演化的主要方式之
一。在这种竞争环境下,信息和知识成了企业经营管理中的重要生产要素,也是决定企业创新能力的关键。通过选择和构建良好的企业生态系统,从外界获取有价值的数据和知识,是企业提高核心竞争力、获取持续竞争优势的重要途径。
(四)大数据生态系统的重新审视
6.4.1产业环境:行业融合与细分协同演化
企业生态理论认为,包含众多企业的企业生态系统与外部环境相互交流相互影响,企业生态系统不仅受到外部环境的制约,同时它也具备影响甚至改变环境的能力。随着“大数据”时代的到来,企业生态系统的产业环境发生了革命性的变化,呈现出产业融合与细分协同演化格局。一方面,产业融合愈发明显,以前认为不相关的行业通过“大数据”技术有了内在的关联,行业之间潜在的价值关联有了新的表现形式。如传统的零售企业开始进军电子商务;物业管理公司通过对社区视频数据分析能够开展个性化的广告业务;从事电子商务的阿里巴巴已涉及金融、物流、云计算等行业。因此,“大数据”的挖掘和应用促进了行业间的融合,也创新了企业的盈利模式。
另一方面,“大数据”时代企业生态系统变得更加开放,竞争异常激烈,广泛而清晰地对“大数据”进行挖掘和细分,找到企业在垂直领域的业务和应用,已经成为企业脱颖而出形成竞争优势的重要方式。如社交网络的发展,诞生了一批专注开发导购应用程序的企业,通过收集客户社交数据挖掘其内在的商品偏好和需求,为相关的电子商务企业提供商品导购服务。例如,“大数据”也不再是企业生态系统中的大企业所独占,中小企业也可以从“大数据”中挖掘有价值的信息,成为细分市场的核心资源,为自身的业务提供支持。
因此,在“大数据”时代,企业生态系统面临的产业环境精彩纷呈,这种产
业环境的变化改变了企业对外部资源需求的内容和方式,创新了企业创造价值、传递价值的方式和路径,模糊化了企业生态系统的资源边界、市场边界和契约边界,企业生态系统必将形成以“大数据”为核心资源的业务融合与市场细分协同演化,重构其内部价值网络和外部关系网络。
6.4.2运营模式:基于“大数据”的协同运作
在“大数据”背景下,企业生态系统的协同合作更为紧密和精确,基于“大数据”资源构建以流程优化和客户订单为导向的协同运作模式已成为企业生态系统的主要运营模式,基于“大数据”应用的协同运作主要表现为:
协同设计。在产品的设计阶段,加强伙伴间的合作与沟通,倾听客户的心声、考虑产品对环境的影响是提高产品竞争优势的关键,这就需要企业生态系统的各成员共同参与进行协同设计。传统的设计都是基于企业自身收集的历史数据和静态数据,不能实时动态的把握客户的需求变化。“大数据”资源的开发和应用,为企业生态系统的协同设计提供了数据支撑和智力支持,企业通过构建基于“大数据”的协同产品设计平台,实时获取设计研发企业、生产制造企业、销售企业等成员企业的反馈信息和知识溢出,为提高产品设计质量提供了智力支持。同时,“大数据”技术的应用,能实时捕捉客户的需求数据,针对每一个消费者进行完全个性化设计。例如,玩具行业巨头乐高基于在线订购的允许客户组装他们自己乐高套件的乐高工厂,对其所需的玩具进行自我设计,以实现客户参与玩具的创造。
协同生产。协同生产的本质就是企业在应用CAD、CAM、CAPP、ERP等管理信息系统的基础上,将任务实时合理的安排给各成员企业和企业内部的各制造单元。这个过程难度最大的就是对来自企业内外部制造过程中多态的、异构的、实时数据的整合和应用,“大数据”技术开发和平台应用为实现协同生产提供了便利。如以MapReduce和Hadoop为代表的非关系数据分析技术,可以直接对复杂异构的数据进行分析,避免了传统数据库耗费大量时间从不同来源抽取数据加以合并才能用于分析的复杂过程。通过应用这些“大数据”处理技术,企业实时收集处理供应商数据、客户订单数据、生产车间信息、竞争对手信息、外部市场需求等信息,协调原材料提供商、半成品生产企业、产品生产企业等合作伙伴的生产决
策,优化企业生态系统的流程,实现协同生产。
协同库存。传统的企业库存管理中,满足客户需求的同时又尽可能地降低库存成本一直是企业需要破解的难题,“大数据”的开发和应用为解决这一难题提供了可能。企业生态系统中的合作伙伴,通过对客户企业的实时交易数据、实时生产信息、消费信息等数据的分析,能提前预判客户市场的需要并进行库存补给和管理。例如,全球最大的零售企业沃尔玛和宝洁公司,建立了基于卫星分析的联合库存管理系统,宝洁公司每天能对沃尔玛销售自己产品的实时数据进行分析,并根据分析结果预测和补充库存,既保证了客户的需要又降低了库存成本。
协同物流。物流运输规划的基石是数据,“大数据”的特征为企业生态系统中各合作伙伴实施协同物流提供了天然优势。企业通过实时收集和分析供应链系统中原材料、半成品、产品的物流运输信息,从供应链系统视角对各节点企业的仓储选址、物流配送线路、逆向物流进行协调优化,充分利用物流信息资源提高物流效率。如Teradata天睿公司通过建立了“大数据”分析系统,通过获取、整合、分析客户企业、物流设备、物流运输线路、天气等的信息数据,做到智能化的实时安排物流线路,实现整个合作伙伴的协同物流。
因此,通过“大数据”的整合和分析,企业生态系统的合作伙伴能优化企业内外部流程,提高产品质量,降低资源消耗,实现个性化定制生产的同时能更好地适应环境的变化,以实现协同运作。
(五)大数据生态系统资源的多元化
在“大数据”背景下,信息数据已经成为企业生态系统中核心资产,数据传递、信息共享已经成为企业生态系统中成员的重要合作途径。由于“大数据”资源的动态配置和应用,企业生态系统的合作方式呈现出多元化,主要有:
业务外包(Outsourcing)。以“大数据”为核心资源的运营体系中,“大数据”运行的基础设施和技术开发具有投入成本大、风险高等特征;同时,“大数据”资源具有易复制、易传播、价值流失快等特点,这就使得企业在“大数据”资源获取和利用方面倾向选择生态系统中合作伙伴的分享与合作,以实现企业生态系统中“大数据”资源的柔性配置和规模效率,因此,业务外包已经成为企业生态系统协同商务的主要形式之一,如IT设施外包、“大数据”软件开发外包、数据
管理外包等。
众包(Crowdsourcing)。众包是指把传统上由指定代理人(如雇员)完成的任务以公开选拔的形式外包给大量不特定的个人去做的行为。众包模式的实质是对离散、零乱的资源的有效利用,深度挖掘“大数据”蕴含企业生态系统的集体智慧,为企业提供创意设计、生产规划、市场推广、策略评估等服务。如IT产业,开源社区(openSourceCommunity)就是众包的典型模式,各大IT巨头都争相采取这种模式构建自己的创新生态系统。许多世界性大公司也都建立了自己的网络平台或者借助众包中介(CrowdsourcingIntermediates)以众包方式解决技术、创意、设计等原来由企业内部流程和资源完成的活动。例如,加拿大矿产公司GoldCorp为解决RedLake矿区的矿脉定位问题,在网络上公布了该矿区几十年来全部的地质数据,在短短几周内收到大量网民的积极反馈,并根据网民建议从110个矿点中准确地发现了80多处矿藏。
共同创造(Co-creation)。共同创造就是让企业生态系统中各成员企业、消费者、投资商、竞争者、互补者、政府组织等主体共同参与产品的价值创造。从企业生态系统商务圈的视角看,实现共同创造的基本途径就是企业整合来自多元系统的数据,包括外部生态系统、外部供应商、消费者等获取信息数据以共创产品。例如,玩具行业巨头乐高基于在线订购的允许客户组装他们自己乐高套件的乐高工厂,以实现客户参与玩具的创造。
(六)大数据生态系统的个性化精准细分
当今市场的竞争日趋激烈,客户需求高度个性化,产品的生命周期越来越短,传统的企业数据主要来自客户信息、产品、交易等结构化数据,难以对客户的潜在需求进行精确的预判和个性化的细分。“大数据”技术的开发和应用,使得企业进行客户市场决策所依赖的市场信息在数据量、数据结构、数据模态和时效上都发生了根本性的变化,能对客户的行为、状态、商务圈等非结构化的数据进行动态的监控和实时挖掘,深刻洞察用户消费动机和偏好。
因此,这种“大数据”的变化引发了企业生态系统营销环境的变革,让企业在目标市场选择和营销管理决策时进行定量分析和提前预判,通过对其生态系统中客户信息全面的分析和处理,就能实现精准营销,降低营销成本,提高营销效
果。
(七)大数据生态系统的演化
6.7.1“大数据”时代企业生态系统演化的内在机理
企业生态系统是一个动态、复杂系统,其演化过程表现出很强的自组织过程特征,根据耗散结构理论,系统产生自组织现象,形成耗散结构,必须满足以下条件:开放及开放到一定程度、远离平衡态、非线性相互作用和涨落。这些条件在企业生态系统的形成过程中均有着自己的作用,也是促使企业生态系统演化的内在条件和动力。在“大数据”背景下,企业生态系统这些自组织形成的条件显得更加明显和充分。
企业生态系统的开放性及开放程度。企业生态系统不是封闭孤立的系统,一方面,它必须不断从周围环境输入维持其运行与发展所必需的能量、物质与信息;另一方面,它又必须将自身所产生的能量、物质或信息输出给周围环境,如产品提供、知识溢出、环境污染等。在“大数据”背景下,企业生态系统的开放性更加明显,开放程度更高。表现为:①以互联网、海量数据存储、云计算等为代表的信息技术让企业生态系统的成员从外界获取产品、客户、市场、竞争对手等方面的数据更加便利;②“大数据”的处理和应用,企业生态系统内部各合作伙伴之间的数据传递和信息共享更加频繁,对企业决策的影响愈发明显;③各企业生态系统之间的知识溢出更加丰富,合作与竞争呈现出多元化趋势。
因此,基于“大数据”的连接与融合,企业生态系统传统的企业边界、行业边界愈发模糊,企业生态系统的开放性更加明显,企业不仅要适应环境,参与开放系统的竞争,而且也具备了影响和改变环境的条件和能力。
企业生态系统远离平衡态。企业生态系统远离平衡态意味着系统内部存在着物质转换、能量流动、信息传递等各种活动状态,呈现出各种活动的交锋与激烈碰撞,这种碰撞在企业生态系统中表现为远离平衡态的企业间横向整合和纵向应用,如行业竞争对手的消失以及潜在威胁者的加入、企业战略联盟的形成与瓦解、供应链中节点企业的退出与新合作伙伴的加入,客户的维系与流失。
企业生态系统内部的非线性相互作用。根据自组织理论,企业生态系统的自组织演化就是在其内部大量子系统以及企业和其他组织在既竞争又协同的非线
性相互作用下发生、发展的。“大数据”背景下,企业生态系统的非线性作用一方面表现为企业间的竞争关系,各企业力争通过对“大数据”的分析来获取资源、技术、客户,并采取保密和限制等措施防止自身的数据外泄和知识溢出,以使自身取得功能上的有利态势与协商中的有利地位,从而加速了非平衡的竞争关系。另一方面,“大数据”技术促使企业生态系统内部进一步协同合作,以电子商务平台以及中介网络平台的双方或多方互动数据,掌握了更精确更丰富的决策信息,对降低市场中供需双方的信息不对称、解决市场失效、提高企业利润起着关键的作用;如供应链伙伴之间通过监测、分析、共享各环节的数据实现联合库存和准时制造,提升了整个生态系统伙伴的竞争力。因此,“大数据”背景下,企业生态系统各要素之间表现为既竞争又合作的非线性作用,推动企业生态系统的优化和动态发展。
企业生态系统的涨落。涨落指系统参量在一个数值上下震荡的现象,它是系统形成有序结构的原始动力,企业生态系统涨落的结果是使偏离平衡态的系统恢复到原来的状态,或者使处于某一临界点上的系统达到一种新的稳定状态,呈现出原有状态所不具备的新功能,实现企业生态系统的升级与进化。“大数据”背景下,企业生态系统的各成员表现得更为动态和不确定性,其结构也更具脆弱性,以知识为核心要素的技术创新对企业生态系统涨落的冲击力更大。因此,有价值的数据是企业制定战略决策、技术创新、挖掘顾客需求的指南针,也是改变企业生态系统的有序结构、形成企业生态系统耗散结构的触发器,从而促使企业生态系统偏离原有的稳定状态,进入新的稳定状态。
6.7.2“大数据”时代企业生态系统演化的外部机制
上面基于自组织理论分析了“大数据”时代企业生态系统演化的内在机理,这是决定企业生态系统演化的方向和状态,但各组织在企业生态系统演化的过程中还得经过环境的选择,只有适应环境并得以健康发展的企业生态系统才是真正的演化,所以,环境选择成为企业生态系统演化的外部机制。
在“大数据”背景下,企业生态系统面对的环境选择更为复杂,外部环境可能是企业生态系统的稳定有序演化的助推器,也可能是破坏和干扰企业生态系统有序运行的导火线。外部环境的选择主要包括三个方面:第一,企业生态系统之间的复杂竞争关系,企业生态系统之间基于数据情报的市场争夺、技术竞争和产
品较量更为直接和激烈;另一方面,被“大数据”信息包围的企业生态系统开放程度更高、界限更为模糊,企业生态系统之间呈现出协同、融合等状态,如企业生态系统之间的知识溢出、技术创新呈现出相互学习、相互促进。这种基于“大数据”的连接与融合,会突破传统的企业生态系统边界,引发基于“大数据”的产业链延伸和行业变革。第二,“大数据”背景下,社会、经济、文化等环境因素的改变,包括客户需求和消费习惯呈现出完全的个性化和多样化、“大数据”技术引导的政府政策的设计和选择、企业生态文化融合性等方面都会直接冲击到企业生态系统演化的速度和效果。第三,自然界因素,如企业生态系统生存发展过程中所需的自然资源、物质介质等自然界的因素。
因此,“大数据”的处理和应用,企业不仅能适应环境,参与开放系统的竞争,而且也具备了影响和改变环境的条件和能力。在企业生态系统自组织的内部动力和外部环境相互作用下,会进行方向性的战略选择,实现整个企业生态系统的优化和升级。
(八)大数据生态系统的构建策略
在“大数据”时代,遵循企业生态系统的特征和演化规律,建构良好的企业生态系统是企业获取持续竞争优势的关键。
6.8.1构筑以“大数据”为核心资源的企业生态系统商业模式
“大数据”技术的发展为信息的分离提供了平台和工具,通过对“大数据”资源的分类整理和重新聚合,能够形成新的信息和资源。对“大数据”资源规模经济和范围经济的追求促使了以“大数据”为中心的价值链延伸,通过数据挖掘、分享、价值传递,必将引起企业生态系统的价值主张、业务流程、盈利模式、价值网络等商业模式要素的改变,形成企业生态系统新的商业模式。例如,淘宝网在运行的过程中采集和存储了海量的交易数据,并构建了自己高性能的云存储系统OceanBase,该云存储系统形成了面向进驻商家的多项数据产品,不仅能为商品企业、淘宝卖家、交易中介、消费者提供各类优化工具和数据服务;同时,利用OceanBase开源还可以为非淘宝的其他电子商务网站提供数据产品服务,为各类网站及社区提供电子商务解决方案,彻底完成了从交易平台到为整个生态系统
提供商务服务的角色转变,创新了以“大数据”为核心资源的商业模式。
6.8.2畅通企业生态系统的数据交流渠道
“大数据”具有多样化、数据量大、生产的和处理的速度快等特征,一般无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理和服务。因此,建立在“大数据”基础的企业生态系统必须打造先进的基础设施,构建良好的数据处理和知识共享环境,畅通企业生态系统的数据交流渠道。这主要包括:
①加大对计算机基础设施建设的投入,建设高效的企业生态系统网络、服务器处理和存储系统、云计算平台等硬件系统,提高处理数据的效率;
②促进数据库系统、数据仓库系统的建设,建立对非结构化数据、非数值型数据进行有效管理的数据存储系统;
③开发科学的数据挖掘系统,建立良好的数据收集、处理、挖掘、决策支持等软件系统;
④要结合企业生态系统的实际应用开辟数据交流与共享的渠道,如电子社区、企业生态系统内部网、供应链协同知识管理系统等。通过构建良好的数据处理和知识共享系统,就能形成“大数据”核心资产,提高“大数据”的传递和应用效益。
6.8.3创新以“大数据”为基础的关键业务和活动流程
“大数据”背景下,企业生态系统的主体、资源、结构、价值、边界网络等要素进行不断的动态演化和重构,创新以“大数据”为基础的关键业务和活动流程是企业生态系统获取竞争优势的动力源泉。创新以“大数据”为基础的关键业务和活动流程主要包括:
①基于“大数据”的流程优化,提高业务流程的处理效率。如物流企业通过对合作伙伴多维“大数据”的分析,找出企业物流配送的最优运输模式和路线,提高物流配送效率;
②应用“大数据”作为企业活动的关键资源,创新企业生态系统的价值活动。如玩具制造企业,通过挖掘企业生态系统中合作伙伴的交易数据、客户购买行为
数据、产品质量数据等关键资源,改进产品的设计和性能,创造企业新的价值增长点;
③以“大数据”活动取代企业传统的业务和流程,形成企业生态系统新的经营方式和合作模式。如沃尔玛和宝洁公司,通过对商业数据的分析形成联合库存管理,改变了传统的库存管理的业务类型和活动流程。
6.8.4构建精确的客户关系管理系统
当今经济已进入买方市场,实时的、动态的、个性化的客户需求愈发难以预测,并成为企业生态系统中最不确定的因素。现有的企业CRM其数据主要来自客户、产品、交易等结构化数据,对客户的行为、状态、商务圈等非结构化的数据还不能动态的实时挖掘和处理,难以对客户的潜在需求进行精确的预判和定位。在大数据背景下,数据量成倍增长,数据的类型也不断地丰富,网页、文件、日志,新的数据存储形式不断地兴起,因此,如何构建先进的CRM,对客户的信息进行全面的分析和处理,是企业决胜市场的关键。
6.8.5培育以“大数据”处理和应用为中心的企业生态系统文化
企业从海量杂乱无章的“大数据”里要挖掘出对企业决策有参考价值的数据,需要经历发现、提取、加工、创新等一系列复杂过程,同时需要企业生态系统全体成员参与数据的管理和控制,形成以数据为支持的决策导向。这就需要完善企业生态系统的数据处理制度,形成重视数据处理与应用的企业生态系统文化,主要措施包括:
①建立数据收集和与处理的制度文化,包括数据收集、存储制度、数据传递、共享制度、保障数据安全制度等;
②建立起企业员工对数据处理和应用的理念,通过员工技能培训、学习、讨论、考核等方式深化企业员工对数据开发和应用的意识,让企业生态系统全体成员普遍接受以数据应用和核心的工作方式;
③在企业生态系统成员之间建立行之有效的知识激励机制,包括知识明晰机制、知识绩效机制、知识奖惩机制,以形成特有的、规模化的、不断创新的知识资产和核心生产要素,培育重视“大数据”处理和应用的企业生态系统文化。
(九)大数据分析系统架构之探讨
6.9.1 Hadoop生态圈
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个DataNode。NameNode作为master服务,它负责管理文件系统的命名空间和客户端对文件的访问。NameNode会保存文件系统的具体信息,包括文件信息、 文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。对于整个集群来说,HDFS通过NameNode对用户提供 了一个单一的命名空间。DataNode作为slave服务,在集群中可以存在多个。通常每一个DataNode都对应于一个物理节点。DataNode负责管理节点上它们拥有 的存储,它将存储划分为多个block块,管理block块信息,同时周期性的将其所有的block块信息发送给NameNode。
在Hadoop的系统中,会有一台master,主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启 动、跟踪和调度各个Slave的任务执行。还会有多台slave,每一台slave通常具有DataNode的功能并负责TaskTracker的工作。 TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。
MapReduce用于大规模数据集群分布式运算。任务的分解 (Map)与结果的汇总(Reduce)是其主要思想。Map就是将一个任务分解成多个任务,Reduce就是将分解后多任务分别处理,并将结果汇总为最终结果。
HBase是基于HDFS存储的一个分布式的、面向列的开源数据库。它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。可以这么理解,在 HDFS上,我们看到的是一些非结构,零散的文件数据,透过HBase可以将这些零散的、非结构文件数据结构化。从而可以进行一些高层次的操作,例如建表、增加、删除、更改、查找
等,与传统的数据库不同的是HBase采用的是列式存储而不是行式存储。
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此,Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
ApachePig是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已 有的Hive系统虽然也提供了SQL语义,但是由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性;相比 之下,Impala的最大特点就是快速。
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。
Chukwa是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。
Apache Mahout是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
Hama是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
6.9.2 Spark生态圈
Spark是基于内存分布式的计算框架。spark立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架,而Scala的语言特点也铸就了大部分Spark的成功。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。
虽然 Spark 与 Hadoop 有相似之处,但它提供了具有有用差异的一个新的集群计算框架。首先,Spark 是为集群计算中的特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。为了优化这些类型的工作负 载,Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟。
Spark 还引进了名为 弹性分布式数据集 (RDD) 的抽象。RDD 是分布在一组节点中的只读对象集合。这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建。重建部分数据集的过程依赖于容错机制,该机制可以维 护 “血
统”(即充许基于数据衍生过程重建部分数据集的信息)。RDD 被表示为一个 Scala 对象,并且可以从文件中创建它;一个并行化的切片(遍布于节点之间);另一个 RDD 的转换形式;并且最终会彻底改变现有 RDD 的持久性,比如请求缓存在内存中。
Spark 中的应用程序称为驱动程序,这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与 Hadoop 类似,Spark 支持单节点集群或多节点集群。对于多节点操作,Spark 依赖于 Mesos 集群管理器。Mesos 为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许 Spark 与 Hadoop 共存于节点的一个共享池中。
GraphX是基于Spark的图处理和图并行计算API。GraphX定义了一个新的概念:弹性分布式属性图,一个每个顶点和边都带有属性的定向多重 图;并引入了三种核心RDD:Vertices、Edges、Triplets;还开放了一组基本操作(如subgraph, joinVertices, and mapReduceTriplets),并且在不断的扩展图形算法和图形构建工具来简化图分析工作。
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把 Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文 件系统中,来达到共享内存,从而提高效率。同时可以减少内存冗余,GC时间等。
Tachyon的架构是传统的Master—slave架构,这里和Hadoop类似,TachyonMaster里WorkflowManager是 Master进程,因为是为了防止单点问题,通过Zookeeper做了HA,可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk构成。这里个人理解只有Worker Daemon是基于JVM的,Ramdisk是一个off heap memory。Master和Worker直接的通讯协议是Thrift。
Mesos master是一个分布式集群资源调度器,采用某种策略将某个slave上的空闲资源分配给某一个framework,各种framework通过自己的 调度器向Mesos master注册,以接入到Mesos中;而Mesos slave主要功能是汇报任务的状态和启动各个framework的executor。
Yarn是一个实现分布式集群资源管理和调度的框架。Yarn调度器根据容量,
队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用。这里的调度器是一个 “纯调度器”,因为它不再负责监控或者跟踪应用的执行状态等,此外,他也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务。调度器仅根据各个应 用的资源需求进行调度,这是通过抽象概念“资源容器”完成的,资源容器(Resource Container)将内存,CPU,磁盘,网络等资源封装在一起,从而限定每个任务使用的资源量。
BlinkDB是一个很有意思的交互式查询系统,就像一个跷跷板,用户需要在查询精度和查询时间上做一权衡;如果用户想更快地获取查询结果,那么将牺牲查 询结果的精度;同样的,用户如果想获取更高精度的查询结果,就需要牺牲查询响应时间。用户可以在查询的时候定义一个失误边界。
三、结构化数据生态圈:
DBSync数据库同步备份工具是一款异构数据库之 间同步的工具,支持市面上大多数主流数据库,主要有:SqlServer、ORACLE、 DB2、Sybase Access,该软件提供的ODBC的同步功能,可以间接实现对MYSQL、SYBASE、INTERBASE等其他数据库的支 持。DBSync可以实现计划、增量、两表记录一致等方式的同步操作,利用该软件,可以实现企业内部应用系统数据的互通互联。该软件性能稳定,能提供 7*24小时不间断同步的支持,具备单表千万级记录甚至更多记录的同步能力。该软件的专业版提供局域网或企业内部网之间数据库的同步(数据库都具备独立的 IP);企业版则提供集团在世界范围内的各分支机构的数据库同步。
联机分析处理(OLAP)系统是数据仓库系 统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询 处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
HANA是一个软硬件结合体,提供高性能的数据查询功能,用户可以直接对大量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。
这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模
式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。
在讨论Hadoop系统架构之前,首先,我们应该明确一件事,Hadoop是做什么用的,简单的说,Hadoop就是一个基于大量数据进行计算的一个平台,它的计算的核心就是MapReduce,也就是去繁从简,剔除无用数据把有用的留下。HDFS是它的存储组件,也是它计算最直接的数据源。我们的目的就是,首先,将原始的数据,如数据库中数据或日志文件数据提取并按一定格式写入Hadoop计算的数据中心——HDFS,然后再通过一系列的计算算法,计算出有用的数据,再将小量的结果数据存入到结果数据库中。
同样的,对于数据源,同样有关系型数据库,非关系型数据库,以及日志文件等。对于数据库的数据,由于已经有规范的物理存储,我们就无需将其再次存入HDFS,可以考虑在spark与数据库间加入一层内存存储——Tachyon,先将参与计算的数据提到分布式的内存中,这样提高计算的效率。而对于日志文件,由于其本身为非结构化的数据,可能需要经过一定的加工处理,因此,有必要先将其统一结构化,所以可以考虑将结构化后的结果先存入HDFS,再参与计算。另外,考虑到业务需求,有的系统可能需要将结果存入到物理的存储空间,有的可能希望直接得到例如报表的结果,所以这里分别针对这两种需求给出方案:
(1)将Tachyon与HDFS上的数据通过机器学习后存入数据库,以便后续加工处理;
(2)引入SparkR统计分析工具,通过SparkR结合R算法、MLLib算法对数据进行学习,分析,计算后直接得出结果。
七、结论
从很多方面来看,我们仍然处在大数据现象的早期发展阶段。尽管已经花费了数年时间,但减少基础设施来存储和处理大规模数据还只是第一阶段。从这个角度来说,大数据的机会也许要比我们想象的还要大。然而,随着大数据继续走向成熟,这个术语本身可能会消失,或者变得太过时以至于没有人会再使用这个词。这就是成功赋能技术令人讽刺的命运归宿—由于技术的广泛传播,然后到达
无所不在的地步,最后被人熟视无睹。
当前,“大数据”在我国的理论研究和实践应用的商业价值已经突显,对于大多数企业来说,如何清晰的把握“大数据”时代企业生态系统的特征和演化规律,构筑合理的企业生态系统是企业脱颖而出形成竞争优势和核心竞争力的关键。同时,“大数据”时代的到来,必将孕育新的生产模式、商业模式、管理模式,企业生态系统必将置身于更加开放、更加复杂、非线性作用的动荡环境之中,各种非特定的竞争因素会促使企业生态系统发生持续的创新和变革。企业必须洞悉其生态系统的变化,应势而变,不断创新,以实现企业和生态系统的协同演化与升级。
尽管大数据的发展已经有了较大的进步,但是要想用好大数据的资源,我们还是要有一定的方法,即要运用好大数据要做到以下几点:
目标要明确。就算一个公司拥有再多的数据,也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据,了解到公司利用大数据可以达到什么目标,公司最终才有可能真正成功。在公司在发展过程中往往也会面临诸多选择,也只有目标设定明确了,才能够缩小选择范围聚焦精力去发展。企业应时刻保持头脑清醒,朝着自己定好的目标前进,才有助于公司进行持续长久的良好运作。有时候,利用太复杂先进的数据分析工具往往也会带来很多问题,不过如果我们能够通过分析大量的数据来得到最终的结果,那就不用怀疑了,至少方向肯定是对的。
做好团队的协调。在大数据的世界里,最有价值和作用的数据往往十分稀少。要想找到真正有价值的数据,就如同大海捞针一样困难。所以,为了找到这些有价值的数据,企业内部应齐心协力通力合作,要经常保持有效的沟通和协作。
用机器代替人工。机器学习指计算机模拟或实现人类的学习行为,以获取新的知识或技能,从而对自身功能进行改进。机器学习相比人工学习,,速度更快,学习规模也更大,一个公司能通过机器学习较快地发现新的问题。所以,企业如果有大量的数据需要进行分析处理,最好的办法就是让机器代替人工来做,机器学习的速度很快,能在短时间内同时分析大量的数据,这样一来,所需的分析时间就会大大缩短。与人工分析相比,成本也会大大降低。
要谨慎对待数据。有时,企业是没有能力去获取数据的,也就没法用数据去
解决问题。就算公司获得了一些数据,他们往往也不清楚这些数据最终能否解决他们的问题。企业不仅应该了解收集到的数据到底能解决哪些问题,更应该知道,哪些问题还不能通过这些数据得到解决。如果还有一些问题解决不了,公司便需要继续收集其他维度的数据来补充。有时候,重要的数据可能会被忽略。所以,应谨慎认真对待数据,数据会真实客观地告诉你想要的答案。有时,数据能告诉你的会让你大吃一惊。
要避免得出错误的结论。由于人为主观因素和不相关数据的干扰,有时候得出的结论往往是错误的。“不要让不相干的数据影响到整个结果,有相当一部分的数据并不重要,这些不相关的‘树’往往并不能代表整个‘森林’。”Luzzi说,“如果使用了错误的数据,得出的结论往往也是错的。”数据选择上的错误会影响人们解决问题的过程,也会影响人们如何看待这些数据和结果。错误的数据选择可能影响到公司做出相关决策。
大数据的发展就是为了人们更好地利用数据,而大数据生态的建立为大数据的利用提供了系统的科学理论及实践方法,为以后的大数据发展奠定基础,本文也是能够让更多人了解大数据生态系统的组织结构和科学内涵。
参考文献
[1]李金昌.大数据与统计新思维[J].统计研究,2014,01:10-17.
[2]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,02:10-19.
[3]涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014,06:1612-1616+1623.
[4]任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述[J].软件学报,2014,09:1909-1936.
[5]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,09:1889-1908.
[6]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报(自然科学版),2014,05:405-419.
[7]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,06:1147-1162.
[8]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,06:1125-1138.
[9]申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,08:1786-1803.
[10]俞立平.大数据与大数据经济学[J].中国软科学,2013,07:177-183.
[11]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,S1:142-146.
[12]姜强,赵蔚,王朋娇,王丽萍.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015,01:85-92.
[13]何克抗.大数据面面观[J].电化教育研究,2014,10:8-16+22.
[14]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,01:1-44.
[15]彭宇,庞景月,刘大同,彭喜元.大数据:内涵、技术体系与展望[J].电子测量与仪器学报,2015,04:469-482.
[16]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,S2:216-233.
[17]王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,10:1741-1752.
[18]James M.TIEN. BIG DATA:UNLEASHING INFORMATION[J]. Journal of Systems Science and Systems Engineering,2013,02:127-151.
[19]刘越,贺佳,郭敏杰,杨青,张新生. 中国大数据行业发展综述(英文)[J]. 中国通信,2014,12:1-10.
[20]彭宇,庞景月,刘大同,彭喜元. 大数据:内涵、技术体系与展望[J]. 电子测量与仪器学报,2015,04:469-482.
[21]Hua-Ping Zhang,Rui-Qi Zhang,Yan-Ping Zhao,Bao-Jun Ma. Big Data Modeling and Analysis of Microblog Ecosystem[J]. International Journal of Automation and Computing,2014,02:119-127.
[22]Huadong Guo,Lizhe Wang,Fang Chen,Dong Liang. Scientific big data and Digital Earth[J]. Chinese Science Bulletin,2014,35:5066-5073.
[23]Changjun Jiang,Zhijun Ding,Junli Wang,Chungang Yan. Big data resource service platform for the internet financial industry[J]. Chinese Science Bulletin,2014,35:5051-5058.
[24]Howard Elias. The Big Data Challenge:How to Develop a Winning Strategy[J]. 中国制造业信息化,2012,14:53-55.
[25]Ronald ROUSSEAU. A view on big data and its relation to Informetrics[J]. Chinese Journal of Library and Information Science,2012,03:12-26.
百度搜索“就爱阅读”,专业资料,生活学习,尽在就爱阅读网92to.com,您的在线图书馆
欢迎转载:
分享:
推荐: 2002 2003 2005年环境心理学试卷
如何解答历史选择题
标签: 知识图谱构建技术综述
猜你喜欢
本文关键词:大数据系统综述,由笔耕文化传播整理发布。
本文编号:228588
本文链接:https://www.wllwen.com/wenshubaike/xxkj/228588.html