1.2 用3V来描述大数据的特征
本文关键词:大数据的冲击,由笔耕文化传播整理发布。
> 其他综合 > 大数据的冲击 1.2 用3V来描述大数据的特征 2013-05-27 09:18:13 我要投稿
本文所属图书 > 大数据的冲击
本书是日本最畅销的大数据商业应用指南。书中结合野村综合研究独家披露的调查数据,网罗了美国、日本标杆企业与政府的应用案例,总结了大数据的商业模式,以及在大数据应用中需要注意的隐私问题,并就如何为大数... 立即去当当网订购
“大数据”这个词,光从字面来看,可能会让人觉得只是容量非常大的数据集合而已。但是,容量只不过是大数据特征的一个方面,如果只拘泥于数据量的话,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。
大数据的特征,可以用三个V开头的关键词来描述(图表1-1)。
(1) Volume(容量)
看到大数据这个词,大多数人的第一印象恐怕就是Volume,也就是数据量吧。从刚才我们讲到的大数据的定义来看,也就是指用现有技术无法管理的数据量,从现状来看,基本上是指从几十TB[1]到几PB[2]这样的数量级。当然,随着技术的进步,这个数值也会不断变化。例如,在5年以后,也许只有几EB[3]数量级的数据量才能够称得上是大数据了。
(2) Variety(多样性)
除了传统的销售、库存等数据,现在企业所采集和分析的数据还包括像网站日志数据、呼叫中心通话记录、Twitter和Facebook等社交媒体中的文本数据、智能手机中内置的GPS(全球定位系统)所产生的位置信息、时刻生成的传感器数据,甚至还有图片和视频,数据的种类和几年前相比已经有了大幅度的增加。
其中,近年来爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。当然,在这些种类的数据中,也有一些是过去就一直存在并保存下来的。
然而,和过去不同的是,这些大数据并非只是存储起来就够了,还需要对其进行分析,并从中获得有用的信息。以美国企业为代表的众多企业正在致力于这方面的研究。
监控摄像机的视频数据正是其中之一。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,目的是为了防止盗窃和帮助抓捕盗窃嫌犯,但最近也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。
例如,美国大型折扣店Family Dollar Stores,以及高级文具制造商万宝龙(Montblanc),都开始尝试利用监控摄像头对顾客在店内的行为进行分析。以万宝龙为例,它们过去都是凭经验和直觉来决定商品陈列的布局,但通过分析监控摄像机的数据,将最想卖出去的商品移动到最容易吸引顾客目光的位置,使得销售额提高了20%。
此外,美国移动运营商T-Mobile也在其全美1000家店中安装了带视频分析功能的监控摄像机,可以统计来店人数,还可以追踪顾客在店内的行动路线、在展台前停留的时间,甚至是试用了哪一款手机、试用了多长时间等,对顾客在店内的购买行为进行分析。
(3) Velocity(速度)
数据产生和更新的频率,也是衡量大数据的一个重要特征。例如,整个日本的便利店在24小时内产生的POS(Point Of Sales)数据,电商网站中由用户访问所产生的网站点击流数据,高峰时高达每秒7000条的Twitter推文,日本全国公路上安装的交通堵塞探测传感器和路面状况传感器(可检测结冰、积雪等路面状态)等,每天都在产生着庞大的数据。
在这一类数据中,作为日本特色而尤其值得关注的,就是Suica和PASMO等交通IC卡所产生的乘车数据和电子货币结算的历史数据了。
Suica和PASMO卡的发行量,截止到2011年7月末已经达到约5494万张,平均每月电子货币交易的使用次数高达约6686万次(图表1-2),平均每天最高使用次数约为262万次(以上均为2011年7月末的数据)。假设白天的时间为10小时,则可以算出,每秒发生的交易为50~100次,这完全可以堪称是大数据了吧。
和Edy、nanaco、WAON等流通型电子货币(IC卡)相比,交通IC卡的强项在于,它不仅能够反映在商店的消费记录,而且自然能够反映乘坐电车、公交车等交通工具的历史记录。由于大多数情况下会员都需要登记其特征数据,因此结合在站厅和车站附近的超市等商店中的消费记录,便可以对会员的行为做出深入的分析,得出结论如“20多岁的女性,乘××线到××站,非常喜欢在站厅进行购物”,“50多岁的男性,即便乘××线到××站,,也几乎不会在站厅购物”等。
像这样对时时刻刻都在产生的数据进行分析和处理是一项颇具挑战性的课题。不过,随着第2章中要介绍的流数据处理等新技术的出现,这样的分析和处理便成为了可能,而这也是推动最近大数据浪潮的重要因素之一。
点击复制链接 与好友分享!回本站首页 您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力 上一篇:1.1 The data deluge 下一篇:1.3 广义的大数据 相关文章1.1.2 短语“CMMI 符合性”在本书
1.2 敏捷方法入门
1.2.1 敏捷原则和实践
1.2.2 书中使用的敏捷术语
1.2 世界,你好!
1.2 更高的产品质量
1.2 担当责任
1.1.2 MATLAB的功能介绍
1.2.1 MATLAB的安装
1.2.2 MATLAB的启动
图文推荐本文关键词:大数据的冲击,由笔耕文化传播整理发布。
本文编号:331910
本文链接:https://www.wllwen.com/wenshubaike/mishujinen/331910.html