19大数据与宏观经济分析研究综述

发布时间：2016-10-23 10:01

本文关键词：大数据与宏观经济分析研究综述，由笔耕文化传播整理发布。

学科前沿；大数据与宏观经济分析研究综述；［内容提要］大数据对宏观经济分析具有革命性的意义；；了大数据对宏观经济政策制定的影响，并在此基础上对；一、引言；随着互联网的普及，信息总量正以空前的速度爆炸性增；（1PB=1024TB，1TB=个以“PB”；1024GB）为单位的数据信息新时代，即大数据时；；Apache公司的开源项目Nutch（一个开源软；处理的速度

学科前沿

大数据与宏观经济分析研究综述

［内容提要］大数据对宏观经济分析具有革命性的意义。在大数据时代，纷繁复杂的数据实时可得，整个社会经济产生了根本的变化。大数据在宏观经济分析应用中最活跃也是最重要的四个领域为：宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策。本文对大数据背景下宏观经济数据挖掘的来源和宏观经济预测方法进行了评述，探讨了大数据分析技术如何将机器

。本文还研究学习算法引入宏观经济分析，利用LASSO算法解决“维数灾难”

了大数据对宏观经济政策制定的影响，并在此基础上对大数据背景下的中国宏观经济分析提出了对策建议，认为政府应加大扶持力度，搭建平台，及早建立基于大数据的宏观经济分析模型，并加强学科和专业教育。［关键词］大数据宏观经济数据挖掘机器学习算法预测

一、引言

随着互联网的普及，信息总量正以空前的速度爆炸性增长，人类社会进入了一

（1PB=1024TB，1TB=个以“PB”

1024GB）为单位的数据信息新时代，即大数据时代。大数据，是指巨大而多样化的数据集①，这些数据的处理超出了目前主流软件的能力，因此必须改进处理数据

。“大数据”术语最早可以追溯到的工具

Apache公司的开源项目Nutch（一个开源软件实现的搜索引擎），，伴随谷歌的Ma-pReduce（映射和归约，是一种编程模型，用于大规模数据集的并行运算）和GFS（可扩展的Google文件系统），大数据不仅代表着数据规模，而且包含了数据

②

处理的速度。目前一般认为，大数据的典型特点可以用“4V”即大量化（Vol-ume）、快速化（Velocity）、多样化（Va-

*本文为中国博士后科学基金面上项目“大数据与宏观经济现时预测研究”（2014M560068）的阶段性成果。

—57—

国外理论动态·2015年第1期

riety）和价值化（Value）来概括。一是数据体量巨大。据估计，人类至今生产的所有印刷材料的数据量大约为200PB，而历史上全人类说过的所有的话的数据量大约为5EB（1EB=1024PB）。当前互联网上的数据以每年50%左右的速度增长，人类90%以上的数据都是最近几年产生的，到2013年，全球存储的数据预计能

达到约1.2ZB（等于2个字节，约10亿TB）。二是处理速度快。在如此海量的数据面前，处理数据的效率就是企业的生命。社交媒介、移动设备、网上交易和网络设备更新的速度非常快，巨大的数据流会导致传统数据分析的软硬件被淘汰，产生从快速生成数据中实时获取价值的专门技术和数据分析系统。三是数据类型繁多。构成大数据的信息类型来源不同，包括网络日志、音频、视频、图片、地理位置信息等。其中大概只有约10%属于结构化数据适合整齐地进入相关数据库的行和列，其余90%是非结构化数据。四是价值密度低。价值密度的高低与数据总量大小成反比。例如，一部1小时的视频，在连续不间断监控过程中，可能有用的数据只占一两秒时间。如何通过强大的机器算法更迅速地完成数据的价值“提纯”

③

变得十分重要，也是数据挖掘的关键。大数据正在深刻地影响着整个社会和经济的发展。从经济分析的角度看，国际上的大数据研究首先在行业研究、商务分析和企业应用层面快速发展，并逐渐影响到经济分析的各个领域。当前，在宏观经济分析中如何充分利用大数据方法和技术已经开始在国际上引起重视，从国内的情况来看，将大数据与宏观经济联系起来的研究还鲜有见到，宏观经济政策制定者对此也重视不够，而这正是本综述的目的和—58—

意义所在。

二、大数据对宏观经济分析的革命性意义

大数据开启了巨大的时代转型，就宏观经济分析而言，大数据时代带来的转变是重大且具有革命意义的。首先，大数据极大地拓宽了信息来源。大数据时代的重大变化是海量的可得数据。传统经济分析依靠的数据主要是样本，而在大数据时代，得到的数据可能就是总体本身，例如就物价而言，每一笔在电子商务网站成交的交易信息都能记录在案。大而全的可得数据对宏观经济分析是极其重要的，可以准确了解宏观经济形势，正确做出宏观经济发展预测，合理制定宏观经济政策。这些优势是传统经济分析方法无法想象和实现的。

其次，大数据时代信息获得的速度大大提高，很多信息实时可得。传统的经济分析主要依靠结构化数据，这些数据最明显的缺陷就是具有很强的时滞性。例如，政府公布的季度GDP往往会有1个月的滞后期，而反映全面经济社会状况的统计年鉴的滞后期会达到3个月左右，这对及时了解宏观经济形势、预测与预警都是非常不利的。大数据时代信息产生和传递的速度空前加快，如互联网上的大量信息是实时的，移动互联网和物联网使每个人随时随地都可能制造数据。大数据经济模型可以充分利用数据的实时性，提高分析或预测的时效性，为经济预警和政策制定提供最快速的资料和依据。

第三，大数据带来宏观经济分析的方法论变革。传统的经济计量模型建立在抽样统计学的基础上，以假设检验为基本模式。随着信息量的极大拓展和处理信息能

学科前沿

力的极大提高，经济分析可能从样本统计时代走向总体普查时代。这一点对宏观经济分析意义重大，因为宏观经济系统纷繁复杂，如果能将对整体宏观经济变量的分析建立在尽可能多的关于经济主体行为的信息以及其他诸多经济变量的信息的基础上，甚至抛弃原有的假设检验的模式，无疑将会极大地提高宏观经济分析的准确性和可信度。同时，经典计量模型以因果检验为核心，而大数据分析则往往将相关性发掘作为首要任务。在复杂的宏观经济系统中，当许多宏观经济中的因果关系往往难以准确检验、因果结论经常广受质疑时，更重视可靠相关关系的发掘，充分利用相关关系对于经济预测、政策制定与评估的作用，无疑为宏观经济分析打开了另一片广阔的空间。正因为如此，维克托·迈尔－舍恩伯格（VictorMayer－Schon-berger）与肯尼思·库克耶（KennethCukier）认为建立在相关关系分析基础上的预测是大数据的核心。

第四，大数据促进了宏观经济分析技术的革新。传统的分析技术基于关系型宏观经济数据，而分析模型主要基于统计数据，而大数据中的大量信息是非结构化的，数据的来源和形式复杂多样。如互联网信息包含文本、图片、影音等多种形式，在此状况下进行宏观经济分析，有必要借鉴计算机领域已经出现、但在现有经济领域还少有应用的数据处理技术，例如机器学习。机器学习已经在图像识别、语音识别、自然语言处理、智能机器人等领域取得了巨大成功，是当前进行大数据分析的基本手段。此类技术在宏观经济领域的应用会极大地提高经济分析的能力，改进分析结果、提升分析价值。另外，传统的经济计量对海量数据难以分析，发展适

合大数据的分析模型是经济计量面临的重

④

大挑战。

国际学术界和宏观经济政策制定者已经意识到大数据对宏观经济分析的革命性影响，将大数据的概念、方法、技术和宏观经济分析结合起来的做法正逐步得到重视，一些意义深远的研究工作逐步兴起。综合起来看，这些研究主要集中在宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策四个领域。

三、宏观经济数据挖掘

数据挖掘正在成为一个热门行业。简单地说，数据挖掘就是大数据时代的统计调查。随着互联网信息技术的逐步发展，获取的数据种类越来越多，数量越来越庞大，更新速度越来越快，数据中有大量“噪声”存在。显然，传统的统计调查方法不能适应大数据时代信息收集的需要，比如在内容形式上，互联网上的诸多信息是以多媒体方式存在的，统计调查无从下手；面对海量信息，统计调查速度慢，效率低。因此，充分依靠计算机进行信息收集的各种新技术应运而生，被称为“数

。数据挖掘多在利用网络爬虫软据挖掘”

件的基础上建立机器学习模型。其过程一般包括：先利用网络爬虫软件将原始信息从网上抓取下来；然后通过一定方法对这些数据进行清洗，将大量内容无用的“噪声”过滤掉，保留值得加工的信息；最后对剩下的内容进行加工提取，并转化为一定程度结构化的可用数据，如标准化为时间序列等。这一过程已经成为大数据方法中的标准程序之一。从宏观经济分析的角度，根据信息来源的种类，数据挖掘大体可分为两类。

—59—

国外理论动态·2015年第1期

第一类是对数量信息的收集整理。这一类工作要解决的问题是信息来源量大面广和快速更新的问题，比如麻省理工学院

10亿价格项目”（TheBillionPrices的“

Project，BPP）。研究团队在经济学家阿尔伯托·卡瓦洛（AlbertoCavallo）和罗伯托·瑞格本（RobertoRigobon）的带领下，通过“网络抓取技术”（webscrap-ing），利用网上购物交易数据计算日常通胀指数，收集世界来自70个国家、300个零售商、共500万种在线商品的价格，建立了通胀指数的日发布系统。相比传统CPI的月发布机制，“10亿价格项目”仅有3天的滞后期，几乎实现了通货膨胀的实时预测。

第二类是对非数量信息的收集整理。比如如何从文本、图片、视频等素材中挖掘出结构化、数量化的信息。这类工作除了要解决前述问题，还面临将非结构化数据转化为结构化数据这一更困难的艰巨任务。对一项典型的文本数据挖掘工作而言，假定任务是从日常的新闻报道中挖掘出媒体对经济的信心指数，那么基本过程

⑤

包括四步。第一步是选取部分文本，请专业人士进行标注以便分类，如可分类为“乐观、中性、悲观”三类，同一个文本可由三人分别标记，然后采取一定方法来计算语料标注的一致性，只有通过，方能被用于观点分类。第二步是对文本进行特征抽取和选择，特征抽取方法包括基于规则的特征抽取和基于统计的特征抽取。第三步是在特征抽取信息的基础上建立分类器，可同时考虑来源单位、作者身份、文本性质这三类信息，对已标注文本通过机器学习（如采用支持向量机算法）建立分类器。第四步是将此分类器应用于分类未标注文本，并将分类结果转化为时间系—60—

列数据。

数据挖掘是在借鉴众多领域研究思想的基础上逐步发展的，借鉴了统计学的抽样估计、人工智能和机器学习的搜索算法、建模技术和学习理论，还借鉴了信息论、最优化、可视化、信号处理和信息检索等思想。目前广为接受的数据挖掘处理模型是法耶德（UsamaFayyad）等人设计的多处理阶段模型。利用该模型数据挖掘，意在集中寻求数据挖掘过程中的可视化方法，便于人机交互；利用该模型也可以增强对多媒体数据、文本数据和图像数据等各种非结构化或半结构化数据挖掘的准确性。

四、大数据与宏观经济预测

大数据时代信息的实时和快速为及时高效的预测提供了可能，信息的规模庞大为准确合理的预测提供了机会。大数据背景下的宏观经济预测将更加有效、实用。国际上利用大数据进行经济分析与预测取得了一定的进展。BPP项目利用网上购物交易数据计算日常通胀指数。例如，BPP的数据显示，在雷曼兄弟公司2008年9月倒闭后，大部分美国企业几乎立刻开始削减价格，这表明总需求已经减

⑥

相比之下，官方通胀机构公布的数弱。

据直到当年11月，即在10月CPI数据公布后，才对通货紧缩有所反应。崔玄英（HyunyoungChoi）和瓦里安（HalVarian）介绍了谷歌趋势（GoogleTrends）如何可以用来为预测当前经济变量服务，发现失业和相关福利的搜索可以提高对于失业救济

⑦

首次申请时间的预测。阿斯基达斯（N．Askitas）和齐默尔曼（K．F．Zimmer-mann）⑧、阿穆里（F．D'Amuri）⑨以及苏霍

学科前沿

瑠瑏

依（T.Suhoy）也发现，互联网搜索可以预测德国、意大利和以色列有关劳动力市场的状况。崔玄英和瓦里安以及吴（L.Wu）和布林约尔松（E.Brynjolfsson）发现，

与住房有关的搜索可以改善传统模式对美

瑡瑏

国住房销售的预测。韦博（G.K.Webb）认，“止赎权”的检索次数和取消抵押品为

赎回权的实际数目是美国住房市场问题的

瑢瑏

一个早期预警。麦凯伦（N.McLaren）和山波霍格（R.Shanbhogue）检验了在线搜索对英国就业和住房市场预测活动的重要性，指出包含因特网搜索的模型提高了预

瑣瑏

测效果。

利用大数据对宏观经济进行预测最重要的方面当属宏观经济的现时预测（nowcasting）。“现时预测”一词最初源于气象学领域，是针对现在已经发生的事可能因为信息获取困难等原因难以直接知道准确情况，因而根据可得信息来进行推测。比如对宏观经济而言，在月底估测本月GDP总量是现时预测，因为“本月GDP是多少”这件事已经发生了，只是我们还不能马上拿到相关数据。因为信息技术的发展导致大量实时信息容易采集，崔玄英和瓦里安强调应充分利用大数据方法为经济现象的现时预测服务。目前对宏观经济的判断依赖于各种统计调查系统发布的统计数据，但面临的最大困难之一便在于关于宏观经济统计的数据滞后太多，基于此统计进行的预测甚至被认为助长了宏观经济波动。大数据时代大量实时数据的产生，为更快捷地估测宏观经济提供了可能，大数据理论与方法的发展则为现时预测提供了新的条件。

大数据也使得宏观经济预测模型产生了变化。传统的经济预测往往通过建立时间序列、截面或面板方程等几个模型来进

行，变量的完整被认为是不可能的。由于模型变量选择、参数设置、估计方法以及滞后期选择等的不同，预测结果会产生很大的偏差。大数据时代可以应用大量模型进行研究，并应用完备的数据信息，这对预测模型的改进提出了挑战，同时提高了预测的准确性。

麦凯伦和山波霍格指出，大数据对分析预测意想不到的事情也是特别有帮助的。例如经济形势的变更、暂时的工厂关闭和罢工等，传统的调查数据须根据预定的问题进行收集，而大数据时代搜索数据更灵活，可用于评估这些特殊情况，对宏

瑤瑏

观经济进行合理预测。

五、大数据分析技术与宏观经济分析

人类对大数据特别是结构化的、甚至看似杂乱无章的海量数据的分析能力的大大加强，有赖于机器学习（machinelearn-ing）算法的迅速发展。简单地说，机器学习就是让计算机经过“训练”在输入变量和输出变量间建立起某种“最佳”

，是指把输入的匹配关系。所谓“训练”

和输出信息都已知的样本输入计算机，然后根据一定的算法，由计算机生成由输入

。“机器”能够变量预测输出变量的方法

伴随计算、运行次数的增多，通过学习逐步自我提高和改善，使挖掘和处理更为准确。机器学习的主要算法包括线性模型、拓展的线性模型、决策树、支持向量机、人工神经网络、自组织映射网络、遗传算法等等，并仍在蓬勃发展。机器学习已经在图像识别、语音识别、自然语言处理、智能机器人等诸多领域取得了巨大成功，是当前进行数据挖掘和大数据分析的基本手段。大数据推动数据的分析向机器学习

—61—

三亿文库3y.uu456.com包含各类专业文献、中学教育、生活休闲娱乐、应用写作文书、文学作品欣赏、行业资料、19大数据与宏观经济分析研究综述_刘涛雄等内容。

下载地址：19大数据与宏观经济分析研究综述_刘涛雄.Doc

　　【】