当前位置:主页 > 经济论文 > 新经济论文 >

关于综合运用Benford法则和面板模型检测统计数据质量的研究

发布时间:2016-11-10 07:48

  本文关键词:关于综合运用Benford法则和面板模型检测统计数据质量的研究,由笔耕文化传播整理发布。


当前位置:首页 >> 教育学/心理学 >> 关于综合运用Benford法则和面板模型检测统计数据质量的研究


第 29 卷第 11 期 2012 年 11 月

统计研究 Statistical Research

Vol. 29 ,No. 11 Nov. 2012

关于综合运用 Benford 法则和面板模型 检测统计数据质量的研究
*

刘云霞

吴曦明

曾五一

内容提要: 本文介绍了如何利用 Benford 法则来检测统计数据质量的一般方法 。 在此基 础 上, 进一步探讨了如 何将其与面板模型相结合从而找出可能存在质量问 题 的 具 体 地 区 和 时 间 序 列 数 据 的 方 法 。 并 利 用 上 述 方 法 对 我 国多个国家级开发区的主要经济指标的数据质量进行了实证分析 。 关键词: 数据质量; Benford 法则; 面板模型 中图分类号: O212 文献标识码: A 文章编号: 1002 - 4565 ( 2012 ) 11 - 0074 - 05

Detecting Statistical Data Anormality by Combining Benford ’ s Law and Panel Data Models
Liu Yunxia Wu Ximing Zeng Wuyi
Abstract : This article describes a general method that can detect statistical data abnormalityby Benford ’ s law. In addition ,the article discusses how to combine Benford ’ s Law with panel data models to identify the observations that may have data quality problems. We demonstrate the applicability of the proposed method method with an examination on major economic indicators of Chinese national development zones. Key words : Data Quality ; Benford ’ s Law ; Panel Model

数据质量是 统 计 工 作 的 生 命 线 。 近 年 来, 我国 统计数据的质量问题已成为各级政府和社会各界关 注的热点 。 如何利用科学的方法来诊断统计数据的 质量, 也成为统计学界重点探讨和研究的一项课题 。 本文拟对如何 利 用 Benford 法 则 来 检 测 统 计 数 据质量的方法做一些介绍, 在此基础上, 进一步探讨 如何将其与面板模 型 相 结 合, 进一步找出可能存在 质量问题的具体地 区 和 时 间 数 据 的 方 法, 并利用我 国国家级 开 发 区 有 关 经 济 指 标 的 数 据 开 展 实 证 分 析, 验证该方法的适用性 。

机数要比以 2 为 第 一 位 数 的 随 机 数 出 现 的 频 率 要 大, 而以 2 为第一位 数 的 随 机 数 又 比 以 3 为 第 一 位 并 可 以 此 类 推。当 时 数的随机数出现 的 概 率 要 大, Simon Neweomb 关 注 这 一 数 学 现 象 完 全 是 出 于 好 奇, 并没有对这一规律做出解释 。 到了 1938 年, 美 国 通 用 电 器 ( GE ) 的 物 理 学 家 Frank Benford 注意到了同样的现象 。 他收集并验证 其中包括篮球比赛的数字 、 河流的 了 20229 个数字, 长度 、 湖泊的面积 、 各 个 城 市 的 人 口 分 布 数 字、 在某 一杂志里出现的所有数字, 发现在这些数字中, 整数 1 在数字中 第 一 位 出 现 的 概 率 大 约 为 30% , 整数 2 在数字中第一位出现的 概 率 大 约 为 17% , 整数 3 在 数字第一位出现的概率 约 为 12% , 而 8 和 9 在数字 中第一位出现的概率约为 5% 和 4% 。 经过研究后,
* 本文为国家社科基金重点项目 “国家统计数据质量管理 问 题 研究( 09AZD045 ) ” 阶段成果之一; 同时 获 得 中 央 高 校 基 本 科 研 业 务 费专项资金资助( 0140 zk1008 ) 。

Benford 法则 一、
Benford 法则是 由 美 国 数 学 家 、 天 文 学 家 Simon Neweomb 在 1881 年 首 次 发 现 的 。 在 1851 年 的 一 天, 他在使用对数表做计算时, 注意到对数表的第一 页要比其他页更为破旧 。 奇怪的现象激发了他的研 究兴趣, 经过大量的统计分析, 他发现许多类型的数 字都很好地符合这 样 的 规 律: 以 1 为 第 一 位 数 的 随

第 29 卷第 11 期

刘云霞等: 关于综合运用 Benford 法则和面板模型检测统计数据质量的研究

· 75 ·

Frank Benford 得出这 样 一 个 结 论: 大 量 自 然 数 据 的 这就是 Benford 首位数字的出现频率符合这个规律, 法则
[1]

该法则用于会计舞弊的发现研究; 在统计领域, 也有 学者将 此 法 则 用 于 检 验 数 据 的 准 确 性 。 如 George Judge 等( 2009 ) [1] 将此法则 用 于 检 测 调 查 数 据 的 质
[3] 金瑛( 2010 ) 将该法则用于对 M2 统计 量; 许涤龙 、

。 Benford 法则主张: 在不同种类的统计数字 ( 1)

中, 首位数字是数字 d 1 的概率是: P ( First digit is d 1 ) = log 10 ( 1 + ( 1 / d 1 ) ) 其中, 首位数字是指左边的第一位非零的有效 Benford 法 则 中 首 位 数 分 别 出 数字 。 根据公 式 ( 1 ) , 现 1 ~ 9 的概率如下表:
表1
首位数 概率 首位数 概率

数据准确性的研究 。

Benford 法则的检验方法 二、
目前有四种方法可以检验一个统计数据集首位 数字的概率分布是否服从 Benford 法则的分布 。

Benford 法则中首位数的概率分布
1 0. 3010 6 0. 0669 2 0. 1761 7 0. 0580 3 0. 1249 8 0. 0512 4 0. 0969 9 0. 0458 5 0. 0792

( 一) χ 2 拟合优度检验 通过 χ 拟合优度检验, 可以检测统计数据 中 首 位数的频率分布是 否 与 Benford 法 则 下 的 分 布 有 显 著差异 。 χ 统计量为:
2 2 2

Benford 法则提出之后引起了人们的极 大 关 注 。 1996 年美国学者 Hill 从理论上对 Benford 法 则 给 出 并进行了严谨的数学证明 了满意的解释,
[2]

χ

= N·Σ

9 i=1

[ ( ei - bi ) 2 / ( bi ) ]

( 5)

。后来

ei 是 统 计 数 据 中 首 位 ( 第 二 位 或 者 第 三 其中, b i 是 Benford 法 则 下 首 位) 出现数字 i 的 实 际 频 率, 位( 第二位或者第三位) 出现数字 i 的理论频率 。 显
2 5% 和 1% 时, 著性水平 分 别 为 10% 、 χ 检验的临界

有学者根据公式 ( 1 ) , 还 推 导 出 了 第 二 位 数 为 d2 以 及第三位数为 d 3 的概率, 并且这种对数规律可以类 推至第四位 、 第五位数出现的概率 P ( Second digit is d 2 )
9 [3]



15. 51 和 20. 09 。 如果 χ 统计量的 值分别是 13. 36 、 则接受备择假设, 说明统计数据首位 值大于临界值, ( 2) 数字的频 率 分 布 不 符 合 Benford 分 布, 即说明该数 应引起注意 。 据可能存在质量问题, ( 二) 修正 KolmogorovSmirnov 拟合优度检验 ( 3) K-S 检验是用来检验单一样本是 否 来 自 某 一 特 定理论分布的方法 。 它是以样本数据的累积分布函 数与特定理论分布 的 累 积 分 布 函 数 作 比 较, 求这两 ( 4) 个累积 分 布 函 数 的 差 的 绝 对 值 中 的 最 大 值 D 。 然 后, 通过查表以确定 D 值 是 否 落 在 所 要 求 对 应 的 置 信区间内 。 若 D 值大于 临 界 值, 说明被检测的数据 不服从这一特定理论分布 。 K-S 拟合优 度 检 验 的 统 计量为: D = max F e ( x ) - F b ( x ) ( 6) Fe ( x) 是 实 际 的 统 计 数 据 中 首 位 数 的 累 其中, F b ( x ) 是 理 论 分 布 即 Benford 法 则 下 首 积分布函数, 位数的累积分布函数 。 Kuiper 对 K-S 拟合 优 度 检 验 作 了 修 正[8] , 得到 如下统计量: V N = max[ F e ( x ) - F b ( x) ] + max[ F b ( x) - F e ( x) ] Stephens 对公式( 7 ) 的统计量再作修正 V
* N [9]

2

=

Σ
9

log 10 1 +

d1 = 1

(

(

1 d1 · d2

)) )) ))

P ( Third digit is d 3 )
9

=

ΣΣ
9 9

log 10 1 +

d1 = 1 d2 = 1

(

(

1 d1 · d2 · d3

P ( Fourth digit is d 4 )
9

=

ΣΣΣ

log10

d1 = 1 d2 = 1 d3 = 1

( (

1 1 + d1 ·d2 ·d3 ·d4

根据 Benford 法 则, 高质量的数据首位数字的 出现应该遵循上述概率, 并且数据规模越大, 数据首 位数字的概率分 布 就 越 应 该 符 合 Benford 法 则 。 如 果存在弄虚作假或者拼凑 、 修饰数据的行为, 这种规 律有可能被破坏 。 因 此, 如果一组统计数据的首位 数字的概率分布与 Benford 法 则 下 的 首 位 数 字 概 率 分布存在差异时, 该数据的准确性就值得怀疑了 。 也正是因为这个特点, 国内外的税务 、 会计和审 计领域都已经将此 法 则 作 为 检 测 数 据 是 否 有 修 饰 、 篡 改 、舞 弊 的 方 法 之 一 。 例 如,Mark J. Nigrini ( 1992 ) [4] 提出该法则可用 于 检 查 是 否 有 伪 账, 并且 可以推而广之用于 会 计 、 金融甚至选举中出现的数
[5] [6] 、 据检测; 张苏 彤 ( 2005 ) 王 福 胜 等 ( 2007 ) 将该 [7] 法则用作舞弊审计的分 析 方 法; 狄 为 等 ( 2010 ) 将

( 7) , 有: ( 8)
-? ?

= V N[ N

? ?

+ 0. 155 + 0. 24 N



· 76 ·

统计研究

2012 年 11 月

5% 以及 1% 显著性水 该拟合优度检验在 10% 、 1. 32 和 1. 58 。 平下的临界值分别为 1. 19 、 ( 三) 距离检测
[1]

可能存在质量问题 。 其次, 利用面板模型对上述可能存在质量问题 的统计指标作进一步分析 。 最后, 检查面板模型诊断发现的异常点的数据 的首位数与 Benford 法则检验中发现存在的出现 频 率偏大的首位数是 否 相 同, 如果相同则可有较大的 把握判断该异常点的数据确实存在质量问题 。 如果 则可以认为尽管存在异常点, 但这种异常可能 不同, 并非由于数据质量造成的 。 以 上 将 Benford 法 则 和 面 板 模 型 加 以 综 合 运 用的方式, 不 仅 可 以 解 决 单 纯 的 Benford 法 则 检 验 无法判断具体样本点的数据是否存在 质 量 问 题 的 难点, 而且 还 可 弥 补 单 纯 利 用 面 板 模 型 诊 断 数 据 质 量 方 法 的 不 足 。利 用 面 板 模 型 诊 断 统 计 数 据 质 量的基本 思 想 是: 任 何 一 种 统 计 指 标 与 其 相 关 的 一组( 或一项) 指 标 之 间 的 关 系, 都可以用面板模 整体模型 型来近似 反 映。如 果 回 归 估 计 的 结 果, 拟合得很好, 仅有个别数据严重偏离既 定 模 型, 则 可以认为处在这些点( 奇异点) 上数据的准确性可 能存在问 题, 有 必 要 作 进 一 步 的 观 察 与 分 析。 利 用面板模 型 诊 断 统 计 数 据 质 量 的 最 大 难 点 在 于: 当诊断结 果 出 现 异 常 时, 实际上难以判断这一异 常是由于 数 据 质 量 引 起 的, 或是该点的实际情况 并 不 符 合 所 选 用 的 模 型 引 起 的 。 Benford 法 则 和 面 板模型的综合运用可以从另一个侧面 找 出 可 能 存 在质量问 题 的 数 据, 从而明显提高了统计诊断结 论的可靠性。

通过 计 算 统 计 数 据 首 位 数 字 的 频 率 分 布 与 Benford 分布之间的距离, 可以检测该数列是否符 合 Benford 法则 。 这样的距离有: m = max i = 1 , 2, ……, 9 { | bi - ei | } d = ( 9) ( 10 )

( 四) Pearson 相关系数 通过计算统计数据中首位数字的频率分布与 Benford 法则下首 位 数 字 的 频 率 分 布 的 Person 相 关 系数, 也可以判断两个分布是否有差异, 其判断标准 见表 2 。
表2
分级 正常 关注 可疑





9 i=1

( bi - ei )

2

}

根据相关系数进行判断的分级标准
相关系数分级标准 0. 99 < r ≤1 0. 97 < r ≤0. 99 r ≤0. 97 说

[10 ]



完全符合 Benford 法则 存在一定程度篡改数据的可能性 有篡改数据的迹象, 需特别注意

Benford 法则和面板模型的综合 三、
虽然 Benford 法则 在 数 据 质 量 的 诊 断 中 已 经 得 到不少运用, 但是应 当 指 出 其 仍 然 存 在 不 少 有 待 进 一步研究改进的问题 。 第一, 并不是所有的数据样本都一定服从 Benford 法则 。 能够用 Benford 法则来进行分析的数 也 据应该符合以下条件: ① 数值既不是完全随机的, 不能过度集中于某个区间; ② 数值不能存在上下限; ③ 数值在一个很宽 的 范 围 里 连 续 变 动, 不存在间断 点或间断区间; ④ 数字没有被特别赋值; ⑤ 数值的形 成受多种因素的影响, 是多种因素综合作用的结果 。 第二, 就 Benford 法 则 本 身 来 说, 如果数据检测 结果符合 Benford 法 则 的 频 率 分 布, 也并不意味着 一定不存在数据质量问题 。 因为当数据总量非常大 的时候, 并且有质量问题的数据发生次数不多时, 它 们就会淹没在大样本的规律之中, 而不能被发现 。 第三, 在现实中, 人们更希望了解的不仅是何类 统计数据可能存在质量问题, 而是哪一个单位 、 哪一 个时间的数据可能存在问题 。 对于上 述 问 题, 我们提出以下进一步完善的 思路: 首先, 利 用 Benford 法 则 检 验 何 种 统 计 指 标 有

四、 实证分析
( 一) 数据来源 实证分析采用 的 数 据 来 源 于 两 个 方 面: 2002 - 2008 年的数据 来 源 于 2003 - 2009 年 版 的《中 国 开 ; 2009 - 2010 年 的 数 据 来 源 于 中 国 开 发 发区年鉴 》 区网站的统计公报( http : / / www. cadz. org. cn / ) 。 在 上述资料 来 源 中, 各 开 发 区 公 布 的 指 标 不 尽 相 同。 因此我们选取了各 开 发 区 都 发 布 的 地 区 生 产 总 值 、 工业总产值( 现价) 、 工业增加值( 现价 ) 、 税收 收入 、 出口总额 、 进口总额 六 个 重 要 的 经 济 指 标 作 为 分 析 的对象 。 另外, 我国国家级开发区在 2002 - 2008 年 2009 年 以 后 扩 大 为 90 个, 考虑到各 之间为 54 个, 年数据的一致性, 这里我们只采用 2002 - 2010 年均 有数据的 54 个开发区作为研究对象 。

第 29 卷第 11 期

刘云霞等: 关于综合运用 Benford 法则和面板模型检测统计数据质量的研究

· 77 ·

表3
首位数字 Benford Law 地区生产总值 工业总产值 工业增加值 税收收入 出口总额 进口总额 476 467 462 463 467 461 Obs 1 30. 103 31. 513 29. 764 30. 952 31. 965 30. 835 31. 67 2 17. 609 15. 126 18. 415 17. 316 15. 983 14. 989 19. 306

各指标首位数字的频率分布
3 12. 494 12. 395 14. 989 11. 255 12. 527 11. 991 11. 497 4 9. 691 9. 034 10. 493 9. 74 6. 695 10. 707 7. 592 5 7. 918 9. 664 6. 638 7. 576 6. 695 10. 493 9. 111 6 6. 695 5. 462 6. 852 7. 143 6. 479 7. 709 6. 941 7 5. 799 6. 723 4. 711 5. 628 8. 639 6. 21 4. 555 8 5. 1151 4. 832 5. 567 5. 628 5. 616 4. 069 5. 423 9 4. 576 5. 252 2. 57 4. 762 5. 4 2. 998 3. 905

( 二) 6 个指 标 首 位 数 字 的 频 率 分 布 及 Benford 分布的检验 由于 Benford 法 则 具 有 样 本 量 越 大, 效果越明 显的特点, 所以我们 将 这 6 个 指 标 9 年 的 数 据 合 在 一起来观察它们的 首 位 数 字 的 频 率 分 布, 从而更好 地验证它们是否 符 合 Benford 法 则 。 表 3 是 6 个 指 标 9 年数据首位数字出现的频率分布表 。 从表 3 可 以 看 出, 各指标首位数字的频率分布 与 Benford 法则的频 率 分 布 有 一 定 差 别 。 但 这 种 差 别是否显著还需要进行一定的检验 。 我们根据公式 ( 5 ) ~ ( 10 ) , 计算有关统计量, 用来检验各指标数据 首位数字 的 频 率 分 布 是 否 符 合 Benford 法 则, 计算 结果见表 4 。
表4 2002 - 2010 年各指标首位数字频数分布与 Benford 分布的拟合优度检验
r 地区生产总值 工业总产值 工业增加值 税收收入 出口总额 进口总额 0. 9871 0. 9883 0. 9975 0. 9791 0. 9818 0. 9921 χ
2

这 说 明, 率 分 布 比 Benford 法 则 的 频 率 分 布 要 大 , 出现质量问题的数据很有可能就出现 在 首 位 数 为 1、 7、 8 及 9 的数据中。因此审查数据时, 对那些首 7、 8 及 9 的税收收入数据的开发区应多 位数为 1、 加考察。 ( 三) 建立面板数据模型 为了充分利用 54 个 国 家 级 开 发 区 在 不 同 时 间 上的数据信息, 我们 将 通 过 面 板 模 型 来 进 一 步 诊 断 哪些开发区 在 哪 些 年 份 的“税 收 收 入 ” 指标可能存 在数据质量问题 。 在模 型 的 建 立 中, 考虑到各国家级开发区的具 税收优惠政策等不同, 因而导致 体情况如产业结构 、 不同开发区 的“税 收 收 入 ” 指标与其他指标之间的 关系也存在差异 。 为 了 体 现 这 种 差 异, 我们采用面 板数据的 变 系 数 模 型 来 对 现 有 数 据 进 行 拟 合 。 另

V* N 0. 7121 0. 8935 0. 3952 1. 3068 * 1. 092 0. 7062

m 0. 0248 0. 025 0. 0124 0. 03 0. 0262 0. 021

d 0. 0368 0. 037 0. 0167 0. 0485 0. 0433 0. 0365

外, 由于地区生产总值 、 出口总额 、 进口总额 、 工业总 产值 、 工业增加值等 5 个指标之间相关性比较高, 如 果都加入模型作为自变量将存在多重共线性 。 为降 低多重共线性的影响, 本文经过筛选, 选取了地区生 产总值作为模型的 解 释 变 量, 税收收入作为被解释 变量 。 从本文主要目的是筛选数据质量存在问题的 开发区这一角度 来 看, 这 种 处 理 方 法 是 合 适 的。具 体模型为: TAX it = α + β i GDP it + u it ( 11 ) i = 1, 2, …, 54 ; t = 1 , 2, …, 9 。 TAX it 为 各 其中, GDP it 为各开发区 在 个开发区在某一年的税收收入, α 是模型的截距项, β i 为斜率系 某一年的生产总值, u it 是随机误差项 。 数, 其随开发区的不同而不同, 我们利用广义最小二乘法对上述模型进行了估 计 。 从检验结果可 以 看 出, 面板数据模型中的截距 项和各开发区的斜 率 系 数 非 常 显 著, 同时调整后的 R 2 达到了 0. 976 , 模 型 整 体 拟 合 效 果 较 好。这 为 我 们下一步分析提供了较好的基础 。

6. 3596 9. 0590 1. 2042 12. 9646 10. 7981 6. 2312

注: 表中带 * 的数据表示大于显著性水平 10% 的临界值 。

6 个 指 标 的 相 关 系 数 中, 表 4 的数据 表 明, 除 “税 收 收 入 ” 为 0. 9791 外 , 其 他 5 个 指 标 都 在 0. 99 6 个指标的 χ 值都小于 左右。从 χ 统计 量 来 看, 10 % 显 著 性 水 平 的 临 界 值, “税 收 收 入 ” 的 χ 值是 其中最大的; 从 V V
* N * N 2 2 2

检 验 来 看, 只 有“税 收 收 入 ” 的
* N

统 计 量 值 大 于 显 著 性 水 平 10 % 的 V

临界值;

“税 收 收 入 ” 另 外, 的 m 值和 d 值在 6 个指标中也 是最大的。所 以, 虽然各种拟合优度检验的结果 不大一样, 但 可 以 推 断 出“税 收 收 入 ” 这个指标的 数据可能存在一定的质量问题。从 其 首 位 数 分 布 7、 8 及 9 的数据的频 情况看, 该 指 标 首 位 数 为 1、

· 78 ·

统计研究

2012 年 11 月

( 四) 根 据 残 差 分 析 查 找 税 收 收 入 异 常 的 开 发区 在面 板 数 据 模 型 的 结 果 中, 利用残差所提供的 如 信息可以对数据 的 质 量 进 行 诊 断 。 一 般 情 况 下, 果模型可靠, 则残差 特 别 大 的 样 本 点 数 据 出 现 质 量 问题的可能性较大 。 根据 2002 - 2010 年的残差数据, 我们计算了每 即: 个开发区每年残差的标准化数值, z ij = x ij - x 珋 i σi ( 12 )

参考文献
[ 1 ]George Judge , Laura Schechter. Detecting Problems in Survey Data Using Benford ’ s Law[J]. The Jounal of Human Resources , 2009 , 44 : 1 - 24 . [ 2 ]Hill T. P. A Statistical Derivation of the Significant-Digit Law[J]. Stat. Sci , 1996 , 10 : 354 - 363 . [ 3 ]许涤龙, 金瑛 . 基 于 Benford 法 则 的 M2 统 计 数 据 准 确 性 研 究 [J]. 统计与信息论坛, 2010 ( 8 ) . [ 4 ]Mark J. Nigrini. The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies [D]. Ph. D. thesis. Cincinnati ,, University of Cincinnati , 1992. [ 5 ]张苏彤 . 奔福德定律: 一 种 舞 弊 审 计 的 数 值 分 析 方 法[J]. 中 国 2005 ( 11 ) . 注册会计师, [ 6 ]王福胜, 李勋, 孙逊 . 奔福德定律及其在审计 中 的 应 用 研 究[J]. 2007 ( 3 ) . 财会通讯, [ 7 ]狄为, 施鹏仙 . 基于 Benford 定律的会计舞弊发 现 研 究[J]. 会 计 2010 ( 9 ) . 之友, [ 8 ]Giles , David E. Benford ’ s Law and Naturally Occurring Prices in Certain EBay Auctions[J]. Applied Economics Letters , 2007 , 14 ( 3 ) : 157 - 61 . [ 9 ]Stephens , Michael A. Use of the Kolmogorov-Smirnov , Cramer-Von Mises and Related Statistics without Extensive Tables[J]. Journal of the Royal Statistical Society , Series B , 1970 , 32 ( 1 ) : 115 - 22. [ 10]许存兴, 王大江, 张 芙 蓉. 上 市 公 司 审 计 意 见 实 证 分 析 - 基 于 Benford 法则的造假检测[J]. 南京财经大学学报, 2009 ( 4 ) .

x ij 是第 i 年第 j 个开发区的残差, x 其中, 珋 i 是第 i 年所有开发区残差 的 平 均 值, σi 是 第 i 年 所 有 开 发 区残差的标 准 差 。 如 果 某 个 开 发 区 的 z ij 值 大 于 2 , 就可以认为该开发区税收收入数据很可能是异常数 我们发现 9 年间各开发区共有 28 个异常 据 。 据此, 数据 。 观察这些异 常 数 据 的 首 位 数 分 布, 结合前述 Benford 法则的分析结果( 即首位数为 1 、 7、 8及9的 数据可能存 在 质 量 问 题 ) , 我们发现面板模型检验 发现 的 28 个 异 常 数 据 中 有 18 个 数 据 同 时 也 是 Benford 法则诊 断 可 能 存 在 问 题 的 数 据 。 对 这 些 开 发区这些年份的税 收 数 据 有 必 要 做 进 一 步 的 检 查, 查出其可能存在问题的原因 。 这 18 个数据主要集中在 9 个开发区, 即与其他 开发区相比, 这 9 个开发区 GDP 的回归系数明显较 高 。 将各开发区 GDP 的 回 归 系 数 从 高 到 低 排 序 之 后发现, 排名前 6 位 的 开 发 区 中 有 5 个 开 发 区 属 于 税收数据可能存 在 问 题 的 开 发 区 。 对 此, 一个可能 区内企 的解释是: 由于各个开发区所处的地区不同, 业类型也不同, 导致开发区之间 GDP 与税收的关系 本来就存在差异 。 相比平均税负比较低的开发区而 言, 平均税负较高的 开 发 区 人 为 调 低 税 收 的 冲 动 更 大, 这就导致这些开 发 区 在 某 些 时 期 上 报 的 税 收 收 入可能会低于其应有的真实水平 。

作者简介 34 岁, 刘云霞, 女, 山西省人, 厦门大学经济学院统计系 助理教授, 硕士生导师 。 研究方向为统计分析与数据挖掘 。 37 岁, 吴曦明, 男, 厦门大学 经 济 学 院 统 计 系 讲 座 教 授 、 ( 美) 《美 国 农 美国得克萨斯农机大学农业 经 济 学 系 副 教 授, 业经济 》 杂 志 副 主 编。研 究 方 向 为 计 量 经 济 学、 金 融 计 量、 宏观经济 、 劳动经济 。 59 岁, 曾五一, 男, 福建省人, 厦门大学经济学院统计系 博士生导师, 中国统计学会顾问 、 教育部统计学 教 学 指 教授 、 导分委员会副主任委员 、 国家统计局咨询委员 。 研究 方 向 为 国民经济统计 、 统计理论与方法 。

( 责任编辑: 程 晞)



  本文关键词:关于综合运用Benford法则和面板模型检测统计数据质量的研究,由笔耕文化传播整理发布。



本文编号:169494

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jjtj/169494.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a83bb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com