微观调查数据抽样权数的可忽略性检验及实证研究
发布时间:2021-08-26 14:30
在回顾以往文献对抽样权数争论的基础上,针对抽样权数在复杂调查数据推断分析中,是否可以忽略抽样权数给出了一个明确的判断思路。同时,以中国家庭追踪调查(CFPS)中家庭微观调查数据为例,测算了该调查数据抽样权数的低效性,给出Dumouchel-Duncan检验,并以实证研究方法验证了所提出的抽样权数可忽略性的检验思路及方法的可行性。
【文章来源】:统计与信息论坛. 2020,35(05)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
全国家庭抽样和再抽样权数分布图
为给出低效性的一个一般经验水平,这里给出了一些常见分布下的抽样权数频数分布图。样本量取1 000,见图1,从上往下依次为:均匀分布 [U(a=1,b=1 000)] 、正态分布 [N(μ =1 000,σ2=10)] 、二项分布 [B(n=50,p=0.25)] 、指数分布 [e(λ=0.1)] 、卡方分布 [χ2(3)] 、Possion分布 [P(λ=4)]抽样权数的频数分布图。因为这里都是权数所以不是整数的全部取最大整数。考虑到常数分布很简单,为一条水平直线,这里没有画出。对于常数分布,样本权数的低效性显然为零。因为此时的样本就是等概率抽选,也可以认为样本是自加权的,不存在因为权数的引入而造成估计量标准误的增大。因此,抽样权数的低效性为零,公式的计算结果也为零。可以认为,在不考虑抽样权数的调查数据分析时,都是默认抽样权数为常数,这显然可能会低估估计量的标准误,更主要的是通常会失去估计量无偏性。一般情况下,抽样权数的分布不会是常数,除样本是自加权样本外,均会产生抽样权数低效性的发生,这里测算了以上几种常见参数分布的抽样权数的低效性,见表1。
当抽样权数的分布为正态分布[N(μ=1 000,σ2= 10) ]、二项分布[B(n = 50,p = 0.25) ]和Possion分布[P(λ=4)]时,抽样权数的低效性比较小,也就是说考虑抽样权数对估计量标准误的影响很小,甚至可以忽略不计,这时候应该使用抽样权数,即在保证估计量无偏的情况下,不会对标准误产生很大影响;如果抽样权数的分布为指数分布[e(λ=0.1)]时,此时的抽样权数无效性达到了44.6%在这种情况下就要格外谨慎,虽然考虑抽样权数能使估计量无偏,但此时估计量的稳健性会较差。通常会选择稳健性,而放弃考虑抽样权数。当然也可以选择重新构建研究的子总体,获取新的抽样权数重新判断; 如果抽样分布类似均匀分布[U(a=1,b=1 000) ]和卡方分布[χ2(3)]时,低效性达到了24.5%和25%,此时考虑抽样权数可能会影响到估计量的标准误,至于影响的大小是否能够接受,可以用上述假设检验的方法去检验。但为什么不直接用该假设检验来判断呢?原因有二:一是低效性的判断方便快捷不依赖于所采用的方法;二是假设检验的判断,目前还局限于回归模型的分析中,虽然对其他模型的构建可以提供参考,但当前还没有证明该假设检验可以应用于其他一切模型。四、实证研究
【参考文献】:
期刊论文
[1]权数在人口抽样调查估计中的应用研究[J]. 王小宁. 统计与信息论坛. 2019(12)
[2]排序下PPS抽样估计量的修正与应用[J]. 王峰. 数理统计与管理. 2019(06)
[3]不均等选择概率下的加权调整研究[J]. 罗薇. 统计与信息论坛. 2017(04)
本文编号:3364415
【文章来源】:统计与信息论坛. 2020,35(05)北大核心CSSCI
【文章页数】:8 页
【部分图文】:
全国家庭抽样和再抽样权数分布图
为给出低效性的一个一般经验水平,这里给出了一些常见分布下的抽样权数频数分布图。样本量取1 000,见图1,从上往下依次为:均匀分布 [U(a=1,b=1 000)] 、正态分布 [N(μ =1 000,σ2=10)] 、二项分布 [B(n=50,p=0.25)] 、指数分布 [e(λ=0.1)] 、卡方分布 [χ2(3)] 、Possion分布 [P(λ=4)]抽样权数的频数分布图。因为这里都是权数所以不是整数的全部取最大整数。考虑到常数分布很简单,为一条水平直线,这里没有画出。对于常数分布,样本权数的低效性显然为零。因为此时的样本就是等概率抽选,也可以认为样本是自加权的,不存在因为权数的引入而造成估计量标准误的增大。因此,抽样权数的低效性为零,公式的计算结果也为零。可以认为,在不考虑抽样权数的调查数据分析时,都是默认抽样权数为常数,这显然可能会低估估计量的标准误,更主要的是通常会失去估计量无偏性。一般情况下,抽样权数的分布不会是常数,除样本是自加权样本外,均会产生抽样权数低效性的发生,这里测算了以上几种常见参数分布的抽样权数的低效性,见表1。
当抽样权数的分布为正态分布[N(μ=1 000,σ2= 10) ]、二项分布[B(n = 50,p = 0.25) ]和Possion分布[P(λ=4)]时,抽样权数的低效性比较小,也就是说考虑抽样权数对估计量标准误的影响很小,甚至可以忽略不计,这时候应该使用抽样权数,即在保证估计量无偏的情况下,不会对标准误产生很大影响;如果抽样权数的分布为指数分布[e(λ=0.1)]时,此时的抽样权数无效性达到了44.6%在这种情况下就要格外谨慎,虽然考虑抽样权数能使估计量无偏,但此时估计量的稳健性会较差。通常会选择稳健性,而放弃考虑抽样权数。当然也可以选择重新构建研究的子总体,获取新的抽样权数重新判断; 如果抽样分布类似均匀分布[U(a=1,b=1 000) ]和卡方分布[χ2(3)]时,低效性达到了24.5%和25%,此时考虑抽样权数可能会影响到估计量的标准误,至于影响的大小是否能够接受,可以用上述假设检验的方法去检验。但为什么不直接用该假设检验来判断呢?原因有二:一是低效性的判断方便快捷不依赖于所采用的方法;二是假设检验的判断,目前还局限于回归模型的分析中,虽然对其他模型的构建可以提供参考,但当前还没有证明该假设检验可以应用于其他一切模型。四、实证研究
【参考文献】:
期刊论文
[1]权数在人口抽样调查估计中的应用研究[J]. 王小宁. 统计与信息论坛. 2019(12)
[2]排序下PPS抽样估计量的修正与应用[J]. 王峰. 数理统计与管理. 2019(06)
[3]不均等选择概率下的加权调整研究[J]. 罗薇. 统计与信息论坛. 2017(04)
本文编号:3364415
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3364415.html