基于局部多项式的断点回归设计研究与应用
发布时间:2021-09-24 04:18
在断点回归设计的理论研究和实际应用中,非参数回归方法受到了人们的青睐,局部线性估计是断点回归设计中估计处置效应的标准方法。然而对于高震荡函数,局部线性估计在均方误差的意义下不一定是最好的。本文基于局部多项式的断点回归设计理论与应用展开,系统回顾了断点回归的发展历程。通过对已有的理论回顾,总结出处置效应估计目前主要存在两个问题:(一)在带宽选择中方差和偏差的估计问题;(二)多项式阶数的选择问题。对于问题(一),通过导数估计得到最优带宽是最基本的理论方法,然而研究表明对于边界点处的高阶导数估计,随着阶数的增加估计方差会急剧增加。在实际应用问题中,对各阶多项式在已有几种带宽选择方法下得到的最优带宽和处置效应估计进行比较是有意义的。对于问题(二),由于在实际场景下回归函数的先验信息和误差分布是未知的,为了得到实际应用的经验结果,我们通过对大样本(n=4000)和小样本(n=200)进行模拟研究,发现如下基本结论:在大样本情况下高震荡设计在阶数(p=4,3,2,1)的情况下估计结果均较好,特别是在msetwo带宽选择方法下二阶局部多项式具有最小标准误差;在小样本情况下,mserd带宽选择方法下的...
【文章来源】:曲阜师范大学山东省
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
1断点回归示意图
第3章统计模拟和断点回归实施程序11图3.1.1断点回归中条件期望函数DGP目前,文献中已有十几种断点回归中基于均方误差演变来的最优带宽选择方法。这里,通过Calonicoetal.(2017)的断点回归实施程序分别在有限样本n300和大样本n4000下使用上述3个设计进行统计模拟研究,得到有限样本和大样本下不同阶多项式在不同带宽选择方法下的处置效应估计结果,总结出一些经验性结论,为实际数据分析提供经验指导。表3.1.1(a-c)依次为上述3种设计下的统计模拟结果,可以看出前两个设计由于在阈值两侧波动均比较小,因此处置效应受带宽的影响较校对于Lee的设计,在大样本和小样本下的处置效应估计结果均非常好。对于该设计,选择三阶多项式和msetwo带宽具有在小样本和大样本下最下的标准误差0.01489和0.00393,其处置效应的估计结果分别为0.06595和0.04526;对于LM的设计,在大样本和小样本下的处置效应估计结果也均非常好。对于该设计,小样本选择二阶多项式,大样本选择三阶多项式,带宽选择方法使用msetwo的情况下具有最小的标准误差,分别为0.0842和0.00381,处置效应的估计结果分别为-3.4143和-3.4474;但是对于高震荡设计,在任何阶多项式下小样本的情况均非常糟糕,大样本下表现的相对较好。一个原因在于样本较小致使带宽较大,设计的高震荡性导致了较大的带宽中包含了大量的不可靠样本,从图3.1.1亦可看出,在阈值0右侧曲线在小范围内的剧烈波动是导致该问题的一个重要原因。而对于大样本,二阶多项式下msetwo带宽具有最小的标准误差0.02377,对应的处置效应估计结果为-0.95462。综上所述,对于上述三种设计,msetwo带宽选择方法均表现出最好的效果,而且局部线性回归并不能得到使标准误差最小的估计结果。结合统计模拟结果总结出一套对实际应用有
第3章统计模拟和断点回归实施程序13图3.2.1高震荡设计断点回归图下面为该命令部分主要参数的功能和默认值。c(断点):用于指定断点回归设计中的断点,其默认值为0;p(阶数):指定用于近似控制处置单位的总体条件均值函数的全局多项式的阶数,默认值为4;numbinlandnumbinr(bin的数量):指定断点左右两侧的bin的数量,如果不指定,将使用一些特定的理论方法进行计算,通常在实践中均不指定该参数(具体的理论方法详见stata和R的help文档);binselect:指定用于选择bin数量的程序。该参数仅在未手动设置带宽两侧bin数量时可用,即在不使用numbinl参数和numbinr参数时可用。有es,espr,esmv,esmvpr,qs,qspr,qsmv,qsmvpr几种可供选择程序。有关这几个参数值的具体理论细节,详见Calonicoetal.(2014);lowerendanduperend:指定横轴的下限和上限,默认值为最大值和最小值。图3.2.2给出了使用断点回归的基本流程和基于stata软件进行断点回归分析的伪代码,如伪代码1所示。其详细给出了使用stata软件进行断点回归时的具体步骤和需要注意的地方。是.否图3.2.2断点回归基本流程图存在处理效应是否存在跳跃?进行更加细致的计量实证分析绘制断点回归图断点回归的模型可能存在问题
【参考文献】:
期刊论文
[1]义务教育法与中国城镇教育回报率:基于断点回归设计[J]. 刘生龙,周绍杰,胡鞍钢. 经济研究. 2016(02)
[2]退休与城镇家庭消费:基于断点回归设计的经验证据[J]. 邹红,喻开志. 经济研究. 2015(01)
[3]新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用[J]. 余静文,王春超. 经济学动态. 2011(02)
本文编号:3407080
【文章来源】:曲阜师范大学山东省
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
1断点回归示意图
第3章统计模拟和断点回归实施程序11图3.1.1断点回归中条件期望函数DGP目前,文献中已有十几种断点回归中基于均方误差演变来的最优带宽选择方法。这里,通过Calonicoetal.(2017)的断点回归实施程序分别在有限样本n300和大样本n4000下使用上述3个设计进行统计模拟研究,得到有限样本和大样本下不同阶多项式在不同带宽选择方法下的处置效应估计结果,总结出一些经验性结论,为实际数据分析提供经验指导。表3.1.1(a-c)依次为上述3种设计下的统计模拟结果,可以看出前两个设计由于在阈值两侧波动均比较小,因此处置效应受带宽的影响较校对于Lee的设计,在大样本和小样本下的处置效应估计结果均非常好。对于该设计,选择三阶多项式和msetwo带宽具有在小样本和大样本下最下的标准误差0.01489和0.00393,其处置效应的估计结果分别为0.06595和0.04526;对于LM的设计,在大样本和小样本下的处置效应估计结果也均非常好。对于该设计,小样本选择二阶多项式,大样本选择三阶多项式,带宽选择方法使用msetwo的情况下具有最小的标准误差,分别为0.0842和0.00381,处置效应的估计结果分别为-3.4143和-3.4474;但是对于高震荡设计,在任何阶多项式下小样本的情况均非常糟糕,大样本下表现的相对较好。一个原因在于样本较小致使带宽较大,设计的高震荡性导致了较大的带宽中包含了大量的不可靠样本,从图3.1.1亦可看出,在阈值0右侧曲线在小范围内的剧烈波动是导致该问题的一个重要原因。而对于大样本,二阶多项式下msetwo带宽具有最小的标准误差0.02377,对应的处置效应估计结果为-0.95462。综上所述,对于上述三种设计,msetwo带宽选择方法均表现出最好的效果,而且局部线性回归并不能得到使标准误差最小的估计结果。结合统计模拟结果总结出一套对实际应用有
第3章统计模拟和断点回归实施程序13图3.2.1高震荡设计断点回归图下面为该命令部分主要参数的功能和默认值。c(断点):用于指定断点回归设计中的断点,其默认值为0;p(阶数):指定用于近似控制处置单位的总体条件均值函数的全局多项式的阶数,默认值为4;numbinlandnumbinr(bin的数量):指定断点左右两侧的bin的数量,如果不指定,将使用一些特定的理论方法进行计算,通常在实践中均不指定该参数(具体的理论方法详见stata和R的help文档);binselect:指定用于选择bin数量的程序。该参数仅在未手动设置带宽两侧bin数量时可用,即在不使用numbinl参数和numbinr参数时可用。有es,espr,esmv,esmvpr,qs,qspr,qsmv,qsmvpr几种可供选择程序。有关这几个参数值的具体理论细节,详见Calonicoetal.(2014);lowerendanduperend:指定横轴的下限和上限,默认值为最大值和最小值。图3.2.2给出了使用断点回归的基本流程和基于stata软件进行断点回归分析的伪代码,如伪代码1所示。其详细给出了使用stata软件进行断点回归时的具体步骤和需要注意的地方。是.否图3.2.2断点回归基本流程图存在处理效应是否存在跳跃?进行更加细致的计量实证分析绘制断点回归图断点回归的模型可能存在问题
【参考文献】:
期刊论文
[1]义务教育法与中国城镇教育回报率:基于断点回归设计[J]. 刘生龙,周绍杰,胡鞍钢. 经济研究. 2016(02)
[2]退休与城镇家庭消费:基于断点回归设计的经验证据[J]. 邹红,喻开志. 经济研究. 2015(01)
[3]新“拟随机实验”方法的兴起——断点回归及其在经济学中的应用[J]. 余静文,王春超. 经济学动态. 2011(02)
本文编号:3407080
本文链接:https://www.wllwen.com/kejilunwen/yysx/3407080.html