贵州省精准扶贫中贫困户的识别研究
本文关键词:贵州省精准扶贫中贫困户的识别研究,,由笔耕文化传播整理发布。
【摘要】:随着当前中国整个宏观经济环境的变化,尤其是国民收入分配不平等水平的扩大,以前粗放式的以区域开发为主要的扶贫模式已经显现出了偏离目标和帮扶效果降低等一系列问题。30多年经济的快速增长使得通过在平均程度上来衡量的人均收入高速增加的同时,也显现出了异常严重的收入分配不平等等现象。全国Gini系数(不平等程度)从1981年的0.29提高到2012年的0.47,全国不平等水平增加了65%。农村的Gini系数从1978年的0.21增加到2011年0.39,增加了83%。不平等水平扩大的同时也就意味着处于收入分配底端的贫困人口享受经济增长带来的益出将变得更加的困难,也就是通过经济的增长带来减贫效应不断的下降。由此可见中国未来扶贫模式通过经济增长来实行区域性的大规模脱贫模式基本上不具有可行性了。所以施行更加具有针对性的扶贫模式就变得更为重要,精准扶贫在这种环境下应运而生。精准扶贫对能否全面实现小康社会意义重大,但它同时也是一项浩大的复杂性工程,要做好精准扶贫工作仍然有众多难点急需克服。目前的精准扶贫工作的重点和难点主要集中在“精准识别”、“精准扶持”、和“精准考核”这几个方面。精准识别作为精准扶贫的基础,能否精准有效的识别出贫困户是精准帮扶、精准考核的首要前提,贫困户一旦识别错误精准扶贫和脱贫从何谈起。汪教授的《论中国精准扶贫》一文指出,他对乌蒙山区的贵州省、云南省、四川省农户中的1200户抽样调查结果显示,2013年不在建档立卡中的农户有58%的家庭人均收入低于国家规定的2300元贫困线,而建档立卡中贫困户显示却有40%的农户人均收入超过了2300元贫困线。在武陵山区的贵州省、重庆市、湖南省和湖北省1000个建档立卡贫困户的抽样结果显示,只有49%的农户收入高于2300元贫困线(1)。通过这些调查结果显示在以收入为判断标准下,民主评议这种方法导致的识别错误率达到50%左右。鉴于建档立卡数据发现贵州省有90.76%的贫困户集中在武陵山区、滇黔桂石漠化区、乌蒙山区这三个片区。如此高的识别贫困户错误率对后续的做好精准帮扶和精准考核带来了很大的挑战。因此对贫困户的精准识别,是一个亟待解决的问题。本文基于2014年贵州省精准扶贫建档立卡贫困村抽样数据,做了如下几点工作:第一:构建logistic回归模型。首先对贫困户的主要特征做了详细分析。其次对于logistic贫困户识别模型在以0.5为切割点和最优切割点做了识别能力上的对比,结果显示最优切割点的logistic模型识别能力要优于0.5为切割点的logistic模型。第二:利用随机森林方法构建贫困户识别模型。在树数目的选取上使用了五折交叉验证方法,并分别绘制出贫困户和非贫困户各自变量的重要性。第三:利用Ada Boost方法构建贫困户识别模型。第四:对这4个模型进行对比研究,结果显示在贫困村贫困户的识别能力和稳定性上随机森林方法构建的模型要优于其他四个模型,并在统计学意义上显著,Ada Boost和logistic差别不大。
【关键词】:精准扶贫 logistic 随机森林 贫困户识别 AdaBoost
【学位授予单位】:贵州财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F323.8
【目录】:
- 中文摘要4-6
- Abstract6-10
- 1 前言10-20
- 1.1 研究背景目的和意义10-13
- 1.1.1 研究背景10-12
- 1.1.2 研究目的12
- 1.1.3 研究意义12-13
- 1.2 国内外研究进展13-17
- 1.2.1 关于精准扶贫研究的进展13-16
- 1.2.2 随机森林和AdaBoost的应用研究现状16-17
- 1.2.3 文献综述总结17
- 1.3 本文研究基本方法17-18
- 1.4 全文结构框架18-19
- 1.5 文章的创新之处19-20
- 2 logistic贫困户识别模型20-31
- 2.1 logistic回归理论介绍20-22
- 2.1.1 二项logistic回归模型20-21
- 2.1.2 模型参数估计21-22
- 2.2 变量的选取与说明22-24
- 2.3 贫困户特征分析24-27
- 2.4 logistic贫困户的识别27-31
- 3 随机森林贫困户识别模型31-42
- 3.1 随机森林理论31-36
- 3.1.1 特征变量重要性评价34-35
- 3.1.2 随机森林优点35-36
- 3.2 模型构建36-42
- 3.2.1 模型建立36
- 3.2.2 参数选取、模型评价与变量重要性36-42
- 4 AdaBoost方法贫困户识别模型42-45
- 4.1 AdaBoost理论介绍42-43
- 4.2 模型建立43-45
- 5 四个贫困户识别模型的评估45-49
- 5.1 10%样本量作为检验集45-46
- 5.2 20%样本量作为检验集46-47
- 5.3 30%样本量作为检验集47-49
- 6 结论和展望49-51
- 6.1 主要工作总结及不足49
- 6.2 研究展望49-51
- 参考文献51-53
- 附录A53-63
- 致谢63-64
- 攻读硕士学位期间的科研成果情况64
【相似文献】
中国期刊全文数据库 前5条
1 孟杰;;随机森林模型在财务失败预警中的应用[J];统计与决策;2014年04期
2 李升;宋舜宏;;网络入侵检测中属性分组的随机森林算法[J];计算机安全;2009年11期
3 刘微;罗林开;王华珍;;基于随机森林的基金重仓股预测[J];福州大学学报(自然科学版);2008年S1期
4 钱争鸣;李海波;于艳萍;;个人住房按揭贷款违约风险研究[J];经济研究;2010年S1期
5 ;[J];;年期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
3 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
4 杨毕玉;核电站松动件检测分析研究[D];浙江大学;2016年
5 王宇恒;推荐系统中随机森林算法的优化与应用[D];浙江大学;2016年
6 张玉桃;旅客社会网络中的家庭出行预测及其行为特征分析[D];北京交通大学;2016年
7 张兴;基于Spark大数据平台的火电厂节能分析[D];太原理工大学;2016年
8 蔡晓路;基于随机森林的类风湿关节炎证型判别模型研究[D];北京中医药大学;2016年
9 杨丽;音频场景分析与识别方法研究[D];南京大学;2013年
10 朱琪;基于最大平衡度与最大共识的改进随机森林算法研究[D];吉林大学;2016年
本文关键词:贵州省精准扶贫中贫困户的识别研究,由笔耕文化传播整理发布。
本文编号:334909
本文链接:https://www.wllwen.com/jingjilunwen/nongyejingjilunwen/334909.html