当前位置:主页 > 经济论文 > 世界经济论文 >

基于机器学习的贫困等级分类

发布时间:2020-05-18 11:23
【摘要】:贫困问题是全球广泛关注的“3P”问题之一,引起了世界各地学者和政府的高度关注[1]。随着现代化脚步的加快,贫困问题是目前急需解决的第一大问题,政府实施了很多方案来缓解其对社会的危害程度。在处理该问题之前,国家和政府优先要考虑的是怎样把贫困人群识别出来,只有将贫困人群区分出来之后,才能制定更有效的计划,实施更惠民的政策[2]。目前世界各地区的政府或学者都是基于贫困线来研究社会的贫困问题,绝大多数文献和参考资料主要是从经济学的角度研究该问题,对家庭的贫困程度以数据挖掘的方式研究的文献较少。本文是使用机器学习的方法研究并预测家庭的贫困程度,这种做法对政府辨识贫困人群提供一种思路,且本文的研究方法对确定我国的贫困人口有一定的辅助作用。本文以哥斯达黎加部分家庭的样本数据为实证数据并结合python软件进行研究,因数据中每个样本的贫困程度的划分是在家庭层面上进行的,故选择每个家庭的户主作为本文的研究对象,首先对样本数据做预处理工作,包括数据压缩、缺失值处理、数据归一化、冗余性和相关性处理;其次使用皮尔逊相关系数进行特征筛选,经过处理后的数据集就能够直接运用到机器学习模型中;然后选择三种单模型的分类算法进行贫困等级分类,这三种单模型分别是Logistic回归、支持向量机和朴素贝叶斯,通过比较这三个模型在测试集上的精确度、召回率和Fl-score的值可知,支持向量机的分类准确度是最高的,但是召回率低于Logistic回归,朴素贝叶斯的预测效果是三个模型中最差的,故选择支持向量机作为集成学习的基学习器;最后使用集成学习算法进行贫困等级分类,因支持向量机在测试集上的精确度最高,故选支持向量机作为bagging算法的基学习器,通过比较不同基学习器的个数在测试集上的预测效果可知,4-bagging-SVM模型在测试集上的预测效果最好;比较bagging算法前后模型的性能发现,4-bagging-SVM在测试集上的精确度、召回率和F1-score的值都优于SVM的预测效果,集成学习提高了单模型的泛化性能;同时也对比了AdaBoost模型和4-bagging-SVM模型在测试集上的预测效果,因数据集是非均衡的,故使用Kappa系数来评估模型的效果,这两种集成学习模型的Kappa系数的值都在0.4-0.6之间,预测的效果中等,但4-bagging-SVM模型的Kappa系数高于AdaBoost模型,故在家庭贫困等级分类中,4-bagging-SVM模型表现最优。
【图文】:

洛伦茨曲线,洛伦茨曲线,基尼系数,面积


基尼系数的值是一个比值,是指家庭的相对比例占该家庭所有收入的相对比例逡逑的比重。在20世纪初期,意大利经济学家基尼通过研究洛伦茨曲线,提出了洛伦逡逑茨系数(基尼系数),该系数是用于判断收入分配的平等程度,洛伦茨曲线如图1.邋1逡逑所示:逡逑兗剖恕板义襄危罚蒎邋邋闻朔郑垮义暇云降认咤义希义纤诲危澹邋螠W锼人分}\0逡逑外一逦c逦W邋}逦岕(洛屖逡逑/逦/逦灥J逡逑/邋^邋/逡逑^邋 ̄邋/逦B逡逑—1——I逦逦逦逡逑2?.邋螂.s6邋f娜攀计人0逡逑图1.1洛伦茨曲线逡逑用J表示绝对平等线和洛伦茨曲线之间区域的面积大小,用5表示洛伦茨曲线逡逑右下方的面积,基尼系数的计算公式为:逡逑基尼系数=一1逡逑A邋+邋B逡逑当A等于0时,,基尼系数的值就是0,即收入分配完全平等;逡逑当B等于0时,基尼系数的值就是1,即收入分配一定不平等。逡逑该系数的取值范围为[0,1],基尼系数的值与洛伦茨曲线的弧度同向变化,值逡逑越大说明居民的收入分配越均匀,如果通过收取个人所得税的方法让收入相同,那逡逑么基尼系数的值将趋于0[1°]。国际上公认的基尼系数与收入分配情况如表1.邋1所示逡逑[in邋I逡逑表1.邋1基尼系数与收入分配逡逑基尼系数邋<0.2逦0.2-0.3邋0.3-0.4逦0.4-0.6逦>0.6逡逑.逦收:人分配丨绝对平均|比较平均|相对合理|收人差距过大|收人差距悬殊逡逑’逦④恩格尔系数逦—逦一…逡逑19世纪德国统计学家恩格尔发现社会的富裕或贫困现象可以用食品消费在整逡逑个消费结构中所占比重来衡量

框架结构,论文,框架结构,学位论文


图1.邋2论文框架结构逡逑11逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F113.9;TP181

【参考文献】

相关期刊论文 前6条

1 张全红;周强;;多维贫困测量及述评[J];经济与管理;2014年01期

2 郭建宇;吴国宝;;基于不同指标及权重选择的多维贫困测量——以山西省贫困县为例[J];中国农村经济;2012年02期

3 陆康强;;贫困指数:构造与再造[J];社会学研究;2007年04期

4 石磊;岳森;;我国居民收入差距的评判依据分析[J];当代经理人;2005年03期

5 王时涛;我国城市贫困问题研究[J];学术界;1998年02期

6 毛保华;评价指标体系分析及其权重系数的确定[J];系统工程;1991年04期

相关博士学位论文 前5条

1 毕洁颖;中国农户贫困的测量及影响因素研究[D];中国农业科学院;2016年

2 张会敏;基于小域估计的贫困指标测度方法与模型研究[D];天津财经大学;2015年

3 张凤华;中国农村扶贫政策的绩效评价[D];武汉大学;2011年

4 姚毅;中国城乡贫困动态演化的理论与实证研究[D];西南财经大学;2010年

5 尹海洁;城市贫困人口的经济支持网研究[D];哈尔滨工业大学;2006年

相关硕士学位论文 前10条

1 汪周盼;基于朴素贝叶斯分类器的轨道交通客流分布模型研究[D];华南理工大学;2018年

2 李雨辰;我国西部地区精准扶贫:理论追溯、实践现状与成效评价[D];南京大学;2018年

3 莫豪文;数据挖掘方法在反恐预警中的应用[D];北京工业大学;2017年

4 魏敏;南疆三地州县域多维贫困测度研究[D];新疆大学;2017年

5 肖荣荣;中国农村多维贫困测量研究[D];中南财经政法大学;2017年

6 文春艳;我国多维贫困水平的分析研究[D];天津财经大学;2017年

7 王锂达;恐怖组织行为挖掘与预测[D];北京邮电大学;2017年

8 安晓宁;基于ELES模型的中国城镇贫困度量研究[D];天津财经大学;2012年

9 岳瑞红;基于MODIS数据的蒙古高原土地覆盖分类研究[D];内蒙古师范大学;2010年

10 曾辉;基于数据挖掘的银行个人客户信用评分模型的研究[D];对外经济贸易大学;2007年



本文编号:2669641

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/shijiejingjilunwen/2669641.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cf606***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com