当前位置:主页 > 科技论文 > 软件论文 >

数据挖掘在精准扶贫中的研究及应用

发布时间:2021-09-28 02:18
  精准扶贫的实质是政府对贫困家庭和成员进行有效识别,挖掘贫困的原因和程度,并开展切实有效的帮扶,从根本上打破贫困的藩篱,进而实现到2020年之前现有贫困人口全面脱贫。随着我国经济的高速发展,带来的国民收入水平严重不平衡,从前那种粗放式的针对区域的扶贫方式早已不适用我国,在这种情况下精准扶贫应运而生。至目前为止,精准扶贫的主要困难点在于“精准识别”、“精准扶持”、和“精准监控”这几个方面。精准识别作为精准扶贫的基础和最重要的一环,一定要做到足够精确,如果贫困户都识别错误,对贫困户的精准扶持就没有任何意义。近些年来,传统的扶贫技术和模式遇到了困境,因为从前那种粗放针对区域的扶贫模式效率很低,如今很难识别出谁是真正的贫困户,所以传统的扶贫模式急需改变。与此同时,大数据技术在近年来得到飞速发展,并被国家定为重点发展方向,所以通过大数据技术与精准扶贫有机结合的视角来研究精准扶贫绩效提升机制,从而深入推进大数据技术在扶贫开发领域的全面应用。利用数据挖掘的知识在大数据计算框架Spark下对贫困人口进行精准识别,与传统的识别方式相比用海量样本代替抽样样本,显然有更高的准确性更强的说服力,也有利于发现真正... 

【文章来源】:黑龙江大学黑龙江省

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

数据挖掘在精准扶贫中的研究及应用


模型的准确率和AUC值

ROC曲线,ROC曲线,贫困户,查全率


3-1 是随机森林模型对测试集数据的分类结果,表 3-2 是随机森。Spark 下随机森林贫困户识别模型总运行时间为 3 小时 36 分 代表贫困户,0 代表非贫困户。最后得到的结果与测试集真实结准确率为 89.48%,查准率为 91.65%,查全率为 86.68%,FPR 93.23%,AUC 值为 0.9718。模型识别出的贫困户和非贫困户数量的 89.48%,所有真实贫困户中有 86.68%的贫困户被识别出,户中有 91.65%为真实贫困户,模型的 ROC 曲线见图 3-2。模型检验指标模型总体识别准确率 89.48%查准率 91.65%查全率 86.68%特异度 92.33%FPR 7.7%AUC 97.18%

准确率,贫困户,测试集


4.3 实验结果分析通过训练验证添加多个参数找出最佳参数模型,利用最佳参数模型对贫困户进行预测,贫困户分割线选择为 0.5,当预测是贫困户的概率大于 0.5 时,将其预测为贫困户,当小于 0.5 时,预测为非贫困户。而且通过观察 logistic 模型返回权值的结果发现,在选用的十项特征变量中,家庭人均纯年收入与是否陷入贫困关系最大,其次是人均受教育年限以及家里是否有重大疾病,而生活主要燃料,家庭卫生设施等与是否陷入贫困存在一定关系,但关系不是特别明显。由于在进行建模过程中将数据集按照 0.7 与 0.3 的比例随机分割开,所以测试集数据共约 1020 万条数据,Logistic 模型的准确率以及 AUC 值见图 4-1,模型的的分类结果见表 4-1,混淆矩阵中左边真实值代表测试集中真实情况,右边预测值代表 Logistic 模型对测试集中分类的预测,其中 1 代表贫困户,0 代表非贫困户。模型的评估指标见表 4-2。


本文编号:3411055

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3411055.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1d2b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com