二手车保值率影响因素分析
发布时间:2020-08-12 18:10
【摘要】:随着经济的迅速发展,我国迎来了“互联网+”和“万众创新”的发展浪潮,这也给二手车行业带来了诸多发展机遇。本文针对瓜子二手车直卖网爬取6425条数据进行描述性统计分析,通过建立统计模型和算法模型研究了二手车保值率的影响因素,旨在为用户提供一种评估二手车保值率的方法,帮助用户做出更好的决策。本文的主要思路是建立logistic回归、决策树、随机森林和XGBoost四个模型,根据混淆矩阵得出的分类预测准确率,对以上四个模型进行评估,选出准确率最高的模型为最优模型,进而从此最优模型出发得到影响二手车保值率的重要影响变量。具体工作概括如下:1.收集并整理数据。利用八爪鱼采集器爬取二手车信息共6425条,包括二手车的原价与报价、使用状况、基本属性、动力情况、内外部配置和故障排查等方面。对这些数据进行清洗和特征构造,使之适应本文所选模型的建立。2.数据的描述性统计分析。从保值率、使用状况、基本属性、动力情况、内外部配置和故障排查六个方面对二手车数据做描述性统计分析。通过对这些指标的描述性统计分析,了解其分布规律,初步探索各类指标与二手车保值率之间的关系。3.建立二手车保值率高低的logistic回归模型。本文对保值率高低进行了定义,将保值率由高到低排列,选取排名前30%的保值率定义为高保值率,其他为低保值率,从而将连续型变量转化为了0-1分类变量。进而采用logistic逐步回归、BIC准则对影响因素进行变量选择。通过全变量的回归,绘制出混淆矩阵图,由于准确率较高,说明选取模型适合。4.建立二手车保值率高低的分类算法模型。首先,采用CART算法建立决策树模型;然后,在决策树的基础上,建立了随机森林模型和XGBoost算法模型;最后,分别对三种模型编制混淆矩阵,判断所建立的三种模型是否合适,并得出每种模型下的变量重要性排名。通过上述研究,发现选取的四种模型均可以用来研究二手车保值率的影响因素,其中随机森林模型的分类预测准确率更高,效果更好,因此,随机森林模型为最优模型,进而从此模型出发可以得到二手车保值率的高低与上牌时间、行驶里程、马力、轴距、厂商等息息相关。
【学位授予单位】:贵州财经大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F426.471
【图文】:
大大增加了二手车市场的流动性。根据中国汽车流通协会发布的二手车数据,绘制下图 1.1 二手车交易规模及增长率。如图 1.1 可以看出,我国二手车交易规模逐年渐增,由 2012 年的 794万辆增至 2017 年的 1240.09 万辆。这得益于环境保护部和商务部办公厅联合发布通知,明确除了国家要求的车辆被淘汰外,京津冀,长江三角洲和珠江三角洲以外的地区应遵守《关于促进二手车便利交易的若干意见》,全面取消二手车限迁政策[7]。
图 1.2 论文框架图1.3.2 研究方法先将清洗后的数据统计并进行分析,然后在此基础上,建立统计模型(logist回归模型)和分类算法模型(决策树模型、随机森林模型和 XGBoost 模型),根据混淆矩阵得出的分类预测准确率,对以上四个模型进行评估,选出准确率最高的模型为最优模型,进而从此最优模型出发得到影响二手车保值率的重要影响变量。1.3.3 创新之处本文借鉴了国内外关于二手车保值率的研究,从汽车的使用状况、基本属性动力情况、内外部配置、故障排除五个方面进行特征选取,将机器学习算法使用
图 2.1 二手车原价直方图最低的是一辆原价 2.6 万元的众泰江南 TT 汽车程 6.03 万公里,国三排放标准。原价最贵的是一ranTurismo 汽车,上牌时间距今 57 个月,表显里。汽车原价的最大值和最小值之间的差距极大,侈享受的豪车。价直方图 2.1 可以看到,二手车原价呈现明显的左右,二手车的原价均值为 18.44 万元,中位数原价在 15 万左右,部分豪车拉高了整体的平均水价
【学位授予单位】:贵州财经大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F426.471
【图文】:
大大增加了二手车市场的流动性。根据中国汽车流通协会发布的二手车数据,绘制下图 1.1 二手车交易规模及增长率。如图 1.1 可以看出,我国二手车交易规模逐年渐增,由 2012 年的 794万辆增至 2017 年的 1240.09 万辆。这得益于环境保护部和商务部办公厅联合发布通知,明确除了国家要求的车辆被淘汰外,京津冀,长江三角洲和珠江三角洲以外的地区应遵守《关于促进二手车便利交易的若干意见》,全面取消二手车限迁政策[7]。
图 1.2 论文框架图1.3.2 研究方法先将清洗后的数据统计并进行分析,然后在此基础上,建立统计模型(logist回归模型)和分类算法模型(决策树模型、随机森林模型和 XGBoost 模型),根据混淆矩阵得出的分类预测准确率,对以上四个模型进行评估,选出准确率最高的模型为最优模型,进而从此最优模型出发得到影响二手车保值率的重要影响变量。1.3.3 创新之处本文借鉴了国内外关于二手车保值率的研究,从汽车的使用状况、基本属性动力情况、内外部配置、故障排除五个方面进行特征选取,将机器学习算法使用
图 2.1 二手车原价直方图最低的是一辆原价 2.6 万元的众泰江南 TT 汽车程 6.03 万公里,国三排放标准。原价最贵的是一ranTurismo 汽车,上牌时间距今 57 个月,表显里。汽车原价的最大值和最小值之间的差距极大,侈享受的豪车。价直方图 2.1 可以看到,二手车原价呈现明显的左右,二手车的原价均值为 18.44 万元,中位数原价在 15 万左右,部分豪车拉高了整体的平均水价
【相似文献】
相关期刊论文 前10条
1 刘文博;梁盛楠;秦喜文;董小刚;王纯杰;;基于迭代随机森林算法的糖尿病预测[J];长春工业大学学报;2019年06期
2 贾璐;李辉;陈大雷;;基于改进随机森林的城市河流水生态健康评价研究[J];海河水利;2019年06期
3 盛晓欣;田翔华;周毅;;基于随机森林癫痫患者脑电数据的分析研究[J];中国数字医学;2020年01期
4 秦喜文;郭宇;董小刚;郭佳静;袁迪;;基于局部均值分解和迭代随机森林的脑电分类[J];吉林大学学报(信息科学版);2020年01期
5 沈智勇;苏
本文编号:2790859
本文链接:https://www.wllwen.com/qiyeguanlilunwen/2790859.html