基于回归模型集成的精装房房价预测

发布时间:2021-11-18 09:02
  近年来,我国经济的快速发展,房地产行业迅速崛起.随着人们生活节奏的加快,精装房也越来越受到青睐,因此能够快速准确对多变量的精装房进行预测,对购房者或售房者都有重要指导意义.国内关于精装房的数据较少,本文便以Ames地区的精装房作为研究对象.首先利用数据之间相关性进行回归模型插补以及基于分类变量的众数或k-means插补进行缺失值的填充,其次根据已经记录的特征变量构造新的影响变量,并对数据进行对数变换及标准化处理.随后根据训练集建立单一预测模型,如线性回归,Ridge回归,Lasso回归等.结果表明:Lasso回归预测效果最好,均方根误差=0.150578,2=0.926347.单一模型在每个样本点上预测值不具有一致性,本文又建立权重组合模型及Stacking集成模型.权重组合模型中将六个单一模型:Ridge回归模型,Lasso回归模型,ElasticNet回归,GradientBoosting回归,XGBoost回归,随机森林回归的预测方差转化为权重进行加权组合.对比于Lasso回归模型,测试集上减少6.9%,2提高1%.Stacking集成... 

【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

基于回归模型集成的精装房房价预测


随机森林流程图

原理图,原理图,学习器,交叉验证


兰州大学硕士学位论文基于回归模型集成的精装房房价预测2.2Stacking模型集成1992年,Wolpert提出Stacking集成算法,也称为Stackedgeneralization.Stack-ing算法的本质思想也是通过组合多个预测结果较好的分类或回归学习器来提高预测结果,但是与Boosting算法又有所不同.Stacking采用的元学习器是不同的,且可不需要多次迭代,图2.2为两层Stacking算法流程图.图2.2Stacking原理图Stacking算法第一阶段:选取多个不同的学习器Model1,Model2,···,Mod-eln.如在回归预测问题中,可以选择Lasso回归作为Modell.然后将数据集分为两部分:TrainingData,TestData.本文采用5折交叉验证划分TrainingData,即每次实验时,TrainingData中4/5的数据作为训练集进行训练,1/5的数据作为测试集用作检验模型的误差及确定该模型的最佳参数,并输出测试集的预测值,我们记为a1.同时用得到的模型对TestData中的数据进行预测,得到一列新的数据,我们记为b1.这样5次实验之后,我们将得到两个矩阵(1,2,3,4,5)和(1,2,3,4,5).(1,2,3,4,5)为TrainingData基于5折交叉验证的预测结果,(1,2,3,4,5)是TestData的预测结果.紧接着将(1,2,3,4,5)合并为一列多行的数据,记为1.将1,2,3,4,5对应的数据相加求平均值,结果记为1.以上即为Stacking算法初级元学习器Moadel1结合5折交叉验证的实验流程,所得的1作为第二层学习器的15

位数,房子


兰州大学硕士学位论文基于回归模型集成的精装房房价预测图3.1MoSold对应SalePrice中位数从图3.1可以看出:SalePrice的高低并没有随着MoSold的增长呈现某种递增或递减的趋势,SalePrice的大小看起来更像与季节因素相关.因此本章将MoSold转换为无序分类变量.同时本文也分析了YrSold,MSSubClass与SalePrice的关系,相应的也需要将它们转换成无序分类变量.2.3新变量的构造本文用于预测Ames地区精装房房价的原数据集中虽已有79个自变量,但并没有描述房子年龄的变量.然而购房者在买房的时候,房龄,是否是当年新建的,也会在一定程度上影响房子的售价.YrSold:记录房子销售时的年份,YearRemodAdd:记录房子重建日期(如果没有重建,就默认是新建时的日期),因此可以构建一个用于描述房子在售出时年龄变量Age=YrSold–YearRemodAdd.下图3.2是本文新构造变量Age和SalePrice的线性拟合图.从图3.2可以看出Age和SalePrice呈负相关关系.经过计算,(,)=0.5097058,说明特征变量Age和SalePrice呈负相关.这也符合消费者的心理,越老的房子可能设施,建造风格没有新建的好,也就没有新建的房子售价更高.相应的23

【参考文献】:
期刊论文
[1]基于多元线性回归模型及ARIMA模型的北京市房价预测[J]. 刘丽泽.  科技经济导刊. 2018(29)
[2]基于GM(1,1)模型的福州市房价预测[J]. 刘琼芳.  福建金融管理干部学院学报. 2018(01)
[3]基于FAHP的加权组合模型预测精度检验与比较[J]. 于红岩,季申佳.  统计与决策. 2017(23)
[4]基于集成学习的房价预测模型[J]. 杨博文,曹布阳.  电脑知识与技术. 2017(29)
[5]多元线性回归模型在房价走势分析与预测中的应用[J]. 钟丽燕,高淑兰.  科技创业月刊. 2017(09)
[6]组合模型对恶性肿瘤死亡率拟合度评价及预测方法的研究[J]. 曲红梅,白亚娜,魁发瑞,胡晓斌,裴鸿波,任晓卫,申希平.  中华流行病学杂志. 2017 (01)
[7]基于不同权重法的回采工作面瓦斯涌出量组合预测[J]. 刘军,姜波,刘杰刚,李骏,么玉鹏.  煤炭技术. 2016(07)
[8]基于SVR的上海市商品房价格预测[J]. 袁秀芳,郑伯川,焦伟超.  甘肃科学学报. 2016(01)
[9]基于hedonic模型的南昌住宅价格影响因素分析[J]. 乐建明.  华东交通大学学报. 2015(05)
[10]基于遗传算法和BP神经网络的房价预测分析[J]. 高玉明,张仁津.  计算机工程. 2014(04)

硕士论文
[1]基于随机森林理论的北京市二手房估价模型研究[D]. 陈奕佳.北京交通大学 2015
[2]缺失值处理统计方法的模拟比较研究及应用[D]. 茅群霞.四川大学 2005



本文编号:3502612

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3502612.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0c7d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com