机器学习算法在房屋总量及分类统计中的应用
发布时间:2022-04-25 20:11
在当前网络互联时代,软件和硬件条件日趋成熟的情形下,各个领域的数据收集及信息存储能力大幅度增强,但这对于信息梳理与挖掘的要求进一步提高,各行业都渴望能有更多样、更高效的数据挖掘方法来处理、分析行业数据,辅助行业进行更高效、更精准的决策产出。为满足大数据的处理需求,数据挖掘算法领域蓬勃发展,相关的算法创新与改进成果不断诞生,并且也逐步展现了算法应用的兼容性,应用领域不断拓展。本文则主要介绍了决策树算法、logistic回归算法、组合算法随机森林以及支持向量机算法(SVM)这四种算法,并将其应用于房屋多分类问题上。通过R软件优化模型参数,建立合适的模型,并对缺失数据完成预测。从模型分类正确率以及预测值与参考值的差异程度交叉评估算法应用的优劣,最后发现在当前应用场景下,决策树算法的分类效果最佳,平均分类正确率达95.17%,预测值与参考值的结果也最为接近,标准差异指数仅10.24,而随机森林算法在十折交叉验证中的分类稳定性最好,支持向量机预测稳定性较差,但在特定的场景中会取得更为准确的预测结果。
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
图3.1决策树模型图??图中的node表示结点序号,split为拆分节点的变量名以及判别标准
I■馨I领士学位论文??V^i^7?MASTER'S?THESIS??个变量,其中房屋建筑占地面积、房屋建筑总建筑面积这两个变量最为重要,其余??两个变量的重要性较低。??Importance?of?Variable??g?-|?_???-??e-?ii??..??.??。」??????i???????I???*??■■?—.???_....?????-?I??房屋建筑占地面积?房屋建氣总建琉面积?yaixs?xaixs??图3.2决策树模型重要性条形图??3.2.4决策树预测??>?prcb_flsal?<-?predict?:(ggf?new2)??;>?prob_f?in.al?Il':?I00?r?j??1?2?3?4??4001?0.9668241?0.0007886435?0.009516601?0.02287Q66??4002?0.966B241?0.0007886435?0.009516601?0.022S7Q££??4003?0.966B241?0.0007886435?0.009516601?0.022S7066??4004?0.9668241?0.0007S86435?0.009516601?0.022S7066??图3.3决策树预测结果部分输出图??根据建立的决策树模型,对未调查落地的1000条记录进行预测,得出每一条??记录的各类房屋用途占比,再将各自占比乘以房屋建筑总建筑面积就可以得出每种??房屋用途的面积。??汇总得到如下结果:???表3.?4决策树模型预测结果汇总表???住宅面积总和办公面积总和商业面积总和其
(|攀硕士学位论文??MASTER’S?THESIS??Err?vs?number?of?variable??,\??〇?\??\??s?I?_?\??I?\??\??S.????一一????°?、、、一一一?'\zZ??1?I?I?I?I?1???2?4?6?8?10?12??bdex??图3.?6随机森林变量数目决定图??从3.6的折线图可以发现平均误差随变量个数增多的变化趋势是:先下降再上??下波动。由于变量总数为6个,而当变量个数为6时,模型内的平均误差就达到了??第一个最低点,所以这里确定mtry的值为6。??(2)选择随机森林ntree值:??而确定决策树个数的方法类似于(1),也是以模型内的平均误差作为判别标??准,不同的是这里锁定mtry的值为6建立每一颗决策树,同时不断改变决策树的数??量(这里选择的是1-500),运行程序得到图3.7的结果:??Error?vs?number?of?trees??_?*? ̄?1?—?—??????….二“ww>?—?一.??-?-?—.?????...?????...?...??????'?二^?―__ ̄ ̄?'V\、,??????—??d??........,?......,????....??????'f?、*?^??<〇.??o??o??UJ??^?\??d_\??s-?\??W---?????_i?,?,?二_—?-?i??—??〇?100
【参考文献】:
期刊论文
[1]人工智能——随机森林技术分析[J]. 袁志聪. 科技创新与应用. 2020(06)
[2]基于决策树的股票多因子优化模型策略研究[J]. 陈权,龚轩涛. 信息技术与信息化. 2020(01)
[3]基于Cart决策树与boosting方法的股票预测[J]. 王禹,陈德运,唐远新. 哈尔滨理工大学学报. 2019(06)
[4]基于改进CART算法的降雨量预测模型[J]. 李正方,杜景林,周芸. 现代电子技术. 2020(02)
[5]基于logistic回归的信用反欺诈预测模型[J]. 吴骏一. 价值工程. 2020(01)
[6]基于Logistic回归的扶贫满意度评价模型[J]. 蔡高成,赵海清,李光辉. 凯里学院学报. 2019(06)
[7]一种改进的ID3决策算法及其应用[J]. 圣文顺,孙艳文. 计算机与数字工程. 2019(12)
[8]基于随机森林的房地产项目风险评价[J]. 李侠男,沈江. 工程管理学报. 2019(06)
[9]基于决策树算法的电商化电力物资判别[J]. 张立,郭珊珊,姚楠,刘鸿洋,储胜. 现代商贸工业. 2020(01)
[10]基于C4.5决策树分类算法的改进与应用[J]. 李春生,焦海涛,刘澎,刘小刚. 计算机技术与发展. 2020(05)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]机器学习算法在医疗数据分析中的应用[D]. 叶雷.华中师范大学 2017
[2]基于决策树的数据挖掘算法研究与应用[D]. 卢东标.武汉理工大学 2008
本文编号:3648264
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
图3.1决策树模型图??图中的node表示结点序号,split为拆分节点的变量名以及判别标准
I■馨I领士学位论文??V^i^7?MASTER'S?THESIS??个变量,其中房屋建筑占地面积、房屋建筑总建筑面积这两个变量最为重要,其余??两个变量的重要性较低。??Importance?of?Variable??g?-|?_???-??e-?ii??..??.??。」??????i???????I???*??■■?—.???_....?????-?I??房屋建筑占地面积?房屋建氣总建琉面积?yaixs?xaixs??图3.2决策树模型重要性条形图??3.2.4决策树预测??>?prcb_flsal?<-?predict?:(ggf?new2)??;>?prob_f?in.al?Il':?I00?r?j??1?2?3?4??4001?0.9668241?0.0007886435?0.009516601?0.02287Q66??4002?0.966B241?0.0007886435?0.009516601?0.022S7Q££??4003?0.966B241?0.0007886435?0.009516601?0.022S7066??4004?0.9668241?0.0007S86435?0.009516601?0.022S7066??图3.3决策树预测结果部分输出图??根据建立的决策树模型,对未调查落地的1000条记录进行预测,得出每一条??记录的各类房屋用途占比,再将各自占比乘以房屋建筑总建筑面积就可以得出每种??房屋用途的面积。??汇总得到如下结果:???表3.?4决策树模型预测结果汇总表???住宅面积总和办公面积总和商业面积总和其
(|攀硕士学位论文??MASTER’S?THESIS??Err?vs?number?of?variable??,\??〇?\??\??s?I?_?\??I?\??\??S.????一一????°?、、、一一一?'\zZ??1?I?I?I?I?1???2?4?6?8?10?12??bdex??图3.?6随机森林变量数目决定图??从3.6的折线图可以发现平均误差随变量个数增多的变化趋势是:先下降再上??下波动。由于变量总数为6个,而当变量个数为6时,模型内的平均误差就达到了??第一个最低点,所以这里确定mtry的值为6。??(2)选择随机森林ntree值:??而确定决策树个数的方法类似于(1),也是以模型内的平均误差作为判别标??准,不同的是这里锁定mtry的值为6建立每一颗决策树,同时不断改变决策树的数??量(这里选择的是1-500),运行程序得到图3.7的结果:??Error?vs?number?of?trees??_?*? ̄?1?—?—??????….二“ww>?—?一.??-?-?—.?????...?????...?...??????'?二^?―__ ̄ ̄?'V\、,??????—??d??........,?......,????....??????'f?、*?^??<〇.??o??o??UJ??^?\??d_\??s-?\??W---?????_i?,?,?二_—?-?i??—??〇?100
【参考文献】:
期刊论文
[1]人工智能——随机森林技术分析[J]. 袁志聪. 科技创新与应用. 2020(06)
[2]基于决策树的股票多因子优化模型策略研究[J]. 陈权,龚轩涛. 信息技术与信息化. 2020(01)
[3]基于Cart决策树与boosting方法的股票预测[J]. 王禹,陈德运,唐远新. 哈尔滨理工大学学报. 2019(06)
[4]基于改进CART算法的降雨量预测模型[J]. 李正方,杜景林,周芸. 现代电子技术. 2020(02)
[5]基于logistic回归的信用反欺诈预测模型[J]. 吴骏一. 价值工程. 2020(01)
[6]基于Logistic回归的扶贫满意度评价模型[J]. 蔡高成,赵海清,李光辉. 凯里学院学报. 2019(06)
[7]一种改进的ID3决策算法及其应用[J]. 圣文顺,孙艳文. 计算机与数字工程. 2019(12)
[8]基于随机森林的房地产项目风险评价[J]. 李侠男,沈江. 工程管理学报. 2019(06)
[9]基于决策树算法的电商化电力物资判别[J]. 张立,郭珊珊,姚楠,刘鸿洋,储胜. 现代商贸工业. 2020(01)
[10]基于C4.5决策树分类算法的改进与应用[J]. 李春生,焦海涛,刘澎,刘小刚. 计算机技术与发展. 2020(05)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]机器学习算法在医疗数据分析中的应用[D]. 叶雷.华中师范大学 2017
[2]基于决策树的数据挖掘算法研究与应用[D]. 卢东标.武汉理工大学 2008
本文编号:3648264
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3648264.html