当前位置:主页 > 经济论文 > 房地产论文 >

基于集成学习的二手房产数据分类研究

发布时间:2021-04-18 13:05
  随着我国经济的发展,房产在人们的生活中的地位越来越重要。经过了十几年房价的迅速增长,如今房地产市场的热度虽然不比之前,但是仍然保持着很高的关注度,尤其是二手房市场成为了关注的焦点。本文通过集成学习方法对二手房产数据进行了研究与分析,构建出了准确有效的二手房产优质房分类模型,为普通居民在购房时、房地产商开发房地产时以及二手房中介在推广房源时都能提供科学的评估依据。本文先对二手房数据运用多种方法进行预处理,包括重复数据清洗、缺失值填充、数据标准化以及数据降维,使之能够在数据分析中直接使用。然后,本文基于集成学习,设计并构建了三种二手房产优质房的分类模型。第一,从决策树入手,从而构建了决策树集成的随机森林模型;第二,通过AdaBoost方法,采用多层感知器神经网络构建了神经网络集成模型;第三,采用最新提出的一种基于深度模型的深度森林算法,设计并改进了深度森林的实现方法,构建了基于深度森林的二手房产优质房模型。在构建出三种二手房产优质房模型之后,本文通过对比实验,对这三种模型进行了分析与对比。最后,本文通过二手房产数据对三种模型分别做了优质房的分类实验,并运用多种评价指标,对分类结果作了分析。... 

【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于集成学习的二手房产数据分类研究


部分原始房产数据

示意图,滑动窗口,示意图,数据集


图 3-2 滑动窗口示意图近邻排序方法对数据进行重复检测,包含以下三步:构建排序关键字:通过抽取数据集中某些属性值来组合生成关键排序:按照步骤(1)生成的关键字把整个数据集进行排序生成索合并:在已排序的数据集上,按照索引开始移动设定的滑动窗口 含个 m 记录,滑动窗口内每进来一条数据,则与之前滑动窗口内似性比对,如果检测到重复数据,就把该条数据进行标记。然后,把下一条记录滑入窗口 W(i+1),继续上述步骤,直到所有数据执采用 Python3.5 对 SNM 方法进行编码重写,利用 python 处理数据达到重复数据检测的目的,同时也能节省时间成本。其中,对二手strictName”、“EstateName”、“Floor”、“Square”、“Price”这 5 列进向量(其中的文本字符采用 Python 自带库的分词工具类)。表 3-2 基本近邻排序算法入:进行排序去重的数据集 T出:去重合并后的数据集 T’

近邻,滑动窗口,排序算法,重复数


if(n<|W|):新进入滑动窗口的数据与第 n-1 个数据比较;if(该记录为相似重复记录):对相似重复的记录标记;执行 n+1;向下滑动窗口到 W(i);完成所有记录的相似去重。本节选取第一个数据集的 6467 条二手房产数据进行基本近邻排序算法的实验结果展示,对滑动窗口 W 的值设置为 100,将相似度比对的结果进行存储,把相似重复数据标为“1”。该 6413 条输入的数据经过基本近邻排序算法,去除掉了 58 条,剩余6409 条。我们选取部分实验结果进行展示,如图 3-3 所示。在图 3-3 中,我们可以清楚地看到,图中的第 2 条和第 5 条数据(图 3-3 中深色背景标出的两行)为比较明显的重复数据,只有两列属性稍有差距(图 3-3 中黄色背景标出的部分),在去重之后已经将第 5 条数据标记为“1”(图 3-3 中红色背景标出的部分)。

【参考文献】:
期刊论文
[1]基于SVAR模型的二手房与新房价格互动关系再研究[J]. 汤玉,周文平,高明月,刘永升.  中国市场. 2017(26)
[2]大数据下基于房屋交易网站的数据获取的二手房价格走势分析——以上海为例[J]. 张汉中,张倩,董起航,周小平,王斌.  科学技术创新. 2017(21)
[3]重复特征“R-H”交易法——二手房价格指数编制方法研究[J]. 董倩.  统计研究. 2017(03)
[4]基于集成学习的标题分类算法研究[J]. 高元,刘柏嵩.  计算机应用研究. 2017(04)
[5]一种基于Boosting的集成学习算法在不均衡数据中的分类[J]. 李诒靖,郭海湘,李亚楠,刘晓.  系统工程理论与实践. 2016(01)
[6]不平衡数据加权集成学习算法[J]. 徐丽丽,闫德勤.  微型机与应用. 2015(23)
[7]基于集成学习的中文文本欺骗检测研究[J]. 张虎,谭红叶,钱宇华,李茹,陈千.  计算机研究与发展. 2015(05)
[8]二手房组合交易匹配决策方法[J]. 梁海明,姜艳萍.  系统工程理论与实践. 2015(02)
[9]一种基于动态集成学习的机场噪声预测模型[J]. 徐涛,杨奇川,吕宗磊.  电子与信息学报. 2014(07)
[10]多模式集成的RBF神经网络天气预报[J]. 熊聪聪,潘璇,赵奇,吴振玲.  天津科技大学学报. 2014(01)

硕士论文
[1]一线城市二手房市场发展现状及发展趋势研究[D]. 吴晗.广西大学 2016
[2]基于支持向量回归的二手房批量评估模型应用研究[D]. 宋祖杰.重庆大学 2016



本文编号:3145524

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/fangdichanjingjilunwen/3145524.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户44450***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com