基于Elasticsearch的房地产大数据分析系统
发布时间:2021-04-18 05:26
随着我国信息化社会进入高级发展阶段,大数据时代下的中国互联网数据产生速度越来越快、越来越分散。我国房地产市场与互联网建设随着社会经济一同迎来了迅速发展,传统的房地产数据分析方法已经明显感觉力不从心,各式各样的地产公司与销售网站如雨后春笋一般随处可见,如58同城、赶集网等。面向大数据分析的房地产数据分析技术应运而生,它不但能有效的处理海量资源,并且能将其转化为结构化的数据进行分析,以便于从业者通过合理配置房产资源促进社会经济发展。但就国内对房地产大数据的研究而言,更偏向于理论性的把握与诠释,缺乏对该领域系统的研究与实践,急需进一步的落地。本文主要做了以下工作:(1)搭建了ELK房地产大数据系统平台,利用弹性搜索节点集群实现对全网数据以简单易懂的“倒排索引”的方式建立索引,相较于传统数据检索工具对大数据的处理力不从心,实现高效、稳定、快速的检索;利用日志存放器的自定义插件配置规范数据格式,配置字段过滤;通过可视化工具将检索数据以简单美观多元的可视化界面展示,使房地产分析数据的变化与趋势一目了然。(2)本文通过机器学习Xgboost算法提炼出了影响房地产价格重要影响因子。并通过俄罗斯房地产数...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
房地产系统工作流程图
西安电子科技大学硕士学位论文16图2.4 数据集具体结构图图2.5 交易房价散点图通过 python 工具的 pandas 包导入 train.csv、test.csv 以及 macro.csv 数据文件,通过左连接操作将 macro.csv 文件分别与 train_df.csv 文件和 test.csv 文件连接,利用公共的时间字段“timestamp”,生成 train_df.csv 文件以及 test_df.csv 文件,维度分别为(304710,391)和(76620,390),这意味着通过合并两个表,可以得到 30.471万条的训练数据以及 7.66 万条的测试数据
16图2.4 数据集具体结构图图2.5 交易房价散点图通过 python 工具的 pandas 包导入 train.csv、test.csv 以及 macro.csv 数据文件,通过左连接操作将 macro.csv 文件分别与 train_df.csv 文件和 test.csv 文件连接,利用公共的时间字段“timestamp”,生成 train_df.csv 文件以及 test_df.csv 文件,维度分别为(304710,391)和(76620,390),这意味着通过合并两个表,可以得到 30.471万条的训练数据以及 7.66 万条的测试数据
【参考文献】:
期刊论文
[1]基于社交网络分析和XGBoost算法的互联网客户流失预测研究[J]. 王重仁,韩冬梅. 微型机与应用. 2017(23)
[2]大数据下房地产信息服务的挑战及对策研究[J]. 刘枬,轩朵,陈蕴. 建筑经济. 2017(02)
[3]房产大数据:构建行业全链条服务生态的必由之路[J]. 骆艳艳. 当代企业世界(透明楼市). 2017(01)
[4]大数据时代对房地产估价行业的影响及对策分析——以杭州市为例[J]. 郑晓俐. 住宅与房地产. 2016(30)
[5]基于Lucene的地名数据库快速检索系统[J]. 张文元,周世宇,谈国新. 计算机应用研究. 2017(06)
[6]大数据在房地产市场分析中的应用[J]. 缪涛,洪建国,林波,田鑫. 中国房地产. 2016(15)
[7]基于Elasticsearch的实时集群日志采集和分析系统实现[J]. 胡庆宝,姜晓巍,石京燕,程耀东,梁翠萍. 科研信息化技术与应用. 2016(03)
[8]房地产大数据的研究现状和趋势分析[J]. 刘枬,刘小娟. 建筑经济. 2015(06)
[9]大数据分析技术在我国房地产市场研究中的应用[J]. 范志勇. 北方经贸. 2015(01)
[10]基于网络搜索数据的房地产价格预测[J]. 董倩,孙娜娜,李伟. 统计研究. 2014(10)
本文编号:3144896
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
房地产系统工作流程图
西安电子科技大学硕士学位论文16图2.4 数据集具体结构图图2.5 交易房价散点图通过 python 工具的 pandas 包导入 train.csv、test.csv 以及 macro.csv 数据文件,通过左连接操作将 macro.csv 文件分别与 train_df.csv 文件和 test.csv 文件连接,利用公共的时间字段“timestamp”,生成 train_df.csv 文件以及 test_df.csv 文件,维度分别为(304710,391)和(76620,390),这意味着通过合并两个表,可以得到 30.471万条的训练数据以及 7.66 万条的测试数据
16图2.4 数据集具体结构图图2.5 交易房价散点图通过 python 工具的 pandas 包导入 train.csv、test.csv 以及 macro.csv 数据文件,通过左连接操作将 macro.csv 文件分别与 train_df.csv 文件和 test.csv 文件连接,利用公共的时间字段“timestamp”,生成 train_df.csv 文件以及 test_df.csv 文件,维度分别为(304710,391)和(76620,390),这意味着通过合并两个表,可以得到 30.471万条的训练数据以及 7.66 万条的测试数据
【参考文献】:
期刊论文
[1]基于社交网络分析和XGBoost算法的互联网客户流失预测研究[J]. 王重仁,韩冬梅. 微型机与应用. 2017(23)
[2]大数据下房地产信息服务的挑战及对策研究[J]. 刘枬,轩朵,陈蕴. 建筑经济. 2017(02)
[3]房产大数据:构建行业全链条服务生态的必由之路[J]. 骆艳艳. 当代企业世界(透明楼市). 2017(01)
[4]大数据时代对房地产估价行业的影响及对策分析——以杭州市为例[J]. 郑晓俐. 住宅与房地产. 2016(30)
[5]基于Lucene的地名数据库快速检索系统[J]. 张文元,周世宇,谈国新. 计算机应用研究. 2017(06)
[6]大数据在房地产市场分析中的应用[J]. 缪涛,洪建国,林波,田鑫. 中国房地产. 2016(15)
[7]基于Elasticsearch的实时集群日志采集和分析系统实现[J]. 胡庆宝,姜晓巍,石京燕,程耀东,梁翠萍. 科研信息化技术与应用. 2016(03)
[8]房地产大数据的研究现状和趋势分析[J]. 刘枬,刘小娟. 建筑经济. 2015(06)
[9]大数据分析技术在我国房地产市场研究中的应用[J]. 范志勇. 北方经贸. 2015(01)
[10]基于网络搜索数据的房地产价格预测[J]. 董倩,孙娜娜,李伟. 统计研究. 2014(10)
本文编号:3144896
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3144896.html