房产数据向量对齐的算法研究
发布时间:2021-08-14 01:02
四川省2018年发布了1亿元的房产数据调查合同,采集成都、眉山等4个城市的房产数据,合同接受单位的数据采集完全靠人工线下实现,然而房产市场的数据来源众多,房屋数据的整合具有数据量大、数据多源异构、数据缺失等难点,为我国房产税征收的房屋数据预调研的造成了阻碍。为提高采集数据的效率,受房产数据调查合同接收方委托,本文提出了一种基于粒子群优化的房产数据向量对齐算法,来对不同中介二手房房源进行实体匹配,主要工作如下:1.编写Scrapy爬虫获取初始二手房房源数据。我们将爬取的二手房数据进行数据预处理,包括对数据不完整的数据进行补全、对两个中介二手房源数据进行归一化处理。2.提出了房产数据的归一化的带权值向量模型。首先,根据房产属性类型的多样性,分别对数值、文本、图片三种类型数据进行数值化建模为[0,1]的数据向量;然后,再结合房地产数据向量不同属性对房源相似性判断的影响不同,形成了带权值的房产数据向量模型。3.提出了基于粒子群优化的房产数据向量对齐算法。把不同房产属性的权值组成的向量看作是一个粒子个体,利用自适应权重改进的粒子群算法,对不同属性相似度权值进行优化处理,最终得到了不同属性相似度权...
【文章来源】:成都理工大学四川省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
安居客二手房信息
图 4-2 链家二手房信息从上图可以看出,两个中介房源的信息格式有所不同,需对其进行归一化处处理方式,我们会在下一节的实验数据部分说明。本文实验数据是从链家和安居客上分别爬取二手房数据的小区名、标题信息、面积、朝向、户型图等信息。之所以选取链家和安居客上的数据,是因为
通过使迭代次数 Step 取不同值,观察适应度平均值、全局最优值和 F1 值的变化,其结果如图4-3、图 4-4 所示。通过把当前迭代次数产生的粒子群代入到适应度函数计算当前迭代次数粒子群适应度的平均值和粒子群的适应度历史全局最优值。随着迭代次数的增加,适应度平均值、全局最优值变化如图 4-3 所示。
本文编号:3341446
【文章来源】:成都理工大学四川省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
安居客二手房信息
图 4-2 链家二手房信息从上图可以看出,两个中介房源的信息格式有所不同,需对其进行归一化处处理方式,我们会在下一节的实验数据部分说明。本文实验数据是从链家和安居客上分别爬取二手房数据的小区名、标题信息、面积、朝向、户型图等信息。之所以选取链家和安居客上的数据,是因为
通过使迭代次数 Step 取不同值,观察适应度平均值、全局最优值和 F1 值的变化,其结果如图4-3、图 4-4 所示。通过把当前迭代次数产生的粒子群代入到适应度函数计算当前迭代次数粒子群适应度的平均值和粒子群的适应度历史全局最优值。随着迭代次数的增加,适应度平均值、全局最优值变化如图 4-3 所示。
本文编号:3341446
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/3341446.html