当前位置:主页 > 科技论文 > 搜索引擎论文 >

移动平台下基于K-means的租房信息聚类算法研究与实现

发布时间:2017-05-31 06:04

  本文关键词:移动平台下基于K-means的租房信息聚类算法研究与实现,,由笔耕文化传播整理发布。


【摘要】:移动互联网的发展,加快了数据的产生速度;促进了云计算、大数据等数据处理技术的进步。为解决通用搜索引擎应对海量数据检索时返回信息量大、查询精度低等弊病,各类垂直搜索引擎网站迅速发展。安居客作为专业性的房源类信息搜索网站,提供大量的房源信息。租房类信息是各类房源信息中数据量最大、更新最快的一类房源信息。面对大量的房源类信息,研发人员一直研究如何提高服务质量和用户访问量。通过统计用户搜索行为,对于大量分页返回的结果,用户只对前几页感兴趣。将大量的房源信息,快速全面的呈现在用户面前是一个值得研究的课题。 移动平台下利用地图服务,将租房信息散布在地图上有助于利用位置服务针对性浏览房源信息。地图呈现的屏幕是有限的,尤其是移动端受屏幕大小制约,单条呈现所能呈现的数据量更受到制约。探索解决出租房源密度与地图比例之间的问题,提出将租房类信息进行聚类显示的思想。 聚类之前,对存储在服务端的数据进行预处理,通过对元数据进行清洗、集成、变换、归约四个步骤的依次处理,减小移动端数据处理的计算量。详细分析租房类信息在各个阶段处理的过程,并在最大500万条的数据上进行数据预处理的实验分析。 移动端利用服务端传来的数据进行聚类,研究移动平台下中心点与K值选择相关问题,并提出基于地理位置的K-means聚类算法步骤;通过分析地图不同缩放比下聚类属性选择,提出了采用基于K-means改进的K-prototypes的算法进行对多维混合属性进行聚类;同时为减少计算与数据传输,当前地图位置移动时,采用新数据部分聚类的思想进行再聚类。最后,分析了算法的实验性能。初步投放市场的效果也表明该功能的上线在移动端提高了33%的浏览量。
【关键词】:移动互联网 租房类信息 地图搜房 数据预处理 K-means聚类
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 绪论9-16
  • 1.1 研究背景9-10
  • 1.2 国内外研究现状10-13
  • 1.2.1 聚类分析研究现状10-12
  • 1.2.2 K-means应用研究12-13
  • 1.3 研究目的和意义13
  • 1.4 论文的研究内容13-14
  • 1.5 论文的结构安排14-16
  • 第二章 相关理论与知识研究16-24
  • 2.1 K-means聚类分析16-19
  • 2.1.1 K-means算法的思想和原理16-17
  • 2.1.2 K-means中心点选择研究17-19
  • 2.2 Android相关概述19-22
  • 2.2.1 Android平台19-20
  • 2.2.2 Android系统架构20-22
  • 2.3 本章小结22-24
  • 第三章 租房类信息数据预处理研究24-35
  • 3.1 数据清洗24-26
  • 3.1.1 属性缺失值处理24-25
  • 3.1.2 数据去噪处理25-26
  • 3.2 数据集成处理26
  • 3.3 数据变换处理26-27
  • 3.4 数据归约27-30
  • 3.4.1 聚类属性选择28
  • 3.4.2 维度归约与数值归约28-29
  • 3.4.3 数据离散化处理和概念分层29-30
  • 3.5 性能分析30-34
  • 3.5.1 数据清洗30-31
  • 3.5.2 数据集成31-32
  • 3.5.3 数据变换32-33
  • 3.5.4 数据归约33-34
  • 3.6 本章小结34-35
  • 第四章 移动找房的K-means聚类算法应用实现35-46
  • 4.1 租房类信息的K-means聚类分析35-37
  • 4.1.1 K值与中心点选择35-36
  • 4.1.2 基于地理位置的租房类信息聚类36-37
  • 4.2 地图比例变化时K-means重聚类分析37-39
  • 4.2.1 多维属性选择37-38
  • 4.2.2 多维混合属性聚类分析38-39
  • 4.3 位置移动下K-means重聚类分析39-42
  • 4.3.1 数据重用与传输40-42
  • 4.3.2 部分聚类思想42
  • 4.4 性能分析42-45
  • 4.4.1 数据传输与中心点选择42-43
  • 4.4.2 移动端聚类性能43-44
  • 4.4.3 综合性能评测44-45
  • 4.5 本章小结45-46
  • 第五章 总结与展望46-48
  • 5.1 论文总结46
  • 5.2 工作展望46-48
  • 参考文献48-52
  • 在校期间发表的论文和参加的科研项目52-53
  • 致谢53

【参考文献】

中国期刊全文数据库 前10条

1 程莹;张云勇;徐雷;房秉毅;;基于Hadoop及关系型数据库的海量数据分析研究[J];电信科学;2010年11期

2 胡伟;;Android系统架构及其驱动研究[J];广州广播电视大学学报;2010年04期

3 孙士保;秦克云;;改进的k-平均聚类算法研究[J];计算机工程;2007年13期

4 张玉芳,毛嘉莉,熊忠阳;一种改进的K-means算法[J];计算机应用;2003年08期

5 傅德胜;周辰;;基于密度的改进K均值算法及实现[J];计算机应用;2011年02期

6 菅志刚,金旭;数据挖掘中数据预处理的研究与实现[J];计算机应用研究;2004年07期

7 张科泽;杨鹤标;沈项军;蒋中秋;;基于节点数据密度的分布式K-means聚类算法研究[J];计算机应用研究;2011年10期

8 王林;吴海桥;郑友石;;一种改进的K均值聚类算法[J];科技信息;2010年32期

9 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期

10 易宏银;;数据挖掘在电信行业应用探讨[J];通信与信息技术;2008年04期


  本文关键词:移动平台下基于K-means的租房信息聚类算法研究与实现,由笔耕文化传播整理发布。



本文编号:408753

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/408753.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b5cbd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com