基于手机信令数据的数据清洗挖掘与居民职住空间分析
本文选题:手机信令数据 切入点:数据清洗 出处:《西南交通大学》2017年硕士论文 论文类型:学位论文
【摘要】:作为所辖区域的政治、经济、文化中心,城市的发展能有力地带动周边区域的发展。城市中合理的居民职住空间规划能有效提高居民的生活质量与工作效率,是城市建设中不可或缺的一环。因此如何获取城市居民的人口密度以及职住空间分布是城市规划建设中的大问题,传统获取职住数据的方式主要为上门走访、发放调查问卷等人工方式,这些方式既消耗了大量的人力物力,又不能保证结果的准确性。随着时代的发展,一些较为先进的手段已经应用在了城市信息获取中,如电话访问调查,视频监控记录等,但这些方法不可避免地存在成本高、覆盖面小等缺点。目前,利用手机信令数据获取城市居民的职住空间分布是大数据时代下的研究热点,本文通过对手机信令数据进行清洗、挖掘、提取这一系列步骤,获取居民的职住空间分布信息。本文的工作主要体现在以下几个方面:在数据清洗方面,提出了对手机信令数据进行层次化清洗的原则:首先将信令数据视为常规数据,清洗其中包含的无效数据;随后针对手机信令数据的特点,清洗信令数据所特有的漂移数据;最后基于后续停留点提取的需求,提出一种经K-means聚类算法改良的LOF离群点检测算法,清洗影响停留点提取的轨迹点。经实验验证,该改良算法能够在不影响检测精度的前提下提高算法的效率。在数据挖掘方面,针对DBSCAN聚类算法不适合处理时空数据的缺陷,从聚类算法的基本概念入手,对其进行时间维度的语义扩充,使其适合手机信令数据的停留点提取;在停留点提取算法的参数确定方面,创新性地结合停留点的定义与数据源的特征,动态地确定算法的参数,简化了参数确定过程;最后,与经典的停留点提取算法对比,证明本文提出算法的优越性。在职住空间提取方面,首先对实验获取的停留点数据进行分析,得到其基本特征;随后结合资料设定了职住停留点划分的时间阈值,并设计了相应算法从停留点集合中提取职住停留点;最后,根据获取的停留点集合绘制居民职住分布热力图,并结合实际情况对热力图进行分析。
[Abstract]:As the political, economic and cultural center of the region under its jurisdiction, the development of the city can powerfully drive the development of the surrounding area. The reasonable planning of the occupation and housing space of the residents in the city can effectively improve the quality of life and work efficiency of the residents. It is an indispensable link in urban construction. Therefore, how to obtain the population density of urban residents and the distribution of occupation and housing space is a major problem in urban planning and construction. These methods not only consume a lot of manpower and material resources, but also can not guarantee the accuracy of the results. With the development of the times, some more advanced methods have been used in obtaining urban information. Such as telephone interview investigation, video surveillance record and so on, but these methods inevitably have some disadvantages, such as high cost and low coverage. At present, the use of mobile phone signaling data to obtain the spatial distribution of urban residents' occupation and residence is a hot research topic under big data's time. In this paper, the mobile phone signaling data cleaning, mining, extraction of this series of steps, to obtain residents of the occupation and residential space distribution information. The work of this paper is mainly reflected in the following aspects: in data cleaning, The principle of hierarchical cleaning for signaling data of mobile phone is put forward: firstly, the signaling data is regarded as regular data, and the invalid data is cleaned, then the drift data of signaling data is cleaned according to the characteristics of signaling data of mobile phone. Finally, based on the requirement of subsequent stay point extraction, an improved LOF outlier detection algorithm based on K-means clustering algorithm is proposed to clean the locus points that affect the stay point extraction. The improved algorithm can improve the efficiency of the algorithm without affecting the detection accuracy. In the aspect of data mining, the DBSCAN clustering algorithm is not suitable to deal with the defects of space-time data. The semantic extension of time dimension makes it suitable for the stopover point extraction of mobile phone signaling data, and innovatively combines the definition of stopover point with the characteristics of data source in parameter determination of stopover point extraction algorithm. The parameters of the algorithm are determined dynamically, which simplifies the process of parameter determination. Finally, compared with the classical stop-point extraction algorithm, the superiority of this algorithm is proved. Firstly, the data obtained from the experiment are analyzed, and the basic characteristics of the data are obtained. Then, the threshold value of the occupation and residence points is set according to the data, and the corresponding algorithm is designed to extract the occupation and residence points from the set of residence points. According to the set of residence points obtained, the thermal diagram of resident occupation and residence distribution is drawn, and the thermodynamic diagram is analyzed in combination with the actual situation.
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 张武;刘波;;一种基于规则的交互式数据清洗框架的设计[J];微计算机应用;2009年10期
2 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期
3 田伟;殷淑娥;;浅析数据清洗[J];计算机光盘软件与应用;2013年11期
4 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
5 邓中国,周奕辛;数据清洗技术研究[J];山东科技大学学报(自然科学版);2004年02期
6 唐懿芳,钟达夫,张师超;数据清洗前的预处理方法[J];广西科学;2005年02期
7 孟坚,董逸生,王永利;一种基于规则的交互式数据清洗技术[J];微机发展;2005年04期
8 包从剑;李星毅;施化吉;;可扩展和可交互的数据清洗系统[J];计算机技术与发展;2007年07期
9 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期
10 王咏梅;嵇晓;汪恒杰;冯安平;;面向多数据源的数据清洗关键技术的研究[J];科技资讯;2009年01期
相关会议论文 前10条
1 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
3 汪爱民;;宝钢全流程合同数据清洗与组织方案的设计和应用[A];全国冶金自动化信息网2014年会论文集[C];2014年
4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鲍玉斌;于戈;;一种基于构件扩展的数据清洗框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 高淑娟;鲍玉斌;江志纲;王大玲;于戈;;一种基于最小风险贝叶斯决策的数据清洗策略[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 王妍;石鑫;宋宝燕;;基于伪事件的RFID数据清洗方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李晓静;谷峪;吕雁飞;王艳秋;于戈;;基于动态事件概率模型的高效RFID数据清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 肖英治;陈红;;带数据清洗功能的数据预处理系统PW-ETL的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 赵之慧;;专利数据加工[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第二部分)[C];2014年
相关重要报纸文章 前1条
1 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年
相关博士学位论文 前1条
1 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年
相关硕士学位论文 前10条
1 高宝;不确定性RFID数据清洗算法研究[D];南京信息工程大学;2015年
2 叶晨;基于众包的数据清洗关键技术的研究[D];哈尔滨工业大学;2015年
3 张晓东;基于业务模型的数据清洗与整合平台的设计与实现[D];电子科技大学;2015年
4 艾超;针对在线产品支撑数据的过滤和分析系统的研究与设计[D];电子科技大学;2015年
5 王江;数据清洗技术研究及清洗框架的设计与实现[D];内蒙古大学;2016年
6 陈飞;基于MapReduce的数据清洗算法研究[D];昆明理工大学;2016年
7 李宁宁;大数据清洗系统中优化技术的研究与实现[D];哈尔滨工业大学;2016年
8 盛丹丹;面向农业领域知识库构建的数据清洗方法优化研究[D];中国农业科学院;2016年
9 郑纪玲;数据清洗在构建POI数据仓库中的研究与应用[D];中国矿业大学;2016年
10 李苗;船舶监控系统中实时数据清洗技术研究[D];南京航空航天大学;2016年
,本文编号:1652346
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1652346.html