社交网络时空大数据聚类挖掘有效选择分析
发布时间:2020-12-15 13:25
来自社交网络的时空大数据具有海量和高动态的特性,有效选择时空数据进行聚焦挖掘分析至关重要。以微博位置签到数据为例,首先,对时空大数据空间聚类挖掘的有效选择问题进行了研究,针对社交网络时空数据不确定性问题,提出了时空大数据针对聚类挖掘的有效选择方法。聚类挖掘有效选择方法提出从空间、时间或属性等维度对时空大数据进行分割。然后,对分割得到的数据集进行空间探索分析(exploratory spatial data analysis,ESDA),得到具有聚类挖掘潜力的数据集。最后,以武汉市微博位置签到数据进行商圈热点探测为例,对提出的社交网络时空大数据聚类挖掘有效选择方法进行验证。结果表明,有效选择方法可以得到挖掘效率和精准性更高的时空数据集。
【文章来源】:测绘地理信息. 2020年02期
【文章页数】:6 页
【部分图文】:
技术路线
2)数据集格网关联。将目标区域划分为若干个固定大小的格网,并给每个格网一个ID号。将待验证的样本数据集分别与格网叠加,使数据集与格网关联,并分别计算这些样本数据集在每个格网中的签到数量,过程如图2所示。离散签到数据转换为以签到频次为灰度的格网签到数据集,既简化了离散点状数据,又保持了签到数据时空特性和专题属性特征,满足空间探索性分析和数据挖掘的要求。3)ESDA分析。与格网关联后的数据集进行空间自相关性分析,以确定数据集在空间上是否呈聚类分布。本文采用ArcGIS中Moran’I空间自相关分析方法,对于Moran’I指数,可用标准化统计量zscore值来检验多个区域是否存在空间自相关关系。
以新浪微博位置签到数据商圈热点探测为例,对本文时空大数据的有效选择方法进行验证。实验数据来自新浪微博2011年12月-2015年7月7日武汉境内4 772 212条微博位置签到数据。数据集有效性验证的流程如图3所示。1)属性维度数据集。武汉高校众多,高校类签到数据量高达1 034 982条。由于大学生在各个假期的流动性很大,使得高校类签到数据的不稳定性增加,所以在进行商圈热点探测时应考虑将其剔除,把剔除高校位置的签到数据后剩下的签到数据作为商圈热点探测的一个样本,称为剔除高校类,用符号Dexcol表示,总微博签到数据用Dall表示。
【参考文献】:
期刊论文
[1]多维度轨迹数据的SQL时空查询方法[J]. 叶文娟,艾廷华. 测绘地理信息. 2017(06)
[2]多维特征融合的城市商圈划分方法[J]. 郝斌,董硕,胡引翠,刘学,高玉健,张亚冬. 地理与地理信息科学. 2017(05)
[3]大数据时代数字地图制图课程教学改革的思考[J]. 李精忠,陈凯. 测绘地理信息. 2017(03)
[4]浅谈商圈分析对连锁零售企业选址的重要性[J]. 王瑜. 中国商论. 2017(02)
[5]时空大数据处理的需求、应用与挑战[J]. 边馥苓,杜江毅,孟小亮. 测绘地理信息. 2016(06)
[6]论时空大数据及其应用[J]. 李德仁,马军,邵振峰. 卫星应用. 2015(09)
[7]设施POI的局部空间同位模式挖掘及范围界定[J]. 禹文豪,艾廷华,周启. 地理与地理信息科学. 2015(04)
[8]基于Web地理图片的中国入境游客POI空间格局[J]. 丁娟,李俊峰. 经济地理. 2015(06)
[9]基于情境的POI个性化推荐方法研究[J]. 李伟,陈毓芬,李萌,钱凌韬,方潇. 武汉大学学报(信息科学版). 2015(06)
[10]基于城市网络空间的POI分布密度分析及可视化[J]. 王爽,李炯. 城市勘测. 2015(01)
本文编号:2918344
【文章来源】:测绘地理信息. 2020年02期
【文章页数】:6 页
【部分图文】:
技术路线
2)数据集格网关联。将目标区域划分为若干个固定大小的格网,并给每个格网一个ID号。将待验证的样本数据集分别与格网叠加,使数据集与格网关联,并分别计算这些样本数据集在每个格网中的签到数量,过程如图2所示。离散签到数据转换为以签到频次为灰度的格网签到数据集,既简化了离散点状数据,又保持了签到数据时空特性和专题属性特征,满足空间探索性分析和数据挖掘的要求。3)ESDA分析。与格网关联后的数据集进行空间自相关性分析,以确定数据集在空间上是否呈聚类分布。本文采用ArcGIS中Moran’I空间自相关分析方法,对于Moran’I指数,可用标准化统计量zscore值来检验多个区域是否存在空间自相关关系。
以新浪微博位置签到数据商圈热点探测为例,对本文时空大数据的有效选择方法进行验证。实验数据来自新浪微博2011年12月-2015年7月7日武汉境内4 772 212条微博位置签到数据。数据集有效性验证的流程如图3所示。1)属性维度数据集。武汉高校众多,高校类签到数据量高达1 034 982条。由于大学生在各个假期的流动性很大,使得高校类签到数据的不稳定性增加,所以在进行商圈热点探测时应考虑将其剔除,把剔除高校位置的签到数据后剩下的签到数据作为商圈热点探测的一个样本,称为剔除高校类,用符号Dexcol表示,总微博签到数据用Dall表示。
【参考文献】:
期刊论文
[1]多维度轨迹数据的SQL时空查询方法[J]. 叶文娟,艾廷华. 测绘地理信息. 2017(06)
[2]多维特征融合的城市商圈划分方法[J]. 郝斌,董硕,胡引翠,刘学,高玉健,张亚冬. 地理与地理信息科学. 2017(05)
[3]大数据时代数字地图制图课程教学改革的思考[J]. 李精忠,陈凯. 测绘地理信息. 2017(03)
[4]浅谈商圈分析对连锁零售企业选址的重要性[J]. 王瑜. 中国商论. 2017(02)
[5]时空大数据处理的需求、应用与挑战[J]. 边馥苓,杜江毅,孟小亮. 测绘地理信息. 2016(06)
[6]论时空大数据及其应用[J]. 李德仁,马军,邵振峰. 卫星应用. 2015(09)
[7]设施POI的局部空间同位模式挖掘及范围界定[J]. 禹文豪,艾廷华,周启. 地理与地理信息科学. 2015(04)
[8]基于Web地理图片的中国入境游客POI空间格局[J]. 丁娟,李俊峰. 经济地理. 2015(06)
[9]基于情境的POI个性化推荐方法研究[J]. 李伟,陈毓芬,李萌,钱凌韬,方潇. 武汉大学学报(信息科学版). 2015(06)
[10]基于城市网络空间的POI分布密度分析及可视化[J]. 王爽,李炯. 城市勘测. 2015(01)
本文编号:2918344
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/2918344.html