社交网络与时空数据连接的关键技术及应用研究
发布时间:2020-06-08 13:56
【摘要】:伴随着GPS全球定位系统、传感器设备、可穿戴移动设备等在日常生活中的普遍应用,人们获得了大量移动对象的轨迹数据。此外,新浪微博、微信、Foursquare、Twitter、Instagram等社交网络的兴起给用户提供了互相交流和分享经验的平台,并因此产生了大量的社交网络数据。连接跨时空数据库和社交网络的用户能够获得更加丰富的数据,基于此构建的用户画像可以为诸多实际应用提供数据支撑。具体来讲,本文的研究内容主要包括以下三个部分。(1)基于聚类的跨平台用户连接。要实现跨平台的用户连接首先需要提取用户的特征,并基于此计算用户之间的相似度。相较于直接比较两个用户的历史记录,聚类是一种更加有效的方式。在空间领域,可以使用聚类算法DP找到用户的停驻区域分布。在时间领域,可以使用高斯混合模型找到用户的时间分布。此外,为了进一步提高连接准确度,本文基于TF-IDF思想为所提取特征赋予了相应的权值。突出用户区别度高的特征,并弱化区别度低的特征。基于真实数据集的大量实验表明本文所提算法的连接准确度明显好于已有的同类算法。(2)数据稀疏情况下的用户连接。基于聚类的方法有一个必要的前提是提供的数据集是高密度的。然而,在现实生活中虽然轨迹数据是高密度的,但社交网络数据通常是稀疏的、不对称的。因为许多用户会同时活跃在多个不同的社交平台上,而且出于安全考虑,用户在分享和转发状态时经常不提供位置数据。在这种情况下,很难提取用户的停驻区域以计算任意两个用户之间的相似度。为了解决该问题,可以使用高斯核密度估计直接计算两个用户之间的相似度。但是,基于高斯核的算法效率很低。因为在计算相似度的过程中需要针对每个单独的点计算它和另一个数据集所有点的相似度。为了提高效率,可以将空间领域划分成网格,将时间划分成片段,并计算用户在相应网格和时间段的概率。此外,可以基于任意熵计算网格和时间段的权值以更加精确地计算用户之间的相似度,来极大地提高连接的准确度。实验结果表明,综合考虑网格、时间段和权值的算法能同时保证连接效率和准确度。(3)用户画像的构建及应用。完成用户连接以后,单一用户的数据将变得更加丰富。基于此可以为用户构建更加完整的画像。具体过程包括:基于网格使用DP算法提取用户的停驻区域分布;基于历史轨迹分析用户在区域间的转移概率和路径;基于历史数据的时间信息计算用户在停驻区域的时间分布;基于LDA模型分析用户在停驻区域上的主题分布。根据该画像,并使用真实数据集,可以研究用户画像在位置预测、时间预测、主题预测和路径预测方面的应用性。实验结果表明,该画像在行为预测方面能获得良好的性能。最后,本文对上述研究内容进行了总结,并对其中可以拓展的内容进行了展望,也提出了相应的解决方案。
【图文】:
定义2.2.签到记录。社交网络中用户的一个签到记录定义为r邋=办N希幔龋笾溴义现校睿纭⒇省ⅲ婧停停蚍直鸫砭取㈧慷取⑹奔浯梁图锹几酱奈谋灸谌荨e义贤迹玻倍允笨帐菘庵械墓旒J莺蜕缃煌缰械那┑绞萁辛诵问交卣瑰义鲜尽M还旒V邢嗔诘阒涞氖奔浼涓敉ǔ1冉隙蹋郏眨玻ⅲ缃煌缰邢嗔谇┑郊清义下贾涞氖奔浼涓敉ǔ:艽螅械纳踔脸ご锛父鲈拢郏保保担薄?悸堑焦旒J莺颓┑绞蒎义系睦嘈筒畋穑颐呛苣阎苯踊谡饬街质菁扑阌没е涞南嗨菩浴R虼耍枰脲义仙⒒旒J荩业焦旒V兄匾牡悖⒒谡庑┑阏业接没У目占淝蚍植己褪卞义霞浞植肌e义稀蓿卞澹垮危垮危e义希掊危浚垮危浚浚垮义希ǎ幔┦笨展旒e危ǎ猓┣┑郊锹煎义贤迹玻抗旒J萦肭┑绞蒎义隙ㄒ澹玻常Wさ悖怼8ㄒ惶豕旒#蝈澹藉危浚桓鐾Wさ愦砹艘桓鲇缅义匣A羰奔涑ㄣ兄档那颉8ㄊ奔溷兄担途嗬脬兄敌模绻嬖谝蛔殄义狭牡闶剑桑┦沟枚匀我獾溺郏辏┒加校辏模螅椋幔睿悖澹希蓿穑粒海╁澹ぶ义希猓疱濉幸孕脑蛲Wさ悖罂梢远ㄒ逦哄义希
本文编号:2703187
【图文】:
定义2.2.签到记录。社交网络中用户的一个签到记录定义为r邋=办N希幔龋笾溴义现校睿纭⒇省ⅲ婧停停蚍直鸫砭取㈧慷取⑹奔浯梁图锹几酱奈谋灸谌荨e义贤迹玻倍允笨帐菘庵械墓旒J莺蜕缃煌缰械那┑绞萁辛诵问交卣瑰义鲜尽M还旒V邢嗔诘阒涞氖奔浼涓敉ǔ1冉隙蹋郏眨玻ⅲ缃煌缰邢嗔谇┑郊清义下贾涞氖奔浼涓敉ǔ:艽螅械纳踔脸ご锛父鲈拢郏保保担薄?悸堑焦旒J莺颓┑绞蒎义系睦嘈筒畋穑颐呛苣阎苯踊谡饬街质菁扑阌没е涞南嗨菩浴R虼耍枰脲义仙⒒旒J荩业焦旒V兄匾牡悖⒒谡庑┑阏业接没У目占淝蚍植己褪卞义霞浞植肌e义稀蓿卞澹垮危垮危e义希掊危浚垮危浚浚垮义希ǎ幔┦笨展旒e危ǎ猓┣┑郊锹煎义贤迹玻抗旒J萦肭┑绞蒎义隙ㄒ澹玻常Wさ悖怼8ㄒ惶豕旒#蝈澹藉危浚桓鐾Wさ愦砹艘桓鲇缅义匣A羰奔涑ㄣ兄档那颉8ㄊ奔溷兄担途嗬脬兄敌模绻嬖谝蛔殄义狭牡闶剑桑┦沟枚匀我獾溺郏辏┒加校辏模螅椋幔睿悖澹希蓿穑粒海╁澹ぶ义希猓疱濉幸孕脑蛲Wさ悖罂梢远ㄒ逦哄义希
本文编号:2703187
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2703187.html