面向大规模网络流量的用户数字身份关联
发布时间:2020-06-28 00:19
【摘要】:随着移动互联网的迅猛发展和快速普及,各式各样的在线业务已经成为了人们生活中必不可少的组成部分。通常情况下,人们拥有多个在线业务的账号,例如新浪微博、腾讯QQ、淘宝等。账号即为用户在网络上的数字身份。与此同时,用户产生的上网数据也在飞速地膨胀。因此,如何充分利用这些数据,以获得对每个用户更好、更深的理解,是目前最值得关注的问题。然而,在如此庞大的数据中,存在大量不完整或不一致的数据,导致用户的信息支离破碎。因此,连接同一用户在不同业务中的上网数据,将会使得用户行为分析以及用户画像更具完整性、一致性和连续性。本文的研究目标是找到一个适当的方法,用于关联同一个真实用户的所有数字身份。已有的针对用户身份关联方法的研究大多面向有限且相似的服务域展开,例如被研究最多的社交网络服务域。然而,为了尽可能完整地获得用户的全部信息,需要一个普适性更强的方法,可以不区分服务域地,将用户的所有数字身份关联起来。相比之下,本文的目标是解决最常见的情况,即做到跨服务域的数字身份关联。其中不同服务域的数据是单独生成的,并且在特征上有明显的差异。为了解决这一问题,本文提出了一种新的数字身份关联模型。从用户的上网行为信息例如设备指纹信息、时空行为信息等中,提取出重要特征,并利用监督学习的方法来训练模型,关联同一用户的不同数字身份。通过使用从中国北方某省收集的真实网络流量数据,本文对模型进行了评估,其精确率和召回率均达到了99%,说明了模型的有效性。模型的输入,即网络流量数据,覆盖了与互联网连接的用户的所有在线行为,这使得全网关联用户的数字身份成为可能。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.06
【图文】:
图2-2邋基于Map和Reduce的并行计算模型逡逑2.1.2邋Spark邋技术逡逑Spark是一种分布式计算平台,在2009年被加州伯克利大学研制出来。相比逡逑于Hadoop,SparkX椉恿四诖嬖怂愕哪?椋市砟诖媸淙胧荨⒋碇屑浣峁㈠义虾痛娲⒆钪战峁馐沟茫樱穑幔颍朐怂闼俣却蟠筇岣摺#樱穑幔颍氲幕∈牵遥模腻义希跺义
本文编号:2732297
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.06
【图文】:
图2-2邋基于Map和Reduce的并行计算模型逡逑2.1.2邋Spark邋技术逡逑Spark是一种分布式计算平台,在2009年被加州伯克利大学研制出来。相比逡逑于Hadoop,SparkX椉恿四诖嬖怂愕哪?椋市砟诖媸淙胧荨⒋碇屑浣峁㈠义虾痛娲⒆钪战峁馐沟茫樱穑幔颍朐怂闼俣却蟠筇岣摺#樱穑幔颍氲幕∈牵遥模腻义希跺义
本文编号:2732297
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2732297.html