面向大规模网络流量的用户数字身份关联

发布时间：2020-06-28 00:19

【摘要】：随着移动互联网的迅猛发展和快速普及,各式各样的在线业务已经成为了人们生活中必不可少的组成部分。通常情况下,人们拥有多个在线业务的账号,例如新浪微博、腾讯QQ、淘宝等。账号即为用户在网络上的数字身份。与此同时,用户产生的上网数据也在飞速地膨胀。因此,如何充分利用这些数据,以获得对每个用户更好、更深的理解,是目前最值得关注的问题。然而,在如此庞大的数据中,存在大量不完整或不一致的数据,导致用户的信息支离破碎。因此,连接同一用户在不同业务中的上网数据,将会使得用户行为分析以及用户画像更具完整性、一致性和连续性。本文的研究目标是找到一个适当的方法,用于关联同一个真实用户的所有数字身份。已有的针对用户身份关联方法的研究大多面向有限且相似的服务域展开,例如被研究最多的社交网络服务域。然而,为了尽可能完整地获得用户的全部信息,需要一个普适性更强的方法,可以不区分服务域地,将用户的所有数字身份关联起来。相比之下,本文的目标是解决最常见的情况,即做到跨服务域的数字身份关联。其中不同服务域的数据是单独生成的,并且在特征上有明显的差异。为了解决这一问题,本文提出了一种新的数字身份关联模型。从用户的上网行为信息例如设备指纹信息、时空行为信息等中,提取出重要特征,并利用监督学习的方法来训练模型,关联同一用户的不同数字身份。通过使用从中国北方某省收集的真实网络流量数据,本文对模型进行了评估,其精确率和召回率均达到了99%,说明了模型的有效性。模型的输入,即网络流量数据,覆盖了与互联网连接的用户的所有在线行为,这使得全网关联用户的数字身份成为可能。
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP393.06
【图文】：

基本架构

图２－２邋基于Ｍａｐ和Ｒｅｄｕｃｅ的并行计算模型逡逑２．１．２邋Ｓｐａｒｋ邋技术逡逑Ｓｐａｒｋ是一种分布式计算平台，在２００９年被加州伯克利大学研制出来。相比逡逑于Ｈａｄｏｏｐ，ＳｐａｒｋX椉恿四诖嬖怂愕哪？椋市砟诖媸淙胧荨⒋碇屑浣峁㈠义虾痛娲⒆钪战峁馐沟茫樱穑幔颍朐怂闼俣却蟠筇岣摺＃樱穑幔颍氲幕∈牵遥模腻义希跺义

本文编号：2732297

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/2732297.html

上一篇：支持云雾端应用集成的资源调度策略及其优化技术
下一篇：恶意代码行为监测分析系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|