运营商数据管理平台中的独立用户识别研究
发布时间:2017-04-21 16:24
本文关键词:运营商数据管理平台中的独立用户识别研究,由笔耕文化传播整理发布。
【摘要】:随着互联网特别是移动互联网的飞速发展,越来越多的用户使用互联网来获取信息、网上购物等,形成了规模庞大的网络用户群体。这些用户在上网的过程中,一方面使用运营商提供的ADSL(一种互联网接入方式)访问互联网,另一方面也给运营商提供了海量的Web日志。一家拥有四百多万ADSL用户的大型运营商,每日采集的Web日志记录就高达4亿多条。这些日志数据中蕴含着丰富的用户兴趣信息,例如用户的消费倾向、购物习惯等,具有潜在的价值。为此,运营商通过构建数据管理平台(Data Management Platform, DMP),对用户的Web日志进行采集、存储、处理与分析,获取用户的兴趣,为实现精准的广告投放提供数据依据。 众所周知,一个ADSL设备通常由一个家庭、或一个办公室、或一个实验室的多个成员共用。换言之,一个ADSL的后端可能会有多个用户使用各自的终端,如电脑、智能手机、iPad等,进行互联网访问。对于运营商而言,一个ADSL背后可能隐藏了多个用户。分析用户兴趣的前提是要准确地识别出各个独立用户。由此可见,独立用户识别是运营商数据管理平台中最基本的功能。 由于现有的Web日志用户识别技术大多是针对单个网站的,只能识别出与该站点交互的用户。而运营商提供的Web日志包括了不同网站不同用户的信息,这些信息数据量巨大、来源广泛,造成独立用户识别的难度很大。为解决此难题,本文以某运营商提供的ADSL网络用户的Web日志数据为基础,在数据管理平台建设的背景下,结合流行的大数据技术Hadoop,,设计并实现基于MapReduce并行计算框架的独立用户识别系统。 首先,本文介绍了独立用户识别系统的需求,说明了数据管理平台与独立用户识别系统之间的联系。考虑到运营商Web日志数据量巨大、来源广泛和Cookie数据格式不统一等特点,本文设计了一种新的独立用户识别处理流程。 其次,考虑到运营商Web日志的存储规模和计算复杂度,本文详细地分析了独立用户识别流程中三个主要阶段的具体任务,给出了各阶段的MapReduce算法描述及实现代码。针对第一阶段即会话识别阶段,提出了一种基于时间和引用的启发式规则的会话提取算法,实现对运营商Web日志进行会话识别;针对第二阶段即会话合并阶段,在对ADSL进行分组的基础上,分别采用了不同规则:1)Cookie近似规则;2)UUID相同规则;3)账号近似规则等对识别的会话进行合并;针对第三阶段即用户识别阶段,取消了ADSL分组限制,数据按照用户进行分组,将同一用户的不同会话合并在一起,得到各用户对应的完整数据集。 最后,本文采用开源的分布式大数据平台Hadoop开发并实现了独立用户识别系统。系统测试数据选自运营商大数据中网站流量排名top-100的Web日志,数据覆盖了总体数据的约百分之七十,包括了淘宝、天猫、QQ、百度等有代表性的大型互联网站点。通过真实数据的测试,结果表明独立用户识别系统取得了预期的研究效果。
【关键词】:数据预处理 用户识别 Cookie MapReduce Hadoop
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要4-7
- ABSTRACT7-11
- 第一章 绪论11-16
- 1.1 研究背景与意义11-12
- 1.2 用户识别的研究现状12-14
- 1.3 本文的主要研究内容14
- 1.4 本文的组织框架14-16
- 第二章 相关技术研究16-23
- 2.1 Web 日志用户识别16-19
- 2.1.1 Web 日志格式16-17
- 2.1.2 Web 日志预处理流程17-18
- 2.1.3 Cookie18-19
- 2.2 MapReduce 并行计算框架19-22
- 2.2.1 MapReduce 技术20
- 2.2.2 Hadoop20-21
- 2.2.3 HDFS21-22
- 2.3 本章小结22-23
- 第三章 独立用户识别流程设计23-29
- 3.1 用户识别需求描述23-25
- 3.2 数据管理平台25-26
- 3.3 独立用户识别流程26-28
- 3.3.1 流程描述26-27
- 3.3.2 独立用户识别数据流27-28
- 3.4 本章小结28-29
- 第四章 基于 MapReduce 的独立用户识别算法29-51
- 4.1 数据预处理29-30
- 4.2 会话识别阶段30-34
- 4.2.1 问题分析30-31
- 4.2.2 会话提取算法描述31-32
- 4.2.3 MapReduce 实现32-34
- 4.3 会话合并阶段34-48
- 4.3.1 账号提取34-37
- 4.3.2 Cookie 成员提取37-39
- 4.3.3 UUID 提取39-42
- 4.3.4 会话合并42-48
- 4.4 独立用户识别阶段48-50
- 4.4.1 问题分析48-49
- 4.4.2 算法描述49
- 4.4.3 MapReduce 实现49-50
- 4.5 本章小结50-51
- 第五章 系统实现与测试51-60
- 5.1 Hadoop 平台配置51-53
- 5.1.1 环境简介51
- 5.1.2 准备工作51-52
- 5.1.3 配置工作52-53
- 5.2 独立用户识别实现53-55
- 5.2.1 会话识别模块53-54
- 5.2.2 会话合并模块54-55
- 5.2.3 用户识别模块55
- 5.3 系统测试55-59
- 5.3.1 数据覆盖范围56-57
- 5.3.2 系统运行时间57-58
- 5.3.3 准确性验证58-59
- 5.4 本章小结59-60
- 第六章 总结与展望60-63
- 6.1 总结60-61
- 6.2 展望61-63
- 参考文献63-66
- 攻读硕士学位期间的研究成果目录66-67
- 致谢67
【参考文献】
中国期刊全文数据库 前7条
1 周增国;庞有军;;Cookie技术在Web日志挖掘预处理中的应用[J];大连大学学报;2006年02期
2 李煊,庄镇泉;Web访问挖掘预处理的用户识别算法[J];计算机工程与应用;2002年07期
3 张健沛,刘建东,杨静;基于Web的日志挖掘数据预处理方法的研究[J];计算机工程与应用;2003年10期
4 吴强;梁继民;杨万海;;Web日志挖掘预处理中的用户识别技术[J];计算机科学;2002年04期
5 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期
6 赵伟,何丕廉,陈霞,谢振亮;Web日志挖掘中的数据预处理技术研究[J];计算机应用;2003年05期
7 方成效;袁可风;;Web日志挖掘的数据预处理研究[J];计算机与现代化;2006年04期
本文关键词:运营商数据管理平台中的独立用户识别研究,由笔耕文化传播整理发布。
本文编号:320748
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/320748.html