当前位置:主页 > 文艺论文 > 广告艺术论文 >

运营商数据管理平台中的独立用户识别研究

发布时间:2017-04-21 16:24

  本文关键词:运营商数据管理平台中的独立用户识别研究,由笔耕文化传播整理发布。


【摘要】:随着互联网特别是移动互联网的飞速发展,越来越多的用户使用互联网来获取信息、网上购物等,形成了规模庞大的网络用户群体。这些用户在上网的过程中,一方面使用运营商提供的ADSL(一种互联网接入方式)访问互联网,另一方面也给运营商提供了海量的Web日志。一家拥有四百多万ADSL用户的大型运营商,每日采集的Web日志记录就高达4亿多条。这些日志数据中蕴含着丰富的用户兴趣信息,例如用户的消费倾向、购物习惯等,具有潜在的价值。为此,运营商通过构建数据管理平台(Data Management Platform, DMP),对用户的Web日志进行采集、存储、处理与分析,获取用户的兴趣,为实现精准的广告投放提供数据依据。 众所周知,一个ADSL设备通常由一个家庭、或一个办公室、或一个实验室的多个成员共用。换言之,一个ADSL的后端可能会有多个用户使用各自的终端,如电脑、智能手机、iPad等,进行互联网访问。对于运营商而言,一个ADSL背后可能隐藏了多个用户。分析用户兴趣的前提是要准确地识别出各个独立用户。由此可见,独立用户识别是运营商数据管理平台中最基本的功能。 由于现有的Web日志用户识别技术大多是针对单个网站的,只能识别出与该站点交互的用户。而运营商提供的Web日志包括了不同网站不同用户的信息,这些信息数据量巨大、来源广泛,造成独立用户识别的难度很大。为解决此难题,本文以某运营商提供的ADSL网络用户的Web日志数据为基础,在数据管理平台建设的背景下,结合流行的大数据技术Hadoop,,设计并实现基于MapReduce并行计算框架的独立用户识别系统。 首先,本文介绍了独立用户识别系统的需求,说明了数据管理平台与独立用户识别系统之间的联系。考虑到运营商Web日志数据量巨大、来源广泛和Cookie数据格式不统一等特点,本文设计了一种新的独立用户识别处理流程。 其次,考虑到运营商Web日志的存储规模和计算复杂度,本文详细地分析了独立用户识别流程中三个主要阶段的具体任务,给出了各阶段的MapReduce算法描述及实现代码。针对第一阶段即会话识别阶段,提出了一种基于时间和引用的启发式规则的会话提取算法,实现对运营商Web日志进行会话识别;针对第二阶段即会话合并阶段,在对ADSL进行分组的基础上,分别采用了不同规则:1)Cookie近似规则;2)UUID相同规则;3)账号近似规则等对识别的会话进行合并;针对第三阶段即用户识别阶段,取消了ADSL分组限制,数据按照用户进行分组,将同一用户的不同会话合并在一起,得到各用户对应的完整数据集。 最后,本文采用开源的分布式大数据平台Hadoop开发并实现了独立用户识别系统。系统测试数据选自运营商大数据中网站流量排名top-100的Web日志,数据覆盖了总体数据的约百分之七十,包括了淘宝、天猫、QQ、百度等有代表性的大型互联网站点。通过真实数据的测试,结果表明独立用户识别系统取得了预期的研究效果。
【关键词】:数据预处理 用户识别 Cookie MapReduce Hadoop
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要4-7
  • ABSTRACT7-11
  • 第一章 绪论11-16
  • 1.1 研究背景与意义11-12
  • 1.2 用户识别的研究现状12-14
  • 1.3 本文的主要研究内容14
  • 1.4 本文的组织框架14-16
  • 第二章 相关技术研究16-23
  • 2.1 Web 日志用户识别16-19
  • 2.1.1 Web 日志格式16-17
  • 2.1.2 Web 日志预处理流程17-18
  • 2.1.3 Cookie18-19
  • 2.2 MapReduce 并行计算框架19-22
  • 2.2.1 MapReduce 技术20
  • 2.2.2 Hadoop20-21
  • 2.2.3 HDFS21-22
  • 2.3 本章小结22-23
  • 第三章 独立用户识别流程设计23-29
  • 3.1 用户识别需求描述23-25
  • 3.2 数据管理平台25-26
  • 3.3 独立用户识别流程26-28
  • 3.3.1 流程描述26-27
  • 3.3.2 独立用户识别数据流27-28
  • 3.4 本章小结28-29
  • 第四章 基于 MapReduce 的独立用户识别算法29-51
  • 4.1 数据预处理29-30
  • 4.2 会话识别阶段30-34
  • 4.2.1 问题分析30-31
  • 4.2.2 会话提取算法描述31-32
  • 4.2.3 MapReduce 实现32-34
  • 4.3 会话合并阶段34-48
  • 4.3.1 账号提取34-37
  • 4.3.2 Cookie 成员提取37-39
  • 4.3.3 UUID 提取39-42
  • 4.3.4 会话合并42-48
  • 4.4 独立用户识别阶段48-50
  • 4.4.1 问题分析48-49
  • 4.4.2 算法描述49
  • 4.4.3 MapReduce 实现49-50
  • 4.5 本章小结50-51
  • 第五章 系统实现与测试51-60
  • 5.1 Hadoop 平台配置51-53
  • 5.1.1 环境简介51
  • 5.1.2 准备工作51-52
  • 5.1.3 配置工作52-53
  • 5.2 独立用户识别实现53-55
  • 5.2.1 会话识别模块53-54
  • 5.2.2 会话合并模块54-55
  • 5.2.3 用户识别模块55
  • 5.3 系统测试55-59
  • 5.3.1 数据覆盖范围56-57
  • 5.3.2 系统运行时间57-58
  • 5.3.3 准确性验证58-59
  • 5.4 本章小结59-60
  • 第六章 总结与展望60-63
  • 6.1 总结60-61
  • 6.2 展望61-63
  • 参考文献63-66
  • 攻读硕士学位期间的研究成果目录66-67
  • 致谢67

【参考文献】

中国期刊全文数据库 前7条

1 周增国;庞有军;;Cookie技术在Web日志挖掘预处理中的应用[J];大连大学学报;2006年02期

2 李煊,庄镇泉;Web访问挖掘预处理的用户识别算法[J];计算机工程与应用;2002年07期

3 张健沛,刘建东,杨静;基于Web的日志挖掘数据预处理方法的研究[J];计算机工程与应用;2003年10期

4 吴强;梁继民;杨万海;;Web日志挖掘预处理中的用户识别技术[J];计算机科学;2002年04期

5 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期

6 赵伟,何丕廉,陈霞,谢振亮;Web日志挖掘中的数据预处理技术研究[J];计算机应用;2003年05期

7 方成效;袁可风;;Web日志挖掘的数据预处理研究[J];计算机与现代化;2006年04期


  本文关键词:运营商数据管理平台中的独立用户识别研究,由笔耕文化传播整理发布。



本文编号:320748

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/320748.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d8aaa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com