基于大数据中查询日志的用户行为分析系统的设计与实现
发布时间:2017-05-06 06:12
本文关键词:基于大数据中查询日志的用户行为分析系统的设计与实现,,由笔耕文化传播整理发布。
【摘要】:随着互联网的普及和发展,人们之间通过网络来进行信息交流逐渐频繁,然而,如何进行有效的信息检索随之成为网民面临的难题之一。搜索引擎通过将杂乱无序的信息组织起来,建立有序的索引文档,为人们进行有效的信息检索提供了极大的方便。 用户与搜索引擎交互的过程中会产生了大量的查询日志。这些用户查询日志中包含着许多和用户相关的信息,可以直接捕捉到用户的显性需求并发掘其隐性需求,因此对用户日志的研究越来越引起人们的关注。用户查询日志受到各大互联网公司尤其是搜索类的互联网公司的重视,它们都期望通过精准及时的日志分析和挖掘来发现用户的行为特征,以此提高用户使用的满意度,进而提升企业的市场竞争力。另一方面,随着日志数量指数式的增长,如何有效快速地处理大量的日志成为一个挑战,这对于传统的数据库的存储模式和服务器的计算性能都是考验,而Hadoop是一个能够对大量数据进行分布式处理的软件框架。利用分布式技术存储并计算海量日志,使得对查询日志的研究变得更加方便。 基于以上现状并阅读大量参考文献后,本文通过对搜索引擎日志产生的过程进行详细分析,以Hadoop为平台,运用HDFS分布式文件系统存储海量日志并采用MapReduce计算模式,设计了一个基于海量查询日志的用户行为分析平台,主要包括四个模块,即日志采集模块、日志存储模块、日志分析模块和数据可视化模块。其中,日志分析模块为整个系统的重点,主要从关键字排名、URL排名、主机排名、用户搜索统计、时间段统计、日搜索统计六个维度对搜索日志进行了分析,并以Web文本挖掘的流程为思路对用户查询日志进行挖掘。最后,通过搭建实验环境来验证本平台,分析了分布式平台的运行效率,对系统平台进行性能优化,并对优化前后系统运行耗时进行了对比分析。通过实验数据表明,论文中所设计的基于查询日志的用户行为分析系统具有良好的有效性和可靠性。
【关键词】:大数据 Hadoop 查询日志分析 用户行为
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-9
- 目录9-12
- 1 绪论12-16
- 1.1 研究背景及意义12-14
- 1.1.1 社会背景12-13
- 1.1.2 技术背景13
- 1.1.3 研究意义13-14
- 1.2 国内外研究现状14
- 1.3 论文主要工作14-15
- 1.4 论文组织结构15-16
- 2 相关技术介绍16-29
- 2.1 Hadoop框架16-22
- 2.1.1 Hadoop技术简介16-17
- 2.1.2 HDFS分布式文件系统17-19
- 2.1.3 MapReduce计算模式19-22
- 2.2 Web文本聚类22-28
- 2.2.1 Web文本聚类概念22
- 2.2.2 Web文本聚类过程22-23
- 2.2.3 Web文本聚类技术23-28
- 2.3 本章小结28-29
- 3 用户行为分析系统的总体设计29-33
- 3.1 系统需求分析29-31
- 3.1.1 项目背景及目标29-30
- 3.1.2 系统业务需求30
- 3.1.3 系统功能需求30-31
- 3.2 系统总体架构设计31-32
- 3.2.1 Hadoop集群层31-32
- 3.2.2 HDFS存储层32
- 3.2.3 MapReduce计算层32
- 3.2.4 业务逻辑层32
- 3.2.5 用户接口层32
- 3.3 本章小结32-33
- 4 用户行为分析系统的详细设计33-47
- 4.1 日志采集33-35
- 4.1.1 搜索引擎日志的产生33-34
- 4.1.2 搜索引擎日志的类型34
- 4.1.3 搜索引擎日志的采集34-35
- 4.2 日志存储35-39
- 4.2.1 存储模块的设计目标35-36
- 4.2.2 存储模块类36-39
- 4.3 日志分析39-44
- 4.3.1 用户搜索关键字排行分析39-41
- 4.3.2 用户点击URL排行分析41-42
- 4.3.3 相关关键字分析42-44
- 4.4 数据可视化44-46
- 4.4.1 大数据可视化的特性44-45
- 4.4.2 数据可视化工具45-46
- 4.5 本章小结46-47
- 5 用户行为分析系统的实现47-67
- 5.1 系统环境说明47-48
- 5.1.1 软硬件环境47
- 5.1.2 集群网络环境47-48
- 5.2 系统环境搭建48-52
- 5.2.1 配置本地环境48
- 5.2.2 设置SSH无密码互联环境48-49
- 5.2.3 配置Hadoop49-52
- 5.3 实验与结果分析52-66
- 5.3.1 数据来源53-54
- 5.3.2 用户登录54
- 5.3.3 日志导入54-55
- 5.3.4 用户行为分析55-64
- 5.3.5 系统效率分析64-65
- 5.3.6 系统优化65-66
- 5.4 本章小结66-67
- 6 总结与展望67-68
- 参考文献68-70
- 作者简历70-72
- 学位论文数据集72
【参考文献】
中国期刊全文数据库 前10条
1 王刚;张顺;;Web数据挖掘在搜索引擎中的运用[J];计算机光盘软件与应用;2013年16期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
3 阳小华;周龙骧;;World Wide Web的索引与查询技术[J];计算机科学;1997年06期
4 杨文峰,李星;网络搜索引擎的用户查询分析[J];计算机工程;2001年06期
5 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
6 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
7 冯汝伟;谢强;丁秋林;;基于文本聚类与分布式Lucene的知识检索[J];计算机应用;2013年01期
8 董志安;吕学强;;基于百度搜索日志的用户行为分析[J];计算机应用与软件;2013年07期
9 李建迎;;基于FusionCharts的图形验证码的研究与实现[J];计算机应用与软件;2014年08期
10 孙彦超;王兴芬;;基于Hadoop框架的MapReduce计算模式的优化设计[J];计算机科学;2014年S2期
本文关键词:基于大数据中查询日志的用户行为分析系统的设计与实现,由笔耕文化传播整理发布。
本文编号:347870
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/347870.html