当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Hadoop的用户搜索行为分析系统的研究与实现

发布时间:2021-02-01 17:01
  当下我们处在科技创新的DT时代,网络用户的数量暴增,用户每天访问互联网产生的信息量巨大,其中主要为用户搜索时产生的信息。据统计移动互联网每分钟增加217名新用户,Google每分钟产生240万新的搜索请求,如何处理这些海量的搜索日志信息,如何从获得的搜索日志信息中根据用户的行为数据,挖掘出一些潜在的有商业价值的信息,吸引着许多公司,许多企业。目前用户搜索行为分析面临两方面的挑战。一方面是如何快速有效的处理和存储海量的日志信息,另一方面就是如何为商家提供合适的平台,使之通过该平台能够满足公司和企业的需求,抓住用户的心理特征,兴趣特点,制定更为精准的营销策略。基于以上现状分析总结后,本文设计了一个用户搜索行为分析平台,此平台使用分布式系统基础架构Hadoop与并行计算模型MapReduce,结合相关聚类算法实现了对海量日志数据的行为规律的深度挖掘。本文的主要工作如下:(1)通过与传统方式对海量日志数据的处理比较,本文采用以Hadoop为平台,以MapReduce为计算框架,使用HDFS分布式文件系统来存储海量日志数据,解决了海量数据的存储问题。(2)根据系统的业务需求,本文按照Web文本挖... 

【文章来源】:辽宁大学辽宁省 211工程院校

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

基于Hadoop的用户搜索行为分析系统的研究与实现


012-2018年上半年中国搜索用户规模及占比走势图

海量数据,相关技术,框架,程序扩展


第 2 章 相关技术介绍第 2 章 相关技术介绍2.1 Hadoop 框架Apache Hadoop 是一款开源框架,可以搭建服务器集群环境,把运行在单台机器上的程序扩展到多台机器上,实现程序的并行运行,同时,海量数据的分布式处理在这个框架上得以实现。可以让用户实现跨平台运算,可以运行在Linux 和 Windows 系统上,Hadoop 的构成较为复杂,HDFS 和 MapReduce 属于核心部分。MapReduce(分布式计算模型)引擎位于 Hive(数据仓库)和 Pig(数据流处理)下层,可对数据提供计算功能。它的下一层是 HDFS(分布式文件系统)提供对海量数据的存储功能。MapReduce 的过程主要是对整个大的任务切分,分成多个小任务,分配到多个节点上运行。Hadoop 生态圈还包含很多内容,如图 2-1 所示:

过程流程图


图 2-2 MapReduce 过程流程图2.1.3 HDFSHDFS(Hadoop Distributed FileSystem)分布式文件系统,它是一个可以对文件进行分块存储的系统,给客户端提供了一个统一的抽象目录树,目录树是它的命名空间。HDFS 作为 Hadoop 的子项目,继承了 Hadoop 的分布式特点,被设计用于大吞吐量数据,它设计的本质就是为了大量的数据能够横跨成千上万台机器存储,但是对于用户来说看到的是一个文件系统而不是许多文件系统。比如说你要获取 /hdfs/tmp/aaa 的数据,虽然使用的是一个路径,但找个文件的数据可能存放在很多台不同的机器上。作为用户来说不需要知道数据到底存储在哪儿,就像你在单机上并不关心到底存储在磁盘那个扇区一样,这些数据交由 HDFS 管理,用户则应该更加关注于数据的使用和处理。HDFS 的工作原理:HDFS 集群分为 NameNode 和 DataNode(SecondnaryNamenode)两个角色,前者是管理节点,用来存储元数据,文件按照指定规模的

【参考文献】:
期刊论文
[1]聚类算法综述[J]. 章永来,周耀鉴.  计算机应用. 2019(07)
[2]搜索日志分析研究述评[J]. 王淼.  电脑知识与技术. 2018(32)
[3]电商企业基于大数据精准营销的策略研讨[J]. 王利冬.  中外企业家. 2018(25)
[4]基于大数据技术的制造企业商业模式创新[J]. 陈学武,肖港.  经贸实践. 2018(08)
[5]大数据日志分析平台应用探索与实践[J]. 胡沐创.  金融科技时代. 2018(01)
[6]基于云计算平台Hadoop的并行k-means聚类算法设计研究[J]. 李莉.  网络安全技术与应用. 2017(12)
[7]大规模查询日志分析模型构建机制[J]. 王逸兮,冯浩,刘芬.  数字通信世界. 2017(11)
[8]大数据时代下商业模式创新探究[J]. 张金忠.  中国市场. 2016(46)
[9]基于数据挖掘技术的电子商务推荐系统研究[J]. 郭鹏.  黑龙江科学. 2016(08)
[10]基于Hadoop云计算平台的文本处理算法的研究与改进[J]. 陈静.  天津科技. 2016(01)



本文编号:3013122

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3013122.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户49ee3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com