基于Hadoop的web日志分析系统的研究与实现
发布时间:2025-01-19 14:47
信息社会的迅猛发展使得互联网上的web信息的内容日益丰富,数据量与日俱增。web信息中蕴藏着巨大的科研价值和商业价值,近年来,web挖掘作为获取信息价值的重要手段,得到了广泛的关注与研究。web挖掘的一个研究热点是对web访问日志的挖掘,之所以将web访问日志作为研究对象,是因为日志中记录了用户与服务器交互的行为信息,通过分析web日志可以找出用户访问站点的规律,对掌握web服务器的运行状态,维护网络系统安全,优化站点结构,了解用户访问模式和用户群体需求有着重要的意义。面对海量web日志的挖掘,单一节点的web日志分析系统在执行效率上已经不能满足需求,并且,传统的日志挖掘算法多存在其固有的缺陷,本文利用Hadoop平台并行化挖掘海量web日志,通过网络将计算分布到多节点执行,对原始日志预处理后基于用户访问主题频次建模,用于描述用户兴趣分布,使用改进的聚类挖掘算法进行分析,目的在于提高最终得出的用户兴趣度模型的准确度的同时,保证用户行为分析的高效性和可靠性。对此,本文主要进行了以下几方面的研究:第一,单一节点集中式web日志分析系统的处理能力和资源利用方面都已无法胜任海量日志的挖掘工作,为...
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
本文编号:4029120
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
图2-2聚类算法分类图
并作为树结构的根节点,接着迭代分裂,常见的有DIANA算法。3)基于网格的聚类基于网格的聚类方法假设对象属性是连续的、序数的、区间的,根据每个性的可能值将空间分割成有限数目的格状空间,每个对象落到与自身属性值一的网格当中。常见的有STING、CLIQUE、WaveClus....
图2-3HDFS架构图
Hadoop分布式平台应用于海量数据的存储和处理,它具有高效性、高容、高扩展性、高可靠性、成本低廉的优点[25]。Hadoop生态系统由很多部分,包括:分布式文件存储系统HDFS、分布式并行计算框架MapReduce、数库Hive、分布式锁服务ZooKeeper等等....
图2-4MapReduce架构图
多个节点储存着Block数据副本,在节点出现故障时,能够快速协调据的安全可靠性,提高系统容错。4)SecondaryNameNode:SecondaryNameNode的主要工作是eNode,帮助NameNode减少启动时间,而不是NameNod....
图2-5MapReduce处理流程图
第2章相关理论与技术1)Client:用户通过Client提交MapReduce程序到JobTracker端,同时也可在Client端查看控制作业运行状态。2)JobTracker:JobTracker的主要负责监控TaskTracker的运行状....
本文编号:4029120
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/4029120.html
上一篇:多样本遗传算法在武器外弹道组网试验中的应用
下一篇:没有了
下一篇:没有了