并行分布式Web访问模式聚类
发布时间:2023-05-31 19:08
随着大数据时代的到来,广泛的资源共享带来了数据的指数级增长,人们对Web个性化服务、智能推荐等需求也越来越大,如何通过Web挖掘获取用户的兴趣是至关重要的。Web使用挖掘通过挖掘网页中用户的访问信息来分析用户的兴趣偏好和行为模式,从而提高推荐系统的推荐质量。Web用户聚类通过分析用户的访问行为,把浏览行为相似的用户划分为一类,进而更精确地为用户提供个性化服务。在传统的聚类算法中,类与类划分的界限是确定的,但在现实生活当中,类边界的划分是模糊的,因此基于模糊粗糙的聚类在现实生活中得到广泛应用,是当前聚类研究的主流趋势。目前,大多数的Web日志挖掘是基于访问频率的,其挖掘的信息没有太大的价值。而本文提出的两种改进的聚类技术是基于访问时间的,使用模糊向量表示用户浏览模式,记录用户是否浏览过该页面以及停留的时间。本文在模糊粗糙k-均值聚类方法的基础上提出了两种改进算法,主要所做工作如下:(1)针对模糊粗糙k-均值收敛速度慢的问题,本文将模糊粗糙k-均值和夹角余弦相结合,提出了一种双层聚类技术。通过一系列实验,论证了该聚类方法的可行性,而且,使用Davies-Bouldin指标验证了该算法的聚类...
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文的研究思想和内容安排
1.3.1 本文的研究内容
1.3.2 本文的组织和安排
2 Web数据挖掘和聚类算法研究
2.1 数据挖掘概述
2.1.1 数据挖掘
2.1.2 数据挖掘算法
2.2 Web数据挖掘概述
2.3 k-means聚类算法研究
2.4 Fuzzy k-means聚类算法研究
2.4.1 模糊集相关概念
2.4.2 模糊k-均值聚类算法
2.5 Rough k-means聚类算法研究
2.5.1 粗糙集相关概念
2.5.2 粗糙k-均值聚类算法
2.6 模糊粗糙k-means聚类算法研究
3 基于模糊向量的Web访问模式聚类研究及分析
3.1 数据预处理
3.2 基于模糊粗糙k-均值的Web访问模式聚类
3.3 基于夹角余弦的Web访问模式聚类
3.3.1 基于夹角余弦的Web访问模式聚类思想概述
3.3.2 实例分析
3.4 基于欧式距离的Web访问模式聚类
3.4.1 基于欧式距离的Web访问模式聚类思想概述
3.4.2 实例分析
3.5 基于模糊集的Web访问模式聚类
3.5.1 基于模糊集的Web访问模式聚类思想概述
3.5.2 实例分析
3.6 基于模糊向量的Web访问模式聚类算法对比分析
4 基于模糊粗糙k-均值和夹角余弦双层聚类
4.1 问题提出
4.2 基于模糊粗糙k-均值和夹角余弦双层聚类算法描述
4.3 实例分析
4.4 实验分析
4.4.1 相似度算法对比
4.4.2 模糊粗糙k-均值和双层聚类的对比
5 基于模糊粗糙k-均值聚类改进算法及分析
5.1 问题提出
5.2 较优聚类数的确定
5.3 基于模糊粗糙k-均值聚类改进算法描述
5.4 实例分析
5.5 实验分析
6 基于MapReduce的并行分布式聚类
6.1 Hadoop概述
6.2 HDFS体系结构
6.3 MapReduce计算框架
6.3.1 MapReduce体系结构
6.3.2 MapReduce工作流程
6.4 基于MapReduce的并行分布式双层聚类
6.4.1 聚类中心计算模块设计
6.4.2 主函数判断模块的设计
6.4.3 夹角余弦相似度计算模块设计
6.5 基于MapReduce的并行分布式模糊粗糙k-均值改进
6.5.1 较优聚类数计算模块的设计
6.5.2 初始聚类中心计算模块的设计
6.5.3 其它模块设计
6.6 实验分析
6.6.1 两种改进算法的扩展性分析
6.6.2 两种改进算法的加速比分析
7 结论与展望
参考文献
在校期间的研究成果
致谢
本文编号:3825848
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文的研究思想和内容安排
1.3.1 本文的研究内容
1.3.2 本文的组织和安排
2 Web数据挖掘和聚类算法研究
2.1 数据挖掘概述
2.1.1 数据挖掘
2.1.2 数据挖掘算法
2.2 Web数据挖掘概述
2.3 k-means聚类算法研究
2.4 Fuzzy k-means聚类算法研究
2.4.1 模糊集相关概念
2.4.2 模糊k-均值聚类算法
2.5 Rough k-means聚类算法研究
2.5.1 粗糙集相关概念
2.5.2 粗糙k-均值聚类算法
2.6 模糊粗糙k-means聚类算法研究
3 基于模糊向量的Web访问模式聚类研究及分析
3.1 数据预处理
3.2 基于模糊粗糙k-均值的Web访问模式聚类
3.3 基于夹角余弦的Web访问模式聚类
3.3.1 基于夹角余弦的Web访问模式聚类思想概述
3.3.2 实例分析
3.4 基于欧式距离的Web访问模式聚类
3.4.1 基于欧式距离的Web访问模式聚类思想概述
3.4.2 实例分析
3.5 基于模糊集的Web访问模式聚类
3.5.1 基于模糊集的Web访问模式聚类思想概述
3.5.2 实例分析
3.6 基于模糊向量的Web访问模式聚类算法对比分析
4 基于模糊粗糙k-均值和夹角余弦双层聚类
4.1 问题提出
4.2 基于模糊粗糙k-均值和夹角余弦双层聚类算法描述
4.3 实例分析
4.4 实验分析
4.4.1 相似度算法对比
4.4.2 模糊粗糙k-均值和双层聚类的对比
5 基于模糊粗糙k-均值聚类改进算法及分析
5.1 问题提出
5.2 较优聚类数的确定
5.3 基于模糊粗糙k-均值聚类改进算法描述
5.4 实例分析
5.5 实验分析
6 基于MapReduce的并行分布式聚类
6.1 Hadoop概述
6.2 HDFS体系结构
6.3 MapReduce计算框架
6.3.1 MapReduce体系结构
6.3.2 MapReduce工作流程
6.4 基于MapReduce的并行分布式双层聚类
6.4.1 聚类中心计算模块设计
6.4.2 主函数判断模块的设计
6.4.3 夹角余弦相似度计算模块设计
6.5 基于MapReduce的并行分布式模糊粗糙k-均值改进
6.5.1 较优聚类数计算模块的设计
6.5.2 初始聚类中心计算模块的设计
6.5.3 其它模块设计
6.6 实验分析
6.6.1 两种改进算法的扩展性分析
6.6.2 两种改进算法的加速比分析
7 结论与展望
参考文献
在校期间的研究成果
致谢
本文编号:3825848
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3825848.html