基于聚类划分的关联规则在Web日志挖掘中的应用研究
发布时间:2017-06-20 05:09
本文关键词:基于聚类划分的关联规则在Web日志挖掘中的应用研究,由笔耕文化传播整理发布。
【摘要】:随着电子商务、Web服务以及基于Web的信息系统的快速发展和壮大,基于Web的组织在日常运作中已经收集了大量的Web日志信息。分析并发现这些潜在的规律及知识,对于用户访问、广告投放和个性化服务等应用有着重大的意义。本文将将针对Web日志中半结构化数据集,以发现Web用户访问记录中潜在的规律和知识为目标。以Web日志关联规则挖掘模式为方法,提出了一种改进的基于聚类划分的Web日志关联规则挖掘方法。 Web日志挖掘是指自动发现和分析模式、这些模式来自于收集的点击流和相关数据或用户与一个或多个网站互动的结果。其目标是捕捉、建模并分析用户与网站交互的行为模式和模型。所发现的模式经常被表示成有着共同需求或兴趣的一群用户频繁访问的页面、对象或者资源的集合。而对整合好的记录数据进行分析的类型和层次依赖于分析员的最终目标和预期的结果。在本文里,,也描述了Web使用记录挖掘领域里最常用的模式发现类型以及分析技术在应用中的实践。 本文工作如下: (1)介绍了Web使用日志挖掘的发展背景与国内外发展现状,总结了当前Web使用日志挖掘技术的一些算法,并在已有的算法基础上提出了改进的方向; (2)本文再针对原始Web日志数据的半结构化和冗余特性,提出了日志预处理的一些步骤与方法,针对预处理之后的数据进行了一定的建模,使得后面的挖掘步骤能够有条不紊的进行,也保证了后续挖掘的数据质量; (3)针对Web日志挖掘中的一些关键算法进行了详细的陈述与分析,对算法中存在的劣势也提出了一些改进方向; (4)针对Web日志中的原始关联规则Apriori算法提出了基于聚类划分的Apriori算法,克服了原始算法挖掘规则覆盖率不够高的问题,并且就原始算法和改进的算法做了一个仿真实验,并针对实验后的结果进行了对比分析,验证了改进后的算法在挖掘性能上的提升,最后给出了推荐系统的原型设计。
【关键词】:Web日志挖掘 数据建模 聚类划分 Apriori算法
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-7
- 目录7-10
- 第1章 绪论10-13
- 1.1 课题背景及意义10-11
- 1.2 国内外研究现状11
- 1.3 论文主要内容和结构11-13
- 第2章 Web 挖掘与 Web 日志挖掘13-17
- 2.1 数据挖掘与 Web 挖掘13
- 2.2 Web 挖掘的概述13-14
- 2.3 Web 日志挖掘的关键元素14-16
- 2.3.1 Web 日志的来源14-15
- 2.3.2 Web 日志的类型15
- 2.3.3 Web 日志挖掘的关键过程15
- 2.3.4 Web 日志挖掘的关键应用15-16
- 2.4 本章小结16-17
- 第3章 数据预处理与数据建模17-28
- 3.1 数据的获取及预处理概述17
- 3.2 Web 日志的不确定性17-18
- 3.3 Web 日志的预处理18-22
- 3.3.1 数据清洗18-19
- 3.3.2 用户识别19-20
- 3.3.3 会话识别20-21
- 3.3.4 路径补充21-22
- 3.3.5 事务识别22
- 3.4 Web 日志数据建模基础22-23
- 3.5 Web 日志数据建模的关键元素23-26
- 3.5.1 Web 页面权重23-24
- 3.5.2 Web 隐式语义24-26
- 3.6 日志数据仓库的多维建模26-27
- 3.7 本章小结27-28
- 第4章 Web 日志挖掘算法的研究及改进28-41
- 4.1 Web 日志挖掘算法概述28
- 4.2 关联规则和 Apriori 算法的改进28-34
- 4.2.1 关联规则的基本概念28-29
- 4.2.2 Apriori 算法的思想及伪码实现29-32
- 4.2.3 Apriori 算法的分析及改进32-34
- 4.3 聚类分析和 K-means 算法的改进34-39
- 4.3.1 聚类分析的基本概念34-35
- 4.3.2 聚类分析方法的主要分类35-36
- 4.3.3 K-means 算法的思想及伪码实现36-37
- 4.3.4 K-means 算法的分析及改进37-39
- 4.4 K-means 和 Apriori 算法在日志挖掘中的性能评价39
- 4.5 基于 K-means 聚类的 Apriori 算法39-40
- 4.6 本章小结40-41
- 第5章 改进算法的仿真实验及结果分析41-52
- 5.1 实验目的41
- 5.2 实验环境41-42
- 5.2.1 实验平台41
- 5.2.2 实验数据集来源及特征41-42
- 5.3 实验过程及结果分析42-51
- 5.3.1 数据准备阶段42-44
- 5.3.2 算法挖掘阶段44-50
- 5.3.3 实验结果分析50-51
- 5.4 本章小结51-52
- 第6章 基于 Web 日志挖掘的原型系统设计52-60
- 6.1 系统总体设计52-54
- 6.1.1 可视化插件服务53
- 6.1.2 离线分析服务53-54
- 6.1.3 在线推荐服务54
- 6.2 功能模块详细设计及过程分析54-58
- 6.2.1 日志数据采集模块54-56
- 6.2.2 日志预处理模块56-57
- 6.2.3 日志挖掘模块57-58
- 6.2.4 在线推荐服务模块58
- 6.3 系统应用场景58-59
- 6.4 本章小结59-60
- 第7章 总结与展望60-62
- 7.1 总结60
- 7.2 展望60-62
- 致谢62-63
- 参考文献63-64
【参考文献】
中国期刊全文数据库 前7条
1 肖宏飞;;Web日志挖掘在个性化网站中的应用初探[J];滁州职业技术学院学报;2011年01期
2 向坚持,陈晓红,刘相滨,徐选华;基于Web Log的数据预处理研究[J];湖南师范大学自然科学学报;2004年04期
3 王旭;刘明刚;;关联规则研究[J];经济研究导刊;2010年11期
4 刘立军;周军;梅红岩;;Web使用挖掘的数据预处理[J];计算机科学;2007年05期
5 秦东霞;周航;张栋梁;吴文欢;;基于频繁闭项集的Web日志挖掘算法[J];周口师范学院学报;2012年02期
6 李超锋;;Web使用挖掘数据源分析[J];中南民族大学学报(自然科学版);2005年04期
7 幸莉仙;黄慧连;;聚类与关联规则在信息舞弊识别中的应用[J];计算机系统应用;2012年12期
本文关键词:基于聚类划分的关联规则在Web日志挖掘中的应用研究,由笔耕文化传播整理发布。
本文编号:464634
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/464634.html