基于Web日志挖掘的聚类算法研究及应用
发布时间:2017-09-06 02:01
本文关键词:基于Web日志挖掘的聚类算法研究及应用
更多相关文章: 聚类分析 事务识别 K-Means 基于密度的模糊划分
【摘要】:当前网络技术的发展中,信息供给与信息获取的矛盾越发突出,一方面用户希望略过大量网络冗余信息而直接获取到所需内容,另一方面,网站运营方则致力于发掘用户群体的访问模式,用以调整站点结构、提供个性化服务并开展适当的商务推广活动,从而增加网站对用户的吸引力。而基于Web日志的用户聚类可以根据用户行为对用户进行聚类,进而分析用户访问模式,为问题的解决提供了良好的解决方案。通过阅读、研究大量相关文献资料,本文提出了改进的数据预处理方法获取用户事务来描述用户访问行为,提出了一种基于模糊聚类的改进K-Means聚类算法,并设计实现用户聚类分析系统对改进算法的有效性进行了验证。由于日志数据质量较低,无法直接进行挖掘聚类,所以需要完成数据预处理并获得适合进行聚类的数据形式。在依次完成数据清洗、基于多重约束条件的用户识别和基于相邻URL访问时间阈值的会话识别后,针对用户会话对于聚类来说粒度太粗,以及原有用户事务识别对于页面类型判断不准确等问题,提出一种改进的事务识别算法,进而识别导航页面及内容页面,同时建立用户访问树并获取有效用户事务为用户聚类提供了高质量的输入数据。接下来,对经典聚类算法K-Means进行深入研究,针对算法初始中心点选择的问题,提出一种基于密度的模糊划分算法,首先根据距离完成模糊划分获得高密度区域,接下来基于密度的方法对这些区域进行合并调整,最后取各个高密度区域中适当的点作为初始聚类中心进行划分聚类,避免聚类仅得到局部最优解,有效降低算法迭代时间,并提高聚类质量。最后基于经典聚类数据集Iris对改进K-Means算法的准确性进行实验考证,同时设计实现了基于Web日志的用户聚类分析系统,选取真实Web日志完成数据预处理及用户聚类,验证了改进事务识别算法及改进K-Means算法的可用性,将理论应用于实践中。
【关键词】:聚类分析 事务识别 K-Means 基于密度的模糊划分
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09;TP311.13
【目录】:
- 摘要4-5
- Abstract5-9
- 第1章 绪论9-15
- 1.1 论文的研究背景与意义9-10
- 1.2 国内外研究现状10-13
- 1.2.1 国外研究现状10-12
- 1.2.2 国内研究现状12-13
- 1.3 论文主要内容13-14
- 1.4 论文组织结构14-15
- 第2章 Web日志挖掘相关理论和技术15-31
- 2.1 Web日志挖掘15-22
- 2.1.1 数据挖掘15-17
- 2.1.2 Web数据挖掘17-19
- 2.1.3 Web日志挖掘19-22
- 2.2 数据预处理22-24
- 2.3 聚类分析24-29
- 2.3.1 概述24-26
- 2.3.2 聚类方法分类26-28
- 2.3.3 K-Means聚类算法28-29
- 2.4 本章小结29-31
- 第3章 日志数据预处理31-43
- 3.1 Web日志的数据清洗31-32
- 3.2 基于多重约束条件的用户识别32-34
- 3.3 会话识别及STT值确定34-35
- 3.4 识别有效用户事务35-38
- 3.4.1 问题的提出36-37
- 3.4.2 改进的事务识别算法37-38
- 3.5 实验分析38-40
- 3.6 本章小结40-43
- 第4章 聚类分析算法研究43-59
- 4.1 Web日志聚类数据表示43-44
- 4.1.1 用户事务向量43
- 4.1.2 用户事务兴趣度度量矩阵43-44
- 4.2 相似度度量44-48
- 4.2.1 基于距离的度量方法44-46
- 4.2.2 相似系数46-47
- 4.2.3 用户事务相似性度量47-48
- 4.3 改进K-Means算法48-53
- 4.3.1 问题的提出48
- 4.3.2 模糊聚类参数确定48-50
- 4.3.3 模糊聚类过程及结果调整50-52
- 4.3.4 改进K-Means算法总结描述52-53
- 4.4 实验分析53-58
- 4.4.1 聚类初始中心点选择实验54-55
- 4.4.2 聚类准确性实验55-56
- 4.4.3 用户事务聚类实验56-58
- 4.5 本章小结58-59
- 第5章 系统设计实现59-69
- 5.1 总体设计59-62
- 5.1.1 设计目标59
- 5.1.2 总结结构设计59-61
- 5.1.3 模块结构设计61-62
- 5.2 系统实现62-66
- 5.2.1 日志数据存储功能62-63
- 5.2.2 数据预处理功能63-64
- 5.2.3 聚类分析功能64
- 5.2.4 聚类结果分析功能64-66
- 5.3 本章小结66-69
- 结论69-71
- 参考文献71-75
- 攻读硕士学位期间取得的研究成果75-77
- 致谢77
本文编号:801486
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/801486.html