当前位置:主页 > 科技论文 > 软件论文 >

一种改进K-Means算法的Web日志挖掘技术的研究

发布时间:2021-05-16 13:31
  随着互联网和信息技术的快速发展,从云服务上获取知识成为了人们学习的重要途径,同时,不断涌现出的各种云服务应用使得服务器存储的数据量急剧增加。Web日志作为云端应用的重要组成部分,大量有用的知识和待挖掘的信息被存储在其中,人们既可以根据日志文件获取该应用的用户访问情况,也可以对日志文件进行预处理之后运用数据挖掘算法进行深度知识挖掘,获取人们需要的有价值的信息。Web日志作为服务器的记录文件,记录了网站最重要的信息,随着数据量的增加,找出一种应对大数据量的数据挖掘算法,以更有效的分析日志文件迫在眉睫。本文主要分析的Web日志用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,最终进行相关应用。对于此类研究,国内外学者主要集中在对数据挖掘算法的改进研究上,而大多方案不具备大数据环境下并发处理数据的能力,因此针对海量数据的挖掘算法并发化问题也是本文研究的重点。针对上述问题,本文重点研究了一种结合密度参数与坐标旋转算法的ICKM(Improve cordic K-Means)算法,借助MapReduce原理及分布式理论,在解决传统算法缺陷的同时使算法具备了在... 

【文章来源】:江苏科技大学江苏省

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
        1.1.1 Web日志挖掘
        1.1.2 云计算和大数据技术
    1.2 国内外研究现状
        1.2.1 Web挖掘技术
        1.2.2 K-均值聚类算法
        1.2.3 分布式计算
    1.3 本文研究内容
    1.4 本文的组织框架
第2章 Web日志挖掘技术的研究
    2.1 Web数据挖掘
        2.1.1 数据挖掘
        2.1.2 Web数据挖掘
    2.2 Web日志挖掘概述
    2.3 Web日志挖掘数据预处理技术
        2.3.1 数据清洗
        2.3.2 用户识别
        2.3.3 会话识别
    2.4 本章小结
第3章 K-均值聚类算法相关研究
    3.1 聚类分析
        3.1.1 聚类分析简介
        3.1.2 聚类分析方法
    3.2 基于聚类的Web日志挖掘
    3.3 K-均值聚类算法
        3.3.1 算法描述
        3.3.2 基于K-均值聚类的用户聚类
        3.3.3 算法缺陷
    3.4 改进的K-均值聚类算法
        3.4.1 ICKM算法描述
        3.4.2 算法特点
    3.5 本章小结
第4章 基于MapReduce的 K-均值算法
    4.1 云计算
    4.2 分布式相关技术
        4.2.1 Hadoop运行框架
        4.2.2 HDFS分布式文件系统
        4.2.3 MapReduce编程模型
    4.3 ICKM算法的MapReduce并行化
        4.3.1 ICKM并行化可行性分析
        4.3.2 ICKM算法的Map阶段
        4.3.3 ICKM算法的Reduce阶段
    4.4 本章小结
第5章 实验设计与结果分析
    5.1 实验环境与实验样本
        5.1.1 实验环境
        5.1.2 实验样本
    5.2 Web日志挖掘系统数据模型建立
    5.3 实验结果与分析
        5.3.1 实验性能参数
        5.3.2 实验结果与分析
    5.4 实验性能分析
    5.5 本章小结
总结和展望
参考文献
攻读硕士期间发表的学术论文
致谢


【参考文献】:
期刊论文
[1]云计算视域下数据挖掘技术[J]. 杨继武.  电子技术与软件工程. 2019(05)
[2]大数据时代下计算机信息处理技术研究[J]. 陈冠宇.  网络安全技术与应用. 2019(03)
[3]基于Hadoop平台的数据挖掘算法应用研究[J]. 陈娥祥.  渤海大学学报(自然科学版). 2018(03)
[4]基于K-means聚类的叠放螺母的定位研究[J]. 陈佳涛,刘琦.  技术与市场. 2017(12)
[5]基于相邻请求的动态时间阈值会话识别算法[J]. 曾令,肖如良.  计算机应用. 2017(11)
[6]web日志挖掘中会话识别方法[J]. 袁艺,陈海光.  上海师范大学学报(自然科学版). 2016(05)
[7]Web数据挖掘综述[J]. 熊富琴.  电子世界. 2016(18)
[8]Web日志挖掘中的数据预处理研究[J]. 黄宏涛.  黑龙江科技信息. 2014(31)
[9]Web日志挖掘中的数据预处理技术研究[J]. 杨玉梅.  科技视界. 2014(12)
[10]最大距离法选取初始簇中心的K-means文本聚类算法的研究[J]. 翟东海,鱼江,高飞,于磊,丁锋.  计算机应用研究. 2014(03)

博士论文
[1]聚类分析及其应用研究[D]. 唐东明.电子科技大学 2010

硕士论文
[1]基于微博文本和社交信息的性别分类方法研究[D]. 戴斌.苏州大学 2017
[2]基于Web挖掘的个性化推荐系统研究[D]. 潘磊.江苏科技大学 2017
[3]基于用户Web访问日志聚类的推荐算法研究与应用[D]. 于福生.大连海事大学 2017
[4]基于Web使用挖掘的网站结构优化技术研究[D]. 刘明鸣.电子科技大学 2016
[5]基于海量WEB日志的网络恶意行为分析系统设计与实现[D]. 徐安林.中国科学院大学(工程管理与信息技术学院) 2015
[6]基于用户兴趣和模糊聚类的Web日志挖掘应用研究[D]. 谢建丽.福州大学 2015
[7]数据挖掘K-means聚类算法的研究[D]. 杨阳.湖南师范大学 2015
[8]云计算环境下大GML空间数据并行存取关键技术研究[D]. 吴学饶.江西理工大学 2015
[9]k-均值聚类算法的改进与实现[D]. 董骐瑞.吉林大学 2015
[10]基于序列模式的Web日志挖掘及其应用[D]. 王合清.华南理工大学 2014



本文编号:3189777

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3189777.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户38b64***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com