基于序列模式的Web日志挖掘及其应用
发布时间:2017-05-11 11:08
本文关键词:基于序列模式的Web日志挖掘及其应用,,由笔耕文化传播整理发布。
【摘要】:随着互联网及信息技术的飞速发展,互联网信息资源急速膨胀,人们不能有效选择和消化纷繁复杂的信息,淹没在信息的海洋中,这种现象称为信息过载。目前,人们主要使用搜索引擎来检索Web上的信息资源,但搜索出来的结果不够智能友好,没有考虑用户的兴趣爱好,出现了“数据丰富,知识匮乏”的现象。 Web挖掘是数据挖掘在Web上的应用,它从互联网上的信息资源获取知识,已成为当前计算机科学技术的一个研究热点。Web日志挖掘也叫Web使用挖掘,是Web挖掘的一个重要分支,通过使用Web日志序列模式挖掘技术,可从网站服务器的日志文件中挖掘出用户的访问模式,有利于改善Web的结构设计,为站点管理提供决策支持,为用户提供更好的访问体验。 本文系统地阐述了数据挖掘、Web数据挖掘、序列模式挖掘、Web日志挖掘的各个过程。因为原始的Web日志包含了大量的噪声数据,若不作处理将影响数据挖掘结果的质量,所以本文首先对日志进行预处理,结合Apache Log Viewer、Microsoft VisualStudio2005等工具以及预处理方法函数对日志进行数据清理和会话识别,为建立数据挖掘模型提供了数据源。然后,采用微软的商业智能挖掘工具SQL服务器分析服务SSAS为实验工具,Microsoft顺序分析和聚类分析算法为数据挖掘算法,对预处理后的数据进行挖掘,并把挖掘出来的结果进行前端展示,得出用户频繁访问的页面栏目及基于序列模式的用户访问路径。接着,本文对挖掘结果进行分析,提出了完善网站的四点建议,并把其应用到医院网站建设中。实践表明,网站的平均流量及页面浏览量得到提高,用户体验提高较为明显。
【关键词】:数据挖掘 Web日志挖掘 序列模式挖掘 SSAS 商业智能BI
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09;TP311.13
【目录】:
- 摘要5-6
- ABSTRACT6-7
- 目录7-9
- 第一章 绪论9-13
- 1.1 研究背景及意义9-10
- 1.2 国内外研究与现状10-11
- 1.3 本文研究的内容11
- 1.4 本文的组织结构11-12
- 1.5 本章小结12-13
- 第二章 基本概念与相关技术13-23
- 2.1 数据挖掘概述13-16
- 2.1.1 数据挖掘的定义13-14
- 2.1.2 数据挖掘的功能14-15
- 2.1.3 数据挖掘的过程15-16
- 2.2 序列模式挖掘概述16-17
- 2.3 Web 挖掘的定义17-18
- 2.4 Web 挖掘的分类18-20
- 2.4.1 Web 内容挖掘18
- 2.4.2 Web 结构挖掘18-20
- 2.4.3 Web 使用挖掘20
- 2.5 Web 日志挖掘的定义20-21
- 2.6 Web 日志挖掘的应用21-22
- 2.7 本章小结22-23
- 第三章 Web 日志预处理的关键技术及实现23-32
- 3.1 前言23
- 3.2 数据清理23-24
- 3.3 用户识别24
- 3.4 会话识别24-26
- 3.5 数据预处理的实现26-31
- 3.5.1 相关工具及方法函数26-28
- 3.5.2 数据预处理的实现过程28-31
- 3.6 本章小结31-32
- 第四章 商业智能挖掘工具与算法模式32-43
- 4.1 Web 日志挖掘工具介绍32-36
- 4.1.1 BI 商业智能32
- 4.1.2 分析服务 SSAS32
- 4.1.3 SSAS 的对象及程序集32-33
- 4.1.4 SSAS 的体系结构33-36
- 4.2 基于 SSAS 的算法选择36-39
- 4.2.1 SSAS 算法的选择36-37
- 4.2.2 Microsoft 顺序分析和聚类分析算法概述37-38
- 4.2.3 Microsoft 顺序分析和聚类分析算法的实现38-39
- 4.3 基于 Markov 链的 Web 序列与导航分析39-42
- 4.3.1 Markov 链的基本概念39-40
- 4.3.2 基于 Markov 链的 Web 序列和导航模式分析40-42
- 4.4 本章小结42-43
- 第五章 挖掘实现及成果应用43-61
- 5.1 Web 日志挖掘的实现43-58
- 5.1.1 Web 日志挖掘的实施43-46
- 5.1.2 前端展示及实验结果分析46-58
- 5.2 使用挖掘结果完善网站58-59
- 5.2.1 加强及新增相关栏目之间的正向链接及反向链接58
- 5.2.2 消除用户访问短路径的“孤岛”现象58-59
- 5.2.3 提高站内搜索命中率及就诊转化率59
- 5.2.4 提高服务器的性能59
- 5.3 用户体验与应用效果59-60
- 5.4 本章小结60-61
- 总结与展望61-63
- 1. 内容总结61
- 2. 研究展望61-63
- 参考文献63-66
- 致谢66-67
- 附件67
【参考文献】
中国期刊全文数据库 前9条
1 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期
2 余长慧,潘和平;商业智能及其核心技术[J];计算机应用研究;2002年09期
3 赵红玲,宋瀚涛,牛振东,刘桂山;Web日志挖掘中数据预处理的研究[J];计算机应用研究;2005年06期
4 闫永权;张大方;;基于频繁的Markov链预测模型[J];计算机应用研究;2007年03期
5 陈卓;杨炳儒;宋威;宋泽锋;;序列模式挖掘综述[J];计算机应用研究;2008年07期
6 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期
7 杨怡玲,管旭东,陆丽娜,尤晋元;一个简单的Web日志挖掘系统[J];上海交通大学学报;2000年07期
8 马瑞民;李向云;;Web日志挖掘中数据预处理技术的研究[J];计算机工程与设计;2007年10期
9 郭秀娟,李原;序列模式算法研究——类Apriori方法[J];现代情报;2003年12期
本文关键词:基于序列模式的Web日志挖掘及其应用,由笔耕文化传播整理发布。
本文编号:357110
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/357110.html