基于关联规则的Web日志挖掘研究与应用
本文关键词:基于关联规则的Web日志挖掘研究与应用
更多相关文章: Web日志挖掘 关联规则 Apriori算法 频繁访问路径
【摘要】: 本文从理论、算法和应用三个层次研究了关联规则算法在Web日志挖掘中的应用。 首先系统、全面地分析和论述了数据挖掘技术以及Web挖掘技术,着重研究了Web日志挖掘过程中各环节的关键技术,特别是Web日志挖掘的数据预处理过程。 其次,对关联规则挖掘的定义、性质、挖掘过程、挖掘算法以及研究现状进行了综述,对关联规则经典算法中的Apriori算法进行了深入研究与分析,针对其需要反复扫描事务数据库,造成大量I/O开销,影响关联规则挖掘效率这一不足之处,提出了新的改进算法Imp_Apriori算法,主要思想为:基于在实际关联规则挖掘中,项的数目远小于事务数目这一事实,提出将事务数据库转换成项数据库,项数据库以项为索引,其记录是涉及该项的事务的集合,之后挖掘就直接在项数据库上进行。针对Apriori算法和Imp_Apriori算法,开发出两个测试程序,对同样的数据集在相同支持度和置信度条件下,两种算法各自挖掘的时间进行比较,从而验证了算法改进的可行性。 最后,在对Web日志挖掘理论和算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的“招生信息网”上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。
【关键词】:Web日志挖掘 关联规则 Apriori算法 频繁访问路径
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP311.13
【目录】:
- 摘要3-4
- Abstract4-7
- 1 绪论7-11
- 1.1 研究背景及意义7
- 1.2 国内外研究现状7-9
- 1.2.1 国外研究现状7-8
- 1.2.2 国内研究现状8-9
- 1.3 论文的工作及组织结构9-11
- 1.3.1 论文的主要工作9
- 1.3.2 论文的组织结构9-11
- 2 数据挖掘和Web挖掘概述11-20
- 2.1 什么是数据挖掘11
- 2.2 数据挖掘的方法和过程11-13
- 2.3 Web数据挖掘13-14
- 2.4 Web挖掘分类14-16
- 2.4.1 Web内容挖掘14-15
- 2.4.2 Web结构挖掘15
- 2.4.3 Web使用挖掘15-16
- 2.5 Web挖掘主要流程16-17
- 2.6 Web挖掘主要技术17-19
- 2.6.1 关联规则17
- 2.6.2 分类聚类17-18
- 2.6.3 序列模式18
- 2.6.4 路径分析18-19
- 2.7 Web挖掘应用前景19-20
- 3 Web日志挖掘20-27
- 3.1 Web日志挖掘的提出20
- 3.2 Web日志挖掘的应用20-21
- 3.3 Web日志的记录方式21
- 3.4 Web日志分布21-22
- 3.5 Web日志挖掘数据源22-23
- 3.6 Web日志挖掘的处理过程23-24
- 3.7 数据预处理24-27
- 3.7.1 数据清理24-25
- 3.7.2 用户识别25
- 3.7.3 会话识别25-26
- 3.7.4 路径补充26
- 3.7.5 本文的数据预处理26-27
- 4 关联规则算法27-42
- 4.1 关联规则基本概念27
- 4.2 关联规则挖掘的过程27-28
- 4.3 关联规则的分类28-29
- 4.4 关联规则挖掘算法的研究现状29-30
- 4.5 Apriori算法及改进30-42
- 4.5.1 Apriori算法介绍30-32
- 4.5.2 Apriori算法示例32-34
- 4.5.3 Apriori算法的局限性34-35
- 4.5.4 Apriori算法的改进-Imp_Apriori算法35-37
- 4.5.5 Imp_Apriori算法示例37-39
- 4.5.6 Apriori算法和Imp_Apriori算法的性能比较39-42
- 5 Web日志挖掘系统设计及应用42-52
- 5.1 系统的设计思想42
- 5.2 开发环境的选择42
- 5.3 软件开发42-46
- 5.3.1 CApriori类42-44
- 5.3.2 部分程序源代码44-46
- 5.4 Web日志挖掘系统应用46-52
- 5.4.1 Web服务器日志处理46-49
- 5.4.2 Web日志挖掘49-52
- 6 总结与展望52-54
- 6.1 总结52
- 6.2 展望52-54
- 致谢54-55
- 参考文献55-58
【参考文献】
中国期刊全文数据库 前10条
1 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
2 毕建欣,张岐山;关联规则挖掘算法综述[J];中国工程科学;2005年04期
3 杨炳儒,王建新,孙海洪;KDD中双库协同机制的研究(Ⅱ)[J];中国工程科学;2002年05期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 杨炳儒,孙海洪;基于双库协同机制的挖掘关联规则算法Maradbcm[J];计算机研究与发展;2002年11期
6 陆丽娜,xjtu.edu.cn,陈亚萍,xjtu.edu.cn,杨麦顺,xjtu.edu.cn,魏恒义,xjtu.edu.cn;挖掘关联规则算法的优化处理[J];计算机工程与应用;2000年08期
7 胡建武,何贞铭,张贻权;WEB日志挖掘及其实现[J];计算机工程与应用;2004年14期
8 许国艳,史宇清;遗传算法在关联规则挖掘中的应用[J];计算机工程;2002年07期
9 李波,蔡光起;三杆六自由度并联机器人运动学研究[J];机械设计与制造;1999年04期
10 铁治欣,陈奇,俞瑞钊;关联规则采掘综述[J];计算机应用研究;2000年01期
中国硕士学位论文全文数据库 前1条
1 苏海英;数据挖掘中关联规则算法的分析与优化研究[D];吉林大学;2006年
,本文编号:639045
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/639045.html