基于关联规则的Web日志挖掘研究与应用

发布时间：2017-08-08 08:27

本文关键词：基于关联规则的Web日志挖掘研究与应用

【摘要】： 本文从理论、算法和应用三个层次研究了关联规则算法在Web日志挖掘中的应用。首先系统、全面地分析和论述了数据挖掘技术以及Web挖掘技术,着重研究了Web日志挖掘过程中各环节的关键技术,特别是Web日志挖掘的数据预处理过程。其次,对关联规则挖掘的定义、性质、挖掘过程、挖掘算法以及研究现状进行了综述,对关联规则经典算法中的Apriori算法进行了深入研究与分析,针对其需要反复扫描事务数据库,造成大量I/O开销,影响关联规则挖掘效率这一不足之处,提出了新的改进算法Imp_Apriori算法,主要思想为:基于在实际关联规则挖掘中,项的数目远小于事务数目这一事实,提出将事务数据库转换成项数据库,项数据库以项为索引,其记录是涉及该项的事务的集合,之后挖掘就直接在项数据库上进行。针对Apriori算法和Imp_Apriori算法,开发出两个测试程序,对同样的数据集在相同支持度和置信度条件下,两种算法各自挖掘的时间进行比较,从而验证了算法改进的可行性。最后,在对Web日志挖掘理论和算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的“招生信息网”上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。
【关键词】：Web日志挖掘 关联规则 Apriori算法 频繁访问路径
【学位授予单位】：南京理工大学
【学位级别】：硕士
【学位授予年份】：2009
【分类号】：TP311.13
【目录】：

摘要3-4
Abstract4-7
1 绪论7-11
1.1 研究背景及意义7
1.2 国内外研究现状7-9
1.2.1 国外研究现状7-8
1.2.2 国内研究现状8-9
1.3 论文的工作及组织结构9-11
1.3.1 论文的主要工作9
1.3.2 论文的组织结构9-11
2 数据挖掘和Web挖掘概述11-20
2.1 什么是数据挖掘11
2.2 数据挖掘的方法和过程11-13
2.3 Web数据挖掘13-14
2.4 Web挖掘分类14-16
2.4.1 Web内容挖掘14-15
2.4.2 Web结构挖掘15
2.4.3 Web使用挖掘15-16
2.5 Web挖掘主要流程16-17
2.6 Web挖掘主要技术17-19
2.6.1 关联规则17
2.6.2 分类聚类17-18
2.6.3 序列模式18
2.6.4 路径分析18-19
2.7 Web挖掘应用前景19-20
3 Web日志挖掘20-27
3.1 Web日志挖掘的提出20
3.2 Web日志挖掘的应用20-21
3.3 Web日志的记录方式21
3.4 Web日志分布21-22
3.5 Web日志挖掘数据源22-23
3.6 Web日志挖掘的处理过程23-24
3.7 数据预处理24-27
3.7.1 数据清理24-25
3.7.2 用户识别25
3.7.3 会话识别25-26
3.7.4 路径补充26
3.7.5 本文的数据预处理26-27
4 关联规则算法27-42
4.1 关联规则基本概念27
4.2 关联规则挖掘的过程27-28
4.3 关联规则的分类28-29
4.4 关联规则挖掘算法的研究现状29-30
4.5 Apriori算法及改进30-42
4.5.1 Apriori算法介绍30-32
4.5.2 Apriori算法示例32-34
4.5.3 Apriori算法的局限性34-35
4.5.4 Apriori算法的改进-Imp_Apriori算法35-37
4.5.5 Imp_Apriori算法示例37-39
4.5.6 Apriori算法和Imp_Apriori算法的性能比较39-42
5 Web日志挖掘系统设计及应用42-52
5.1 系统的设计思想42
5.2 开发环境的选择42
5.3 软件开发42-46
5.3.1 CApriori类42-44
5.3.2 部分程序源代码44-46
5.4 Web日志挖掘系统应用46-52
5.4.1 Web服务器日志处理46-49
5.4.2 Web日志挖掘49-52
6 总结与展望52-54
6.1 总结52
6.2 展望52-54
致谢54-55
参考文献55-58

【参考文献】

中国期刊全文数据库前10条

1 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期

2 毕建欣,张岐山;关联规则挖掘算法综述[J];中国工程科学;2005年04期

3 杨炳儒,王建新,孙海洪;KDD中双库协同机制的研究(Ⅱ)[J];中国工程科学;2002年05期

4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

5 杨炳儒,孙海洪;基于双库协同机制的挖掘关联规则算法Maradbcm[J];计算机研究与发展;2002年11期

6 陆丽娜,xjtu．edu．cn,陈亚萍,xjtu．edu．cn,杨麦顺,xjtu．edu．cn,魏恒义,xjtu．edu．cn;挖掘关联规则算法的优化处理[J];计算机工程与应用;2000年08期

7 胡建武,何贞铭,张贻权;WEB日志挖掘及其实现[J];计算机工程与应用;2004年14期

8 许国艳,史宇清;遗传算法在关联规则挖掘中的应用[J];计算机工程;2002年07期

9 李波,蔡光起;三杆六自由度并联机器人运动学研究[J];机械设计与制造;1999年04期

10 铁治欣,陈奇,俞瑞钊;关联规则采掘综述[J];计算机应用研究;2000年01期

中国硕士学位论文全文数据库前1条

1 苏海英;数据挖掘中关联规则算法的分析与优化研究[D];吉林大学;2006年

，

本文编号：639045

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/639045.html

上一篇：CI设计中辅助图形的应用
下一篇：消费者个性对主观规范及网络购买意愿影响的实证研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|