当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于关联规则的Web日志挖掘研究与应用

发布时间:2017-08-08 08:27

  本文关键词:基于关联规则的Web日志挖掘研究与应用


  更多相关文章: Web日志挖掘 关联规则 Apriori算法 频繁访问路径


【摘要】: 本文从理论、算法和应用三个层次研究了关联规则算法在Web日志挖掘中的应用。 首先系统、全面地分析和论述了数据挖掘技术以及Web挖掘技术,着重研究了Web日志挖掘过程中各环节的关键技术,特别是Web日志挖掘的数据预处理过程。 其次,对关联规则挖掘的定义、性质、挖掘过程、挖掘算法以及研究现状进行了综述,对关联规则经典算法中的Apriori算法进行了深入研究与分析,针对其需要反复扫描事务数据库,造成大量I/O开销,影响关联规则挖掘效率这一不足之处,提出了新的改进算法Imp_Apriori算法,主要思想为:基于在实际关联规则挖掘中,项的数目远小于事务数目这一事实,提出将事务数据库转换成项数据库,项数据库以项为索引,其记录是涉及该项的事务的集合,之后挖掘就直接在项数据库上进行。针对Apriori算法和Imp_Apriori算法,开发出两个测试程序,对同样的数据集在相同支持度和置信度条件下,两种算法各自挖掘的时间进行比较,从而验证了算法改进的可行性。 最后,在对Web日志挖掘理论和算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的“招生信息网”上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。
【关键词】:Web日志挖掘 关联规则 Apriori算法 频繁访问路径
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP311.13
【目录】:
  • 摘要3-4
  • Abstract4-7
  • 1 绪论7-11
  • 1.1 研究背景及意义7
  • 1.2 国内外研究现状7-9
  • 1.2.1 国外研究现状7-8
  • 1.2.2 国内研究现状8-9
  • 1.3 论文的工作及组织结构9-11
  • 1.3.1 论文的主要工作9
  • 1.3.2 论文的组织结构9-11
  • 2 数据挖掘和Web挖掘概述11-20
  • 2.1 什么是数据挖掘11
  • 2.2 数据挖掘的方法和过程11-13
  • 2.3 Web数据挖掘13-14
  • 2.4 Web挖掘分类14-16
  • 2.4.1 Web内容挖掘14-15
  • 2.4.2 Web结构挖掘15
  • 2.4.3 Web使用挖掘15-16
  • 2.5 Web挖掘主要流程16-17
  • 2.6 Web挖掘主要技术17-19
  • 2.6.1 关联规则17
  • 2.6.2 分类聚类17-18
  • 2.6.3 序列模式18
  • 2.6.4 路径分析18-19
  • 2.7 Web挖掘应用前景19-20
  • 3 Web日志挖掘20-27
  • 3.1 Web日志挖掘的提出20
  • 3.2 Web日志挖掘的应用20-21
  • 3.3 Web日志的记录方式21
  • 3.4 Web日志分布21-22
  • 3.5 Web日志挖掘数据源22-23
  • 3.6 Web日志挖掘的处理过程23-24
  • 3.7 数据预处理24-27
  • 3.7.1 数据清理24-25
  • 3.7.2 用户识别25
  • 3.7.3 会话识别25-26
  • 3.7.4 路径补充26
  • 3.7.5 本文的数据预处理26-27
  • 4 关联规则算法27-42
  • 4.1 关联规则基本概念27
  • 4.2 关联规则挖掘的过程27-28
  • 4.3 关联规则的分类28-29
  • 4.4 关联规则挖掘算法的研究现状29-30
  • 4.5 Apriori算法及改进30-42
  • 4.5.1 Apriori算法介绍30-32
  • 4.5.2 Apriori算法示例32-34
  • 4.5.3 Apriori算法的局限性34-35
  • 4.5.4 Apriori算法的改进-Imp_Apriori算法35-37
  • 4.5.5 Imp_Apriori算法示例37-39
  • 4.5.6 Apriori算法和Imp_Apriori算法的性能比较39-42
  • 5 Web日志挖掘系统设计及应用42-52
  • 5.1 系统的设计思想42
  • 5.2 开发环境的选择42
  • 5.3 软件开发42-46
  • 5.3.1 CApriori类42-44
  • 5.3.2 部分程序源代码44-46
  • 5.4 Web日志挖掘系统应用46-52
  • 5.4.1 Web服务器日志处理46-49
  • 5.4.2 Web日志挖掘49-52
  • 6 总结与展望52-54
  • 6.1 总结52
  • 6.2 展望52-54
  • 致谢54-55
  • 参考文献55-58

【参考文献】

中国期刊全文数据库 前10条

1 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期

2 毕建欣,张岐山;关联规则挖掘算法综述[J];中国工程科学;2005年04期

3 杨炳儒,王建新,孙海洪;KDD中双库协同机制的研究(Ⅱ)[J];中国工程科学;2002年05期

4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

5 杨炳儒,孙海洪;基于双库协同机制的挖掘关联规则算法Maradbcm[J];计算机研究与发展;2002年11期

6 陆丽娜,xjtu.edu.cn,陈亚萍,xjtu.edu.cn,杨麦顺,xjtu.edu.cn,魏恒义,xjtu.edu.cn;挖掘关联规则算法的优化处理[J];计算机工程与应用;2000年08期

7 胡建武,何贞铭,张贻权;WEB日志挖掘及其实现[J];计算机工程与应用;2004年14期

8 许国艳,史宇清;遗传算法在关联规则挖掘中的应用[J];计算机工程;2002年07期

9 李波,蔡光起;三杆六自由度并联机器人运动学研究[J];机械设计与制造;1999年04期

10 铁治欣,陈奇,俞瑞钊;关联规则采掘综述[J];计算机应用研究;2000年01期

中国硕士学位论文全文数据库 前1条

1 苏海英;数据挖掘中关联规则算法的分析与优化研究[D];吉林大学;2006年



本文编号:639045

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/639045.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a7817***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com