当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于关联规则的研究室网站数据挖掘设计与实现

发布时间:2017-05-06 03:04

  本文关键词:基于关联规则的研究室网站数据挖掘设计与实现,由笔耕文化传播整理发布。


【摘要】:近年来,信息科技迅猛发展,各种新技术层出不穷。无论是工作还是生活过程中,人们已经越来越依赖互联网带来的高效便捷服务。互联网是个无比庞大的信息资源池,在里面你几乎可以找到任何想要的信息。同时,作为最普及的信息平台,网站已经成为各个公司、企业的首要宣传渠道、甚至是唯一盈利工具。无论是公司、机关单位还是个人的网站,立足之本都在于用户。只有有相当数量的用户,这个网站才是有价值的;只有用户的数量在稳步地增长,这个网站才是走在正确的道路上。网站的成败唯一的客观评价者是用户。用户对网站的访问兴趣、对企业的印象很大程度上依赖于网站的结构是否合理、内容是否有价值。所以,成功的网站不是一劳永逸的,不能靠一次建站就解决所有问题。管理者需要在网站运行的时候,根据用户的访问习惯和访问欲望及时调整网站结构和内容,提升网站的用户体验。因此,深刻分析用户的访问规则对于网站的发展至关重要。 用户在网站上的访问行为会保存在服务器上的日志中。服务器日志是进行用户行为分析非常重要的信息来源。通过查询日志中的内容,我们可以了解用户的IP地址、访问时间、访问的网址、搜索引擎关键字等信息,这些信息为Web日志挖掘。挖掘出用户的行为模式可以为优化系统性能、改善网站结构和内容提供了重要的数据支持,最终达到提升用户体验、提升网站流量的目的。吉林大学数据库与智能网络研究室网站是该研究室的官方网站,是该研究室进行宣传、沟通、交流的重要平台。本文就是以吉林大学数据库与智能网络研究室网站为对象,对网站优化过程中的Web日志挖掘的各种理论、技术展开分析和研究工作。 本文在分析、总结数据挖掘相关理论基础上,以吉林大学数据库与智能网络研究室网站为研究对象,重点探讨了Web日志挖掘过程中数据预处理技术的步骤和方法、关联规则的相关知识和经典算法[1],接着将这些技术应用到研究室网站日志挖掘工作中,然后利用发现的关联规则,对研究室网站提出改进建议,以期能提升研究室网站的用户体验。最后,总结了本文所做的研究和实践工作,,分析了本文因为各种局限而导致的欠缺之处,探讨了研究室网站数据挖掘下一步工作的方向和内容。
【关键词】:关联规则 数据挖掘 Web日志 Apriori算法
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 绪论10-13
  • 1.1 研究背景10
  • 1.2 研究意义10-11
  • 1.3 研究现状及问题11
  • 1.4 本文研究的主要内容11-12
  • 1.5 论文组织架构12-13
  • 第2章 研究基础和理论综述13-18
  • 2.1 数据挖掘概述13-14
  • 2.1.1 数据挖掘产生的背景13
  • 2.1.2 数据挖掘的定义13
  • 2.1.3 数据挖掘的过程13-14
  • 2.2 Web 挖掘技术14-15
  • 2.2.1 Web 挖掘的概念14
  • 2.2.2 Web 挖掘的分类14-15
  • 2.3 Web 日志挖掘概述15-18
  • 2.3.1 Web 日志挖掘概念15-16
  • 2.3.2 Web 日志挖掘过程16-17
  • 2.3.3 Web 日志挖掘的应用17-18
  • 第3章 日志预处理18-25
  • 3.1 Web 日志介绍18-19
  • 3.2 Web 日志预处理的流程19-20
  • 3.3 数据清洗20-21
  • 3.4 用户识别21-22
  • 3.5 会话识别22-23
  • 3.6 路径补充23-25
  • 第4章 Web 日志挖掘算法25-33
  • 4.1 Web 日志挖掘算法概述25
  • 4.2 关联规则挖掘25-26
  • 4.2.1 关联规则概述25-26
  • 4.2.2 关联规则的定义26
  • 4.3 关联规则 Apriori 算法26-32
  • 4.3.1 Apriori 算法介绍26-27
  • 4.3.2 Apriori 算法流程27-29
  • 4.3.3 Apriori 算法举例29-32
  • 4.4 生成关联规则32-33
  • 第5章 研究室网站日志采集分析系统的设计与实现33-52
  • 5.1 研究室网站分析33-35
  • 5.1.1 研究室网站架构33-34
  • 5.1.2 研究室网站详细分析34-35
  • 5.2 研究室网站日志获取35-38
  • 5.3 研究室网站日志预处理38-44
  • 5.3.1 数据清洗38-39
  • 5.3.2 用户识别39-40
  • 5.3.3 会话识别40-42
  • 5.3.4 路径补充42-44
  • 5.4 Web 日志挖掘44-50
  • 5.4.1 Apriori 算法寻找频繁项集44-47
  • 5.4.2 生成关联规则47-50
  • 5.5 关联规则结果分析和建议50-52
  • 第6章 总结与展望52-53
  • 6.1 结论52
  • 6.2 展望52-53
  • 参考文献53-55
  • 致谢55

【参考文献】

中国期刊全文数据库 前1条

1 金国钧;网络意识[J];广播电视信息;2001年12期


  本文关键词:基于关联规则的研究室网站数据挖掘设计与实现,由笔耕文化传播整理发布。



本文编号:347580

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/347580.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77917***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com