当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Web使用挖掘的网站日志分析系统的研究与实现

发布时间:2017-05-03 12:01

  本文关键词:基于Web使用挖掘的网站日志分析系统的研究与实现,,由笔耕文化传播整理发布。


【摘要】:随着Internet的迅速发展,Web网站逐渐成为了存储、发布、获取、交流信息的最重要的载体。然而,随着Web网站数据的急剧增加,人们在检索信息时遇到了极大的困难。要解决这个问题,除了依靠搜索引擎外,还应该从自身网站的设计做起。也就是说,在网站设计时就应该从用户出发来设计和优化自己的站点,这就要求网站设计者通过分析Web数据来获得有用的信息,从而为网站设计提供帮助。Web日志是这些Web数据的一部分,也是较为完整与富于结构化的数据。通过对Web日志的分析,可以挖掘出网站的各个页面内容之间的相关性,分析出各类用户的不同喜好及访问意图,从而对网站的结构及内容提出改进意见,使站点的整体性能得到提高。本文查阅了国内外大量关于Web使用挖掘的相关文献,在这基础上对Web使用挖掘相关算法进行分析,并对部分算法进行改进,通过实验来验证改进效果。设计了一个基于Web使用挖掘的网站日志分析系统,使算法得以实现,并将该系统应用于具体网站中。本文主要包括以下内容:(1)本文研究了Web使用挖掘数据预处理过程,包括页面识别、用户识别、会话识别、事务数据库生成等等,对现有算法进行了分析并选择合适的算法,提出了基于“页面内容特性”的数据预处理算法,该算法更加强调页面的语义内容,使得后面的分析结果更有价值。(2)本文研究了关联分析与聚类分析。对经典的Apriori关联挖掘算法进行了分析,提出了一种改进的Apriori算法,提高了算法的效率,通过各种数据量下的对比实验证明该算法的有效性;分析了本文所要做的聚类分析工作,提出了改进的“用户-页面特性访问矩阵”,然后使用经典的k-means算法进行聚类分析。(3)本文介绍了基于Web使用挖掘的网站日志分析系统的实现过程,给出了本系统的概要设计与详细设计,包括系统主要模块的功能,数据库设计,数据流图,以及各个模块所使用的算法及主要类的关键源代码。(4)将本系统应用于一个具体的网站上,通过对该网站的日志进行挖掘与分析,得出了实验结果,并对实验结果进行分析,对该网站的结构与内容提出改进意见,从而证明了系统的有效性。(5)最后总结了本文的研究成果与不足之处,并提出下一步要努力的方向。
【关键词】:Web使用挖掘 数据预处理 关联规则 Apriori算法 聚类 k-means算法 网站日志分析系统
【学位授予单位】:福州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP393.092
【目录】:
  • 中文摘要3-4
  • Abstract4-8
  • 第一章 引言8-13
  • 1.1 论文的研究背景及意义8-9
  • 1.2 国内外与Web日志挖掘相关的研究现状9-11
  • 1.2.1 国外研究现状9-10
  • 1.2.2 国内主要研究成果10-11
  • 1.2.3 Web日志挖掘相关产品11
  • 1.3 本文的特色与创新之处11
  • 1.4 论文的组织结构11-13
  • 第二章 预处理算法的研究与改进13-28
  • 2.1 Web日志13-15
  • 2.2 数据预处理相关算法研究15-23
  • 2.2.1 数据清理15-16
  • 2.2.2 页面识别16-17
  • 2.2.3 用户识别17-18
  • 2.2.4 会话识别18-19
  • 2.2.5 事务识别19-20
  • 2.2.6 数据预处理过程举例20-23
  • 2.3 数据预处理算法的改进23-28
  • 2.3.1 关于“页面特性”23-24
  • 2.3.2 基于“页面特性”的数据预处理算法24-28
  • 第三章 系统相关数据挖掘算法的研究及改进28-41
  • 3.1 关联分析28-36
  • 3.1.1 关联分析概述28-29
  • 3.1.2 Apriori算法29-30
  • 3.1.3 Apriori算法的改进30-33
  • 3.1.4 Apriori算法与Trans_Apriori算法之间的效率对比33-36
  • 3.2 聚类分析36-41
  • 3.2.1 聚类分析概述36-37
  • 3.2.2 本系统中的聚类分析37
  • 3.2.3 改进的用户-页面特性访问矩阵37-39
  • 3.2.4 K-Means聚类算法39-41
  • 第四章 网站日志分析系统的设计与实现41-64
  • 4.1 网站日志分析系统的概要设计41-46
  • 4.1.1 网站日志分析系统的主要功能模块41-43
  • 4.1.2 网站日志分析系统的数据库设计43-44
  • 4.1.3 网站日志分析系统的工作流程44-46
  • 4.2 网站日志分析系统主要模块的详细设计与实现46-64
  • 4.2.1 数据库连接相关模块46
  • 4.2.2 数据导入模块46
  • 4.2.3 数据预处理模块46-52
  • 4.2.3.1 数据清理46-47
  • 4.2.3.2 页面识别47-48
  • 4.2.3.3 用户识别48-49
  • 4.2.3.4 会话识别49-51
  • 4.2.3.5 页面特性导入51
  • 4.2.3.6 事务识别51-52
  • 4.2.4 基本分析模块52-54
  • 4.2.5 关联分析模块54-59
  • 4.2.5.1 频繁项目集的生成55-58
  • 4.2.5.2 关联规则生成58-59
  • 4.2.6 聚类分析模块59-64
  • 第五章 网站日志分析系统的应用64-77
  • 5.1 实验数据介绍64
  • 5.2 数据导入64-65
  • 5.3 数据预处理65-70
  • 5.4 基本统计分析70-71
  • 5.5 关联分析71-74
  • 5.6 聚类分析74-77
  • 总结77-79
  • —、主要研究工作77
  • 二、不足之处及下一步要努力的方向77-79
  • 参考文献79-83
  • 致谢83-84
  • 个人简历84-85
  • 在学期间已发表和录用的论文85

【相似文献】

中国期刊全文数据库 前10条

1 程舒通;徐从富;;网站结构优化技术研究进展[J];计算机应用研究;2009年06期

2 徐t;;谈网站结构优化技术研究进展[J];东方企业文化;2010年03期

3 许波勇;;论企业网站的推广[J];电脑开发与应用;2011年06期

4 程舒通;;网站结构优化系统研究[J];科技传播;2011年24期

5 王春艳;张彦芳;;网站结构规划探讨[J];东方企业文化;2013年04期

6 ;1999百家顶级网站(一)[J];现代计算机;2000年01期

7 冯江,周毅刚;网站介绍(5)[J];新建筑;2001年05期

8 董玉民;青岛建筑工程学院网站的规划与建立[J];青岛建筑工程学院学报;2001年03期

9 胡纲;轻松更新自己的网站[Macromedia Contribute 1.0][J];个人电脑;2003年02期

10 王有为,汪定伟;基于关联系数的电子超市网站结构优化模型及算法复杂性分析[J];小型微型计算机系统;2004年04期

中国重要报纸全文数据库 前10条

1 正言;企业网站步入互动通道[N];中国经营报;2007年

2 王兆成;旅行社网站服务功能探讨[N];中国旅游报;2008年

3 孟辉邋薛丽英;山西太原捣毁两个淫秽色情网站[N];中国新闻出版报;2008年

4 刘安;档案期刊与网络相互强身[N];中国档案报;2003年

5 何佳讯;撒“网”捕金[N];厂长经理日报;2001年

6 小新;用BlazingTools Instant Source工具 分析网站代码[N];中国电脑教育报;2004年

7 肖丹 陈兰琴 念红梅 陈正红;全球“最佳中之最佳”BtoB网站[N];国际经贸消息;2000年

8 本报记者 陈亮;Google重纳宝马德国网站[N];南方日报;2006年

9 飞飞;专业级的选择[N];中国电脑教育报;2002年

10 ;小生产与大市场 网上沟通[N];农民日报;2000年

中国硕士学位论文全文数据库 前10条

1 贾小娟;基于交互理论的儿童网站引导性界面设计研究[D];河北工业大学;2015年

2 翁锦琳;基于Web使用挖掘的网站日志分析系统的研究与实现[D];福州大学;2014年

3 何坤鹏;基于本体的网站结构知识获取与分析[D];北京化工大学;2007年

4 杜华;电子商务网站结构优化模型与算法研究[D];首都师范大学;2009年

5 贾梦青;基于用户访问行为分析的网站分类研究[D];郑州大学;2009年

6 郜鑫博;基于关键资源的网站分类研究[D];哈尔滨工业大学;2009年

7 丛帅;基于关键资源的网站分类研究[D];哈尔滨工业大学;2010年

8 李毅;交互式网站的设计与实现[D];北京邮电大学;2011年

9 韩云端;基于浏览者的网站结构研究[D];山西财经大学;2006年

10 夏晔;基于网站分类的网络用户隐私信息保护模型[D];复旦大学;2012年


  本文关键词:基于Web使用挖掘的网站日志分析系统的研究与实现,由笔耕文化传播整理发布。



本文编号:342938

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/342938.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82aa5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com