Web日志挖掘系统的研究与实现
发布时间:2017-09-05 00:45
本文关键词:Web日志挖掘系统的研究与实现
更多相关文章: Web日志挖掘 模式发现 模式分析 查询推荐
【摘要】:随着互联网技术的飞速发展,互联网上的数据正以难以置信的速度爆发式的增长,Web2.0的普及使得互联网的每一个参与者既是信息的消费者同时又是信息的发布者,海量数据的时代已经到来。 在面对海量数据的时候,用户总希望用一种最轻便、最快捷、最直接的方式获取到所需内容,而搜索引擎恰好满足了用户的所有使用需求,越来越多的人倾向于用搜索引擎作为他们在互联网上获取知识和信息的入口。而搜索引擎的服务器会记录所有用户的访问行为,对这些日志数据进行分析,可以获取到很多深层次的知识,并借此进一步完善Web技术,加强其智能处理、自我学习的特性,为此Web日志挖掘(也可称为Web使用挖掘)技术应运而生,成为了当下的互联网研究热点。 本文就是以学术搜索引擎的日志文件作为研究对象,力求给科技信息服务带来更多的帮助。本文首先介绍了Web日志挖掘的发展历程和研究现状,并在此基础上进一步展开说明了本文研究中所涉及的各项技术;之后,以数据预处理(包含数据清洗、数据修正、数据压缩)、模式发现(包含用户识别、会话切分、查询内容发现)、模式分析(包含统计分析、序列分析、演化分析等)、基于语义关联的查询推荐四个主要的系统功能为介绍重点,详细的阐述了原型系统从设计到实现的各个细节。 最后,系统会给用户提供良好的交互界面,以图表的形式将结果更为直观的展现出来,便于用户的使用和分析:此外,本文还提出了将Web日志挖掘系统同作者网络和关键词网络相结合的构想,力求让系统的功能更加完善,提供给用户更多样的科技信息服务。
【关键词】:Web日志挖掘 模式发现 模式分析 查询推荐
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09;TP311.52
【目录】:
- 摘要4-5
- abstract5-9
- 第一章 绪论9-14
- 1.1 选题背景及意义9-10
- 1.2 国内外的相关工作及研究现状10-11
- 1.2.1 国外研究现状10-11
- 1.2.2 国内研究现状11
- 1.3 论文的研究内容11-13
- 1.4 论文的组织结构13-14
- 第二章 相关技术综述14-25
- 2.1 Web数据挖掘14-16
- 2.2 Web日志挖掘的概念和内容16-18
- 2.3 Hadoop生态系统介绍18-21
- 2.4 推荐算法及其应用21-22
- 2.5 文本的相似度计算22-24
- 2.6 本章小结24-25
- 第三章 查询推荐与并行化的设计方案研究25-32
- 3.1 查询推荐技术的探索25-29
- 3.1.1 基于日志的查询推荐的传统划分方法25
- 3.1.2 基于使用技术的划分方法25-26
- 3.1.3 基于语义关联的查询推荐26-29
- 3.2 并行环境下的设计方案29-31
- 3.2.1 数据预处理的MR算法设计29-30
- 3.2.2 用户识别的MR算法设计30-31
- 3.2.3 会话切分的多线程设计31
- 3.3 本章小结31-32
- 第四章 Web日志挖掘系统的设计32-40
- 4.1 系统的架构设计32-33
- 4.2 数据预处理33-36
- 4.3 模式发现36-38
- 4.3.1 用户访问行为发现36-37
- 4.3.2 用户查询内容发现37-38
- 4.4 模式分析38-39
- 4.4.1 主要量化指标38-39
- 4.4.2 主要分析方法39
- 4.5 本章小结39-40
- 第五章 Web日志挖掘系统的实现40-60
- 5.1 系统开发与部署环境40
- 5.2 系统源码的结构布局40-41
- 5.3 数据存储路径41-42
- 5.4 系统模块的实现42-52
- 5.4.1 数据预处理模块42-45
- 5.4.2 模式发现模块45-49
- 5.4.3 模式分析模块49-52
- 5.5 推荐功能的实现52-59
- 5.6 本章小结59-60
- 第六章 Web日志挖掘系统的演示60-75
- 6.1 系统模块测试60-69
- 6.2 系统的应用场景69-70
- 6.2.1 系统的普适性69
- 6.2.2 应用场景描述69-70
- 6.3 系统的扩展性70-74
- 6.3.1 作者(专家)网络70-72
- 6.3.2 关键词网络72-74
- 6.3.3 扩展性总结74
- 6.4 本章小结74-75
- 第七章 总结与展望75-79
- 7.1 系统总结75
- 7.2 下一步工作75-79
- 参考文献79-81
- 致谢81-82
- 攻读硕士研究生期间发表的论文82
【参考文献】
中国期刊全文数据库 前10条
1 金微;;WEB日志挖掘技术的研究[J];计算机光盘软件与应用;2012年14期
2 侯亚丽,袁方;Web日志挖掘中的数据预处理技术[J];河北大学学报(自然科学版);2005年02期
3 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
4 宋擒豹,沈钧毅;Web日志的高效多能挖掘算法[J];计算机研究与发展;2001年03期
5 王微微;夏秀峰;李晓明;;一种基于用户行为的兴趣度模型[J];计算机工程与应用;2012年08期
6 肖立英,李建华,谭立球;Web日志挖掘技术的研究与应用[J];计算机工程;2002年07期
7 方元康;胡学钢;夏启寿;;Web日志预处理中优化的会话识别方法[J];计算机工程;2009年07期
8 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期
9 马成前;毛许光;;网页查重算法Shingling和Simhash研究[J];计算机与数字工程;2009年01期
10 刘毅;;略论网络舆情的概念、特点、表达与传播[J];理论界;2007年01期
,本文编号:794833
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/794833.html