用户搜索日志分析及其在检索中的应用
发布时间:2023-03-05 03:51
随着互联网的兴起以及云计算技术的快速迭代,每个行业生成和处理的数据量正进行着指数级别的增长。大数据作为当前时代发展的产物,正在多元化的影响着社会生产生活,在检索领域,搜索引擎成为现代网络发展史上的一个转折点,大型搜索引擎每天可以产生和获取上万计甚至上亿计的点击日志数据,这些点击日志中蕴含着大量的用户相关信息,所以各大搜索引擎公司开始逐渐重视自己的搜索日志,通过对这些日志进行相应的过滤分析,挖掘出与用户相关的信息,以此来提升检索系统的效果。本文针对海量的用户搜索日志主要进行如下工作:(1)分析日志清理相关技术,分析原始浏览日志数据形态,根据浏览器记录跳转关系将用户搜索与点击对应,采取滑动窗口的方式生成每天用户的点击数据流,基于Spark通过相关数据挖掘的方法对用户点击链接进行清洗、过滤以及参数的归一化,并生成用于后续相关算法使用的数据。(2)根据向量传播算法挖掘出检索词与链接的关联关系,首先构建了检索词-链接的点击二部图,然后基于随机游走模型对该点击二部图进行建模,挖掘出用户检索词与没有点击到的链接的隐含关系,同时也可以利用该算法迭代到奇数步时获得检索词与检索词、链接与链接的内在关系。(...
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景
1.1.1 检索系统发展历程
1.1.2 用户点击行为研究及其在检索中的应用
1.2 相关研究现状
1.3 本文主要工作内容
1.4 文章结构
第2章 搜索日志及相关技术的介绍
2.1 搜索日志
2.1.1 搜索日志的内容
2.1.2 搜索日志的作用
2.2 用户点击流数据
2.2.1 点击流数据的定义
2.2.2 点击流数据的作用
2.3 搜索日志和点击流数据处理相关技术
2.3.1 分布式系统之Hadoop
2.3.2 分布式计算之Spark
2.3.3 弹性分布式数据集RDD
2.4 用户查询和网页处理及相似度计算相关技术
2.4.1 中文分词
2.4.2 向量传播算法
2.4.3 自注意力机制
2.5 本章小结
第3章 用户历史点击数据流的构建
3.1 原始日志的分析
3.1.1 搜索日志处理流程
3.1.2 重要信息字段构成
3.2 点击数据流的构建
3.3 点击数据的清理
3.3.1 基于规则过滤
3.3.2 基于海量网页挖掘参数过滤信息
3.4 本章小结
第4章 海量用户点击对的分布式向量传播算法实现
4.1 马尔可夫随机游走
4.2 点击图上随机游走过程
4.3 向量传播算法分布式实现
4.4 本章小结
第5章 基于用户点击的泛化模型构建与评测
5.1 点击数据泛化模型构建理论
5.1.1 相关问题
5.1.2 自注意力模型
5.2 对用户点击进行泛化神经网络模型构建过程
5.2.1 泛化模型训练数据生成
5.2.2 模型框架
5.3 实验评测
5.4 本章小结
第6章 总结和展望
6.1 本文工作总结
6.2 展望
参考文献
致谢
攻读学位期间参与科研项目
学位论文评阅及答辩情况表
本文编号:3755646
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景
1.1.1 检索系统发展历程
1.1.2 用户点击行为研究及其在检索中的应用
1.2 相关研究现状
1.3 本文主要工作内容
1.4 文章结构
第2章 搜索日志及相关技术的介绍
2.1 搜索日志
2.1.1 搜索日志的内容
2.1.2 搜索日志的作用
2.2 用户点击流数据
2.2.1 点击流数据的定义
2.2.2 点击流数据的作用
2.3 搜索日志和点击流数据处理相关技术
2.3.1 分布式系统之Hadoop
2.3.2 分布式计算之Spark
2.3.3 弹性分布式数据集RDD
2.4 用户查询和网页处理及相似度计算相关技术
2.4.1 中文分词
2.4.2 向量传播算法
2.4.3 自注意力机制
2.5 本章小结
第3章 用户历史点击数据流的构建
3.1 原始日志的分析
3.1.1 搜索日志处理流程
3.1.2 重要信息字段构成
3.2 点击数据流的构建
3.3 点击数据的清理
3.3.1 基于规则过滤
3.3.2 基于海量网页挖掘参数过滤信息
3.4 本章小结
第4章 海量用户点击对的分布式向量传播算法实现
4.1 马尔可夫随机游走
4.2 点击图上随机游走过程
4.3 向量传播算法分布式实现
4.4 本章小结
第5章 基于用户点击的泛化模型构建与评测
5.1 点击数据泛化模型构建理论
5.1.1 相关问题
5.1.2 自注意力模型
5.2 对用户点击进行泛化神经网络模型构建过程
5.2.1 泛化模型训练数据生成
5.2.2 模型框架
5.3 实验评测
5.4 本章小结
第6章 总结和展望
6.1 本文工作总结
6.2 展望
参考文献
致谢
攻读学位期间参与科研项目
学位论文评阅及答辩情况表
本文编号:3755646
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3755646.html