基于用户画像的个性化新闻推荐系统的设计与实现
发布时间:2022-10-08 22:15
在大数据和机器学习时代,以新闻资讯为基础的互联网应用产品迅猛发展,用户进行新闻阅读的途径越来越多,带来了新闻资讯的指数爆炸式增长。这些海量的新闻资讯在满足了我们日常需求的同时,也使我们寻找所需的新闻资讯更加困难,对用户数据的采集以及新闻的合理推荐成为了各大新闻网站和APP的重要研究课题。新闻资讯类型不断丰富,数据形态逐步多样化,为用户画像提供了广阔的发展空间,在这种情况下基于用户画像的个性化新闻推荐应运而生。个性化推荐是在大数据分析和机器学习技术的基础上,通过研究用户的兴趣行为偏好,进行分布式计算,从而给用户提供高质量和符合兴趣爱好的个性化新闻资讯,解决信息过载的问题。用户画像的提取和完善过程,是个性化新闻资讯推荐的关键步骤,随着用户画像数量的指数爆炸式增长,利用大数据和机器学习技术,有效的存储、计算和更新用户画像,逐渐成为学术届和工业界的研究热点[1]。本文从新闻推荐算法工程师的角度出发,基于A公司生产环境中稳定的基础用户画像,设计相似人群算法,使用Spark分布式计算框架计算用户动态行为日志,求得群体画像,完善了基础用户画像,并从用户画像特征,新闻特征和情景特...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景
1.2 研究意义
1.3 国内外研究现状
1.4 课题来源
1.5 本文研究工作与论文结构
1.5.1 本文研究工作
1.5.2 论文的内容组织结构
第2章 相关技术介绍
2.1 Python
2.2 Apache Spark
2.3 Hive
2.4 MongoDB
第3章 机器学习算法
3.1 机器学习算法流程
3.2 特征工程介绍
3.2.1 特征工程的价值
3.2.2 特征选择的意义
3.2.3 特征离散化
3.2.4 特征归一化
3.3 用户画像算法设计
3.3.1 理论基础之协同过滤
3.3.2 算法超参数
3.3.3 相似人群算法
3.3.4 群画像更新算法
3.4 特征工程设计
3.4.1 特征选择
3.4.2 特征转换
3.5 推荐算法模型
3.6 模型评估
第4章 需求分析
4.1 设计目标
4.2 推荐过程分析
4.3 系统用例分析
4.4 系统功能建模
4.4.1 顶层数据流图
4.4.2 推荐算法数据流图
第5章 系统设计
5.1 功能模块设计
5.2 模块详细设计
5.2.1 基础用户信息更新模块
5.2.2 样本打标签模块
5.2.3 日志合并模块
5.2.4 用户过滤模块
5.2.5 新闻分类处理模块
5.2.6 相似用户计算模块
5.2.7 群画像更新模块
5.2.8 推荐排序模块
5.3 概念模型设计
5.4 数据库设计
5.4.1 Hive数据库表结构设计
5.4.2 MongoDB数据库表结构设计
5.5 Spark分布式计算
5.5.1 Spark RDD
5.5.2 Spark RDD持久化
第6章 系统实现
6.1 相似人群算法
6.2 集群部署
6.3 模型评估
6.4 个性化推荐效果图
第7章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于用户相似性传递的协同过滤推荐方法[J]. 李征,段垒,王亚鲁. 河南大学学报(自然科学版). 2019(01)
[2]基于特征非规则离散化在线性回归中应用研究[J]. 梁律. 科技通报. 2018(03)
[3]机器学习中的特征选择方法研究及展望[J]. 崔鸿雁,徐帅,张利锋,Roy E.Welsch,Berthold K.P.Horn. 北京邮电大学学报. 2018(01)
[4]基于大数据的用户画像方法研究综述[J]. 席岩,张乃光,王磊,张智军,刘海涛. 广播电视信息. 2017(10)
硕士论文
[1]基于排序模型的个性化推荐系统设计及研究[D]. 杨成.北京邮电大学 2018
本文编号:3688527
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景
1.2 研究意义
1.3 国内外研究现状
1.4 课题来源
1.5 本文研究工作与论文结构
1.5.1 本文研究工作
1.5.2 论文的内容组织结构
第2章 相关技术介绍
2.1 Python
2.2 Apache Spark
2.3 Hive
2.4 MongoDB
第3章 机器学习算法
3.1 机器学习算法流程
3.2 特征工程介绍
3.2.1 特征工程的价值
3.2.2 特征选择的意义
3.2.3 特征离散化
3.2.4 特征归一化
3.3 用户画像算法设计
3.3.1 理论基础之协同过滤
3.3.2 算法超参数
3.3.3 相似人群算法
3.3.4 群画像更新算法
3.4 特征工程设计
3.4.1 特征选择
3.4.2 特征转换
3.5 推荐算法模型
3.6 模型评估
第4章 需求分析
4.1 设计目标
4.2 推荐过程分析
4.3 系统用例分析
4.4 系统功能建模
4.4.1 顶层数据流图
4.4.2 推荐算法数据流图
第5章 系统设计
5.1 功能模块设计
5.2 模块详细设计
5.2.1 基础用户信息更新模块
5.2.2 样本打标签模块
5.2.3 日志合并模块
5.2.4 用户过滤模块
5.2.5 新闻分类处理模块
5.2.6 相似用户计算模块
5.2.7 群画像更新模块
5.2.8 推荐排序模块
5.3 概念模型设计
5.4 数据库设计
5.4.1 Hive数据库表结构设计
5.4.2 MongoDB数据库表结构设计
5.5 Spark分布式计算
5.5.1 Spark RDD
5.5.2 Spark RDD持久化
第6章 系统实现
6.1 相似人群算法
6.2 集群部署
6.3 模型评估
6.4 个性化推荐效果图
第7章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于用户相似性传递的协同过滤推荐方法[J]. 李征,段垒,王亚鲁. 河南大学学报(自然科学版). 2019(01)
[2]基于特征非规则离散化在线性回归中应用研究[J]. 梁律. 科技通报. 2018(03)
[3]机器学习中的特征选择方法研究及展望[J]. 崔鸿雁,徐帅,张利锋,Roy E.Welsch,Berthold K.P.Horn. 北京邮电大学学报. 2018(01)
[4]基于大数据的用户画像方法研究综述[J]. 席岩,张乃光,王磊,张智军,刘海涛. 广播电视信息. 2017(10)
硕士论文
[1]基于排序模型的个性化推荐系统设计及研究[D]. 杨成.北京邮电大学 2018
本文编号:3688527
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3688527.html