基于Good-Turing平滑改进的推荐算法在财经类新闻个性化推荐中的实践
发布时间:2021-10-22 11:33
在信息爆炸增长的大数据时代,人们的生活节奏越来越快。为了满足人们利用通勤、午休等碎片化时间通过移动端快速获取对自己有效信息的需求,新闻推荐系统应运而生。新闻推荐改变了以往人工推荐为主的传播方式,使得用户在繁忙的日常工作中能节省阅读成本,提高自身效率。在经济高速增长的今天,人们对金融越来越关注,对投资理财越来越重视。投资类APP为了利用用户数据的多维度特有优势,实现智能投顾业务模式的差异化竞争,引入新闻推荐系统,实现用户的个性化财经新闻推荐和资产推荐。相比于综合类新闻需要挖掘用户潜在兴趣偏好、提高用户阅读的广泛度,财经投资类新闻更注重及时为用户进行信息披露,指导用户对持仓的标的物(如股票、期货)及时调整投资操作。因此,考虑到我们的应用场景,基于内容的推荐相比于协同过滤更合适。但传统的基于内容的推荐算法依然存在一些问题。本文主要研究工作包括:(1)在对新闻进行内容向量化时,需要构建一个词汇表,统一新闻的向量维度。传统基于内容的推荐算法是对实验集新闻进行分词、提取关键词,取关键字的并集构建词汇表(称为原始词汇表)。该方法构建的词汇表存在局限性,不能很好揭示测试集新闻的主题,因为对于一些热门金...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
图2-1推荐系统架构图??如图2-1所示,完整的推荐系统主要包括数据生成、特征提取、召回模块、排??
硕士学位论文??MASTER'S?THESIS??2.3.1算法流程??^?■?&??|?Item??I—_——^??y???内容分析??”?????,-、、??CZ±D|?,〇?〇?N??Kem内容?>?计莒钼关性?>?排序??^?User?1??',星库??A??用户分折?H??丨模型??牛??—?用户行为数据??图2-2基于内容的推荐逻辑图??基于内容的推荐过程包括以下三个步骤:??第一步,内容分析。抽取出每个物品(々ew)的特征属性。常用的方法是对新??闻文章进行分词,利用信息检索中的7F-2DF计算每个词对应的权重,选取关键词??及其权重对新闻进行向量化。为了后续计算相似度,需要对新闻向量统一维度,这??时就需要构建词汇表。传统方法取所有新闻的关键词的并集作为词汇表,如此,每??篇新闻都可以用词汇表构建出维度一致的向量。??第二步,用户分析。利用一个用户的历史行为数据,即过去对//em的喜欢或不??喜欢记录,学习出该用户的兴趣偏好特征。根据用户过去喜欢的新闻文章来刻画出??该用户的特征向量。通常对用户喜欢的所有文章向量进行加权作为该用户的特征向??量,向量维度依然取决于词汇表长度。??第三步,生成推荐列表。有了内容向量和用户特征向量,运用余弦相似度计算??10??
硕士学位论文??MASTER'S?THESIS??未看见事件??i?^?',"'?,?、?X?w?wv??--?置,Z的■量??\?'/?K?二。L,??图3-1?Good-Turing基本原理图??下面给出Good-rw/?g的算法公式,其中涉及的符号含义为:??r:某个词汇出现的频数??A^:出现次数为r的词汇个数??TV:所有词汇出现的总次数,有#?=?;^r%??r??r、Good?-?rwr/?<g■平滑计数??则有/=(r+i)l±i??K??下面证明经Go〇J-rWn>^平滑后所有词汇概率和为1。根据以上假定,引入怂??表示一个词汇出现r次的概率,则&的估计为:??->?1?N??沒=丄(r?+?l)i^iL??r?N?Nr??对所有词汇概率求和:??21??
【参考文献】:
期刊论文
[1]基于词袋模型和TF-IDF的短文本分类研究[J]. 黄春梅,王松磊. 软件工程. 2020(03)
[2]个性化推荐系统综述[J]. 张宇航,姚文娟,姜姗. 价值工程. 2020(02)
[3]推荐系统研究综述[J]. 周万珍,曹迪,许云峰,刘滨. 河北科技大学学报. 2020(01)
[4]新媒体网络下新闻传播的长尾效应[J]. 赵依宁. 科技传播. 2020(01)
[5]基于内容的新闻推荐系统研究综述[J]. 刘维超,杨有,余平. 福建电脑. 2019(09)
[6]个性化新闻推荐算法的技术解读与价值探讨[J]. 陈昌凤,师文. 中国编辑. 2018(10)
[7]基于局部拉普拉斯算子的灾后建筑物损毁检测[J]. 李强,陶超,梁浩,邹峥嵘. 测绘与空间地理信息. 2018(05)
[8]块对角拉普拉斯约束的平滑聚类算法[J]. 郑建炜,朱文博,王万良,陈婉君. 计算机辅助设计与图形学学报. 2018(01)
[9]推荐系统架构设计研究[J]. 王庆福. 信息通信. 2016(07)
[10]个性化推荐系统评测指标与实验方法研究[J]. 吴海霞,何苑,路璐. 晋中学院学报. 2015(03)
硕士论文
[1]中国股票市场波动体制变换研究[D]. 张天衢.闽南师范大学 2019
[2]基于自然语言处理的互联网舆情高危信息处理模块的研究[D]. 郝云飞.内蒙古大学 2019
[3]基于Python的彝文词典分词技术研究[D]. 阿别木呷.西南民族大学 2018
本文编号:3451016
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
图2-1推荐系统架构图??如图2-1所示,完整的推荐系统主要包括数据生成、特征提取、召回模块、排??
硕士学位论文??MASTER'S?THESIS??2.3.1算法流程??^?■?&??|?Item??I—_——^??y???内容分析??”?????,-、、??CZ±D|?,〇?〇?N??Kem内容?>?计莒钼关性?>?排序??^?User?1??',星库??A??用户分折?H??丨模型??牛??—?用户行为数据??图2-2基于内容的推荐逻辑图??基于内容的推荐过程包括以下三个步骤:??第一步,内容分析。抽取出每个物品(々ew)的特征属性。常用的方法是对新??闻文章进行分词,利用信息检索中的7F-2DF计算每个词对应的权重,选取关键词??及其权重对新闻进行向量化。为了后续计算相似度,需要对新闻向量统一维度,这??时就需要构建词汇表。传统方法取所有新闻的关键词的并集作为词汇表,如此,每??篇新闻都可以用词汇表构建出维度一致的向量。??第二步,用户分析。利用一个用户的历史行为数据,即过去对//em的喜欢或不??喜欢记录,学习出该用户的兴趣偏好特征。根据用户过去喜欢的新闻文章来刻画出??该用户的特征向量。通常对用户喜欢的所有文章向量进行加权作为该用户的特征向??量,向量维度依然取决于词汇表长度。??第三步,生成推荐列表。有了内容向量和用户特征向量,运用余弦相似度计算??10??
硕士学位论文??MASTER'S?THESIS??未看见事件??i?^?',"'?,?、?X?w?wv??--?置,Z的■量??\?'/?K?二。L,??图3-1?Good-Turing基本原理图??下面给出Good-rw/?g的算法公式,其中涉及的符号含义为:??r:某个词汇出现的频数??A^:出现次数为r的词汇个数??TV:所有词汇出现的总次数,有#?=?;^r%??r??r、Good?-?rwr/?<g■平滑计数??则有/=(r+i)l±i??K??下面证明经Go〇J-rWn>^平滑后所有词汇概率和为1。根据以上假定,引入怂??表示一个词汇出现r次的概率,则&的估计为:??->?1?N??沒=丄(r?+?l)i^iL??r?N?Nr??对所有词汇概率求和:??21??
【参考文献】:
期刊论文
[1]基于词袋模型和TF-IDF的短文本分类研究[J]. 黄春梅,王松磊. 软件工程. 2020(03)
[2]个性化推荐系统综述[J]. 张宇航,姚文娟,姜姗. 价值工程. 2020(02)
[3]推荐系统研究综述[J]. 周万珍,曹迪,许云峰,刘滨. 河北科技大学学报. 2020(01)
[4]新媒体网络下新闻传播的长尾效应[J]. 赵依宁. 科技传播. 2020(01)
[5]基于内容的新闻推荐系统研究综述[J]. 刘维超,杨有,余平. 福建电脑. 2019(09)
[6]个性化新闻推荐算法的技术解读与价值探讨[J]. 陈昌凤,师文. 中国编辑. 2018(10)
[7]基于局部拉普拉斯算子的灾后建筑物损毁检测[J]. 李强,陶超,梁浩,邹峥嵘. 测绘与空间地理信息. 2018(05)
[8]块对角拉普拉斯约束的平滑聚类算法[J]. 郑建炜,朱文博,王万良,陈婉君. 计算机辅助设计与图形学学报. 2018(01)
[9]推荐系统架构设计研究[J]. 王庆福. 信息通信. 2016(07)
[10]个性化推荐系统评测指标与实验方法研究[J]. 吴海霞,何苑,路璐. 晋中学院学报. 2015(03)
硕士论文
[1]中国股票市场波动体制变换研究[D]. 张天衢.闽南师范大学 2019
[2]基于自然语言处理的互联网舆情高危信息处理模块的研究[D]. 郝云飞.内蒙古大学 2019
[3]基于Python的彝文词典分词技术研究[D]. 阿别木呷.西南民族大学 2018
本文编号:3451016
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3451016.html
最近更新
教材专著