基于主题词的微博用户兴趣模型研究
发布时间:2020-12-18 02:21
现如今,我国移动互联网发展逐渐成熟稳定,行业发展更加注重内容品质,模式创新以及平台化趋势。广告市场的发展方向是移动化、社交化、视频化,这就使得微博的商业价值越来越受到业内肯定,成为行业内广告主争相购买的社交平台。本文以微博平台的用户数据为基础,构建微博用户兴趣模型。首先,通过对历史文献的参考阅读发现,仅以原创微博作为数据来源,挖掘用户兴趣偏好不够准确。对微博用户的一系列行为数据进行统计分析,最终确定本文的数据来源为用户原创微博、用户关注分组以及自定义标签。对于不同的数据来源,采用不同的处理方式进行数据的预处理,然后通过相应的规则方法构建微博用户兴趣模型,最后得到三个基础模型,通过算法将这三部分有效的融合,最终构建微博用户兴趣模型体系。本文的贡献在于融合了微博用户原创微博、用户关注分组以及自定义标签三种途径获取的用户兴趣模型,对用户兴趣偏好进行了更加精确地挖掘。在前人对LDA改进的基础上,将模型应用于微博用户兴趣的深度挖掘中,将模型的先验概率,更换为后验概率确定用户兴趣模型,提高了主题模型的计算效率,并且保证了主题兴趣挖掘的准确度。最后,通过召回率、查准率等评价指标对模型进行评价分析,并...
【文章来源】:首都经济贸易大学北京市
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
微博信息流展示机制微博的产品定位是社交平台,相比于其它竞争产品而言,微博的最大竞争优势在于名人设计
人们对于文本认识的不断发展,逐渐开始追求更深层次的理解,希望可以帮更好的解析文本,从而服务于人类社会。这就衍生出,更加深入的文本挖掘研是自然语言任务处理,比如自动问答。人们对于文本表达方式的要求更高,挖掘出文本的潜在语义,从而使表达方式更加的生动灵活。LSA(Latent Semlysis),即潜在语义分析就是早期的自然语言处理思想,以及到后来出现的主是其核心思想的延伸[25]。LSA 在维度上加入了语义维度,打破了人们“文本间上”的思维禁锢。语义维度指的是文档集合的主题概括,文档是语义维度式。直观表示为,由原来的文档→词映射表示,新加进了一个语义维度,也→语义→词。LSA 的核心想法是加入了词和词之间在文档中的共现,通过使数的方法来获取“语言维度”,从而实现语义空间上的文档的低维表示。由此,我们可以简单的理解为主题模型中的主题是指潜在语义分析中的语义和语料库存在依存关系,在给定的不同语料集合下,获得的隐藏语义不尽相可以看作是语料集合中语义的概括表示。如图 2.1 举例,我们可以看出每一有不同的语义相对应[26]。
第 2 章SA 模型 是对于潜在语义分析的概率拓展[27]。首先,对于一篇文档,假设它应,那么,将这篇文档拆分成多个文档,对于每个文档而言,都有分布,文档中词语的生成步骤如下,第一步,根据文档主题分布选;第二步,根据该主题对应的一元语言模型,生成词语。,即概率潜在语义分析,是一种建立在双模式和共现的数据分析方法是一种经典的统计学方法。PLSA 主要应用于文本机器学习、自然检索等相关领域,和标准的潜在语义分析相比,PLSA 是在派生自 合矩阵的分解,而标准的 LSA 的表现形式是以共现表的奇异值分解多项式分布和条件概率分布的混合基础上进行建模,实现共现概率
【参考文献】:
期刊论文
[1]改进的基于《知网》的词汇语义相似度计算[J]. 朱征宇,孙俊华. 计算机应用. 2013(08)
[2]构建微博用户兴趣模型的主题模型的分析[J]. 陈文涛,张小明,李舟军. 计算机科学. 2013(04)
[3]基于LDA的微博文本主题建模方法研究述评[J]. 张培晶,宋蕾. 图书情报工作. 2012(24)
[4]微博用户关系挖掘研究综述[J]. 王连喜,蒋盛益,庞观松,吴美玲. 情报杂志. 2012(12)
[5]微博用户关注兴趣的社会网络分析[J]. 袁园,孙霄凌,朱庆华. 现代图书情报技术. 2012(02)
[6]基于综合用户信息的用户兴趣建模研究[J]. 邵秀丽,乜聚科,侯乐彩,田振雷. 南开大学学报(自然科学版). 2009(03)
[7]基于行为分析的用户兴趣建模[J]. 许波,张结魁,周军. 情报杂志. 2009(06)
[8]主题网络爬虫研究综述[J]. 刘金红,陆余良. 计算机应用研究. 2007(10)
[9]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
[10]一种面向个性化服务的客户端细粒度用户建模方法[J]. 应晓敏,刘明,窦文华. 计算机工程与科学. 2003(06)
硕士论文
[1]基于HowNet的短文本语义相似度计算方法研究[D]. 赵谦.太原理工大学 2017
[2]基于主题模型的用户兴趣建模及在新闻推荐中的应用[D]. 陈铭权.华南理工大学 2015
[3]基于主题模型的微博话题检测与跟踪研究[D]. 谢黎黎.中南林业科技大学 2015
[4]基于微博内容和用户关注的微博用户兴趣模型构建[D]. 袁博阳.华南理工大学 2015
[5]基于主题模型的个性化信息推荐[D]. 邸亮.北京工业大学 2014
[6]微博用户行为特征研究[D]. 韩艺.南京大学 2014
[7]基于主题模型的微博推荐系统研究[D]. 谢昊.华东师范大学 2013
[8]基于微博的用户兴趣分析与个性化信息推荐[D]. 王广新.上海交通大学 2013
本文编号:2923160
【文章来源】:首都经济贸易大学北京市
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
微博信息流展示机制微博的产品定位是社交平台,相比于其它竞争产品而言,微博的最大竞争优势在于名人设计
人们对于文本认识的不断发展,逐渐开始追求更深层次的理解,希望可以帮更好的解析文本,从而服务于人类社会。这就衍生出,更加深入的文本挖掘研是自然语言任务处理,比如自动问答。人们对于文本表达方式的要求更高,挖掘出文本的潜在语义,从而使表达方式更加的生动灵活。LSA(Latent Semlysis),即潜在语义分析就是早期的自然语言处理思想,以及到后来出现的主是其核心思想的延伸[25]。LSA 在维度上加入了语义维度,打破了人们“文本间上”的思维禁锢。语义维度指的是文档集合的主题概括,文档是语义维度式。直观表示为,由原来的文档→词映射表示,新加进了一个语义维度,也→语义→词。LSA 的核心想法是加入了词和词之间在文档中的共现,通过使数的方法来获取“语言维度”,从而实现语义空间上的文档的低维表示。由此,我们可以简单的理解为主题模型中的主题是指潜在语义分析中的语义和语料库存在依存关系,在给定的不同语料集合下,获得的隐藏语义不尽相可以看作是语料集合中语义的概括表示。如图 2.1 举例,我们可以看出每一有不同的语义相对应[26]。
第 2 章SA 模型 是对于潜在语义分析的概率拓展[27]。首先,对于一篇文档,假设它应,那么,将这篇文档拆分成多个文档,对于每个文档而言,都有分布,文档中词语的生成步骤如下,第一步,根据文档主题分布选;第二步,根据该主题对应的一元语言模型,生成词语。,即概率潜在语义分析,是一种建立在双模式和共现的数据分析方法是一种经典的统计学方法。PLSA 主要应用于文本机器学习、自然检索等相关领域,和标准的潜在语义分析相比,PLSA 是在派生自 合矩阵的分解,而标准的 LSA 的表现形式是以共现表的奇异值分解多项式分布和条件概率分布的混合基础上进行建模,实现共现概率
【参考文献】:
期刊论文
[1]改进的基于《知网》的词汇语义相似度计算[J]. 朱征宇,孙俊华. 计算机应用. 2013(08)
[2]构建微博用户兴趣模型的主题模型的分析[J]. 陈文涛,张小明,李舟军. 计算机科学. 2013(04)
[3]基于LDA的微博文本主题建模方法研究述评[J]. 张培晶,宋蕾. 图书情报工作. 2012(24)
[4]微博用户关系挖掘研究综述[J]. 王连喜,蒋盛益,庞观松,吴美玲. 情报杂志. 2012(12)
[5]微博用户关注兴趣的社会网络分析[J]. 袁园,孙霄凌,朱庆华. 现代图书情报技术. 2012(02)
[6]基于综合用户信息的用户兴趣建模研究[J]. 邵秀丽,乜聚科,侯乐彩,田振雷. 南开大学学报(自然科学版). 2009(03)
[7]基于行为分析的用户兴趣建模[J]. 许波,张结魁,周军. 情报杂志. 2009(06)
[8]主题网络爬虫研究综述[J]. 刘金红,陆余良. 计算机应用研究. 2007(10)
[9]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
[10]一种面向个性化服务的客户端细粒度用户建模方法[J]. 应晓敏,刘明,窦文华. 计算机工程与科学. 2003(06)
硕士论文
[1]基于HowNet的短文本语义相似度计算方法研究[D]. 赵谦.太原理工大学 2017
[2]基于主题模型的用户兴趣建模及在新闻推荐中的应用[D]. 陈铭权.华南理工大学 2015
[3]基于主题模型的微博话题检测与跟踪研究[D]. 谢黎黎.中南林业科技大学 2015
[4]基于微博内容和用户关注的微博用户兴趣模型构建[D]. 袁博阳.华南理工大学 2015
[5]基于主题模型的个性化信息推荐[D]. 邸亮.北京工业大学 2014
[6]微博用户行为特征研究[D]. 韩艺.南京大学 2014
[7]基于主题模型的微博推荐系统研究[D]. 谢昊.华东师范大学 2013
[8]基于微博的用户兴趣分析与个性化信息推荐[D]. 王广新.上海交通大学 2013
本文编号:2923160
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2923160.html