基于LDA主题模型的新浪微博用户兴趣研究
发布时间:2022-01-01 07:30
随着我国移动互联网发展日渐成熟和稳定,各个社交平台为了抢夺彼此之间的市场份额,更加注重内容的多样化,积极寻求模式上的创新和突破。虽然新浪微博在移动社交行业中继续占据头部地位,但是行业内的激烈竞争也给新浪微博的发展带来了巨大挑战。新浪微博的核心竞争力在于头部用户群体和优质的原创内容带来的传播效应,这就要求平台在当前环境下对用户需求的把控要更加精准。围绕该问题,本文针对新浪微博用户的兴趣偏好进行了相关研究。LDA(LatentDirichletAllocation)概率主题模型是由Blei等提出的三层概率结构模型,它可以通过训练得到每篇文档在主题空间上的概率分布和每个主题在词空间上的概率分布,其本身具有无监督学习的特征,不需要给出一些已知标注的语言实例,可以直接对未知语料库进行LDA建模。在很多关于新浪微博用户兴趣偏好的研究中,都是按照这种方式直接对以用户为单位建立的微博文档集进行建模和训练,得到文档集的主题词分布作为用户兴趣偏好的描述信息。本文在此基础上补充了另外一种推断方式,即利用已知语料库有监督的去训练得到一个最优模型,再利用这个训练好的最优模型,针对其他未知语料库中以用户为单位建立...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2-1?PLSA模型文档生成过程??-
山东大学硕士学位论文??第3章LDA主题模型的构建??3.1模型的推导和表示??3.1.1加入贝叶斯框架??PLSA模型是在频率学派的思想下产生,认为关于主题分布和词分布的参数??和沉是固定的,但是在贝叶斯统计学派来看,这显然是不合理的。既然假定词??是通过抛骰子随机产生的,那么骰子也应该是随机产生的,换句话来说,代表两??种骰子的参数和沉应该是随机变量,并且符合一定的分布。LDA主题模型在??PLSA模型的基础上加入了贝叶斯框架,选择了狄利克雷分布作为参数和沉的??先验分布,这样可以利用共轭分布的参数传递性来更好的估计参数。??丄?topic-word?Ifi1??|??K-rs?^?v个面??对S?■编号?1-K?Kt??|?g'OirW??1??图3-1?LDA模型文档生成过程??如上图3_1所示,重新考察文档的生成过程:(1)有两种类型的骰子,每种??都是有无数多个。第一种是doc-topic?(文档-主题)骰子,每个骰子有K个面,每??个面是一个非重复主题编号,编号从1到K;第二种是topic-word?(主题-词语)??骰子,每个骰子有V个面,每个面对应着一个非重复单词。(2)随机的从第二种??散子里独立的抽出K个topic-word骰子,为其编号为1到K,与doc-topic散子每??个面的主题编号是一一对应的。(3)每次生成一篇新的文档之前,先从第一种骰??子里抽出一个doc-topic骰子,然后重复如下过程直到生成文档中所有词:投掷??这个骰子,得到一个主题编号k,选择K个topic-word骰子中对应编号为k的那个,??投掷这个骰子产生一个词。??21??
第3章LDA主题模型的构建??3.1.2增加参数??wm? ̄?*^ml?^702?????WmNm??图3-2文档生成过程中word和topic对应关系??如上图3-2所示,在LDA模型中,因为生成每个词的topic-word骰子的编号??依赖于抛掷doc-topic骰子得到的主题编号,那么意味着语料库中的每个词都与??一个主题编号唯一对应。己知语料库为W?=?%,),第m篇文档<?=??(wml,wm2,...,wmNm),根据主题和词的对应关系,等价定义语料库所有主题编号集??合Z?=瓦,石,…,切,第m篇文档所有主题编号集合G?=?(Z^Zm,zmN?J。??3.1.3物理过程分解???——*???(ZmB)???--K§)???nell,HU??丨??图3-3?LDA概率图模型??如上图3-3所示,在LDA概率图模型中,只有wmn为可观察到的变量,其他??都是隐变量或者参数。i?g为先验分布狄利克雷分布的参数,巧为第m篇文档的??主题分布,沉为第k个主题的词分布,Znm为第m篇文档第n个词对应的主题编号。??那么LDA模型生成文档的过程被分为了两个物理过程:??第一个物理过程5?—巧;—Zmn是生成主题编号的过程,这个过程表示在生成??第m篇文档的时候,先从第一种骰子中抽出一个doc-topic骰子1^,或者说从参数??为5的狄利克雷分布中取样生成第m篇文档的主题分布巧:,然后投掷这个骰子生??成了文档中第n个词对应的主题编号zmn。??第二个物理过程@?—雨—Wmn|k?=?zmn是在确定的主题编号下生成词的过程,??这个过程表示从第二种骰子中抽出K个doc-topic骰子,或者说从参数
【参考文献】:
期刊论文
[1]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[2]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
硕士论文
[1]基于主题词的微博用户兴趣模型研究[D]. 万子玮.首都经济贸易大学 2018
[2]基于爬虫和LDA的新闻话题挖掘[D]. 曹牧原.河北大学 2018
[3]基于Labeled-LDA模型的在线医疗专家推荐研究[D]. 倪秀丽.浙江大学 2018
[4]基于改进LDA算法的微博用户兴趣偏好分析系统的设计与实现[D]. 楼小帆.北京邮电大学 2017
[5]基于微博的用户兴趣分析与个性化信息推荐[D]. 王广新.上海交通大学 2013
本文编号:3561904
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2-1?PLSA模型文档生成过程??-
山东大学硕士学位论文??第3章LDA主题模型的构建??3.1模型的推导和表示??3.1.1加入贝叶斯框架??PLSA模型是在频率学派的思想下产生,认为关于主题分布和词分布的参数??和沉是固定的,但是在贝叶斯统计学派来看,这显然是不合理的。既然假定词??是通过抛骰子随机产生的,那么骰子也应该是随机产生的,换句话来说,代表两??种骰子的参数和沉应该是随机变量,并且符合一定的分布。LDA主题模型在??PLSA模型的基础上加入了贝叶斯框架,选择了狄利克雷分布作为参数和沉的??先验分布,这样可以利用共轭分布的参数传递性来更好的估计参数。??丄?topic-word?Ifi1??|??K-rs?^?v个面??对S?■编号?1-K?Kt??|?g'OirW??1??图3-1?LDA模型文档生成过程??如上图3_1所示,重新考察文档的生成过程:(1)有两种类型的骰子,每种??都是有无数多个。第一种是doc-topic?(文档-主题)骰子,每个骰子有K个面,每??个面是一个非重复主题编号,编号从1到K;第二种是topic-word?(主题-词语)??骰子,每个骰子有V个面,每个面对应着一个非重复单词。(2)随机的从第二种??散子里独立的抽出K个topic-word骰子,为其编号为1到K,与doc-topic散子每??个面的主题编号是一一对应的。(3)每次生成一篇新的文档之前,先从第一种骰??子里抽出一个doc-topic骰子,然后重复如下过程直到生成文档中所有词:投掷??这个骰子,得到一个主题编号k,选择K个topic-word骰子中对应编号为k的那个,??投掷这个骰子产生一个词。??21??
第3章LDA主题模型的构建??3.1.2增加参数??wm? ̄?*^ml?^702?????WmNm??图3-2文档生成过程中word和topic对应关系??如上图3-2所示,在LDA模型中,因为生成每个词的topic-word骰子的编号??依赖于抛掷doc-topic骰子得到的主题编号,那么意味着语料库中的每个词都与??一个主题编号唯一对应。己知语料库为W?=?%,),第m篇文档<?=??(wml,wm2,...,wmNm),根据主题和词的对应关系,等价定义语料库所有主题编号集??合Z?=瓦,石,…,切,第m篇文档所有主题编号集合G?=?(Z^Zm,zmN?J。??3.1.3物理过程分解???——*???(ZmB)???--K§)???nell,HU??丨??图3-3?LDA概率图模型??如上图3-3所示,在LDA概率图模型中,只有wmn为可观察到的变量,其他??都是隐变量或者参数。i?g为先验分布狄利克雷分布的参数,巧为第m篇文档的??主题分布,沉为第k个主题的词分布,Znm为第m篇文档第n个词对应的主题编号。??那么LDA模型生成文档的过程被分为了两个物理过程:??第一个物理过程5?—巧;—Zmn是生成主题编号的过程,这个过程表示在生成??第m篇文档的时候,先从第一种骰子中抽出一个doc-topic骰子1^,或者说从参数??为5的狄利克雷分布中取样生成第m篇文档的主题分布巧:,然后投掷这个骰子生??成了文档中第n个词对应的主题编号zmn。??第二个物理过程@?—雨—Wmn|k?=?zmn是在确定的主题编号下生成词的过程,??这个过程表示从第二种骰子中抽出K个doc-topic骰子,或者说从参数
【参考文献】:
期刊论文
[1]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[2]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
硕士论文
[1]基于主题词的微博用户兴趣模型研究[D]. 万子玮.首都经济贸易大学 2018
[2]基于爬虫和LDA的新闻话题挖掘[D]. 曹牧原.河北大学 2018
[3]基于Labeled-LDA模型的在线医疗专家推荐研究[D]. 倪秀丽.浙江大学 2018
[4]基于改进LDA算法的微博用户兴趣偏好分析系统的设计与实现[D]. 楼小帆.北京邮电大学 2017
[5]基于微博的用户兴趣分析与个性化信息推荐[D]. 王广新.上海交通大学 2013
本文编号:3561904
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3561904.html