LDA模型的研究及其在推荐系统中的应用
本文关键词:LDA模型的研究及其在推荐系统中的应用,,由笔耕文化传播整理发布。
【摘要】:主题模型是用来发现文章中隐藏的主题的一种统计方法,这是一种应用范围十分广的生成模型。该模型假设每个文档里存在很多个隐藏的主题,而由于文档的性质和类别不同,使得每篇文章的主题分布情况是不同的。主题模型就是利用文章的这个特点,根据每篇文章的主题分布建立模型。主题模型的应用范围十分的广泛,而且在许多领域的应用效果也十分的显著。本文就是以LDA(Latent Dirichlet Analysis)主题模型为研究对象,针对模型的改进和模型参数的估计进行了进一步研究。首先,考虑到在电子商务中在购买商品之后还可以对所购买的商品进行评分。所以,我们对LDA模型进行了改进,加入了对商品的评分。并且,针对离散型评分和连续型评分我们分别对LDA模型进行了改进,然后用变分EM算法进行了参数估计。其次,由于在对改进后的LDA模型用变分EM算法进行参数估计的过程中,我们发现目标函数的下界是我们假设的变分分布的熵。而熵表示的是随机变量的不确定性,即我们假设的变分分布的不确定性。由此,我们提出用TEM(Tempered Expectation Maximization)算法对模型进行参数估计。该算法通过对目标函数的中的熵除以一个参数τ,从而降低由于假设的变分分布的不确定性而对模型造成的影响。最后,我们将改进后的LDA模型应用到MovieLens数据集上进行验证,并通过交叉验证的方法与基于用户的协同过滤以及PLSA模型进行对比。得到改进后的模型效果优于其他模型,而这两种模型中,连续型数据的模型效果优于离散型的模型。
【关键词】:主题模型 模型改进 参数估计 协同过滤
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 致谢3-4
- 摘要4-5
- Abstract5-8
- 1 绪论8-15
- 1.1 引言8-13
- 1.2 本文结构13-15
- 2 LDA模型概述15-22
- 2.1 LDA模型及其生成过程15-17
- 2.2 LDA模型的参数估计17-22
- 3 LDA模型的改进及其参数估计22-41
- 3.1 LDA模型的改进:离散型22-33
- 3.2 LDA模型的改进:连续型33-41
- 4 TEM算法对改进后LDA模型的参数估计41-48
- 5 改进后的LDA模型在协同过滤中的应用48-59
- 5.1 协同过滤简介48-51
- 5.2 基于PLSA的协同过滤51-54
- 5.3 实验数据集及模型评估标准54-55
- 5.4 实验结果55-59
- 6 总结与展望59-61
- 参考文献61-63
【相似文献】
中国期刊全文数据库 前10条
1 盛守照,王道波,黄向华;有限样本下模型选择理论与方法研究[J];系统工程与电子技术;2005年04期
2 黄东远;陈晓云;;一种新的支持向量回归机的模型选择方法[J];福州大学学报(自然科学版);2011年04期
3 盛守照,王道波;基于预测风险最小化的模型选择理论与方法研究[J];系统工程;2004年04期
4 黄光远,朱月秋;森林火灾的模型及其扑灭问题[J];系统工程理论与实践;1988年02期
5 舒晓娟;陈洋波;任启伟;;模型选择准则在洪水频率分析中的应用[J];水利学报;2010年01期
6 陈建东;王小明;;LS-SVM模型选择的秩准则及其比较[J];计算机工程;2011年18期
7 J.G.Fossum ,徐玉辉;SOI MOSFET电路模拟的模型选择[J];微电子学;1989年02期
8 黄梯云,吴菲,卢涛;模型自动选择方法研究的进展[J];计算机应用研究;2001年04期
9 李海涛;李福忠;;基于信息流角度的企业结构式和简式模型选择[J];情报杂志;2007年03期
10 吴娅辉;刘刚;郭军;;基于模型混淆度的模型组合算法研究[J];自动化学报;2009年05期
中国重要会议论文全文数据库 前9条
1 张维;;模型选择:现状与发展[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
2 金伟;周浩;于永利;;维修管理IDSS的设计方法[A];设备维修与改造技术论文集[C];2000年
3 曾菊英;许冰;;制度变迁及其模型选择[A];21世纪数量经济学(第10卷)[C];2009年
4 廖冬初;秦寿康;;县级规划总体优化模型及其计算方法[A];发展战略与系统工程——第五届系统工程学会年会论文集[C];1986年
5 张维;;关于模型选择中的若干理论问题[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
6 战明华;李生校;;货币与产出的关系(1995~2003):不同模型的分析结果及其比较[A];中国金融学会第八届优秀论文评选获奖论文集[C];2005年
7 王树盛;;Probit模型及其在交通方式分担中的应用研究[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(下册)[C];2005年
8 戴锋;梁玲;李兴兵;冯俊涛;;经济增长的动态进程模型及实证研究[A];第十四届中国管理科学学术年会论文集(上册)[C];2012年
9 韩珂;尹勤;;大学生手机话费模型的建立和分析[A];江苏省现场统计研究会第十次学术年会论文集[C];2006年
中国重要报纸全文数据库 前3条
1 建南;帮你建立有效客户关系[N];中国商报;2001年
2 首创期货研发中心金融工程组 徐泽平;方差-协方差法的VaR计量模型选择[N];期货日报;2007年
3 证券时报记者 杨波 金烨 程俊琳;量化投资走在中国 六年学步渐入佳境[N];证券时报;2010年
中国博士学位论文全文数据库 前8条
1 夏小超;统计检验与模型选择相关问题研究[D];重庆大学;2015年
2 朱素玲;模型选择与模型平均研究[D];兰州大学;2014年
3 吕子昂;模型选择的曲率方法研究[D];北京交通大学;2012年
4 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
5 贺利坚;多Agent系统中信任和信誉模型的研究[D];北京交通大学;2011年
6 张立明;结合可满足的基于模型等价性验证及不一致诊断问题研究[D];吉林大学;2012年
7 毛文涛;支持向量回归机模型选择研究及在综合力学环境预示中的应用[D];西安交通大学;2011年
8 刘靖旭;支持向量回归的模型选择及应用研究[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 张亚楠;基于宏微观模型推断钢构件强度的无损检测技术研究[D];中国矿业大学;2015年
2 单昕彤;认知诊断中模型—资料的测验拟合检验统计量研究[D];江西师范大学;2015年
3 井海银;超高维可加模型下的特征筛选[D];重庆大学;2015年
4 江婷婷;基于修正负二项分布的索赔次数模型研究[D];重庆大学;2015年
5 孙志滨;LDA模型的研究及其在推荐系统中的应用[D];浙江大学;2016年
6 张钊;基于无偏估计方程的模型选择[D];山东经济学院;2011年
7 朱小岩;基于分段函数的剂量—反应模型的参数估计和模型选择[D];东北师范大学;2005年
8 徐桂彬;基于相关主题模型的音乐分类方法研究[D];苏州大学;2012年
9 张佶炜;基于中国数据的随机死亡率模型比较研究[D];华东师范大学;2014年
10 刘杨树;模型风险及其对衍生品定价的影响[D];厦门大学;2009年
本文关键词:LDA模型的研究及其在推荐系统中的应用,由笔耕文化传播整理发布。
本文编号:278528
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/278528.html