基于主题模型的战略性新兴产业科技报告推荐研究
发布时间:2020-07-21 08:58
【摘要】:科技创新是战略性新兴产业发展的核心推动力,而科技创新的基本前提是要充分、合理的利用现有的科技信息资源,就必须做好科研成果的转化。科技报告作为一种特殊的科技文献,主要记录和描述科研项目的过程和结果,对于科技创新具有非常重要的参考价值。科技报告是科研工作者所承担的实验、科研等工作的全过程及取得的成果,是按照相关格式和标准编写而成,能够如实反映所承担科研项目所采用的技术、方法及过程中总结的经验、教训的科技文献。2014年,随着国家科技报告服务系统(NSTRS)正式向社会大众提供科技报告服务,标志着我国科技报告工作步入了新阶段。截至2018年4月2日,国家科技报告服务系统共收录了 123635份科技报告,用户可以在系统中进行搜索,以获取符合自身科研兴趣的科技报告。这虽然能够从某种程度上满足用户的需求,但用户如何从大量的科技报告中获取自己想要的报告成为随之而来的难题,为用户推荐满足其实际需求的科技报告成为接下来要解决的问题。鉴于此,在检索和阅读大量国内外相关文献的基础上,对各种推荐方法进行深入学习和研究后,本文基于主题模型提出了以下三种推荐方法:第一,基于LDA模型的推荐,利用LDA主题模型完成主题抽取,再通过计算文档主题之间的相似度完成推荐。该方法不仅实现了词频空间上的降维,降低了计算的难度,还可以发现文档间的潜在联系及文档内各主题的概率分布。第二,基于CTM主题关联模型的推荐,该方法在兼顾LDA模型的同时,通过发现各主题在不同文档中的潜在联系,最后将主题间关联度较大的文档推荐给用户,弥补了 LDA主题模型倾向于推荐某一主题范围文档的问题,提高了推荐效果,并通过实证验证了 CTM关联模型的优越性。第三,基于用户主题兴趣的推荐,通过获取用户历史行为记录,提取用户兴趣特征,构建用户-文档-主题间的关系,再计算文档主题与用户兴趣主题之间的相似度,最后按照相似度排序将相似度较大的前m篇文档推荐给用户,从而完成推荐过程。该方法在主题模型的基础上加入了用户兴趣,使得推荐结果更贴合用户实际需求,进而提升推荐效果。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G350
【图文】:
wn)邋=邋p(d)Y1p(.z\d)p(wn\z)逦(2.1)逡逑图2.1为PLSI图模型,d表示某文档,z表示潜在变量,w表示文档d中的单词。逡逑N表示文档中的单词个数,M为文档数。逡逑d邋逦z逦w邋N逡逑M逡逑图2.1邋PLSI的图模型逡逑与LSI模型相比,PLSI中文本的多项式分布假设更加符合文本特性,且具有更逡逑坚实的数学基础。然而,PLSI也存在一些缺陷,每次有新文档是都需要重复训练,逡逑因此在大数据下PLSI的表现是低效的,易产生过度拟合问题。逡逑2.1.3邋LDA主题模型逡逑LDA主题模型,即潜在狄利克雷分配模型,是广泛应用于文本挖掘和自然语言逡逑处理研宄中最流行的生成主题模型。其主要思想是:使用隐含主题的随机混合来表逡逑示文档,每个隐含主题则有在词典空间的概率分布来表示,不同的主题在词典空间逡逑的分布也不同[41]。LDA模型能够很好的模拟人构思创作整篇文章的过程,它会先逡逑为文章拟好若干不同的主题
wn)邋=邋p(d)Y1p(.z\d)p(wn\z)逦(2.1)逡逑图2.1为PLSI图模型,d表示某文档,z表示潜在变量,w表示文档d中的单词。逡逑N表示文档中的单词个数,M为文档数。逡逑d邋逦z逦w邋N逡逑M逡逑图2.1邋PLSI的图模型逡逑与LSI模型相比,PLSI中文本的多项式分布假设更加符合文本特性,且具有更逡逑坚实的数学基础。然而,PLSI也存在一些缺陷,每次有新文档是都需要重复训练,逡逑因此在大数据下PLSI的表现是低效的,易产生过度拟合问题。逡逑2.1.3邋LDA主题模型逡逑LDA主题模型,即潜在狄利克雷分配模型,是广泛应用于文本挖掘和自然语言逡逑处理研宄中最流行的生成主题模型。其主要思想是:使用隐含主题的随机混合来表逡逑示文档,每个隐含主题则有在词典空间的概率分布来表示,不同的主题在词典空间逡逑的分布也不同[41]。LDA模型能够很好的模拟人构思创作整篇文章的过程,它会先逡逑为文章拟好若干不同的主题
标用户U的k个最近邻居N(c)=邋{Cl,C2,...cfc),接着计算目标用户与其他用户之间逡逑的相似度,然后选择相似度较大的前k个用户作为目标用户的最近邻居。协同过滤逡逑算法寻找邻居的过程如图2.3所示:寻找用户A的最近邻居,通过计算用户A与其逡逑他用户间的相似度,则与A相似度较大的前5位用户被认为是最近邻居。逡逑Q邋。_逡逑CX逦'逡逑0。逡逑图2.3发现最近邻居过程逡逑基于CF算法中用来计算相似度的常用方法主要有Pearson相关系数相似度、余逡逑弦相似度、修正的余弦相似度。逡逑①皮尔森相关系数逡逑Pearson系数是描述两个用户间的关联程度。如果我们用Zix;?表示用户i和用户逡逑j对各项目的共同评分集合,那么sim(i,j)表示这两位用户之间的关联度,计算公式逡逑如下:逡逑sim(i,j)邋=逦(2.3)逡逑JZcElixj(^i,c ̄"邋Ri)邋-yj^ce邋hxj(Rj,c ̄邋Rj)逡逑其中,是用户i对项目c的评分,r停绫硎居没В楹陀没В旮髯远韵钅科婪皱义系木怠e义希保靛义
本文编号:2764201
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G350
【图文】:
wn)邋=邋p(d)Y1p(.z\d)p(wn\z)逦(2.1)逡逑图2.1为PLSI图模型,d表示某文档,z表示潜在变量,w表示文档d中的单词。逡逑N表示文档中的单词个数,M为文档数。逡逑d邋逦z逦w邋N逡逑M逡逑图2.1邋PLSI的图模型逡逑与LSI模型相比,PLSI中文本的多项式分布假设更加符合文本特性,且具有更逡逑坚实的数学基础。然而,PLSI也存在一些缺陷,每次有新文档是都需要重复训练,逡逑因此在大数据下PLSI的表现是低效的,易产生过度拟合问题。逡逑2.1.3邋LDA主题模型逡逑LDA主题模型,即潜在狄利克雷分配模型,是广泛应用于文本挖掘和自然语言逡逑处理研宄中最流行的生成主题模型。其主要思想是:使用隐含主题的随机混合来表逡逑示文档,每个隐含主题则有在词典空间的概率分布来表示,不同的主题在词典空间逡逑的分布也不同[41]。LDA模型能够很好的模拟人构思创作整篇文章的过程,它会先逡逑为文章拟好若干不同的主题
wn)邋=邋p(d)Y1p(.z\d)p(wn\z)逦(2.1)逡逑图2.1为PLSI图模型,d表示某文档,z表示潜在变量,w表示文档d中的单词。逡逑N表示文档中的单词个数,M为文档数。逡逑d邋逦z逦w邋N逡逑M逡逑图2.1邋PLSI的图模型逡逑与LSI模型相比,PLSI中文本的多项式分布假设更加符合文本特性,且具有更逡逑坚实的数学基础。然而,PLSI也存在一些缺陷,每次有新文档是都需要重复训练,逡逑因此在大数据下PLSI的表现是低效的,易产生过度拟合问题。逡逑2.1.3邋LDA主题模型逡逑LDA主题模型,即潜在狄利克雷分配模型,是广泛应用于文本挖掘和自然语言逡逑处理研宄中最流行的生成主题模型。其主要思想是:使用隐含主题的随机混合来表逡逑示文档,每个隐含主题则有在词典空间的概率分布来表示,不同的主题在词典空间逡逑的分布也不同[41]。LDA模型能够很好的模拟人构思创作整篇文章的过程,它会先逡逑为文章拟好若干不同的主题
标用户U的k个最近邻居N(c)=邋{Cl,C2,...cfc),接着计算目标用户与其他用户之间逡逑的相似度,然后选择相似度较大的前k个用户作为目标用户的最近邻居。协同过滤逡逑算法寻找邻居的过程如图2.3所示:寻找用户A的最近邻居,通过计算用户A与其逡逑他用户间的相似度,则与A相似度较大的前5位用户被认为是最近邻居。逡逑Q邋。_逡逑CX逦'逡逑0。逡逑图2.3发现最近邻居过程逡逑基于CF算法中用来计算相似度的常用方法主要有Pearson相关系数相似度、余逡逑弦相似度、修正的余弦相似度。逡逑①皮尔森相关系数逡逑Pearson系数是描述两个用户间的关联程度。如果我们用Zix;?表示用户i和用户逡逑j对各项目的共同评分集合,那么sim(i,j)表示这两位用户之间的关联度,计算公式逡逑如下:逡逑sim(i,j)邋=逦(2.3)逡逑JZcElixj(^i,c ̄"邋Ri)邋-yj^ce邋hxj(Rj,c ̄邋Rj)逡逑其中,是用户i对项目c的评分,r停绫硎居没В楹陀没В旮髯远韵钅科婪皱义系木怠e义希保靛义
本文编号:2764201
本文链接:https://www.wllwen.com/tushudanganlunwen/2764201.html
教材专著