基于主题模型的战略性新兴产业科技报告推荐研究

发布时间：2020-07-21 08:58

【摘要】：科技创新是战略性新兴产业发展的核心推动力,而科技创新的基本前提是要充分、合理的利用现有的科技信息资源,就必须做好科研成果的转化。科技报告作为一种特殊的科技文献,主要记录和描述科研项目的过程和结果,对于科技创新具有非常重要的参考价值。科技报告是科研工作者所承担的实验、科研等工作的全过程及取得的成果,是按照相关格式和标准编写而成,能够如实反映所承担科研项目所采用的技术、方法及过程中总结的经验、教训的科技文献。2014年,随着国家科技报告服务系统(NSTRS)正式向社会大众提供科技报告服务,标志着我国科技报告工作步入了新阶段。截至2018年4月2日,国家科技报告服务系统共收录了 123635份科技报告,用户可以在系统中进行搜索,以获取符合自身科研兴趣的科技报告。这虽然能够从某种程度上满足用户的需求,但用户如何从大量的科技报告中获取自己想要的报告成为随之而来的难题,为用户推荐满足其实际需求的科技报告成为接下来要解决的问题。鉴于此,在检索和阅读大量国内外相关文献的基础上,对各种推荐方法进行深入学习和研究后,本文基于主题模型提出了以下三种推荐方法:第一,基于LDA模型的推荐,利用LDA主题模型完成主题抽取,再通过计算文档主题之间的相似度完成推荐。该方法不仅实现了词频空间上的降维,降低了计算的难度,还可以发现文档间的潜在联系及文档内各主题的概率分布。第二,基于CTM主题关联模型的推荐,该方法在兼顾LDA模型的同时,通过发现各主题在不同文档中的潜在联系,最后将主题间关联度较大的文档推荐给用户,弥补了 LDA主题模型倾向于推荐某一主题范围文档的问题,提高了推荐效果,并通过实证验证了 CTM关联模型的优越性。第三,基于用户主题兴趣的推荐,通过获取用户历史行为记录,提取用户兴趣特征,构建用户-文档-主题间的关系,再计算文档主题与用户兴趣主题之间的相似度,最后按照相似度排序将相似度较大的前m篇文档推荐给用户,从而完成推荐过程。该方法在主题模型的基础上加入了用户兴趣,使得推荐结果更贴合用户实际需求,进而提升推荐效果。
【学位授予单位】：华中师范大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：G350
【图文】：

概率分布,多项式分布,图模型,数学基础

ｗｎ）邋＝邋ｐ（ｄ）Ｙ１ｐ（．ｚ＼ｄ）ｐ（ｗｎ＼ｚ）逦（２．１）逡逑图２．１为ＰＬＳＩ图模型，ｄ表示某文档，ｚ表示潜在变量，ｗ表示文档ｄ中的单词。逡逑Ｎ表示文档中的单词个数，Ｍ为文档数。逡逑ｄ邋逦ｚ逦ｗ邋Ｎ逡逑Ｍ逡逑图２．１邋ＰＬＳＩ的图模型逡逑与ＬＳＩ模型相比，ＰＬＳＩ中文本的多项式分布假设更加符合文本特性，且具有更逡逑坚实的数学基础。然而，ＰＬＳＩ也存在一些缺陷，每次有新文档是都需要重复训练，逡逑因此在大数据下ＰＬＳＩ的表现是低效的，易产生过度拟合问题。逡逑２．１．３邋ＬＤＡ主题模型逡逑ＬＤＡ主题模型，即潜在狄利克雷分配模型，是广泛应用于文本挖掘和自然语言逡逑处理研宄中最流行的生成主题模型。其主要思想是：使用隐含主题的随机混合来表逡逑示文档，每个隐含主题则有在词典空间的概率分布来表示，不同的主题在词典空间逡逑的分布也不同［４１］。ＬＤＡ模型能够很好的模拟人构思创作整篇文章的过程，它会先逡逑为文章拟好若干不同的主题

概率分布,图模型,参数推理,近似推理

相似度,常用方法,相关系数,算法

标用户Ｕ的ｋ个最近邻居Ｎ（ｃ）＝邋｛Ｃｌ，Ｃ２，．．．ｃｆｃ），接着计算目标用户与其他用户之间逡逑的相似度，然后选择相似度较大的前ｋ个用户作为目标用户的最近邻居。协同过滤逡逑算法寻找邻居的过程如图２．３所示：寻找用户Ａ的最近邻居，通过计算用户Ａ与其逡逑他用户间的相似度，则与Ａ相似度较大的前５位用户被认为是最近邻居。逡逑Ｑ邋。＿逡逑ＣＸ逦＇逡逑０。逡逑图２．３发现最近邻居过程逡逑基于ＣＦ算法中用来计算相似度的常用方法主要有Ｐｅａｒｓｏｎ相关系数相似度、余逡逑弦相似度、修正的余弦相似度。逡逑①皮尔森相关系数逡逑Ｐｅａｒｓｏｎ系数是描述两个用户间的关联程度。如果我们用Ｚｉｘ；？表示用户ｉ和用户逡逑ｊ对各项目的共同评分集合，那么ｓｉｍ（ｉ，ｊ）表示这两位用户之间的关联度，计算公式逡逑如下：逡逑ｓｉｍ（ｉ，ｊ）邋＝逦（２．３）逡逑ＪＺｃＥｌｉｘｊ（＾ｉ，ｃ￣＂邋Ｒｉ）邋－ｙｊ＾ｃｅ邋ｈｘｊ（Ｒｊ，ｃ￣邋Ｒｊ）逡逑其中，是用户ｉ对项目ｃ的评分，r停绫硎居没В楹陀没В旮髯远韵钅科婪皱义系木怠ｅ义希保靛义

本文编号：2764201

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/2764201.html

上一篇：面向儿童的民间公益阅读推广组织研究
下一篇：中美公共图书馆网站社会责任内容的实证研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|