当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于C-LDA的教育领域搜索引擎的研究与实现

发布时间:2020-07-24 11:34
【摘要】:随着互联网技术的飞速发展,Web资源呈现爆炸式增长,它为各个领域的人们带来巨大而多元的信息。教育作为互联网领域的重要分支之一,为人们提供了丰富的学习资源。然而随着数据量的增加,一些问题也逐渐暴露:通用搜索引擎一般以基于关键词的倒排索引算法为基础,搜索结果覆盖面太过广泛,包含大量的广告和垃圾信息,不能根据用户的搜索意图给出相对完美的搜索结果。因此,建立一个面向教育领域的、与用户需求更加匹配、信息更加完善的垂直搜索引擎具有十分重要的现实意义。本文针对LDA主题模型与搜索引擎排序算法展开细致的分析和探讨,首先提出了一种基于频繁词网络的LDA最优主题个数选取方法(C-LDA),进而设计了一种基于C-LDA的用户兴趣改进模型,并基于以上提出的算法搭建一个教育领域搜索引擎系统,可供用户搜索更加感兴趣的教育类信息。本文主要的研究内容如下:(1)针对LDA主题模型目前无法确定最优的主题数目这一问题,本文提出了一种以频繁词集网络的社区划分个数来指定LDA主题模型主题输入个数的方法。该方法对文档构建频繁词对,并以此为基础构建词共现网络,然后采用无监督社区划分算法对该词共现网络进行社区划分,最后以划分的社区个数作为LDA主题模型的主题个数。该方法能够较准确指定LDA的隐含主题数,提升了主题查准率与查全率,降低了主题困惑度。(2)针对用户使用搜索引擎很难搜索到自己感兴趣的信息这一问题,本文提出了基于C-LDA的用户兴趣改进模型。首先,利用C-LDA主题模型分别计算用户和课程的隐主题(兴趣),并依据该兴趣分布做相似度计算,然后以该相似度作为用户与课程的兴趣相似度,并融合Lucene排序分数得到课程最终的排序分数。该算法相较于传统的搜索引擎算法,具有更高的兴趣精确率与兴趣召回率。(3)基于(1)和(2)中提出的算法,搭建了一套教育领域搜索引擎系统。为了解决搜索引擎数据获取的问题,本文采用HttpClient+Quartz+ActiveMQ技术设计了一套分布式爬虫系统。使用关系型数据库Mysql进行存储,并采用Ajax技术与SpringMVC框架结合设计了一套完整的教育领域搜索引擎系统方案。最后,实现了基于C-LDA的教育领域搜索引擎的各个功能模块,并将本文提出算法应用到该系统中,同时利用抓取到的数据对算法做了进一步的验证。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:

模型图,模型图,主题,主题分布


中的每篇文档,从主题分布中抽取一个主题;然后,从被抽到的主题所对应的单逡逑词分布中提取一个单词;最后,重复以上的过程,直到覆盖所有单词。逡逑LDA模型如图3-1所示。逡逑Q逡逑M逡逑逦N逡逑图3-1邋LDA模型图表示逡逑Figure邋3-1邋Diagram邋of邋LDA邋Model逡逑其中,白色圆表示隐变量,灰色圆表示观测变量。矩阵表示重复采样过程,逡逑抽样的次数在矩阵的右下角。逡逑22逡逑

过程图,模型生成,过程图,概率模型


逡逑图3-1代表的概率模型如公式(3-1)所示。逡逑P{6,Z,W\a,fi)邋=邋P{61逦P(Zn邋|邋9)P{Wn邋\Zn,/3)逦(3-1)逡逑将上面的式子对应到图中如图3-2所示。逡逑Q逡逑/逦/逦:逦\邋N逡逑,逦/逦\邋■■■■■逡逑/逦7逡逑i邋pC0|0O邋;逦;邋Yl邋'l邋:邋p(Zn|邋0)邋;邋[p(Wn|邋Zn,P)_邋j逡逑I邋R?1逦|逡逑图3-2邋LDA模型生成过程图逡逑Figure邋3-2邋Generation邋Process邋Diagram邋of邋LDA邋Model逡逑LDA是一种三层表示模型,分别对应上图的M、N和Z,邋W部分,具体表示逡逑如下:逡逑(1)

共现,选取方法,主题


图3-4频繁词共现网络逡逑Figure邋3-4邋Concurrence邋Network邋of邋Frequent邋Words逡逑为了验证本文提出的基于频繁词网络的LDA最优主题个数选取方法的有效逡逑

【参考文献】

相关期刊论文 前10条

1 蒋

本文编号:2768784


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2768784.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f792f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com