基于C-LDA的教育领域搜索引擎的研究与实现

发布时间：2020-07-24 11:34

【摘要】：随着互联网技术的飞速发展,Web资源呈现爆炸式增长,它为各个领域的人们带来巨大而多元的信息。教育作为互联网领域的重要分支之一,为人们提供了丰富的学习资源。然而随着数据量的增加,一些问题也逐渐暴露:通用搜索引擎一般以基于关键词的倒排索引算法为基础,搜索结果覆盖面太过广泛,包含大量的广告和垃圾信息,不能根据用户的搜索意图给出相对完美的搜索结果。因此,建立一个面向教育领域的、与用户需求更加匹配、信息更加完善的垂直搜索引擎具有十分重要的现实意义。本文针对LDA主题模型与搜索引擎排序算法展开细致的分析和探讨,首先提出了一种基于频繁词网络的LDA最优主题个数选取方法(C-LDA),进而设计了一种基于C-LDA的用户兴趣改进模型,并基于以上提出的算法搭建一个教育领域搜索引擎系统,可供用户搜索更加感兴趣的教育类信息。本文主要的研究内容如下:(1)针对LDA主题模型目前无法确定最优的主题数目这一问题,本文提出了一种以频繁词集网络的社区划分个数来指定LDA主题模型主题输入个数的方法。该方法对文档构建频繁词对,并以此为基础构建词共现网络,然后采用无监督社区划分算法对该词共现网络进行社区划分,最后以划分的社区个数作为LDA主题模型的主题个数。该方法能够较准确指定LDA的隐含主题数,提升了主题查准率与查全率,降低了主题困惑度。(2)针对用户使用搜索引擎很难搜索到自己感兴趣的信息这一问题,本文提出了基于C-LDA的用户兴趣改进模型。首先,利用C-LDA主题模型分别计算用户和课程的隐主题(兴趣),并依据该兴趣分布做相似度计算,然后以该相似度作为用户与课程的兴趣相似度,并融合Lucene排序分数得到课程最终的排序分数。该算法相较于传统的搜索引擎算法,具有更高的兴趣精确率与兴趣召回率。(3)基于(1)和(2)中提出的算法,搭建了一套教育领域搜索引擎系统。为了解决搜索引擎数据获取的问题,本文采用HttpClient+Quartz+ActiveMQ技术设计了一套分布式爬虫系统。使用关系型数据库Mysql进行存储,并采用Ajax技术与SpringMVC框架结合设计了一套完整的教育领域搜索引擎系统方案。最后,实现了基于C-LDA的教育领域搜索引擎的各个功能模块,并将本文提出算法应用到该系统中,同时利用抓取到的数据对算法做了进一步的验证。
【学位授予单位】：北京交通大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.3
【图文】：

模型图,模型图,主题,主题分布

中的每篇文档，从主题分布中抽取一个主题；然后，从被抽到的主题所对应的单逡逑词分布中提取一个单词；最后，重复以上的过程，直到覆盖所有单词。逡逑ＬＤＡ模型如图３－１所示。逡逑Ｑ逡逑Ｍ逡逑逦Ｎ逡逑图３－１邋ＬＤＡ模型图表示逡逑Ｆｉｇｕｒｅ邋３－１邋Ｄｉａｇｒａｍ邋ｏｆ邋ＬＤＡ邋Ｍｏｄｅｌ逡逑其中，白色圆表示隐变量，灰色圆表示观测变量。矩阵表示重复采样过程，逡逑抽样的次数在矩阵的右下角。逡逑２２逡逑

过程图,模型生成,过程图,概率模型

逡逑图３－１代表的概率模型如公式（３－１）所示。逡逑Ｐ｛６，Ｚ，Ｗ＼ａ，ｆｉ）邋＝邋Ｐ｛６１逦Ｐ（Ｚｎ邋｜邋９）Ｐ｛Ｗｎ邋＼Ｚｎ，／３）逦（３－１）逡逑将上面的式子对应到图中如图３－２所示。逡逑Ｑ逡逑／逦／逦：逦＼邋Ｎ逡逑，逦／逦＼邋■■■■■逡逑／逦７逡逑ｉ邋ｐＣ０｜0Ｏ邋；逦；邋Ｙｌ邋＇ｌ邋：邋ｐ（Ｚｎ｜邋０）邋；邋［ｐ（Ｗｎ｜邋Ｚｎ，Ｐ）＿邋ｊ逡逑Ｉ邋Ｒ？１逦｜逡逑图３－２邋ＬＤＡ模型生成过程图逡逑Ｆｉｇｕｒｅ邋３－２邋Ｇｅｎｅｒａｔｉｏｎ邋Ｐｒｏｃｅｓｓ邋Ｄｉａｇｒａｍ邋ｏｆ邋ＬＤＡ邋Ｍｏｄｅｌ逡逑ＬＤＡ是一种三层表示模型，分别对应上图的Ｍ、Ｎ和Ｚ，邋Ｗ部分，具体表示逡逑如下：逡逑（１）

共现,选取方法,主题

图３－４频繁词共现网络逡逑Ｆｉｇｕｒｅ邋３－４邋Ｃｏｎｃｕｒｒｅｎｃｅ邋Ｎｅｔｗｏｒｋ邋ｏｆ邋Ｆｒｅｑｕｅｎｔ邋Ｗｏｒｄｓ逡逑为了验证本文提出的基于频繁词网络的ＬＤＡ最优主题个数选取方法的有效逡逑

【参考文献】