垂直搜索引擎关键技术研究及分布式实现
本文关键词:垂直搜索引擎关键技术研究及分布式实现
更多相关文章: 垂直搜索 主题分词 LDA模型 垂直资源挖掘 PageRank 分布式
【摘要】:垂直搜索引擎的出现是互联网服务向多样化和专业化发展的必然趋势。垂直搜索引擎的发展建立在通用搜索引擎的基础上,提供精细化的垂直领域信息挖掘与搜索服务。本文进行垂直搜索引擎关键技术及分布式研究,从文档主题分类技术、垂直资源挖掘、主题Ranking模型研究以及分布式设计四个方面展开研究工作。文档主题分类技术研究着重于借助LDA模型挖掘文档的主题信息、识别文本的语义,强化搜索引擎的理解能力。而垂直资源挖掘研究则重点关注网络的结构信息和近邻信息,并进行主题网络爬虫设计。主题Ranking模型研究旨在强化垂直搜索引擎的主题偏向性,保证搜索结果更具有专业性。研究分布式垂直搜索引擎设计则是为了使系统能够适应实际的大数据应用场景而提出分布式解决方案。本文首先阐述了垂直搜索引擎的研究背景、意义以及发展现状,并结合通用搜索引擎的技术背景对垂直搜索引擎的关键技术和技术特性进行了描述。本文将LDA模型应用于垂直搜索引擎中的主题资源挖掘和用户语义解读,研究了不同文档主题分布的训练语料库对LDA模型主题分类性能的影响。然后在LDA主题模型的基础上进行了拓展应用研究,基于贝叶斯公式提取主题种子词库,并研究得到了基于T-PMI的主题词扩展方法。垂直搜索引擎区别于通用搜索引擎的一大特点是搜索主题的确定性,主题先验信息可以帮助我们更好地理解用户查询,本文为此给出了一种主题分词算法,一定程度上解决了分词多义性的情况。其次,本文在Shark-Search算法和HITS算法的基础上改进得到了一种基于结构信息和近邻信息的链接分析算法,以此确立主题爬虫的方向和范围,并提出了自适应主题爬虫策略,可以在实际的爬取过程中,根据反馈调整爬虫的方向。本文在PageRank算法基础上引入了主题相关度,给出了主题敏感PageRank算法,该算法摒弃了随机游走模型,认为用户浏览行为应该具有主题导向,来自同一主题页面的链接更容易被用户点击到,因此该算法修正了PageRank算法的链接模型,增强了主题相关网页的优先级。最后本文设计了一种分布式垂直搜索引擎原型,对关键技术进行了分布式研究,提出了一种分布式主题爬虫框架,对分布式LDA算法的性能进行了验证,并在此基础上设计了分布式垂直搜索引擎的系统整体框架,同时实现了一个图书搜索实例。
【关键词】:垂直搜索 主题分词 LDA模型 垂直资源挖掘 PageRank 分布式
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-9
- 第一章 绪论9-15
- 1.1 研究背景9
- 1.2 垂直搜索引擎的研究现状9-12
- 1.2.1 主题信息采集技术概述10
- 1.2.2 主题分类算法研究10-11
- 1.2.3 链接分析与页面排序算法研究11-12
- 1.3 本文的研究目标和方向12
- 1.4 论文组织结构12-15
- 第二章 基于内容的文本主题模型研究15-35
- 2.1 主题文档模型研究15-24
- 2.1.1 常见主题文档模型15-16
- 2.1.2 Latent Dirichlet Allocator模型16-19
- 2.1.3 垂直引擎中LDA模型应用分析19-24
- 2.2 主题词库的建立24-30
- 2.2.1 基于语料的词库建立24-27
- 2.2.2 基于T-PMI的词库扩展27-30
- 2.2.3 小结30
- 2.3 基于主题的文本分词算法30-34
- 2.3.1 通用文本分词算法30-33
- 2.3.2 基于主题的文本分词算法33-34
- 2.4 本章小结34-35
- 第三章 垂直资源挖掘与主题Ranking模型研究35-51
- 3.1 Web链接结构中的主题相关度研究35-39
- 3.1.1 PageRank算法35-37
- 3.1.2 HITS算法37-39
- 3.1.3 小结39
- 3.2 面向垂直搜索的主题爬虫研究39-46
- 3.2.1 基本爬虫策略39-40
- 3.2.2 Fish-Search算法与Shark-Search算法40-43
- 3.2.3 基于链接的主题爬虫研究43-46
- 3.3 面向垂直搜索的主题Ranking模型研究46-49
- 3.3.1 主题敏感PageRank算法46-48
- 3.3.2 算法讨论48-49
- 3.3.3 模型评价49
- 3.4 本章小结49-51
- 第四章 分布式垂直搜索引擎原型设计51-61
- 4.1 分布式爬虫研究51-53
- 4.1.1 通信模型51-52
- 4.1.2 爬虫整体框架52-53
- 4.1.3 性能优化53
- 4.2 LDA算法分布式研究53-57
- 4.2.1 AD-LDA算法54
- 4.2.2 基于Map-Reduce的分布式Gibbs Sampling54-55
- 4.2.3 AD-LDA性能分析55-57
- 4.3 系统整体框架57-58
- 4.4 一个图书搜索实例58-60
- 4.4.1 数据采集与处理58-59
- 4.4.2 搜索权重研究59
- 4.4.3 搜索结果展示59-60
- 4.5 本章小结60-61
- 第五章 总结与展望61-63
- 5.1 总结61-62
- 5.2 展望62-63
- 致谢63-65
- 参考文献65-66
【相似文献】
中国期刊全文数据库 前10条
1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
2 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
3 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期
4 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
5 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
6 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
7 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
8 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
9 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期
10 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
2 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
3 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
4 柳力丽;旅游垂直搜索引擎的品牌传播研究[D];西南大学;2015年
5 钱永杰;面向网络文学的垂直搜索引擎的研究与实现[D];曲阜师范大学;2015年
6 袁凤云;垂直搜索引擎关键技术研究与实现[D];电子科技大学;2014年
7 任睿丽;面向旅游业的垂直搜索引擎的设计与实现[D];电子科技大学;2014年
8 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年
9 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年
10 杨小丹;面向教育资源c\索引擎的研究与实现[D];电子科技大学;2015年
,本文编号:1044182
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1044182.html