垂直搜索引擎在烟草行业的研究与应用
本文关键词:垂直搜索引擎在烟草行业的研究与应用,由笔耕文化传播整理发布。
【摘要】:互联网的飞速发展一方面给我们提供了极其丰富的信息,另一方面也加大了信息过滤的难度。互联网用户越来越依赖于搜索引擎来缩小信息检索的范围,从而更高效地获取自己感兴趣的内容。但是,用户的期望结果是小而精,通用搜索引擎追求的目标是大而全,与用户的特定需求南辕北辙。在这种背景下,垂直搜索引擎应运而生。如果把互联网当作一个服务提供者,则其成熟的一条重要标志就是由通用化向订制化发展,垂直搜索引擎的出现即是这种转换的具体表现,也是搜索引擎未来的发展方向。首先,本文结合互联网的发展史,综述了垂直搜索引擎的出现背景及意义。以烟草行业为例,深入分析了企业日益增长的信息检索需求与通用搜索引擎固有局限性之间的矛盾,论证了垂直搜索引擎应用于企业的必要性与可行性。然后结合笔者在烟草企业的实习经历,设计并实现了一种针对烟草行业的垂直搜索引擎。在对垂直搜索引擎的整体架构和关键技术充分研究的基础上,提出了一种“三度过滤”的主题判别方法,并提高了PageRank算法在实际应用中的适应性。然后对开源项目Lucene进行了本地化改造,最终开发出一款适用于烟草行业的垂直搜索引擎。本文主要研究内容如下:(1)在研习搜索引擎典型架构的基础上,详细阐述了中文分词、倒排索引和链接分析三项关键技术的实现原理。通过横向对比总结出了各种搜索模型的优缺点,以布尔模型实现基础的文本筛选,以空间向量模型实现高级的匹配运算,从而建立起符合烟草行业特点的搜索模型,兼具简单易行和支持相关性评分两方面优势。(2)编程模拟了Page Rank算法的迭代过程,对出链-入链矩阵中的黑洞问题和PageRank向量的数据失衡问题进行了深入的分析。黑洞问题会造成部分网页垄断PageRank得分,使评分结果有失客观性与科学性;而数据失衡问题会造成迭代过程的收敛速度过慢,无法应用于大规模的计算。本文通过引入马尔科夫链理论对模型加入两次随机性调整,使之更符合上网者随机浏览网页的过程,从根本上杜绝了黑洞问题的产生并加快了PageRank的收敛速度。(3)提出了一种“三度过滤”的主题判别方法。借助烟草行业的专业词库,在主题判别的过程中将预判因子、元信息因子、词库因子纳入主题相关度的计算,有效过滤了与主题无关的网页,大大提高了搜索引擎的查准率。另一方面,该算法得出的预判因子还用于调整URL队列的优先级,帮助主题爬虫优先抓取主题相关度更高的网页。(4)通过对Lucene源代码的本地化改造,实现了开源项目与系统开发的兼容性整合。结合原始的空间向量模型,对影响网页欢迎度与主题相关度的各项因子进行调整,将查询词的词频、词类、通用性以及文档长度纳入综合统计,并对不同的查询域进行差异化加权,最终得出了符合烟草行业特点的评分公式。
【关键词】:垂直搜索 PageRank算法 主题判别 网络爬虫 文档排序
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;F426.8
【目录】:
- 摘要4-6
- Abstract6-12
- 第一章 绪论12-23
- 1.1 研究背景及意义12-14
- 1.2 国内外研究现状14-17
- 1.3 搜索模型概述17-20
- 1.3.1 布尔搜索模型17-18
- 1.3.2 向量空间搜索模型18-19
- 1.3.3 概率搜索模型19-20
- 1.3.4 元搜索模型20
- 1.3.5 四种搜索模型的对比20
- 1.4 研究内容20-22
- 1.5 本文组织结构22-23
- 第二章 搜索引擎的整体架构与关键技术23-44
- 2.1 搜索引擎的体系结构23-28
- 2.1.1 爬虫模块24-26
- 2.1.2 预处理模块26-27
- 2.1.3 查询服务模块27-28
- 2.2 中文分词28-35
- 2.2.1 基于词典的分词28-30
- 2.2.2 基于统计的分词30-35
- 2.3 倒排索引35-40
- 2.3.1 索引结构35-38
- 2.3.2 文档评分38-40
- 2.4 链接分析40-44
- 2.4.1 PageRank算法41
- 2.4.2 HITS算法41-44
- 第三章 PageRank算法的适应性改进44-53
- 3.1 引言44
- 3.2 PageRank的原始求和方法44-46
- 3.3“黑洞”问题46-47
- 3.4 马尔科夫修正47-52
- 3.5 本章小结52-53
- 第四章 针对烟草行业的主题判别53-61
- 4.1 引言53
- 4.2 种子URL的选取53-54
- 4.3 超链接判别54-56
- 4.4 元信息判别56-59
- 4.5 词库判别59-60
- 4.6 本章小结60-61
- 第五章 垂直搜索引擎的设计与实现61-83
- 5.1 需求分析61-64
- 5.1.1 功能需求61-62
- 5.1.2 性能需求62-63
- 5.1.3 可靠性和可用性需求63
- 5.1.4 开发平台63-64
- 5.2 主题爬虫的设计与实现64-71
- 5.2.1 网页抓取64-68
- 5.2.2 异步I/O68-71
- 5.3 文档评分及排序71-77
- 5.3.1 Lucene工具包71-72
- 5.3.2 向量空间模型72-74
- 5.3.3 适用于烟草行业的评分公式74-77
- 5.4 查询交互页面77-79
- 5.4.1 高亮显示技术77-78
- 5.4.2 页面设计78-79
- 5.5 搜索引擎的评价原则79-82
- 5.5.1 查全率与查准率79-80
- 5.5.2 本系统与通用搜索引擎的对比80-82
- 5.6 本章小结82-83
- 第六章 总结与展望83-85
- 6.1 全文总结83-84
- 6.2 研究展望84-85
- 参考文献85-89
- 致谢89-90
- 攻读学位期间的研究成果90
【相似文献】
中国期刊全文数据库 前10条
1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
2 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
3 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期
4 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
5 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
6 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
7 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
8 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
9 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期
10 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
2 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
3 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
4 柳力丽;旅游垂直搜索引擎的品牌传播研究[D];西南大学;2015年
5 钱永杰;面向网络文学的垂直搜索引擎的研究与实现[D];曲阜师范大学;2015年
6 袁凤云;垂直搜索引擎关键技术研究与实现[D];电子科技大学;2014年
7 任睿丽;面向旅游业的垂直搜索引擎的设计与实现[D];电子科技大学;2014年
8 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年
9 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年
10 杨小丹;面向教育资源c\索引擎的研究与实现[D];电子科技大学;2015年
本文关键词:垂直搜索引擎在烟草行业的研究与应用,,由笔耕文化传播整理发布。
本文编号:307475
本文链接:https://www.wllwen.com/gongshangguanlilunwen/307475.html