企业集团的智能搜索引擎平台的建立
本文关键词:企业集团的智能搜索引擎平台的建立,由笔耕文化传播整理发布。
通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息检索的需求。伴随着企业信息化快速发展,为企业量身定制企业级搜索引擎成为一种需求,企业搜索引擎也将成为信息化时代的一大研究热点。与通用搜索引擎相比,企业搜索引擎有着采集内容更丰富、安全系数更高、更高的查全率和查准率等特点:企业搜索引擎面向的数据不仅包括互联网上网页形式的数据,还包括企业内部数据库以及行业应用系统中的业务数据,而业务数据对通用搜索引擎来说是透明的,所以企业搜索引擎有着更高的数据获取门槛,企业搜索引擎面向的用户群体所要查找的往往是行业内...
通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息检索的需求。伴随着企业信息化快速发展,为企业量身定制企业级搜索引擎成为一种需求,企业搜索引擎也将成为信息化时代的一大研究热点。与通用搜索引擎相比,企业搜索引擎有着采集内容更丰富、安全系数更高、更高的查全率和查准率等特点:企业搜索引擎面向的数据不仅包括互联网上网页形式的数据,还包括企业内部数据库以及行业应用系统中的业务数据,而业务数据对通用搜索引擎来说是透明的,所以企业搜索引擎有着更高的数据获取门槛,企业搜索引擎面向的用户群体所要查找的往往是行业内的信息,因此对准确率的要求也就更高。本文选择“企业集团的智能搜索引擎平台的建立”为课题,文中提出了面向集团企业的搜索引擎体系架构,并结合浙江中烟工业公司对企业搜索引擎系统的需求,提出了浙江中烟工业公司企业搜索引擎系统框架,并对其系统进行设计,系统将实现基于烟草行业的垂直搜索引擎。本文具体研究内容如下:
1)搜索引擎的四大系统:下载系统、分析系统、索引系统、查询系统。本文根据烟草行业的特殊性,,结合烟草行业知识深入研究互联网搜索引擎原理,确立烟草行业对搜索引擎的需求以及企业垂直搜索引擎应实现的功能。
2)提出企业搜索引擎系统的聚焦网络爬虫体系架构。文章分析了行业内网页爬取的相关算法,给出了烟草行业的网页重访策略。在存储网页信息时引入基于MongoDB的云存储方案构建网页库,并给出了企业内部数据的抽取方案。
3)企业搜索引擎的数据处理分析系统。提出基于烟草行业的网页查重模型,在数据处理模块的研究与设计中,本文针对企业内部搜索提出了本体库的构建。
4)企业搜索引擎的查询系统。结合全文搜索的算法以及在PageRank算法的基础上给出了面向“烟草主题”的算法改进,并通过对查询日志的分析对用户查询意图的推测进行研究与应用,为企业搜索引擎系统的设计提供理论依据。
5)基于以上理论知识,本文在浙江理工大学企业智能实验室对企业搜索引擎研究的基础上,对企业搜索引擎系统进行设计,提出企业搜索引擎的体系架构。将该体系应用到作者正在参与开发的浙江中烟工业企业搜索引擎系统中,提出浙江中烟搜索引擎系统框图,以浙江中烟搜索引擎系统的实现效果对本文提出的系统方案进行检验。
展开
本文关键词:企业集团的智能搜索引擎平台的建立,由笔耕文化传播整理发布。
本文编号:108137
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/108137.html