基于Lucene的企业智能搜索引擎实现研究
本文关键词:基于Lucene的企业智能搜索引擎实现研究 出处:《浙江理工大学》2015年硕士论文 论文类型:学位论文
更多相关文章: 企业 搜索引擎 主题爬虫 Lucene 排序 关键词 维度 本体
【摘要】:传统互联网搜索引擎可以供用户检索到许多信息,但对于企业用户,它搜索结果涵盖范围太广且不能达成对内部系统报表或数据库的有效查找。再加上现代企业信息化的繁荣兴盛,使得专用的搜索引擎成为他们提高工作效率的迫切需要,企业搜索引擎也因此成为当前科技中备受关注的研究之一。 所以论文选定“基于Lucene的企业智能搜索引擎实现研究”这一课题,结合浙江中烟建设搜素引擎系统的目标,引入并改进一系列技术,提出了面向烟草企业的智能搜索引擎架构,并设计实现了浙江中烟搜索引擎系统。本文研究的关键点有: (1)根据浙江中烟智能搜索引擎系统要达到的目标总结出现代企业对搜索引擎的两种需求:一是通过主题搜索为用户提供特定行业的相关信息,如行业动态等;二是根据用户输入的普通查询关键词搜索到相关报表或对内部关系数据库内容。 (2)设计特定主题的增量型聚焦网络爬虫:在传统爬虫架构基础上建立烟草主题爬虫架构,改进爬行策略提高爬行速率与准确率,根据烟草行业网站特点制定增量模型提高爬虫的时新性,并将爬取的内容进行云存储、去噪与查重等处理。 (3)基于Lucene建立烟草行业的智能检索模型:结合Lucene的向量空间模型算法和改进的PageRank算法给出面向烟草行业相关度排序算法;根据浙江中烟数据仓库的设计特点提出“维度关键词”这一概念,构建烟草领域本体,并提出基于本体的关键词语义扩展策略,设计了烟草行业关系数据库查询的体系结构。 (4)提出了企业搜索引擎的体系架构,主要包括源数据抽取、利用聚焦爬虫进行数据采集、数据加工、数据存储、信息检索、系统管理以及页面展示几个层面。 (5)设计实现了浙江中烟企业搜索引擎系统,实现了查准率比通用搜索引擎高出很多的烟草行业内主题网页搜索,,以及通过简单关键字对浙江中烟内部报表和关系数据库的检索,并对某些重要内容的检索结果汇总分析为用户进行展示。满足了浙江中烟对企业搜索的需求,同时可以扩展应用到其他企业。
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 文竹;;基于C#的网络爬虫搜索引擎的设计[J];计算机光盘软件与应用;2013年20期
2 宋晓青;沈琦;张晓凌;;基于关系数据库的技术转移领域本体自动构建方法研究[J];电脑与信息技术;2014年02期
3 陈金梁;李青;;基于本体的领域文档主题抽取方法研究[J];电脑开发与应用;2014年09期
4 苏若凡;;基于网络爬虫的股票信息预警系统的研究与实现[J];电子世界;2014年16期
5 王晓菲;何利力;罗强;;基于Lucene的烟草行业智能搜索引擎设计与实现[J];工业控制计算机;2014年11期
6 郭政;邓兴;;基于BHO的文本过滤技术的分析与实现[J];计算机安全;2014年04期
7 梁栋;臧冬松;孙功星;Valentin Kuznetsov;;CMS实验中关系数据库的精确关键词查询[J];计算机工程;2014年01期
8 李豫山;;基于聚焦搜索引擎的搜索引擎优化策略的研究[J];科技信息;2014年12期
9 白培发;王成良;徐玲;;一种融合词语位置特征的Lucene相似度评分算法[J];计算机工程与应用;2014年02期
10 岳绍敏;李万龙;王璐;光顺利;;基于Lucene索引的数据库全文检索[J];吉林大学学报(理学版);2014年05期
本文编号:1320070
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1320070.html