基于Lucene的烟草个性化搜索引擎的研究与实现
本文关键词:基于Lucene的烟草个性化搜索引擎的研究与实现
更多相关文章: 全文检索 Lucene 垂直搜索引擎 烟草 个性化搜索 用户兴趣 海量数据 网络爬虫
【摘要】:研究了Lucene搜索引擎框架在烟草行业的信息获取和搜索方面的系统应用。如何在异构的海量数据中获取与烟草行业相关的数据是实现烟草行业信息化管理技术的一个重要分支。通过对不同文件格式的数据处理、烟草行业相关站点的数据抓取、搜索引擎创建和数据检索四个模块框架来实现系统。Web页面基于Heritrix烟草信息数据抓取,其中的非结构化数据或者半结构化数据和不同的文件格式通过Tika工具统一转为为文本,通过Lucene对结构化和非结构化数据创建索引以实现数据检索,由此实现烟草信息搜索引擎系统的实现。
【作者单位】: 浙江理工大学信息学院;杭州出入境检验检疫局;浙江理工大学机械与自动控制学院;
【关键词】: 全文检索 Lucene 垂直搜索引擎 烟草 个性化搜索 用户兴趣 海量数据 网络爬虫
【基金】:国家自然科学基金项目(51475434) 浙江检验检疫局科技计划项目(2013-ZKZ-07)
【分类号】:TP391.3
【正文快照】: 随着Internet的迅猛发展,烟草行业的信息化管理成为烟草行业的研究重点之一。实现烟草行业特定领域垂直信息搜索是本文研究的重点,如何在网络中实现有关烟草行业的信息抓取和检索,在包罗万象的文档资源中,如何处理不同格式的文档,如何对不同的数据源进行索引管理,如果实现对索
【参考文献】
中国期刊全文数据库 前1条
1 宋佳;诸云强;刘润达;;一种基于Lucene改进的全文检索工具包[J];计算机工程与应用;2008年04期
【共引文献】
中国期刊全文数据库 前9条
1 康亚娟;;浅谈站内信息搜索系统[J];硅谷;2011年13期
2 康亚娟;;站内搜索的研究与实现[J];信息技术;2011年08期
3 王远定;梁久祯;;利用关键词倒排表实时检索中文网页[J];计算机工程与应用;2010年28期
4 龚磊;武友新;;Lucene全文检索系统的研究与实现[J];计算机与数字工程;2010年05期
5 周锦程;王丹;;基于Lucene的全文搜索引擎研究与应用[J];黔南民族师范学院学报;2009年03期
6 贾桂霞;李祥林;马宏锋;;基于Lucene的中小型WEB应用全文检索引擎的研究[J];自动化与仪器仪表;2011年02期
7 黄承慧;印鉴;陆寄远;;一种改进的Lucene语义相似度检索算法[J];中山大学学报(自然科学版);2011年02期
8 张俊;李鲁群;周熔;;基于Lucene的搜索引擎的研究与应用[J];计算机技术与发展;2013年06期
9 温慧明;宫晓辉;;基于Solr的科技成果查新系统的构建研究[J];计算机技术与发展;2014年06期
中国硕士学位论文全文数据库 前10条
1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
2 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
3 武毅;基于Lucene.Net的全文检索研究与应用[D];国防科学技术大学;2011年
4 张婷;分布式网络搜索引擎的研究与实现[D];解放军信息工程大学;2011年
5 叶继平;基于Lucene的全文信息检索技术的研究与应用[D];江南大学;2012年
6 赵旭;搜索引擎关键技术研究及性能优化[D];江南大学;2008年
7 卿竹;重庆市标准管理系统的设计与实现[D];重庆大学;2008年
8 王远定;中文搜索引擎的快速检索方法研究[D];江南大学;2009年
9 张琳;基于Lucene的电子公文检索系统的研究与实现[D];沈阳理工大学;2009年
10 刘莺迎;基于lucene中文全文检索系统的研究与实现[D];郑州大学;2009年
【二级参考文献】
中国期刊全文数据库 前8条
1 赵汀,孟祥武;基于LUCENEAPI的中文全文数据库设计与实现[J];计算机工程与应用;2003年20期
2 陈士杰,张sソ,
本文编号:1083713
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1083713.html