基于Lucene的搜索引擎的研究与实现
本文关键词: 垂直搜索 引擎 网络爬虫 出处:《大连理工大学》2016年硕士论文 论文类型:学位论文
【摘要】:最近这些年,有一门新兴的技术正越来越多的引起人们的广泛注意,它就是垂直搜索引擎。垂直搜索引擎建造价格便宜,而且它是一种相对有效的搜索方式。用户可从相关网页上,根据输入的关键字搜索需要的消息,又可以浏览这些检索出的界面。检索界面可以被用户打开,进行信息的浏览。结果包含所有相关网页在通用搜索引擎中是不可能实现的,即使雅虎公司的搜索结果覆盖率也不到50%。通过这些数据可以表明,很大一部分网页并没有被搜索引擎检测到,所以就无法对其中包含的信息加以利用。大量的信息无法为人们所有,造成了信息资源的浪费。尽管有些搜索引擎设置了一些功能使得一些没有检测到的信息得到一个可以检测的出口,即身份验证,但还是无法使这种现象得以改善。系统使用Eclipse和Dreamweaver作为开发环境。系统后台的信息是由某网站提供的,经过分析网站内容,准备好Heritrix的抓取清单,然后提交给Heritrix处理。网页抓取到后使用HTMLParser解析,将详细信息插入My SQL数据库,然后建立用来检索关键字的词库和Lucene的索引,最后搭建一个Web平台,采用JSP技术对建立的索引和数据库进行整合,为用户提供真正的搜索服务。
[Abstract]:In recent years, a new technology is getting more and more attention. It is the vertical search engine. Vertical search engine is cheap to build. And it's a relatively effective way of searching. Users can search for the information they need from the relevant web pages, according to the keywords they enter, and they can browse the retrieved interfaces. The retrieval interface can be opened by the user. The results include all relevant pages are not possible in the general search engine, even Yahoo's search results coverage is less than 500.These data can show that, A large part of the web pages are not detected by search engines, so they can't use the information they contain. A lot of information can't be owned by people. This creates a waste of information resources. Although some search engines set up functions that allow some undetected information to get a detectable exit, that is, authentication, The system uses Eclipse and Dreamweaver as the development environment. The information in the background of the system is provided by a website. After analyzing the content of the site, prepare the Heritrix grab list. Then it is submitted to Heritrix processing. The web page is fetched and parsed with HTMLParser, then the details are inserted into my SQL database, and then the lexicon and Lucene index used to retrieve keywords are built. Finally, a Web platform is built. JSP technology is used to integrate the index and database to provide real search service for users.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52;TP391.3
【相似文献】
相关期刊论文 前10条
1 余川江;;基于Lucene的垂直搜索引擎的研究与实现[J];经营管理者;2014年11期
2 孔维亭;闫宏印;;基于Lucene的自动答疑系统的设计[J];电脑开发与应用;2012年04期
3 喻金平;谭鸣;夏小云;;基于Lucene技术的垂直搜索引擎的研究[J];软件导刊;2008年03期
4 陈忱;;Lucene排序算法的个性化改进[J];科技与企业;2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究与改进[J];武汉纺织大学学报;2013年06期
6 葛振国;李建;何林糠;吴军;;基于Lucene的Oracle数据库全文检索[J];信息技术;2010年03期
7 杨元峰;赵敏涯;廖黎莉;;基于Lucene的客服知识库系统结构设计[J];福建电脑;2012年01期
8 冯宇;;基于模糊层次分析法的Lucene网页排序算法研究[J];计算机与现代化;2011年01期
9 裴志松;;基于Lucene的毕业论文相似性检测[J];长春工程学院学报(自然科学版);2013年04期
10 陈艳春;李双平;;基于Lucene的企业级搜索引擎的设计与实现[J];现代图书情报技术;2007年08期
相关会议论文 前2条
1 朱高平;乐嘉锦;;基于刻面分类和Lucene架构的Web服务发现技术的研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
相关硕士学位论文 前10条
1 顾盛;基于Lucene和Heritrix的小型主题搜索引擎的研究及实现[D];西安电子科技大学;2015年
2 李乐;基于Lucene的企业级搜索引擎的设计与实现[D];电子科技大学;2014年
3 张锡川;基于Lucene的云平台学术搜索引擎[D];北京工业大学;2015年
4 张东方;基于Lucene网页排名改进的分布式搜索系统[D];西安电子科技大学;2014年
5 宏朴;基于Lucene的搜索引擎的研究与实现[D];大连理工大学;2016年
6 于雪丽;LUCENE中文分词在科研文档全文检索系统的应用研究[D];青岛大学;2011年
7 孙静;基于Lucene的手机查询软件的研究与实现[D];重庆大学;2014年
8 文义;基于LUCENE的群体个性化搜索引擎研究[D];武汉理工大学;2010年
9 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
10 花洁;基于Lucene的搜索引擎应用与研究[D];湖北工业大学;2009年
,本文编号:1498300
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1498300.html