当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Heritrix和Lucene垂直搜索引擎的应用研究

发布时间:2020-07-21 22:12
【摘要】:随着互联网的飞速发展,网络上的网页数量呈指数级增长,包含的信息数据越来越多、越来越广,人们想要在互联网中找到自己需要的信息也变得越来越困难,于是就出现了搜索引擎。但是人们常用的通用搜索引擎像百度、Google等虽然能帮助人们搜索到一点相关信息,但在特定需求下,却无法满足人们的需求。因此,垂直搜索引擎如雨后春笋大量涌现。 本文通过改进网络爬虫Heritrix的抓取逻辑,并改进和扩展其功能,使它能够抓取指定网站上的特定网页内容,然后通过研究Lucene的基础排序算法,并借鉴PageRank算法思想,对其做了改进。 首先,介绍了垂直搜索引擎使用的相关技术,包括网络爬虫技术、结构化抽取技术、中文分词技术、索引与搜索技术等。 其次,详细描述了网络爬虫Heritrix改进后的抓取配置步骤,从四个方面对它的功能做了扩展。 再次,引入PageRank算法思想,将Lucene的基础排序算法改进为适合网页排序的算法,并给出了算法实现。 最后,从实际生活问题出发,以数码相机为例,应用文中所讲的技术设计并实现了一个垂直搜索引擎,并将本人在文中所做的改进和实现部分都在该引擎中做了对比测试。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【参考文献】

相关期刊论文 前4条

1 张雷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];黑龙江科技信息;2011年29期

2 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期

3 张智雄;信息抽取技术及其在数字图书馆中的应用前景分析[J];现代图书情报技术;2004年06期

4 郭鸿;;一种基于文本内容的HITS改进算法[J];计算机系统应用;2009年09期



本文编号:2764886

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2764886.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户172fa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com