当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene数码产品垂直搜索引擎系统设计与实现

发布时间:2021-11-22 03:54
  随着互联网上信息日新月异的爆炸式增长,如何获取更加准确、更加详细、更加深层的专业资源,成为对搜索引擎技术提出更高的要求。因此,面向专业主题的垂直搜索引擎系统应运而生;与此同时,数码产品为丰富人们的生活注入新的血液,而网上团购数码产品也成了当下流行的消费方式。在如此大市场与技术结合的研究背景下,运用了多个垂直搜索相关的技术相结合,将国内互联网上知名的数码产品网站中的数码产品信息内容作为采集资源对象,在开源的全文检索工具软件包Lucene的平台上,研究和实现了对数码产品信息具有专业化搜索功能的搜索引擎。本文除了详细介绍了垂直搜索引擎的工作原理、以及Lucene核心平台技术外,还介绍了包括了3个构造搜索引擎系统息息相关的关键技术应用:包括聚焦爬虫的工作原理以及Heritrix爬虫技术,在传统爬行策略分析下提出基于爬虫挑食爬行策略进行分析应用,在该策略中引入了几个权重参数如链接的欢迎度、重要度和最短路径查找实现算法;介绍了Web网页信息提取方法步骤,以及常见的方法分类,最后提出基于数码产品设计规则提取方法的分析,研究中针对主题大型网站5个设计规则结构进行分析,并针对这几个设计规则提出内容抽取综... 

【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于Lucene数码产品垂直搜索引擎系统设计与实现


Lucene系统的结构组织

管理流程图,管理流程图,索引


图 2-3 Lucene 索引管理流程图为了实现上述管理索引的过程,Lucene提供了五个基础的类,它们分别是DoeumentField,Indexwriter,Analyzer,Directory。下面分别介绍一下这五个类的用途[15]:(l)DoeumentLucene 不对任何物理文件建立索引,而只对 Document 对象建立,因此 Documen对象被称为 Lucene 的文档。它是索引器可以直接添加的对象。每个索引可以包含多个不同的文档,每个文档又管理了数目不等的域集合。这里的文档是一个逻辑概念,是Lucene 索引对索引项的一级管理框架.(2)FieldLucene 的 Field(域)是 Document 对象的基本组成单位。在实际中每个域对应 Field 类的实例来实现。每个域内存储了实际的索引文本数据,这些文本数据在内部

管理界面,控制台,服务器,操作者


图 3-4 Heritrix 整体架构图体来说,Heritrix可分成三个部分[5]:Web 可管理控制台 。 可以在界面设置运行时使用哪个模块 。 Heritrix 也因为好的管理界面,所以得到了广泛的应用。 Web 管理界面默认运行Heritrix 包自带的 Java HTTP 服务器 Jetty 中,但也可以作为 Web 应用运在 Tomcat 或 Resin 等 Web 服务器中。操作者可以通过选择 Crawler 命令来作控制台。

【参考文献】:
期刊论文
[1]基于序列比对的动态Web信息抽取算法[J]. 赵刚,郭东伟,李丹.  吉林大学学报(理学版). 2010(03)
[2]XML的DOM研究与应用[J]. 曹步文,刘先锋,周忠华.  计算机时代. 2008(02)
[3]Web数据抽取技术研究进展[J]. 张成洪,古晓洪,白延红.  计算机科学. 2004(02)
[4]搜索引擎Robot技术实现的原理分析[J]. 洪光宗,王皓.  现代图书情报技术. 2002(01)
[5]智能搜索引擎技术的研究与发展[J]. 张晓刚,李明树.  计算机工程与应用. 2001(24)
[6]WWW信息搜索技术研究[J]. 陈苒,董占球.  计算机工程与应用. 2001(14)

硕士论文
[1]垂直搜索引擎技术研究与应用[D]. 刘彤.西安建筑科技大学 2008



本文编号:3510882

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3510882.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5c47a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com