基于Nutch的垂直搜索引擎的设计和实现

发布时间：2016-11-28 13:42

本文关键词：基于Nutch的垂直搜索引擎的设计和实现，由笔耕文化传播整理发布。

计算机工程与设计ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ

ａｎｄＤｅｓｉｇｎ

２０１１，Ｖ０１．３２，Ｎｏ．２

５３９

基于Ｎｕｔｃｈ的垂直搜索引擎的设计和实现
邵秀丽，
刘彬，张

涛

（南开大学信息技术科学学院，天津３０００

７１）
摘要：为了提高搜索引擎的主题倾向性和准确率，在Ｎｕｔｃｈ平台上实现了带有中文分词插件的垂直搜索引擎，给出了改进后引擎的系统功能和体系结构，并从用例角度分析了系统的功能，介绍了基于该体系结构实现的港口物流信息垂直搜索引擎以及和一般引擎运行情况的比较．实验结果表明，这些改进提高了主题判别的准确度和效率，使信息的定位和查找更加精确，减少了不相关信息的干扰，并提高了系统对于互联网复杂环境的处理能力．关键词：Ｎｕｔｃｈ平台；垂直搜索；体系结构：用例分析；主题搜索中图法分类号：ＴＰ３１１．５２文献标识码：Ａ文章编号：１０００．７０２４（２０１Ｉ）０２．０５３９．０４

Ｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｖｅｒｔｉｃａｌｓｅａｒｃｈｅｎｇｉｎｅｂａｓｅｄ
ＳＨＡＯＸｉｕ．１ｉ．ＬＩｕＢｉｎ，ＺＨＡＮＧＴａｏ

ｏｎ

Ｎｕｔｃｈ

（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｉｃａｌＳｃｉｅｎｃｅ，Ｎａｎｋａｉ
Ａｂｓｔｒａｃｔ：Ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅ

Ｕｎｉｖｅｒｓｉｔｙ，Ｔｉａｎｊｉｎ３０００７１，Ｃｈｉｎａ）
ｓｅａｒｃｈｅｎｇｉｎｅｗｉｔｈＣｈｉｎｅｓｅｐｌｕｇ—ｉｎｂａｓｅｄ
ａｎｄ
Ｏｉｌ

ｓｕｂｊｅＣｔｔｅｎｄｅｎｃｅａｎｄ

ｃｏｒｒｅｃｔｒａｔｅ

ｏｆｓｅａｒｃｈｅｎｇｉｎｅ，ｖｅｒｔｉｃａｌ
ｓｔｒｕｃｔｕｒｅ

Ｎｕｔｃｈｉｓｉｍｐｌｅｍｅｎｔｅｄ．Ｔｈｅｅｎｇｉｎｅ’Ｓｉｍｐｒｏｖｅｄｓｙｓｔｅｍｆｕｎｃｔｉｏｎａｎｄｓｙｓｔｅｍｕｓｉｎｇｉｓａｎａｌｙｚｅｄ．Ｉｔａｌｓｏｉｎｔｒｏｄｕｃｅｓ

ｉｓ

ｇｉｖｅｎ

ｔｈｅｓｙｓｔｅｍｆｕｎｃｔｉｏｎｆｒｏｍｔｈｅｐｏｉｎｔｏｆ
ｓｔｒｕｃｔｕｒｅ

ｔｈｅｐｏｒｔｌｏｇｉｓｔｉｃｓｉｎｆｏｒｍａｔｉｏｎｖｅｒｔｉｃａｌｓｅａｒｃｈｅｎｇｉｎｅｂａｓｅｄｏｎｔｈｉｓｓｙｓｔｅｍ

ａｎｄｃｏｍｐａｒｅｓ

ｗｉｔｈ

ｇｅｎｅｒａｌｅｎｇｉｎｅ’Ｓｒｕｎｎｉｎｇｃｏｎｄｉｔｉｏｎｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｈｏｗｓｔｈｅｓｅｉｍｐｒｏｖｅｍｅｎＢｒｅｄｕｃｅｔｈｅｉｎｔｅｒｆｅｒｅｎｃｅ

ｏｆｉｒｒｅｌｅｖａｎｔ

ｉｎｆｏｒｍａｔｉｏｎ

ａｎｄ

ｉｍｐｒｏｖｅｔｈｅｓｙｓｔｅｍａｂｉｌｉｔｙｔｏｄｅａｌｗｉｔｈｃｏｍｐｌｅｘｅｎｖｉｒｏｎｍｅｎｔｏｆ

Ｉｎｔｅｍｅｔ．

Ｋｅｙｗｏｒｄｓ：ｎｕｔｃｈ

ｐｌａｔｆｏｒｍ；ｖｅｒｔｉｃａｌ

ｓｅａｒｃｈ；ｓｙｓｔｅｍｓｔｒｕｃｔｕｒｅ；ｃａｓｅａｎａｌｙｓｅ；ｓｕｂｊｅｃｔｓｅａｒｃｈ

０引

言

索引擎ｏＩ。只要对其一些功能根据需要进行功能改进就可以获得效果提升。因此，本文对其几个主要功能做了改进，例如，在Ｎｕｔｅｈ平台上增加了中文分词插件，从而使Ｎｕｔｃｈ具有中文信息处理能力：此外，在系统实现中采用了基于向量空间模型Ⅲ的主题相似度判别算法，并对该算法进行改进．加入元数据判别机制和重要标签所包含关键词的加权处理。分析了“隧道现象”的成闪和日前的处理方式。在Ｎｕｔｃｈ原有的爬虫部分源代码加入“隧道处理”机制，以处理主题网页分离的问题，并且修改了检索结果排序的源代码，在原有的基于链接相似度评分的基础ｔ加入了根据贞面主题相似度评分，使其更适应垂直搜索引擎的要求”１。本文主要就改进的Ｎｕｔｃｈ体系结构、用例分析功能模块、从系统用户和主要功能流程之间的关联等方面进行分析。并给出了运行效果，给出了基于Ｎｕｔｃｈ构建的港口物流信息垂直搜索引擎Ⅲ，从而实现了多个港口物流信息的快捷查询和共享。

垂直搜索引擎是针对某一行业或组织，以构筑某行业或组织的网络信息资源库为目标来满足行业专业需求或者组织某项业务需求，智能地在瓦联网卜搜集符合某一专题需要的信息资源。是通用搜索引擎的细化和延伸…．它对网页库中的某类争业信息进行整合，分字段抽取出用户需要的数据，处理后以某种形式返【ｎｌ给用户。能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家等等在内的信息用户．提供整套的网络信息资源开发力．案。由此可见垂直搜索引擎是更有针对性的搜索引擎．它只搜索特定主题的信息“１。在国内外，关于垂直搜索引擎的研究成为一个新的热点，出现了许多有具有代表性的应用系统科学搜索引擎Ｓｃｉ．ｍｓ、Ｂｅｒｋｅｌｅｙ的Ｆｏｃｕｓｅｒｏｊｅｃｔ等。而港口物流信息都集中在各自的门户网站中，形成了一个个孤岛，无法让用户集中深入的获取到各个主要港口的物流信息。因此。本文构建港口物流信息垂直搜索引擎，以实现港ｕ物流信息的快捷台询和共事。本文实现的系统是在Ｎｕｔｃｈ的基础卜进行扩展和修改的，Ｎｕｔｃｈ是Ａｐａｃｈｅ软件基金会提供的一个开放源代码的Ｗｅｂ搜
收稿日期：２０１０．０２．１０：修订日期：２０１０－０４．２６．基金项目：困家科技支撑计划肇金莺人项目（２００７ＢＡＨＩＯＢＯＩ）。

ｌ系统功能和体系结构
１．１

Ｎｕｔｃｈ体系架构Ｎｕｔｃｈ作为一个搜索引擎，其基本组成也同其它搜索引擎

作者简介：邵秀丽（１９６３－－）．女．天津人，教授．研究力．向为网格计算、软件Ｔ程等ｌ向为软件上程、数据挖掘；

刘彬（１９８４一），男。河北安新人，硕＋研究生，研究方

张涛（１９８３－－），男，河北邯郸人，硕士研究生，研究方向为软件上程。Ｅ－ｍａｉｈｓｈａｏｘｌ【＠ｎａｎｋａｉ．ｃｄｕ．ｃｎ

万方数据

５４０

２０１１，Ｖ０１．３２，Ｎｏ．２

计算机工程与设计Ｃｏｍｐｕｔｅｒ

ＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ

一样。简单的说，包括爬虫，索引和搜索３部分。其体系结构图如图ｌ所示。

页面的链接，将其更新到数据库中（ｕｐｄａｔｅｄｂ）；（６）重复进行３～５的步骤，直到预先设定的抓取深度。这

个循环过程被称为“产生／抓取／更新”循环。根据ｓｅｇｍｅｎｔｓ的
内容更新ＬｉｎｋＤＢ数据库（ｉｎｖｅｒｔｌｉｎｋｓ）；

（７）建立索引，对每个Ｓｅｇｍｅｎｔ生成一个索引（ｉｎｄｅｘ）；
（８）从这些索引中删除冗余的网页和ＵＲＬ；（９）把所有这些小索引合并成一个大的索引，用来搜索；（１０）用户通过用户接口进行查询操作；（１１）将用户查询转化为Ｌｕｃｅｎｅ查询；（１２）返回结果。

其中：（１）－－（６）属于爬虫部分，（７Ｈ９）属于索引部分，（１０卜
０２）属于查询部分。１．２改进系统的功能
图ｌ

Ｎｕｔｃｈ体系结构

按照搜索引擎的一般结构，本文系统设计分为搜索引擎内核部分和辅助功能部分０１。通常需要有维护人员进行一系列的管理和设置工作，控制系统协调高效的工作。改进系统的功能设计框架如图２所示。

Ｎｕｔｃｈ由４个主要的数据结构提供数据支撑，分别是Ｗｅｂ－
ＤＢ、ＬｉｎｋＤＢ、Ｓｅｇｍｅｎｔｓ和Ｉｎｄｅｘ。

（Ｉ）ＷｅｂＤＢ用来存储从抓取开始（包括重新抓取）看到的所有ＵＲＬ的相关信息。这些信息包括状态、抓取的时间、重试的次数、分数、签名、修改的时间、元数据等。状态有未抓取、己抓取、成功抓取、需要重试等。（２）Ｌｉｎｌ①Ｂ用来存储链接信息。对于每一个ＵＲＬ，在这个数据库中都有一项与之对应，该项的数据包括该ＵＲＬ。连向该ＵＲＬ的所有ＵＲＬ及其锚文本。这个数据结构可以迅速找到一个ＵＲＬ的所有父页面的ＵＲＬ，也可以用它来计算所有页面的ＰａｇｅＲａｎｋ值。（３）Ｓｅｇｍｅｎｔｓ包含若干个Ｓｅｇｍｅｎｔ，由于Ｎｕｔｃｈ爬虫的抓取方式是采用广度优先搜索来抓取互联网上的页面。所以它的

圈臣圃臣团圈巨圃臣圃巨固匿圃匿圃
图２本系统功能框架按照与搜索引擎结合的紧密程度，主题管理、资源发现、检索结果显示等内容属于辅助部分；网络爬虫、网页分析、主题过滤、网页索引、网页检索等内容属于搜索引擎的内核部分。由于Ｎｕｔｃｈ平台已经提供了其中的大部分功能，这样就可以集中精力开发满足特定需要的功能模块。１．３系统的体系结构该系统的体系结构如图３所示。它的功能流程如下：利用Ｎｕｔｃｈ的网络爬虫获取ｗｅｂ网页，并对其进行解析。每当获得一定数量的网页后就对这些获取的网页文档进行主题相关性判断，如果该文档与主题相关：一方面反作用于网络爬虫，沿着该ＵＲＬ信息继续爬行，如果不相关则放弃当前的页面，但是把该页面中的ＵＲＬ放入ＵＲＬ候选队列中，用来爬取可能的主题页面：另一方面把那些与主题相关的文档调用Ｎｕｔｃｈ的索引器来建立索引。搜索器及用户界面仍然采用Ｎｕｔｃｈ的原有的结构。有底色背景的模块是本文引擎对Ｎｕｔｃｈ重点实现或改进的部分：（Ｉ）页面分析模块：在Ｎｕｔｃｈ基础上加入中文分词插件，以实现中文分词功能。（２）页面过滤模块：修改Ｎｕｔｃｈ代码加入主题相似度判别功能，以实现对网页主题进行相似度判定和过滤。

抓取是一层一层，每一层就对应一个Ｓｅｇｍｅｎｔ。一个Ｓｅｇｍｅｎｔ
里面又包括ｃｒａｗｌ—ｇｅｎｅｒａｔｅ，ｃｒａｗｌ－ｆｅｔｃｈ，ｃ．ｏｎｔｅｎｔ，ｐａｒｓｅ－ｔｅｘｔ，ｐａｒｓｅ，－ｄａｍ，ｃｒａｗｌ—ｐａｒｓｅ等文件夹。ｃｒａｗｌ．ｇｅｎｅｒａｔｅ里面存放的是待抓取的ＵＲＬ列表，ｃｒａｗｌ．ｆｅｔｃｈ里面存放的是抓取下来的ｕＲＬ的信息属性，ｃｏｎｔｅｎｔ里面存放的是抓下来的网页内容，ｐａｒｓｅ－ｔｅｘｔ里面存放的是解析网页所获得的网页文本，ｐａｒｓｅ－ｄａｔａ里面存放的是解析网页所获得的网页数据，ｃｒａｗｌ－ｐａｒｓｅ里面存放的是抓下来的页面的一些信息属性。（４）Ｉｎｄｅｘ里面存放的是对抓取下来的网页建立索引后的文件。Ｎｕｔｃｈ使用Ｌｕｃｅｎｅ来建立索引，Ｌｕｃｅｎｅ是Ａｐａｃｈｅ软件基金会Ｊａｋａｒｔａ项目组的子项目，它不是一个完整的全文索引系统，而是一个用Ｊａｖａ写的全文索引引擎工具包．提供了多个ＡＰ！函数和灵活的数据存储结构，可以方便嵌入到各种应用中实现针对应用的全文索引和检索。在此基础上，其整个的工作流程可以分为如下几步：（１）建立初始ＵＲＬ集：（２）将初始ＵＲＬ集注入到ｃｒａｗｌｄｂ数据库中（ｉｎｊｅｃｔ），整个网页抓取过程将会从这些种子ＵＲＬ开始抓取，慢慢延伸到整个互联网。或者直到用户指定的抓取层数停止：（３）根据ｃｒａｗｌｄｂ数据库创建抓取列表（ｇｅｎｅｒａｔｅ）： “）执行抓取，获取网页信息（ｆｅｔｃｈ）：（５）更新数据库，被抓下来的网页中包含有大量指向其它

万方数据

邵秀丽，刘彬，张涛：基于Ｎｕｔｃｈ的垂直搜索引擎的设计和实现
（３）链接过滤模块：修改Ｎｕｔｃｈ代码加入处理“隧道现象” 的功能，从而使爬虫可以爬取被无用页面分隔的丰题页面。

２０１ｌ，Ｖ０１．３２，Ｎｏ．２

５４１

内容解析功能，通常还包括内容的模板化提取。可以得到更为精细的网页内容，减少内容无关和垃圾信息的影响。（６）ｔ题相关度判定：针对下载的嘲页的实际内容，，判断其与主题的相关性和相似度。根据相似程度判断是甭删除或保留。（７）主题索引建立：索引部分町以采用一般的通用搜索引擎存储格式，在这里采用Ｎｕｔｃｈ中集成的Ｌｕｃｅｎｅ提供索引建立功能。（８）主题检索服务：提供领域信息的检索服务，为用户提供

（４）Ｎｕｔｃｈ检索器：修改Ｎｕ劬代码在原有的检索结果排序
的基础七加入页面主体相似性因素，使相关度高的结果优先显示给用户。

初始ＵＲＬ列表贝面聚集模块

更加及时有效的信息，同时减少无关信息，方便用户快速定位资源，满足用户信息获取的需要。本文开展的对Ｎｕｔｃｈ的改进工作内容主要有（这里简单介绍，有关内容，请看本课题组发表的其它论文）：（１）Ｎｕｔｃｈ工作原理的分析

面呗Ｈ‘加入Ｎ页ｕ髫糕㈣Ｈ页噗
＼…”。！美篓釜Ｈ竺
‘修改Ｎｕｔｃｂ代码）ｌ’
链接过滤模块（修改Ｎｕｔｃｈ代码）

Ｎｕｔｃｈ的工作分为３个阶段：抓取、索引和检索。抓取阶段取得网页并把他们处理成倒排索引。后面检索阶段的工作

—Ｎｕ意ｔｃｈ翮
索‘Ｉ器Ｎｕｔｃｈ霞０Ｉ教槲库

。嚣曲Ｎｕ榆ｔｃｈ勰，恒
‘修段代码）Ｉ

ＵＲＬ队列

基于这哆索引来进行。（２）中文分词插件的实现中文分词是中文垂直搜索引擎中的一个关键技术，分词的好坏直接影响提取文本的精确度。Ｎｕｔｃｈ是针对英文开发
用户

ｌ：：＝：＝：：

的，因此，本文系统在此基础上修改内部代码，以实现中文分词的功能。（３）主题相似度判别的实现现在应用于主题相似度判别的技术有很多，主要有：元数

图３本系统体系结构

２系统的用例模型
根据用户和系统的需求，创建用例图来描述垂直搜索引擎的软件功能模块，以及这些模块之间的调用关系。系统使用者和外部通信目标包括：查询用户、系统管理员。查询用户通过系统进行检索；系统管理员维护系统运行，进行抓取、预处理等［作。从垂直搜索引擎的这个结构和功能进行分析，得到的用例图如图４所示。

据判别技术，扩展元数据判别技术，页面间链接分析技术，页面语义信息分析技术。本文系统在充分利用Ｎｕｔｃｈ提供的链接分析技术的基础上整合了页面语义信息的分析判别技术，并增加了元数据的判别。在构造页面关键词向量空间时对重要标签所包含关键词进行了加权处理，提高了主题相似度判别的准确率和效率。（４）隧道穿越的实现

≮画爹＠≤多菩：暑晷
＠
⑧
图４

由于商业竞争和其它的原因，各个门户网站之间很少会有超链接直接相连，从而可能造成爬虫抓取不到相关的网页。本文提出了一种优先度递减和ＵＲＬ黑名单结合的方式来处理该问题。（５）Ｎｕｔｃｈ结果排序算法的改进Ｎｕｔｃｈ的排序是针对通用搜索引擎设计的，采用了类似ＰａｇｅＲａｎｋ的结果评分机制，只考虑了ＵＲＬ的重要程度而没有考虑页面信息的蘑要程度．本文通过修改Ｎｕｔｃｈ的排序源码将ＵＲＬ和页Ｉ亘ｉ的蕈要程度都引入到结果的排序中．从而提高了

系统用例图

针对用例的功能描述如下：（１）系统管理控制：为管理员提供参数设置和内容管理功能，能够灵活挖制资源的访问和系统的内容属性等相关信息。（２）一ｌｊ题侧管理：提供主题词管理界面，系统管理员可以维护一份选定的Ｅ题词列表，其功能操作包括添加、修改、删除主题词，为：ｉ：题侧设置权霞。（３）辛题资源发现：即起始ＵＲＬ列表的选择，要求能及时、有效的自动裔找、增加相关的信息内容。（４）ｔ－．题资源Ｆ载：定向Ｆ载的９【）９络爬虫为垂汽搜索引擎提供尽可能榭哭的原始网页，同时要爆最避免下载尤关的数据。（５）文本分析：文本分析挺供针对特定领域和ｌ＝Ｉ标的文本

结果显示的质量，增强了用户的检索体验。
３

系统实现

３．１系统工作流程上述的功能流程图说明了系统的主要功能模块之间的调用关系。在具体的系统运行过程中，其工作流程如图５所示。（１）系统首先从原始ＵＲＬ列表将原始ＵＲＬ注入ＷｅｂＤＢ：（２）系统从ＷｅｂＤＢ生成ＦｅｔｃｈＬｉｓｔ，即抓取列表，其中包含系统本轮需要抓取的ＵＲＬ：（３）爬虫Ｆｅｔｃｈｅｒｓ调用ＦｅｔｃｈＬｉｓｔ，对其中每一个ＵＲＬ进行抓取，抓取得到的数据通过解析器Ｐａｒｓｅｒ进行解析与中文分

万方数据

５４２

２０１１，Ｖ０１．３２，Ｎｏ．２

计算机工程与设计Ｃｏｍｐｕｔｅｒ

ＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ

图５系统工作流程词等工作； “）解析得到的数据送入主题过滤器，如果主题过滤器判断某一个页面与主题无关，系统将会丢弃它；（５）主题过滤器处理后的数据分成两个部分，一部分是页面中提取出的ＵＲＬ送入更新器Ｕｐｄａｔｅｓ提交到ＷｅｂＤＢ中，准备进行下一轮抓取，另一部分是页面信息送入Ｃｏｎｔｅｎｔ进行存储。（６）Ｃｏｎｔｅｎｔ中存储的数据送入索引器进行索引，索引结果将被保存：（７）用户可以通过ＷｅｂＳｅｒｖｅｒ对索引过的数据进行检索。其中：（１）到（６）是提供查询用户服务前的工作。系统反复进行（２）到（６）可以通过一轮一轮的抓取，不断扩展系统中的数据量。３．２运行流程该系统在建立之初已经把目标领域定位为港口物流信息的搜索，因此初次运行时需要首先确定与本领域相关的主题词和起始ＵＲＬ列表，然后将其加入系统的配置文件中，本文实现的系统提供了一个配置工具以方便系统管理员维护主题词和ＵＲＬ列表。这样系统管理员就可以运行系统的爬虫，从互联网上爬取与主题相关的网页，建立索引，为用户提供检索服务。随着时间的推移，必然会有新的网页加入的互联网中，同时已经保存并建立索引的网页也有可能被原始网站删除或修改，这就需要更新爬取，加入新的网页，处理失效的链接网页等。运行流程图如图６所示。３．３实际运行以下是实际运行时的界面：（１）主题词和起始ＵＲＬ配置界面系统配置工具如图７所示。在“主题词管理”栏可以添加、修改主题词和权垂，也可以删除主题词：在。起始ＵＲＬ管理”栏可以打开起始ｕＲＬ文件，在其中添加或者删除起始ＵＲＬ－在“运行管理”栏可以点击。初次运行”按钮或“更新”按钮。已开启ｃｙｇｗｉｎ的命令行界面。（２）爬虫运行界面Ｎｕｔｃｈ是为在Ｌｉｎｕｘ系统下运行而开发的。因此在Ｗｉｎｄｏｗｓ下需要安装ｃｙｇｗｉｎ工具来模拟Ｌｉｎｕｘ环境才能使用Ｎｕｔｃｈ。３．４测试结果与分析在实际情况下很难计算一个垂直搜索引擎的查全率，因为根本无法计算一个互联网Ｅ有多少主题相关页面，同时本文设计的垂直搜索引擎的目的是为了让返ｌ口］的结果集中含有更多与主题相关的信息，所以在这里只用查准确率来评价系统性能。（下转第５４８页）
图７系统配置工具

翟芦
图６系统运行步骤

万方数据

５４８

２０１Ｉ，Ｖ０１．３２，Ｎｏ．２

计算机工程与设计Ｃｏｍｐｕｔｅｒ

ＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ

统开发，为校园网提供了可扩展、面向服务的管理平台，也为利用ＳＯＡ方法解决其它行业的需求提供了很好的参考。

参考文献：
【１】
ＭａｒｋＤＨａｎｓｅｎ．使用ＪａｖａＷｅｂ服务构建ＳＯＡ【Ｍ】．北京：电子

工业出版社，２００９．
【２】

刘贤梅，刘茜，徐锋，等．基于ＳＯＡ的企业应用集成模型的研究

图９使…。ｃｎｅｎｔ与ｗｉｎｄｏｗｓ环境中㈣恺最姬吲罢茹慧三兰０＝篇竺：一嘶。眦。
ｆｅａｔｕｒｅｓ－ａｎｄ—ｆｕｎｃｔｉｏｎａｌ—ｃｏｎｃｅｐｔｓ，２００６?０４－１４。

ｅｏｎｃｅｐｔｓ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｕｄｄｉ．ｘｍｌ．ｏｒｇ／ｉｎｔｒｏｄｕｃｔｉｏｎｕｄｄｉ－ｉｍｐｏｒｔａｎｔ－

【４】

ＳｈａｌｌｉｄＡｈｍｅｄ．Ｘｆｉｒｅ：Ｔｈｅｅａｓｙａｎｄｓｉｍｐｌｅｗａｙ

ｔｏ

ｄｅｖｅｌｏｐｗｅｂ

ｓｅｒｖｉｃｅｓ。ＪａｖａＷｏｒｄ．ｃｏｍ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｊａｖａｗｏｒｌｄ．ｅｏｍ／ｊａ— ｖａｗｏｒｌｄ／ｊＷ一０５—２００６ａｗ．０５０１一ｘｆｉｒｅ．ｈｔｍ，２００７－０９—１０．［５】【６】图１０使用Ｐｉｎｇ工具探测对拓扑中的设备【７】部分：中央服务器、网络状态探测框架、拓扑编辑器。运维平台使用服务封装了各种嘲络管理功能，并将这蝗服务在中央服务器上进行发布；实现了可拓展可编程的网络状态探测框架ＮＳＤＩ．开发了界面友好功能强大的图形化拓扑编辑器，可以监控和管理网络拓扑。本文将ＳＯＡ的设计理论应用于实际的系［８１陈明．网络协议教程【Ｍ１．ｊＥ京：清华大学出版社，２００４．黄晓波，潘雪增．网络拓扑发现的算法和实现【Ｊ】．计算机应用与软件＇２００７，２４（７）：１５９－１６ｌ? 冀汶莉，李勇军．Ｔｒａｎｓｉｔ．Ｓｔｕｂ网络拓扑可视化研究【Ｊ】．微电子学与计算机，２００７，２４（１）：１３６?１３９．石永革，陈晓瑶．网络拓扑搜索算法的分析与优化［Ｊ】．计算机工程与设计，２００７，２８（１２）：２８２８．２８５０．【９】李安渝．Ｗｅｂｓｅｒｖｉｃｅ技术与实现【Ｍ】．北京：国防工业出版社。
２００３．

（上接第５４２页）

为了说明本系统的主题搜索性能，选择通用搜索引擎Ｇｏｏｇｌｅ对关键词“港口物流”进行搜索，同时使用本系统进行同样的搜索，对两个系统结果集的前２００个页面进行了主题相关度评价，与通用搜索引擎的比较，对比数据结果如表ｌ所示。表ｌ与通用搜索引擎比
搜索０Ｉ擎棚荚时间

本文提出的港口物流信息垂寅搜索引擎的设计和实现方案是切实可行的，系统基本达到了预期设计目标。该系统的研究促进了港口物流信息化的发展并对该领域的从业人员起到了很好的帮助作用。但是还有一些需要改进的地方，例如进一步提高主题判别的准确度等。

ｌ土趣相关嗍贞数Ｊ
８９

轰准率

参考文献：
【ｌ】【２１徐和祥．ＤｅｅｐＷｅｂ集成中若干技术研究【Ｃ】．复黾大学。２００８．ｈｔｔｐ：／／ｉｎｃｕｂａｔｏｒ．ａｐａｃｈｅ．ｏｒｇ／ｎｕｔｅｈ／ａｐｉｄｏｅｓ［ＥＢ／ＯＬ］．李军＇黄海宽，曹琦．基于支持向鼋机的中药工艺参数优化研究【Ｊ】．计算机工程与应用，２００７，４３（３６）：２０５．２０７．ｆ４】申晋．基于Ｌｕｃｅｎｅ和Ｎｕｔｃｈ的林业垂直搜索引擎的研建【Ｊ】．农业网络信息，２００８（４）：１６－１８．【５１余栋柱．用Ｎｕｔｅｈ构建垂直搜索引擎的方案【Ｊ】．工程技术，２００９
（１４）：１１８．１２０．

Ｇｏｏｇｌｅ

０．２Ｉｓ

４４．５％

实验结果表明，港口物流信息垂直搜索引擎具有明显的主题倾向性，结果的查准率优于通用搜索引擎。但是系统在搜索速度上不如商业搜索引擎．这是因为Ｎｕｔｃｈ所采用的开发语言和其算法没有Ｇｏｏｇｌｅ高效以及实验系统本身的硬件性能限制。综Ｉ二，本文系统初步达到了在单台服务器下能够比较准确的搜索出与港口物流主题相关信息的设计要求，可以进行进一步的改进和实旖应用。

【３】

【６】

王仕仲，宁龙兵．基于Ｎｕｔｃｈ的中文搜索引擎的研究与实现【Ｊ】．
电脑开发与应用，２００９（７）：７６－－７９．

【７】

张锦忻．基于Ｎｕｔｃｈ的中文搜索引擎的构建【Ｊ】．图书馆研究与

４结束语
本文提出了一种基于开源Ｎｕｔｃｈ平台的垂直搜索引擎解决方案，研究并实现了港口物流信息垂直搜索引擎，实验证明【８Ｊ

工作２００９（”：弹５７．
张斌，周尔宁．基于Ｎｕｔｃｈ的分布式纺织垂直搜索引擎研究【ＪＪ．电脑知识与技术，２００９（２１）：５７８５－５７８７．

万方数据

基于Nutch的垂直搜索引擎的设计和实现
作者：作者单位：刊名：英文刊名：年，卷(期)：被引用次数：邵秀丽，刘彬，张涛， SHAO Xiu-li， LIU Bin， ZHANG Tao 南开大学信息技术科学学院,天津,300071 计算机工程与设计 COMPUTER ENGINEERING AND DESIGN 2011,32(2) 2次

参考文献(8条) 1.徐和祥 DeepWeb集成中若干技术研究 2008 2.查看详情 3.李军;黄海宽;曹琦基于支持向量机的中药工艺参数优化研究[期刊论文]-计算机工程与应用 2007(36) 4.申晋基于Lucene和Nutch的林业垂直搜索引擎的研建[期刊论文]-农业网络信息 2008(04) 5.余栋柱用Nutch构建垂直搜索引擎的方案 2009(14) 6.王仕仲;宁龙兵基于Nutch的中文搜索引擎的研究与实现[期刊论文]-电脑开发与应用 2009(07) 7.张锦炘基于Nutch的中文搜索引擎的构建 2009(01) 8.张斌;周尔宁基于Nutch的分布式纺织垂直搜索引擎研究[期刊论文]-电脑知识与技术 2009(21)

本文读者也读过(3条) 1. 赵德平.刘阳.李鹏.MAO Deping.LIU Yang.LI Peng 基于Lucene的房产信息垂直搜索引擎的研究[期刊论文]-沈阳建筑大学学报（自然科学版）2011,27(1) 2. 王梦溪.王斌.WANG Meng-xi.WANG Bin 基于标签的垂直搜索研究及在视频搜索中的应用[期刊论文]-仪表技术 2011(5) 3. 罗立宏.陈志.LUO Li-hong.CHEN Zhi 基于语义分析的垂直搜索网络蜘蛛[期刊论文]-计算机工程与设计 2008,29(18)

引证文献(5条) 1.郭晓霞.王磊.席岩.王晓艳.汪瑛基于网络的视频内容检索与盗版追踪溯源研究[期刊论文]-广播与电视技术 2011(7) 2.陈建峡.李倩倩.王春枝基于Nutch搜索引擎的E-learning系统开发[期刊论文]-湖北工业大学学报 2011(5) 3.陈诚基于云计算的智慧城市垂直搜索技术研究[期刊论文]-软件产业与工程 2012(4) 4.王燕平基于文献计量的我国搜索引擎研究现状和热点分析[期刊论文]-现代情报 2012(7) 5.陈诚基于云计算的智慧城市垂直搜索技术研究[期刊论文]-软件产业与工程 2012(4)

本文链接：

本文关键词：基于Nutch的垂直搜索引擎的设计和实现，由笔耕文化传播整理发布。

本文编号：196849

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/196849.html

上一篇：《计算机工程与应用》2001年24期
下一篇：网络搜索研究与应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|