当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现

发布时间:2016-09-21 08:23

  本文关键词:基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现,由笔耕文化传播整理发布。


基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现

1 4

Co mp tr Er u e a No.2 01 2 0

分类页面开始进行抓取工作时,允许将这个页面加入抓取队不列;网站中的所有图书信息页面前缀都有 W W. ia p bcr, W c n— u . n h o

N OT _

A L Z D( L cn20前为 u OK N z D)其 NA Y E在 u ee .之 NT E I E,

他的Fe都可以分词后再存储, d x id l I e属性设置为 A A Y E n N L ZD F l ul e ii U L b o . t r, il Soe E, i d r n w F d R, o k eU l F d t . S e= e ( g 0 e . rY F l. d x N T_ N L Z D; i dI e . O _ A Y E ) e n A Fed b o N re n w il( OOK NA,b o il o k an= e FedB _ ME o k .

所以抓取时要使 U L满足这个条件;oosx是针对 rb t策 ( OK NIE。部分核心代码如下: R rb ttt . o os T E Z D)

略发出的 U L所包含的字符串,n是 H rr在做域名解析 R ds e tx ii时发出的一个请求 U L的前缀, R对这些 U L应该进行处 R都理;在抓取之后的镜像目录中,该有 W Wci -u . m这应 W . n pb o ha c个目,录里面保存的就是抓取下来的网页和各种文件。核心代 码如下: . u1 q a l oe a e” w . i -u . r” f r u l g rC s ( w c n p bc n ) ( . e sn w ha o ) r t n; e ur

g t o k a e, i dSoeY S F l Id x N L Z D; eB o N m 0 Fe tr.E, id n e . A Y E ) l e . A

将 F l对象保存到 D cm n对象中之后, id e ou et即可调用 L c e ue n 包中的Idx i r n e Wre类的 ad c met t dDou n方法,将这个 Dou n对 cmet

象加入到索引中。I eWre类还提供了 ot i l e

方法和 n x ir d t p mz n x i ed c s方法, le o分别用于优化索引和关闭索引。 45搜索与呈现模块 .

i u1 d x fⅥ『 . i—u . r” -1l f ri e O (, Wc n p b o ) I ( . n”\ h a v cn l u1 d x f d s ) -I r n e O ( n:l 1I . i””_ u1n e Of rb t. t l- ) rid x (o ost”一 1 .” x)

本模块中使用 T m a和 JP建了 we平台。用户在前 o ct S搭 b台 We页面上可以输入关键字和选择检索类别, b然后将这些信

g t o t l r . trn e0s h d l c U ) eC n oe 0g Fo t r . e u (a n; rl e i c e

42网页解析模块 .

息交给后台的检索类,类在索引和数据库中进行搜索,这些最

在抓取得到网页之后,以结合使用 J K中的正则表达式后将搜索结果显示给用户。显示的内容为查询到图书的几项可 D

如作和 H ML asr T Pre类提供的 AP来完成对网页的解析。本模块通基本信息,书名、者和出版社等。本模块可对搜索的结果 I 过递归遍历网页文件目录来完成对其下所有网页文件的解分页显示,为搜索结果提供超链接链指向原始图书信息地并如图 4示。所 析。由于从 ci—u网上抓取下来的图书信息网页都是以数址, h apb n字命名的,没有. 的后缀,以应设计判断条件,所把其他格式的文件和子目录过滤掉,只对符合要求的网页文件执行操作。然后对合法的网页文件调用e t c方法,正则表达式匹配字符 x at r用

c *

r

匡三圈垂

◇书名 0作者。丛书名 0出版社 (摘要 (垒文 3 ),

串的方式来提取网页中的有用信息,得到的信息按指定的并把 格式保存到文本文件中。 43数据库存储模块 .

书名{

Pie f叛) rmr影印

作者:f )S a l y B L p ̄ n美 t ̄ e . ip a出版社;中国电力出版社丛书名:并发大师誊捌髓揍地址:h t:/ c i aD b c t 1 tD/w hn—u 0 47

数据库中定义了一个存储各种图书信息的表,图书名包括 称,作者,丛书名,出版日期, B索引时间等字段。采用直接 I N, S的J B D C方式向数据库写入数据,每插入一条图书信息都可得 书名:

c+Pi《 D中文聪+ rmr 3 ) R 作者: t n e L p ̄ n Jo e jo S a l y B. i p a, s e La l

到一个自动分配的I。这个 I D D值用于建立数据库中的记录与 索引中的 D c met ou n的映射关系。 44索引建立模块 .

出舨社中雹电力出版社丛书名:深入c誊孤 H .

壁蕉i皴熟鲢 棠 l豫

:§ !§ !:生:Q墼§

2 0—《 50 q 2 O 9 0一2 8: 7: 9

索引中的内容为用户可以检索的分类信息。我们为以下 几种图书基本信息建立了索引:图书名称、 B出版社、 I N、 S丛书 5结束语

图4搜索结果显示图

名、作者等 (用户可以按照这几种分类信息来检索图书)以及,垂直搜索引擎技术已越来越受到重视,用户通过它可以获之前将该图书信息保存到数据库时得到的 I。用户通过关键得更准确、 D更有效的信息检索服务。本文对全文检索工具包字检索图书信息时,系统会先在索引中进行快速检索,到和 L cn和网络爬虫工具 Heii进行了分析,得 u ee rr tx并构建了图书垂关键字相关的图书,并进一步得到这些图书的I再在数据库直搜索引擎系统。应用实践表明, D;系统达到了预期效果。 中查找这些 I D对应的图书记录,将完整的图书信息返回给用户完成一次检索。 参考文献:

具体的设计逻辑是:为每个图书信息对象 B o定义其在 ok L cn索引中的 D cm n对象。每个 D cm n对象中保存 uee ou et ou et

【】 1邱哲,符滔滔开发自己的搜索引擎【】民邮电出版社,0 7 M.人 2 0.

fl坤,国华基于L cn/ rr 2白耿 ue eHetx的垂直搜索引擎的研究与应用 Ji 【. J计算机应用与软件, 0 .61 2 2 2 52 7] 2 92 () 1~ 1,4 0:

了 9 Fe对象,中有 8 Fe个 il d其个 id与数据库中的字段有直接的【j f th rOt s o ei.L c n cinM]SI: n ig l 3 i Hac e, i Go p d t u e eI A t[ . .] Ek s c n o I .Ma nn 对应关系,即数据库中的 I udt Tm, R,ok a e D,pa d ieU L boN m, e P bi t n , 0 5 u l a i s Co 2 0 c o at

o,e e,rs, t。余下一个 Fe“l是前面几种信息 tl车东.ue e基于Jv的全文检索引擎简介[B OL. 0 9 0— 0 uh rsr spesi r i no il a” d l 4 L cn: aa E/] 0—32) ( 2的综合,,可以作为搜索时的默认 Fe。 il d否需要分词,这些字段都是要保存在索引文档中的,以Fed所 il 不需要分词,以将它们对应的 Fe所 il Id x性设置为 d的 ne属 [0 9 0— O.t:/ 2 0 - 7 2] t/ e o gc m/e h lc n .t hp c d n .o tc/u e ehml h计,0 8 2 (8:6 2 4 6 .81 2 0 .91 ) 6~ 6 54 2 4 p/ b:/ 。 v。/ 4 hm m/ iw 7 9

5】陈志. J-】汁构建 F l对象的时候需要确定该 Fe是否需要存储, id e id l是【罗立宏,基于语义分析的垂直搜索网络蜘蛛【_算机工程与设 6百垂 E/]2 0— 7 0[0 9 0— 0. 的 Soe t属性都要设置为 YE。而 I索引时间, R r S D, U L和作者名【】度百科.直搜索引擎【B OL (0 9 0一i )2 0— 7 2 1

基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现


  本文关键词:基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现,由笔耕文化传播整理发布。



本文编号:119236

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/119236.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d0de9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com