机器人搜索引擎_主题搜索引擎的研究与应用

发布时间：2016-11-10 19:14

本文关键词：主题搜索引擎的研究与应用，由笔耕文化传播整理发布。

成都理工大学硕士学位论文 主题搜索引擎的研究与应用 姓名：黄波申请学位级别：硕士专业：地球探测与信息技术指导教师：苗放 20070601

摘要

主题搜索引擎的研究与应用
作者简介：黄波，男，１９８１年９月出生，２００４年９月从师于成都理工大学苗放教授，于２００７年６月毕业于成都理工大学地球探测与信息技术专业。
摘

要

搜索技术的进步使得人类对数据、信息、知识进入了前所未有的共享模式。搜索是虚拟的人类意识。搜索技术反映个体在特定时期和范围内的行为取向和信息喜好，无数搜索的集合和综合信息最终可以用以推测人类作为整体的文化属性。随着信息多元化的增长，千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。因此我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。主题搜索引擎是针对某一特定领域提供的有一定价值的信息和相关服务。以构筑某一主题领域的Ｉｎｔｅｒｎｅｔ网络信息资源库为目标，智能地在互联网上搜集符合此主题需要的信息资源。其特点就是“专、精、深”，且具有行业色彩。本文在基于Ｌｕｃｅｎｅ搜索引擎框架的研究和应用基础上，对它的设计原理和特色以及评分体系进行深入的研究。Ｎｕｔｃｈ是一个建立在Ｌｕｃｅｎｅ核心之上的Ｗｅｂ搜索的实现。本文利用Ｎｕｔｃｈ易于扩展的插件机制进行二次开发。研发一个第三方工具把Ｌｕｃｅｎｅ特殊的数据格式转化为可视化的结构，以便研发人员对索引数据进行分析查询。本文提出按主题行业分类信息，建立相关主题词库的观点，更高效的快速建立主题搜索引擎，并结合改进的中文分词技术进行验证实现。论述了主题搜索引擎对行业应用的可适用性。关键词：搜索引擎，中文分词，知识共享，倒排索引，主题词库

成都理工大学硕士学位论文

ＴｈｅｒｅｓｅａｒｃｈａｎｄａｐｐｌｉｃａｔｉｏｎｏｆＴｏｐｉｃ—ｓｐｅｃｉｆｉｃＳｅａｒｃｈＥｎｇｉｎｅ
ＩｎｔｒｏｄｕｃｔｉｏｎｏｆｔｈｅＡｕｔｈｏｒ：ＨｕａｎｇＢｏｗａｓｂｏｒｎｏｎＳｅｐ，１９８１．ＵｎｄｅｒｔｈｅｇｕｉｄａｎｃｅｏｆＰｒｏｆ．ＭｉａｏＦａｎｇ．，ｈｅｗａｓｇｒａｄｕａｔｅｄｆｒｏｍＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇａｔＣｈｅｎｇｄｕＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ．

ＡＢＳＴＲＡＣＴ
Ｓｅａｒｃｈ

ｔｅｃｈｎｏｌｏｇｙ

ｐｒｏｇｒｅｓｓｍａｄｅＳｅａｒｃｈ

ｈｕｍａｎ
ｉｓ
ａ

ｓｈａｒｉｎｇｕｎｐｒｅｃｅｄｅｎｔｅｄｖｉｒｔｕａｌ

ａｃｃｅｓｓｏｎ

ｄａｔａ，

ｉｎｆｏｒｍａｔｉｏｎａｎｄ
ｔｅｃｈｎｏｌｏｇｙ
Ｃａｎｂｅ

ｋｎｏｗｌｅｄｇｅ，

ｈｕｍａｎ

ｃｏｎｓｃｉｏｕｓｎｅｓｓ，

ｓｅａｒｃｈ

ｒｅｆｌｅｃｔｅｄｔｈｅｂｅｈａｖｉｏｒ

ａｎｄ

ｉｎｆｏｒｍａｔｉｏｎ
ａｎｄ

ｐｒｅｆｅｒｅｎｃｅｓｉｎｔｈｅｉｎｄｉｖｉｄｕａｌ

ｓｐｅｃｉｆｉｃｐｅｒｉｏｄ，ｔｈｅｓｅｔｏｆｃｏｕｎｔｌｅｓｓｓｅａｒｃｈ

ｃｏｍｐｒｅｈｅｎｓｉｖｅ
ａｓａ

ｉｎｆｏｒｍａｔｉｏｎ

ｅｖｅｎｔｕａｌｌｙ

ｕｓｅｄｔｏｓｐｅｃｕｌａｔｅｔｈｅｄｉｒｅｃｔｉｏｎｏｆｍａｎｋｉｎｄ

ｗｈｏｌｅｃｕｌｔｕｒａｌ．
ｕｓｅｒｓ

Ｗｉｔｈｔｈｅ

ｇｒｏｗｔｈｏｆｍｕｌｔｉ－ｉｎｆｏｒｍａｔｉｏｎ，ｐｒｏｖｉｄｉｎｇａｌｌｍｅｅｔｓｐｅｃｉｆｉｃ
ｕｓｅｒ’Ｓ

ｗｉｔｈｔｈｅｓａｍｅ

ｅｎｔｒａｎｃｅ
ａ

ａｐｐａｒｅｎｔｌｙｕｎａｂｌｅｔｏ

ｎｅｅｄｓ

ｉｎ－ｄｅｐｔｈｉｎｑｕｉｒｙ．Ｓｏｗｅｎｅｅｄ

ｔｏｐｉｃ．ｏｒｉｅｎｔｅｄｓｅａｒｃｈｅｎｇｉｎｅｗｈｉｃｈｕｐｄａｔｅｔｉｍｅｌｙｆｏｒ
ａｏｎ

Ｃａｎ

ｃｌａｓｓｉｆｙａｃｃｕｒａｔｅ，ｃｏｍｐｒｅｈｅｎｓｉｖｅ
ａ

ａｎｄ

ｉｎ?ｄｅｐｔｈ，

ｄａｔａ．Ｔｏｐｉｃ—ｓｐｅｃｉｆｉｃｓｅａｒｃｈｅｎｇｉｎｅｉｓｔｉｅｄｔｏｐｒｏｖｉｄｅ

ｓｐｅｃｉｆｉｃｆｉｅｌｄ

ｃｅｒｔａｉｎｖａｌｕｅｏｆｔｈｅ

ｉｎｆｏｒｍａｔｉｏｎａｎｄ
ｒｅｓｏｕｒｃｅｓ

ｒｅｌａｔｅｄｓｅｒｖｉｃｅｓ．Ｔｈｅｔａｒｇｅｔｉｓｔｏｂｕｉｌｄ

ｉｎｔｅｍｅｔ

ｉｎｆｏｒｍａｔｉｏｎ

ｒｅｓｏｕｒｃｅｓ

ｉｎｓｏｍｅｐａｒｔｉｃｕｌａｒｔｏｐｉｃａｒｅａ，ｉｎｔｅｌｌｉｇｅｎｔｇａｔｈｅｒｉｎｇｔｈｅ
ｏｎ

ｒｅｌａｔｅｄｔｏｐｉｃ

ｉｎｆｏｒｍａｔｉｏｎ

ｔｈｅｉｎｔｅｍｅｔ．Ｉｔｓｆｅａｔｕｒｅｉｓｔｈｅ”ｓｐｅｃｉａｌｉｚｅｄ，

ｓｏｐｈｉｓｔｉｃａｔｅｄ，ｄｅｅｐ”ａｎｄｔｈｅ
Ｔｈｉｓｐａｐｅｒｂａｓｅｄ
ｏｎ

ｉｎｄｕｓｔｒｙ
Ｌｕｃｅｎｅ

ｂａｃｋｇｒｏｕｎｄ．
ｓｅａｒｃｈｅｎｇｉｎｅｆｒａｍｅｗｏｒｋｆｏｒｔｈｅｒｅｓｅａｒｃｈ

ａｎｄ

ａｐｐｌｉｃａｔｉｏｎ，ｉｔｄｅｓｃｒｉｂｅｄｉｎｄｅｔａｉｌｔｈｅｄｅｓｉｇｎｉｎｔｈｅｓｃｏｒｉｎｇｓｙｓｔｅｍ．Ｎｕｔｃｈｉｓｏｆｌｕｃｅｎｅ．Ｎｕｔｃｈｐｒｏｖｉｄｅ
ａａ

ａｎｄ

ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ．Ｉｔａｌｓｏｓｔｕｄｉｅｓｄｅｅｐｌｙ
ｏｎ

ｗｅｂｓｅａｒｃｈｉｍｐｌｅｍｅｎｔａｔｉｏｎｗｈｉｃｈｂｕｉｌｔ

ｔｈｅｂａｓｅ

ｃｏｍｐｌｅｔｅｐｌｕｇ—ｉｎｍｅｃｈａｎｉｓｍｗｈｉｃｈＣａｎｂｅｅａｓｉｌｙｅｘｔｅｎｄｅｄ
ａ

ｆｏｒｓｅｃｏｎｄａｒｙｄｅｖｅｌｏｐｍｅｎｔ．Ｔｈｉｓｐａｐｅｒｄｅｖｅｌｏｐｓｌｕｃｅｎｅｓｐｅｃｉａｌｄａｔａ

ｔｈｉｒｄ－ｐａｒｔｙｔｏｏｌｔｏｖｉｓｕａｌｉｚｅｔｈｅ

ｆｏｒｍａｔ，ｉｎ

ｏｒｄｅｒ

ｔｏ

ｃｏｎｖｅｎｉｅｎｃｅｔｈｅｄｅｖｅｌｏｐｅｒｓｔｏ
ａ

ａｎａｌｙｚｅａｎｄ

ｓｅａｒｃｈｔｈｅｉｎｄｅｘｉｎｇｄａｔａ．Ｔｈｉｓｐａｐｅｒｒａｉｓｅ

ｖｉｅｗｔｏｅｓｔａｂｌｉｓｈ
ａ

ａ

ｒｅｌａｔｅｄｔｏｐｉｃ－ｄｉｃｔｉｏｎａｒｙ

ｆｏｒａｌｌｋｉｎｄｓｏｆｄｉｆｆｅｒｅｎｔｒｅｌａｔｅｄｉｎｄｕｓｔｒｙ，ａｎｄｅｓｔａｂｌｉｓｈ

ｔｏｐｉｃｓｅａｒｃｈｅｎｇｉｎｅｍｏｒｅ

ｅｆｆｉｃｉｅｎｔｌｙ，ａｎｄｃｅｒｔｉｆｙ

ｉｔ

ｂｙｔｈｅｈｅｌｐ

ｏｆｉｍｐｒｏｖｅｄｔｈａｔ

Ｃｈｉｎｅｓｅｗｏｒｄ

ｓｅｇｍｅｎｔａｔｉｏｎ

ｔｅｃｈｎｉｑｕｅｓ．Ｔｈｅｎ
ｔｏ

ｄｉｓｃｕｓｓｅｄｔｈｅａｐｐｌｉｃａｂｉｌｉｔｙ

ｔｈｅｔｏｐｉｃｓｅａｒｃｈｅｎｇｉｎｅａｐｐｌｉｅｄ

ｓｏｍｅｉｎｄｕｓｔｒｙ．

Ｋｅｙｗｏｒｄｓ：Ｓｅａｒｃｈ

ｅｎｇｉｎｅ，Ｃｈｉｎｅｓｅ

Ｓｅｇｍｅｎｔａｔｉｏｎ，ＫｎｏｗｌｅｄｇｅＳｈａｒｉｎｇ，Ｉｎｖｅｒｔｅｄ

ｉｎｄｅｘ，Ｔｏｐｉｃｄｉｃｔｉｏｎａｒｙ

ＩＩ

独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其

他人已经发表或撰写过的研究成果，也不包含为获得盛壑理王太堂或其他教
育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

Ｘ－Ｐ
学位论文作者导师签名：学位论文作者签名：

＼勿饮
加７年６月
乙日

苍，胺

学位论文版权使用授权书

本学位论文作者完全了解盛都堡王太堂有关保留、使用学位论文的规定，
有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和

借阅。本人授权盛壑理王太堂可以将学位论文的全部或部分内容编入有关数
据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本授权书）

学位论文作者签名：

事，波乞滞
‘月１日

第１章引言

第１章引言
１．１搜索技术对人类的社会意义
最初搜索引擎技术和资本门槛本身并不高，但随着人性因素的彰显而进入深度竞争阶段的互联网时代来临之后，搜索之争趋于深度竞争，深刻理解搜索对于人类的社会意义将成为竞争战略和策略的研判前提。一、搜索是社会化的信息处理搜索技术的发展使得人类对数据、信息、知识的存取运动进入前所未有的共享模式。在传统知识的整理层面，搜索技术的目标是重新建立人类传统知识的存取秩序；在新知识的创新生产层面，搜索技术的目标是促进协同型知识机制的完善，进而形成全面大众全面参与的知识社会；在社会公共生活层面，搜索技术的目标是让自然界人类社会和思维的有用知识实现客观、公正、高效、完整的共享；在个人化的网络生存层面，搜索技术的目标是方便个人无后顾之忧的获得最好的信息。由上可知，搜索技术发展的目标是成为一种综合而客观的人类生存系统，从个人和社会层面改变人类的生存状态。在不同层面，搜索的要求也会分别侧重于客观、准确、及时、深入、创新、联系、思想、个性、娱乐、学习、教育等不同的特性要求，人类社会生活有多么丰富多彩，搜索技术的未来空间就有多么宏大无穷，搜索门类及其竞争领域就有多么复杂综合。在目前搜索发展阶段，大而全的搜索巨头占据搜索舞台的主角地位，虽然未来多样化搜索竞争的战国时代必然来临，但是当前搜索竞争的基本出发点还是必须建立在适度集中的搜索格局的历史条件之上，Ｇｏｏｇｌｅ、百度等搜索巨头的方向，往往代表了人类搜索技术基于现状的中期方向，其中最为核心的特征便是搜索竞争的深度化。二、搜索是社会化的信息再生产搜索技术进步使得个人、组织和社会面对全新的信息结构和知识模式，也使得传统的、现实的、未来的信息面临全新的个人、组织和社会的需求特征，在两者共同影响下，信息生产领域发生必然的变革，其典型标志便是搜索技术成为社会化的信息生产的重要组成部分。搜索技术使得隐知识更深入快速的转化为显知识，使得知识传播的范围空前扩大，使得社会性使用知识的权利空前平等，使得个人的集合力量得以影响权威的形成、影响知识分享权力、影响知识生产过程，在此基础上一种基于搜索的无界、高效、平等特性的全新的社会化信息再生产机制应运而生，搜索的过程自身也因为其社会化属性而产生出人类前所未见的新信息资源。

成都理丁大学硕＋学位论文

三、搜索是虚拟的人类意识人类的社会化特征是实现人类智能化的捷径，无数个体的关系集成、思维行动及其综合形成的动态文化最终构成相对整体性的人类群体特征。进而指引全社会进行人工智能似的思维和进步。以此角度看，搜索技术反映个体在特定时期和
范围内的行为取向和信息喜好，通过搜索我们获得了一条体现人类共同文化、时

尚、思维、偏好的新思路，无数搜索的集合和综合信息最终可以用以推测人类作为拟人整体的文化属性，搜索信息流从某个角度完全可以视同人类社会的部分大脑思维潜流，如果说过去因为搜索技术没有出现我们无法由信息集合的角度感受人类虚拟大脑的思维流动，那么搜索技术的进步和成熟，搜索行为和信息的国民性扩张，带领我们进入全新的人类自我意识的社会外化过程，通过搜索，人类个体与人类整体之间可以实现空前畅通的对话。四、搜索是全新的社会关系的大生产搜索从面向信息的表层发展阶段必然向面向社会关系的深层发展阶段前进，搜索的目的将不仅仅是对于信息的搜索，同时也是对于社会行为和社会关系的搜索。从个体需求角度看，搜索满足对于信息的个性化需求；从组织需求的角度看，搜索同时满足对于信息、社会行为特征和社会关系的个性化需求。一方面搜索技术和服务的进步使得人类社会的共享型搜索数据库日益庞大，与此相对应人类知识结构秩序的变革也必然日益深入，进一步与此相对应人类的基于知识的权力结构的变革也必然日益深入。所以，未来社会性的强权来自庞大的搜索巨头并不是杞人忧天。另外一方面，搜索技术和服务的进步使得人类社会行为特征和思维流日益外化，历年积累的人类搜索进程的庞大数据成为搜索巨头的另外一大权力来源，对这一权力源的监控和公开化必然在不远的将来列于网络最重要的议题之一。由于搜索在社会关系变化中的外化和监控功能，搜索服务商在社会关系方面可以发挥更大的影响力。从这个角度看，无论是否公开和共享搜索行为数据，搜索技术本身都会自发的进行社会关系的大生产，只是其中存在是否公开流程、是否大众参与、是否分享权力的不同情况而已【５１。

１．２搜索引擎的发展历史
在互联网发展初期，网站相对较少，信息查找比较容易。然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的祖先，是１９９０年由蒙特利尔大学学生Ａｌａｎ
Ｅｍｔａｇｅ

发明的Ａｒｃｈｉｅ。虽然当时ＷｏｒｌｄＷｉｄｅＷｅｂ还未出现，但网络中文件传输还是相

２

第１章引言

当频繁的，而且由于大量的文件散布在各个分散的ＦＴＰ主机中，查询起来非常不便，因此；ｋｌａｎＥｍｔａｇｅ想到了开发一个可以以文件名查找文件的系统，于是便有了Ａｒｃｈｉｅ。Ａｒｃｈｉｅ工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。由于Ａｒｃｈｉｅ深受用户欢迎，受其启发，美国内华达Ｓｙｓｔｅｍ外，已能检索网页。当时，“机器人”一词在编程者中十分流行。电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去，因此，搜索引擎的“机器人” 程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是Ｍａｔｔｈｅｗ开发的Ｗｏｒｌｄ
ｗｉｄｅＷｅｂＧｒａｙ

Ｃｏｍｐｕｔｉｎｇ

Ｓｅｒｖｉｃｅｓ大学于１９９３

年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件

Ｗａｎｄｅｒｅｒ。刚开始它只用来统计互联网上的服务器数量，

后来则发展为能够检索网站域名。与Ｗａｎｄｅｒｅｒ相对应，ＭａｒｔｉｎＫｏｓｔｅｒ于１９９３年ｌＯ月创建了ＡＬＩＷＥＢ，它是Ａｒｃｈｉｅ的ＨＴＴＰ版本。ＡＬＩＷＥＢ不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在我们熟知的
Ｙａｈｏｏ。

随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在ＭａｔｔｈｅｗＧｒａｙ的Ｗａｎｄｅｒｅｒ基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是，既然所有网页都可能有连向其他网站的链接，那么从跟踪一个网站的链接开始，就有可能检索整个互联网。到１９９３年底，一些基于此原理的搜索引擎开始纷纷涌现，其中以ＪｕｍｐＳｔａｔｉｏｎ、Ｔｈｅ
Ｗｏｒｍ，和Ｒｅｐｏｓｉｔｏｒｙ—Ｂａｓｅｄ
ＳｏｆｔｗａｒｅＷｏｒｌｄＷｉｄｅＷｅｂ

Ｅｎｇｉｎｅｅｒｉｎｇ（ＲＢＳＥ）ｓｐｉｄｅｒ最负盛名。

然而ＪｕｍｐＳｔａｔｉｏｎ和ｗ聊Ｗｏｒｍ只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果，因此毫无信息关联度可言。而ＲＢＳＥ是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。最早现代意义上的搜索引擎出现于１９９４年７月。当时ＭｉｃｈａｅｌＭａｕｌｄｉｎ将
Ｊｏｈｎ

Ｌｅａｖｉｔｔ的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Ｌｙｃｏｓ。

同年４月，斯坦福大学的两名博士生，ＤａｖｉｄＦｉｌｏ和美籍华人杨致远共同创办了超级目录索引Ｙａｈｏｏ，并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目

成都理Ｔ大学硕＋学位论文

前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。比如国外的Ｉｎｋｔｏｍｉ，它本身并不是直接面向用户的搜索引擎，而是向包括ＬｏｏｋＳｍａｒｔ、ＭＳＮ、ＨｏｔＢｏｔ等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类，搜狐和新浪用的就是它的技术。因此从这个意义上说，它们是搜索引擎中的搜索引擎。‘２９３

１．３搜索引擎分类
搜索引擎按其工作方式主要可分为三种，分别是全文搜索引擎、目录索弓１类搜索引擎和元搜索引擎。全文搜索引擎是最广泛也是用得最多的一种，一般所说的搜索引擎都指的是全文搜索引擎。全文搜索引擎是名副其实的搜索引擎，具代表性的有Ｇｏｏｇｌｅ、Ｉｎｋｔｏｍｉ、百
度、中搜等。它们都是通过从互联网上提取的各个网站的信息而建立的数据库中，

检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用
户，因此他们是真正的搜索引擎。

从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序，并自建网页数据库，搜索结果直接从自身的数据库中调用；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果。目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。目录索引中最具代表性的是Ｙａｈｏｏ。国内的搜狐、新浪、网易搜索也都属于这～类。元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行查询，并将结果返回给用户。著名的元搜索引擎有ＩｎｆｏＳｐａｃｅ、Ｖｉｖｉｓｉｍｏ等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Ｄｏｇｐｉｌｅ，有的则按自定的规则将结果重新排列组合，如
ｇｉｖｉｓｉｍｏ。

除上述三大类引擎外，还有以下几种非主流形式：１、集合式搜索引擎：如ＨｏｔＢｏｔ在２００２年底推出的引擎。该引擎类似ＭＥＴＡ搜索引擎，但区别在于不是同时调用多个引擎进行搜索，而是由用户从提供的４个引擎当中选择，因此叫它“集合式”搜索引擎更确切些。２、门户搜索引擎：如ＡＯＬ
Ｓｅａｒｃｈ、８ＳＮ

Ｓｅａｒｃｈ等虽然提供搜索服务，但自

身既没有分类目录也没有网页数据库，其搜索结果完全来自其他引擎。３、免费链接列表：这类网站一般只简单地滚动排列链接条目，少部分有简

４

第１章引言

单的分类目录，不过规模比起Ｙａｈｏｏ等目录索引来要小得多。由于上述网站都为用户提供搜索查询服务，为方便起见，我们通常将其统称为搜索引擎。

１．４搜索引擎组成及工作原理
搜索引擎主要由网络蜘蛛，索引器和查询器三部分组成。
（１）网络蜘蛛（ＷｅｂＳｐｉｄｅｒ）的主要功能是从指定的地址或网页出发遍历互联

网收集网页，并沿着任何网页中的所有ＵＲＬ爬到其它网页，重复这过程，并把爬过的所有网页收集到页面存储库中。（２）索引器（Ｉｎｄｅｘｅｒ）对收集回来的网页进行分析，提取相关网页信息（包括网页所在ＵＲＬ、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页（针对页面内容）及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。（３）当用户输入关键词搜索后，搜索请求经过分解，由查询器（Ｓｅａｒｃｈｅｒ）从网页索引数据库中找到符合该关键词的所有相关网页。所有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的工作流程可以简化归结为以下四个步骤：（１）网上抓取网页：（２）建立索引数据库：（３）在索引数据库中搜索：（４）对搜索结果进行处理和排序。网络蜘蛛从互联网上抓取网页，把网页送入页面存储库，从网页中提取ＵＲＬ，把ＵＲＬ送入ＵＲＬ数据库，网络蜘蛛控制得到网页的ＵＲＬ，控制网络蜘蛛抓取其它网页，反复循环直到把所有链接的网页抓取完成。这其间也可以控制对网页索引
的深度和数目。

系统从页面存储库中得到文本信息，送入索引器模块建立索引，形成索引库。同时进行链接信息提取，把链接信息（包括锚文本、链接本身等信息）送入链接数据库，为网页评级提供依据。

５

成都理丁大学硕十学位论文

１．５本文研究内容和成果
本文首先对搜索引擎的发展历史、现状、存在的问题及其未来发展趋势进行了探讨，提出了基于行业主题词库的搜索引擎的研究思路，对主题词库进行优化改进，并把计算所的提供的中文分词技术引进ｎｕｔｃｈ中。本文提出按主题行业分类信息，建立相关主题词库的观点，更高效的快速建立主题搜索引擎。本文对搜索引擎的研究成果如下：（１）本文通过提出按主题行业分类信息，建立相关主题词库的观点，选择性能好、效率高、经济合理的技术框架，从而更高效的快速建立主题搜索引擎。（２）对开源框架ｌｕｃｅｎｅ的源码和结构进行了较为深入的研究，并在此基础上进行二次开发，研发一个数据管理工具把ｌｕｃｅｎｅ特殊的数据格式转化为可视化的结构，以便研发人员对索引数据进行分析查询。（３）对某一主题网站建立索引库，并进行分析查询，把自己建立的主题搜索引擎查询结果和网站现有的搜索结果进行比较分析，得出了较有意义的结果。

１．６本文组织结构
本论文的总体结构是从理论的分析研究到实践尝试的过程，它由四个部分组
成：

第１章：引言。主要通过阐述搜索引擎的社会意义，发展历史以及组成和工作原理，进一步得出研究搜索引擎的必要性和发展意义。第２章：主题搜索引擎。讲述主题搜索引擎的研究内容，发展现状和突破创新点，突出选择主题搜索引擎作为研究目标的可行性。第３章：Ｌｕｃｅｎｅ的实现原理及相关技术。通过对开源框架Ｌｕｃｅｎｅ进行详细深入的研究，对实现源码加以改进，并引入相关增强用户体验的Ａｊａｘ技术和中文分词技术来改进搜索引擎。第４章：主题搜索引擎的实现。通过建立一个实例搜索引擎来加以对比分析。建立相关主题词库来优化索引内容，引入计算所的中文分词处理方式来改进主题搜索引擎的查询结果。

６

第２章主题搜索引擎

第２章主题搜索引擎
２．１主题搜索引擎研究的目的和意义
搜索是一种服务，外界对搜索引擎的评价体系形式多样，除了当前的竞价排名，未来基于搜索的商业模式和业务模式会在网络广告、电子商务、付费信息服务等方面有所突破，个性化搜索及搜索分析将占主导地位。选择研究主题搜索而不是通用搜索引擎的原因：（１）搜索引擎的技术门槛

越来越高。Ｇｏｏｇｌｅ的创始人是超级名校Ｓｔａａｆｏｒｄ计算机系的ＰＨＩ），Ｂａｉｄｕ的ＲｏｂｉｎＬｉ也是领了多项搜索技术专利才敢切入搜索领域。可以说，没有３年以上的搜索技术积累，请不要涉及搜索领域。（２）搜索引擎的资金投入非常大，Ｇｏｏｇｌｅ光是爬虫服务器就数万之巨，再加上网络带宽的购买，相信这些投入非一般人可以承受。可以说，没有千万级别的资金在手，请不要进入搜索引擎领域。（３）通用搜索引擎经过多年的发展已经非常成熟，各个巨头都已经各自占山为王，在快鱼吃慢鱼的互联网里，落后就意味着无法生存。随着信息多元化的增长，千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。同时，这样的通用搜索引擎在目前的硬件条件下，要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况，我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略，因此它将更加有效和准确。

２．２主题搜索引擎的发展
搜索引擎是上世纪９０年代兴起的信息检索技术，经过十多年的发展，它已经渗透到了人们生活的各个领域。然而，传统的搜索引擎，也即通用搜索引擎，考虑了所有人的需求，即不管用户是希望找计算机论文方面的信息还是要找篮球运动的信息都一致对待，这样的搜索引擎需要耗费巨大的资源而速度较慢。并且，由于通用搜索引擎所面向的领域太广泛，某些利于用户提高检索精度和查全率的技术，比如自动分类，在其中的应用效果不理想。所谓主题搜索引擎，是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。以构筑某一专题或学科领域的Ｉｎｔｅｒｎｅｔ网络信息资源库为目标，智能地在互联网上搜集符合这一专题或学科需要的信息资源，能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、
７

成都理Ｔ大学硕＋学位论文

行业专家等等在内的信息用户，提供整套的网络信息资源解决方案。其特点就是 “专、精、深”，且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。主题搜索引擎专注具体、深入的纵向服务，致力于某一特定领域内信息的全面和内容的深入，这个领域外的闲杂信息不收录。

２．３主题搜索引擎的突破与创新
主题型搜索引擎与通用搜索引擎存在着很大的差别：（１）服务目的不同通用搜索引擎面向任何用户提供对任何信息的查询，而主题型搜索引擎则面向专业用户向他们提供对特定专业的信息检索。（２）搜索方式不同通用搜索引擎对网络进行逐页的爬行，试图遍历整个Ｗｅｂ。而主题型搜索引擎则采用一定的策略预测相关网页的位置，动态的调整网页爬行方向，使系统尽可能的在与主题相关的网页集中的地方爬行，这节约了大量的网络资源。（３）对硬件和网络的要求不同通用搜索引擎对硬件需求高，而主题型搜索引擎由于没有遍历整个Ｗｅｂ节约了大量的网络资源，而且没有自己的大型索引数据库，硬件需求也比较低。主题搜索引擎的优势，将决定它在互联网的一席之地。主题搜索的突破点和
创新点在于：（１）．实时性

主题搜索引擎需要获取的信息来自于某一特定领域的，这比起通用搜索引擎漫无边际的信息抓取，有一个非常大的优势，那就是信息的实时性。由于互联网上的信息量非常巨大，通用搜索引擎的数据更新周期短则十几天，长则几个月，而主题搜索引擎的数据更新完全可以以秒为单位。（２）数据挖掘分析，报表行业的历史发展、最新动向、趋势都是行业从业人员非常关注的话题。主题搜索引擎集中了行业海量的信息和数据，基于这些信息和数据的商务智能分析，将为行业创造非常有价值的信息增值服务。（３）个性化，社会化查询服务只是主题搜索引擎的一部分，主题搜索引擎在用户的个性化方向的发展非常重要。主题搜索引擎不能只提供一个窗口，它应该是一个用户高度参与交互的社会化平台。主题搜索引擎需要能够获取并且分析用户的偏好信息，从而提供更加完善而且准确的数据服务。（４）智能化语义网
８

第２章主题搜索引擎

语义网将有可能成为下一代互联网，这样网络上的数据和信息将被计算机程序所理解。这将为主题搜索引擎提供一个巨大的机会，爬虫程序如果能理解网络上的数据，将对信息的收集和整理更加准确和专业，搜索服务的查全率和查准率
将更高。

（５）多元化查询目前的搜索引擎，都只局限于关键字搜索，其中主要的原因是，对用户的查询需求无法建模，无法模式化。而关键字搜索带来的问题是，搜索结果过多，并且不准确。互联网信息量越大，这种情况越严重，甚至可以说是灾难。多元化查询服务的提供，将会成为对抗竞争对手的杀手锏。主题搜索引擎有着自己独特的架构（如图２．１），有针对该相关主题领域的主题词库，以供在建立索引时能够更加集中的把相关信息给予更高得评分。并随时更新词库。

——————一查询ｋ——一ｌ接ＥｌＩ
查询，返回结果查询日击用户ｌ查询日志

索引信息库

到
计算机专业词

建立倒排索引
自动更新

，，

文档过滤、特征提取

计算机

兰警Ｅ
档集

主题词

血

Ｉ＃Ⅱ±目甘口

爬虫

原始信

息库图２．１主题搜索引擎架构
Ｆｉｇ．２－１ＦｒａｍｅｗｏｒｋｏｆＴｏｐｉｃ－ｓｐｅｃｉｆｉｃｓｅａｒｃｈｅｎｇｉｎｅ

９

成都理。ｒ人学硕士学位论文

２．４主题搜索引擎的国内外研究现状
主题搜索引擎大都处于研究和试验阶段，利用它搜索的结果再经过专业人士

的加工而形成的面向某一学科、领域的网络垂直门户网站己经出现。目前面向主
题的网络信息搜索主要有两种技术：ｉｓ］

一是基于内容的搜索。这类搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表，搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。现在这种词表的建设越来越多的引入了知识表示的方法。基于本体论（ｏｎｔｏｌｏｇｙ）的搜索引擎开始出现。一个本体强调相关领域的本质概念，同时也强调这些概念间的本质联系。以ｏｎｔｏｌｏｇｙ为基础建立的词表能更好的显示一个领域主题中各个概念（即搜索系统的检索词）之间的关系，能更好的表现一个主题。在ｗｗｗ的智能信息检索应用中，ｏｎｔｏｌｏｇｙ通常作为用户感兴趣领域的领域模型，同时还作为文档统一注释的知识表示语言。一些学者也提出了概念空间的理论，用概念空间来实现语义索引。所谓概念空间是某个领域中一组抽象概念的集合，并且这组概念之间存在一定的语义上的关联。基于概念空间的文本检索系统也较好地解决了信息检索过程中的词汇不匹配的问题以及信息过载的问题，大大提高
了信息检索的效率和质量。

二是基于链接分析的检索。９０年代末期，国外信息检索界开始以ｓｏｃｉａｌｎｅｔｗｏｒｋ为模型对互联网进行模拟。一些学者认为网页之间的链接指引关系同社会网络中的关系有相似之处，尤其与传统的引文索引非常相似。通过对链接进行分析，可以找出各个网页之间的引用关系，由于引用网页与被引用网页在内容上一般都比较相关，所以就可以很容易地按照引用关系将大量网页分类。在美国，很多基于这种超链分析的检索系统原形己经产生，应用于他们的数字图书馆系统
中。

下面介绍一些较具有代表性的系统。
（１）Ｅｌｓｅｖｉｅｒ的Ｓｃｉｒｕｓ系统

Ｓｃｉｒｕｓ科学搜索引擎是一种专为搜索高度相关的科学信息而设计的搜索引擎，获得２００１《搜索引擎观察》授予的“最佳专业搜索引擎”奖。Ｓｃｉｒｕｓ是目前互联网上最全面、综合性最强的科技文献门户网站之一。它只面向包含有科学内容的网站，如大学和作者个人主页以及Ｅｌｓｅｖｉｅｒ自己的数据库。
（２）Ｂｅｒｋｅｌｅｙ的ＦｏｃｕｓｅｄＰｒｏｊｅｃｔ

这个系统由一个印度裔的科学家Ｓ．Ｃｈａｒｋｒａｂａｒｔｉ带头从事，他是最早从事这方面研究的人之一。该系统通过两个程序来指导爬行器：一个是分类器Ｃｌａｓｓｉｆｉｅｒ，

ｌＯ

第２章主题搜索引擎

用来计算下载文档与预订主题的相关度：另一个程序是净化器Ｄｉｓｔｉｌｌｅｒ，用来筛选那些指向很多相关资源的页面（也称中心网页）。（３）ＮＥＣ研究院的ＣｉｔｅＳｅｅｒＣｉｔｅｓｅｅｒ是～个非常有名的针对计算机科学领域论文的检索系统。Ｃｉｔｅｓｅｅｒ
的核心是ＡＣＩ（ＡｕｔｏｍａｔｉｃａｌｌｙＣｉｔａｔｉｏｎｉｎｄｅｘ）Ｍ，它可以自动地对互联网上的电子

文件（Ｐｏｓｔｓｃｒｉｐｔ和ＰＤＦ等格式）进行索引并分类。（４）美国国家科学数字图书馆的Ｃｏｌｌｅｃｆｉｏｎ
Ｂｕｉｌｄｉｎｇ

Ｐｒｏｇｒａｍ（ＣＢＰ）

这个项目旨在为科学、数学、工程和技术创建大规模的在线数字图书馆，试图研究在某一主题上资源自动建设的可能性。ＣＢＰ具有自己的特点：第一，因为ＣＢＰ是面向教育、面向教学的，所以主题精确度比覆盖度更重要；第二，ＣＢＰ不存储资源原文，而只是提供ＵＲＬ；第三，ＣＢＰ只需要用户最少量的输入，如关键词，系统就可以全自动的将有关该主题的最相关的有限数量ＵＲＬ返回给用户。

成都理工大学硕十学位论文

第３章Ｌｕｃｅｎｅ的实现原理及相关技术
３．１

Ｌｕｃｅｎｅ的框架结构
Ｌｕｃｅｎｅ是一个高性能、可伸缩的信息搜索库。它可以为自己的应用程序添

加索引和搜索能力。Ｌｕｃｅｎｅ是用ｊａｖａ实现的成熟的、免费的开源项目，是著名的Ａｐａｃｈｅ大家庭的一员，并且基于Ａｐａｃｈｃ软件许可。同时，Ｌｕｃｅｎｅ是当前与近几年内非常流行的免费的Ｊａｖａ信息搜索库。其实现框架（如图３－１）

图３－１
Ｆ；ｇ．３－１

Ｌｕｏｅｎｅ应用框架
ＡｐｐＩｉｅｄ

ｆｒａ㈣ｒｋ

ｉｎＬｕｃｅｎｅ

Ｌｕｃｅｎｅ是一个软件库，一个开发工具包，而不是一个具有完整特征的搜索应用程序。它本身只关注文本的索引和搜索，并且这些功能完成的非常好。Ｌｕｃｅｎｅ使得应用程序只针对它的问题域来处理业务规则，而把复杂的索引和搜索实现隐藏在一组简单易用的ＡＰＩ之后。可以把Ｌｕｃｅｎｅ认为成一层，而应用程序位于它
之上。

Ｌｕｃｅｎｅ并不关心数据的来源、格式、甚至它的语言，只要它能转换成文本。这意味着能够利用Ｌｕｃｅｎｅ来索引和搜索以下格式的文件：远程ＷＥＢ服务器上的ｗｅｂ页面，存放在本地文件系统中的文档，简单文本文件，ＭＳ．ｗｏｒｄ文档，ＨｒＭＬ或ＰＤＦ文件，以至于其它任何能够抽取出文本信息的文件格式。同时

１２

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

Ｌｕｃｅｎｔ能够索引存储在数据库中的数据，给予用户许多数据库都不能提供的全文检索功能。Ｌｕｃｅｎｔ提供了一些核心类用于在应用程序中增加索引和搜索功能。
３．１．１

Ｌｕｃｅｎｅ的详细结构分析

使用Ｌｕｃｅｎｔ提供的ＡＰＩ来做基础开发需要熟悉它的开发流程结构（如图３．２）

图３－２

Ｌｕｃａｎｅ的流程图
ｉｎＬｕｃｅｎａ

Ｆｉｇ．３－２ＦＩＯＷｃｈａｒｔ

Ｌｕｃｅｎｅ十分精练纯粹，仅一个ｊａｒ包，可以直接引用到工程中，通过调用其接口，就可以为应用增添全文检索功能。Ｌｕｃｃｎｅ使用起来很简单，与ＪＤＢＣ有些类似。Ｌｕｃｅｎｅ的结构很清晰，每个ｐａｃｋａｇｅ司职一项，且Ｌｕｃｃｎｅ的主要动作都采用了抽象类，扩展起来十分方便。相对于一些商业化全文检索，Ｌｕｃｃｎｅ的入库速度更快。因为它的存储采取分步合并的方法，先建立小索引，待时机成熟才把小索引合并到大索引树上。Ｌｕｃｅｎｔ性能稳定，使用简单。因此，我们在操作应用数据时可以同步进行全文检索库的操作而不会影响系统的效能。Ｌｕｃｅｎｅ的组成结构分析：对于外部应用来说索引模块（ｉｎｄｅｘ）和检索模块
（ｓｅａｒｃｈ）是主要的外部应用入口：
表３－１
Ｔａｂｅ３－１Ｌｕｃｅｎｅ

ＡＰＩ类包结构
ＵＣＯｌｌ０

ＳｔｒｕｃｔｕｒｅｏｆＩ

ＡＰＩ

成都理工大学硕十学位论文查询分析器存储结构底层ＩＯ／存储结构一些公用的数据结构

ｏｒｇ．ａｐａｃｈｅ．Ｌｕｃｅｎｅ．ｑｕｅｒｙＰａｒｓｅｄｏｒｇ．ａｐａｃｈｅ．Ｌｕｃｅｎｅ．ｄｏｃｕｍｅｎｔ／ｏｒｇ．ａｐａｃｈｅ．Ｌｕｃｅｎｅ．ｓｔｏｒｅ／

ｏｒｇ．ａｐａｃｈｅ．Ｌｕｃｅｎｅ．ｕｔｉｌ／

对文档进行索引，Ｌｕｃｅｎｅ提供了五个基础的类，他们分别是Ｄｏｃｕｍｅｍ，Ｆｉｅｌｄ，
ＩｎｄｅｘＷｒｉｔｅｒ，Ａｎａｌｙｚｅｒ，Ｄｉｒｅｃｔｏｒｙ。

Ｄｏｃｕｍｅｎｔ：描述文档，文档可以是ｈｔｍｌ，ｔＸｔ等等，它由Ｆｉｅｌｄ组成。可以把Ｄｏｃｕｍｅｎｔ看成记录，Ｆｉｅｌｄ看成字段．Ｆｉｅｌｄ：文档的属性，比如文档的标题。Ａｎａｌｙｚｅｒ：在一个文档被索引之前，首先需要对文档内容进行分词处理，这部分工作就是由Ａｎａｌｙｚｅｒ来完成的。Ａｎａｌｙｚｅｒ类是一个抽象类，它有多个实现。针对不同的语言和应用需要选择适合的Ａｎａｌｙｚｅｒ。Ａｎａｌｙｚｅｒ把分词后的内容交给ＩｎｄｅｘＷｒｉｔｅｒ来建立索引。ＩｎｄｅｘＷｒｉｔｅｒ：是Ｌｕｅｅｎｅ用来创建索引的一个核心的类，作用是把一个个的Ｄｏｃｕｍｅｎｔ对象加到索引中来。Ｄｉｒｅｃｔｏｒｙ：这是一个抽象类，它目前有两个实现，第一个是ＦＳＤｉｒｅｅｔｏｒｙ，它表示一个存储在文件系统中的索引的位置。第二个是ＲＡＭＤｉｒｅｃｔｏｒｙ，它表示一个存储在内存当中的索引的位置。下面主要介绍ｌｕｃｅｎｅ的各个文件包详细组成

１、ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｄｏｃｕｍｅｎｔ
以下介绍两种主要的类：

ａ）ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｄｏｃｕｍｅｎｔ．Ｄｏｃｕｍｅｎｔ：
Ｄｏｃｕｍｅｎｔ文档类似数据库中的一条记录，可以由好几个字段（Ｆｉｅｌｄ）组成，

并且字段可以套用不同的类型（详细见ｂ）。Ｄｏｃｕｍｅｎｔ的几种接口（表３—２）：

…超巳鱼
ｉｅｌｄｔｒｉｎｇｇｅｔ（Ｓｔｒｉｎｇ

ＴａｂＩｅ３－２Ｄｏｃｕｍｅｎｔ

｛——每连——
ｎｔｅｒｆａｃｅ

表３－２Ｄｏｃｕｍｅｎｔ接口

ｆｉｅｌｄ）一

ｎａｍｅ）一ｉｅｌｄｇｅｔＦｉｅｌｄ（Ｓｔｒｉｎｇｎａｎｌｅ）ｉｅｌｄ［】ｇｅｔＦｉｅｌｄｓ（Ｓｔｒｉｎｇ

琴加一，字段．塑ｉｅＩｄ）到Ｄｏｃｕｍｅｎｔ—８Ｐ— 队文档中获得＿个字壁塑空塑塞查
』由字段名获得字段值

ｎａ蔷了——码字段名获得字段值的藁

ｂ）ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｄｏｃｕｍｅｎｔ．Ｆｉｅｌｄ即上文所说的“字段”，它是Ｄｏｃｕｍｅｎｔ的片段ｓｅｃｔｉｏｎ。
１４

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

Ｆｉｅｌｄ的构造函数：Ｆｉｅｌｄ（ＳｔｒｉｎｇＢａｎｌｅ，Ｓｔｒｉｎｇｓｔｒｉｎｇ，ｂｏｏｌｅａｎ
８ｔ０１．ｅ，ｂｏｏｌｅａｎｉｎｄｅｘ，ｂｏｏｌｅａｎ

ｔｏｋｅｎ）。

Ｉｎｄｅｘｅｄ：如果字段是Ｉｎｄｅｘｅｄ的，表示这个字段是可检索的。Ｓｔｏｒｅｄ：如果字段是Ｓｔｏｒｅｄ的，表示这个字段的值可以从检索结果中得到。Ｔｏｋｅｎｉｚｅｄ：如果一个字段是Ｔｏｋｅｎｉｚｅｄ的，表示它是有经过Ａｎａｌｙｚｅｒ转变后成为一个ｔｏｋｅｎｓ序列，在这个转变过程ｔｏｋｅｎｉｚａｔｉｏｎ中，Ａｎａｌｙｚｅｒ提取出需要进行索引的文本，而剔除一些冗余的词句。Ｔｏｋｅｎ是索引时候的基本单元，代表一个被索引的词，例如一个英文单词，或者一个汉字。因此，所有包含中文的文本都必须是Ｔｏｋｅｎｉｚｅｄ的。
２、ｏｒｇ．ａｐａｃｈｅ．Ｌｕｅｅｎｅ．ｉｎｄｅｘ

以下介绍两种主要的类：ｏｒｇ．ａｐａｃｈｅ．Ｌｕｃｅｎｅ．ｉｎｄｅｘ．ｉｎｄｅｘＷｒｉｔｅｒ是将文档加入索引，同时控制索引过程
中的各种参数。ｏｒｇ．ａｐａｃｈｅ．Ｌｕｃｅｎｅ．ｉｎｄｅｘ．ｉｎｄｅｘＲｅａｄｅｒ删除索引中不要的文档

ＩｎｄｅｘＷｒｉｔｅｒ的构造函数有三种接口，针对目录Ｄｉｒｅｃｔｏｒｙ、文件Ｆｉｌｅ、文件路径Ｓｔｒｉｎｇ三种情况。
例如ＩｎｄｅｘＷｆｉｔｅＫＳｔｒｉｎｇｐａｔｈ，Ａｎａｌｙｚｅｒ
ａ’ｂｏｏｌｅａｎ

ｃｒｅａｔｅ），ｐａｔｈ为文件路径，ａ

为分析器，ｃｒｅａｔｅ标志是否重建索引（ｔｒｕｅ：建立或者覆盖己存在的索引，ｆａｌｓｅ：扩展已存在的索引。）
一些重要的方法：

表３－３Ｉｎｄｅｘ的函数
ＴａｂＩｅ３—３Ｉｎｄｅｘｆｕｎｃｔｉｏｎ

旦垄

！多莲

…ｔ（Ｄ…ｏｃｕｍｅ～ｎｔ旦盟
Ｉｎｄｅｘｅｓ（Ｄｉｒｅｃｔｏｒｙ［］ｄｉｒｓ）

鎏引添加二坌文档
蒋目录中已存在索引添加到这个索｝

！！！！堡！！！！！！！！！！！！！旦！！！！！！！！
ｐｔｉｍｉｚｅ

牌提偿！堡曼ｆ逐垫垩！整全塞！
并索引并优化闭

０

１０ｓｅ０

ＩｎｄｅｘＷｒｉｔｅｒ为了减少大量的１０维护操作，在每得到一定量的索引后建立新的小索引文件，然后再定期将它们整合到一个索引文件中，因此在索引结束时必须进行ｗｉｒｔｅｒ．ｏｐｔｉｍｉｚｅ０，以便将所有索引合并优化。
３、ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ａｎａｌｙｓｉｓ

Ａｎａｌｙｚｅｒ分析器主要工作是筛选，一段文档进来以后，经过它，出去的时候只剩下那些有用的部分，其他则剔除。而这个分析器也可以自己根据需要而编写。

成都理Ｔ大学硕士学何论文

ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ａｎａｌｙｓｉｓ．Ａｎａｌｙｚｅｒ：这是一个虚构类，以下两个接口均继承
它而来。

ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ａｎａｌｙｓｉｓ．ＳｉｍｐｌｅＡｎａｌｙｚｅｒ：分析器，支持最简单拉丁语言。ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ａｎａｌｙｓｉｓ．ｓｔａｎｄａｒｄ．ＳｔａｎｄａｒｄＡｎａｌｙｚｅｒ：标准分析器，除了拉丁语言还支持亚洲语言，并在一些匹配功能上进行完善。在这个接口中还有一个很
重要的构造函数：ＳｔａｎｄａｒｄＡｎａｌｙｚｅｒ（Ｓｔｒｉｎｇ［】ｓｔｏｐＷｏｒｄｓ），可以对分析器定义一些

使用词语，这不仅可以免除检索一些无用信息，而且还可以在检索中定义禁止的政治性、非法性的检索关键词。
４、ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｓｅａｒｃｈ

（１）ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｓｅａｒｃｈ．ｉｎｄｅｘＳｅａｒｃｈｅｒ是Ｌｕｃｅｎｅ中最基本的检索工具，所有的检索都会用到ＩｎｄｅｘＳｅａｒｃｈｅｒ检索工具，但是在使用ＩｎｄｅｘＳｅａｒｃｈｅｒ之前，还要做一些准备工作，即对检索工具ＩｎｄｅｘＳｅａｒｃｈｅｒ进行初始化。初始化ＩｎｄｅｘＳｅａｒｅｈｅｒ，需要设置索引存放的路径，这样才能让查询器定位索引，用于后面进行搜索。如下为一个实例化ＩｎｄｅｘＳｅａｒｃｈｅｒ的过程：
Ｓｅａｒｃｈｅｒｓｅａｒｃｈｅｒ＝ｎｅｗＩｎｄｅｘＳｅａｒｃｈｅｒ（ｉｎｄｅｘＤｉｒ）；

返回的结果是ＩｎｄｅｘＳｅａｒｃｈｅｒ类的一个实例，ｉｎｄｅｘＤｉｒ表示索引文件的存放路径。以下是ＩｎｄｅｘＳｅａｒｃｈｅｒ的所有构造函数：
ｐｕｂｌｉｃ

ＩｎｄｅｘＳｅａｒｃｈｅｒ（Ｓｔｒｉｎｇｐａｔｈ）ｔｈｒｏｗｓＩＯＥｘｃｅｐｔｉｏｎ｛

ｔｈｉｓ（ＩｎｄｅｘＲｅａｄｅｒ．ｏｐｅｎ（ｐａｔｈ），ｔｒｕｅ）；）
ｐｕｂｌｉｃ

ＩｎｄｅｘＳｅａｒｃｈｅｒ（Ｄｉｒｅｃｔｏｒｙｄｉｒｅｃｔｏｒｙ）ｔｈｒｏｗｓｌＯＥｘｃｅｐｔｉｏｎ｛

ｔｈｉｓ（ＩｎｄｅｘＲｅａｄｅｒ．ｏｐｅｎ（ｄｉｒｅｃｔｏｒｙ），ｔｒｕｅ）；｝
ｐｕｂｌｉｃ

ＩｎｄｅｘＳｅａｒｃｈｅｒ（ＩｎｄｅｘＲｅａｄｅｒｒ）｛

ｔｈｉｓ（ｒ，ｆａｌｓｅ）；｝
ｐｒｉｖａｔｅ

ＩｎｄｅｘＳｅａｒｃｈｅｒ（ＩｎｄｅｘＲｅａｄｅｒｒ，ｂｏｏｌｅａｎｃｌｏｓｅＲｅａｄｅｒ）｛

ｒｅａｄｅｒ＝ｒ：

ｔｈｉｓ．ｅｌｏｓｅＲｅａｄｅｒ＝ｅｌｏｓｅＲｅａｄｅｒ；

｝

可以看到，ＩｎｄｅｘＳｅａｒｃｈｅｒ一共提供了四种构造函数来初始化一个ＩｎｄｅｘＳｅａｒｃｈｅｒ对象。第一个方法最为简单，它直接使用了索引存放的路径作为参数来构造对象。第二种方式则是使用Ｄｉｒｅｃｔｏｒｙ类型的对象来构建ＩｎｄｅｘＳｅａｒｃｈｅｒ第三种是直接使用ＩｎｄｅｘＲｅａｄｅｒ来初始化一个ＩｎｄｅｘＳｅａｒｃｈｅｒ对象。第四种则是在第三种的基础上加了一个布尔型的开关，用于判断在关闭ｌｎｄｅｘＳｅａｒｃｈｅｒ时是否要关闭所带的ＩｎｄｅｘＲｅａｄｅｒ对象。可以看出，实际上，无论传入的参数类型是什么，ＩｎｄｅｘＳｅａｒｃｈｅｒ最终都还是使用ＩｎｄｅｘＲｅａｄｅｒ来做为实际的索引目录读取器。前三种构造函数均

６

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

首先根据传入的参数生成一个ＩｎｄｅｘＲｅａｄｅｒ对象，然后调用了第四种构造方法来完成ｋｎｄｅｘＳｅａｒｃｈｅｒ的初始化工作。（２）ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｓｅａｒｃｈ．ｑｕｅｒｙ只是Ｌｕｃｅｎｅ的ｓｅａｒｃｈ包中的一个抽象类，这个抽象类有许多子类，代表了不同类型的检索。如常见的ＴｅｒｍＱｕｅｒｙ就是将一个简单的关键字进行封装后的对象，类似的还有ＢｏｏｌｅａｎＱｕｅｒｙ，即布尔型的查找。搜索流程中的第二步就是构建一个Ｑｕｅｒｙ。Ｑｕｅｒｙ的中文意义就是“查询”。在Ｌｕｃｅｎｅ中，它是一个很重要的概念，就是指对于需要查询的字段采用什么样的方式进行查询，如模糊查询、语义查询、短语查询、范围查询、组合查询等。正是因为Ｑｕｅｒｙ的存在，Ｌｕｃｅｎｅ才有了非常丰富的查询语言。在使用Ｑｕｅｒｙ之前，需要首先生成一个Ｑｕｅｒｙ对象。Ｌｕｃｅｎｅ既允许直接生成一个Ｑｕｅｒｙ类型的对象，也允许使用ＱｕｅｒｙＰａｒｓｅｒ类的ｐａｒｓｅ０方法来返回一个Ｑｕｅｒｙ类型的对象。这两种方法在功能上是完全一样的，只是后者在使用时更方便一些，而前者则更为灵活．当用户输入一个关键字，搜索引擎接收到后，并不是立刻就将它放入后台开始进行关键字的检索，而应当首先对这个关键字进行一定的分析和处理，使之成为一种后台可以理解的形式，只有这样，才能提高检索的效率，同时检索出更加有效的结果。那么，在Ｌｕｃｅｎｅ中，这种处理，其实就是构建一个Ｑｕｅｒｙ对象。ＩｎｄｅｘＳｅａｒｃｈｅｒ对象的ｓｅａｒｃｈ方法中总是需要一个Ｑｕｅｒｙ对象（或是Ｑｕｅｒｙ子类的对象），下面来介绍各种Ｑｕｅｒｙ类。

按词条搜索－－ＴｅｒｍＱｕｅｒｙ
“与或”搜索－－ＢｏｏｌｅａｎＱｕｅｒｙ在某一范围内搜索—＿ＲａｎｇｅＱｕｅｒｙ使用前缀搜索－－ｌ＇ｒｅｆｉｘＱｕｅｒｙ多关键字的搜索－－ＰｈｒａｓｅＱｕｅｒｙ使用短语缀搜索－－ＰｈｒａｓｅＰｒｅｆｉｘＱｕｅｒｙ相近词语的搜索－－ＦｕｚｚｙＱｕｅｒｙ使用通配符搜索－－ＷｉｌｄｃａｒｄＱｕｅｒｙＴｅｒｍＱｕｅｒｙ是最简单、也是最常用的Ｑｕｅｒｙ。ＴｅｒｒｎＱｕｅｒｙ可以理解成为“词条搜索”，在搜索引擎中最基本的搜索就是在索引中搜索某一词条，而ＴｅｒｍＱｕｅｒｙ就是用来完成这项工作的。在Ｌｕｃｅｎｅ中词条是最基本的搜索单位，从本质上来讲一个词条其实就是一个名／值对。只不过这个“名”是字段名，而“值”则表示字段中所包含的某个关键字。要使用ＴｅｒｍＱｕｅｒｙ进行搜索首先需要构造一个Ｔｅｒｍ对象，示例代码如下：

１７

成都理工大学硕十学位论文

ＴｅｒｍａＴｅｒｍ。ｎｅｗ

Ｔｅｒｍ（”ｃｏｎｔｅｎｔｓ”，。３ａｖａ”）；

然后使用ａＴｅｒｍ对象为参数来构造一个ＴｅｒｍＱｕｅｒｙ对象，代码设置如下：
Ｑｕｅｒｙｑｕｅｒｙ＝ｎｅｗＴｅｒｍＱｕｅｒｙ（ａＴｅｒｍ）；

这样所有在“ｃｏｎｔｅｎｔｓ”字段中包含有“ｊａｖａ”的文档都会在使用ＴｅｒｍＱｕｅｒｙ进行查询时作为符合查询条件的结果返回。（３）ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｓｅａｒｃｈ．ｈｉｔｓ是搜索结果的集合类，搜索并处理返回结果。在构建完Ｑｕｅｒｙ对象后，就可以使用前面已经初始化好的ＩｎｄｅｘＳｅａｒｃｈｅｒ工具来进行检索了。ＩｎｄｅｘＳｅａｒｃｈｅｒ提供了良好的检索接１３，用户只需简单地将Ｑｕｅｒｙ对象传入，就可以得到一个返回结果。当然，这个过程看似简单，其中也有许多值得思考的问题，如检索结果的排序、过滤等。在搜索完成之后，就需要把搜索结果返回并显示给用户，只有这样才算是完成了搜索的任务。在Ｌｕｃｅｎｅ中搜索结果的集合是用Ｈｉｔｓ类的实例来进行表示的。所有的ｓｅａｒｃｈ方法都返回一个类型为Ｈｉ协的对象。Ｈｉｔｓ对象中主要有以下几个经常使用的方法。ｌｅｎｇｔｈＯ：返回搜索到结果的总数量。
ｄｏｃ（ｉｎｔｎ）：返回第ｎ个文档。ｉｄ（ｉｎｔｎ）：返回第ｎ个文档的内部ＩＤ号。

ｓｃｏｒｅ（ｎ）：返回第ｎ个文档的得分。其中，ｌｅｎｇｔｈ（）方法和ｄｏｃ（ｉｎｔｎ）方法共同使用，就可以遍历结果集中的所有文档记录。不过有一点值得注意，如果一个结果集含有１０００００条记录，而Ｈｉｔｓ对象一次性就把检索结果全部返回，那么这个Ｈｉ协对象的结果就会大不一样。它并不是一次性将所有的结果返回，而是采取一种懒惰的方式来加载返回结果，即当用户将要访问某个文档的时候，Ｈｉｔｓ对象在内部对Ｌｕｃｅｎｅ的索引又进行了一次检索，才将这个最新的结果返回给用户。３．１．２评分机制评分其实是搜索引擎中很重要的概念，通常情况下，当用户输入一个关键字，搜索引擎接收到信息后即可开始进行搜索。对于检索到的结果，需要按一定的顺序返回给用户。因此需要引入一种机制来对检索结果进行排序，以便更加合理的将结果返回给用户ＢＯｌ。评分机制就是对检索结果按照某种标准进行评估，然后按分值的高低来对结果进行排序。同时，对于一个商用的搜索引擎，评分机制是其收入来源的主要部分，例如某公司向搜索引擎交纳一定的费用，该搜索引擎将其搜索结果中关于该公司的信息部分权值加大，以便在返回结果给用户时让该公司获得更加靠前的位
１Ｓ

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

置，这种做法增加了用户浏览该公司网页和产品的机会，无形之中给该公司带来了更大的社会影响和潜在的商机。因此，采用何种评分机制，从各方面来说都是
非常重要的。

Ｌｕｃｅｎｅ的对各文档的得分是在用户进行检索时实时计算出来的，如果在建立索引时就已经给每个文档的得分计算好，那么当用户输入任何关键字时，得分最高的文档都会被排在返回结果的最前面，这显然不合理。因此所有文档的得分应当都与用户输入的关键字有关系，而且是实时运算的结果。

芝：矿（ｆ
ｔ／ｎ窖

ｉｎ

ｄ）＋ｉｄｆ（ｔ）４ｂｏｏｓｔ（ｔ．ｆｉｅｌｄ

ｉｎ

ｄ）＋ｌｅｎｇｔｈＮｏｒｍ（ｔ．ｆｉｅｌｄ

ｉｎ

ｄ）

通过这个评分公式得到的只是原始的得分，但由Ｈｉｔｓ对象返回的关于某一文档的评分却不一定是其原始的得分。因为，评分最高的文档的得分如果超过了１．０，那么接下来的所有评分都会以这个评分为标准进行计算，因此所有Ｈｉｔｓ对象的得分都只能小于或等于１．０。

表３－４评分公式中的因子说明
Ｔａｂｌｅ３－４Ｉｎｔｒｏｄｕｃｔｉｏｎｏｆｔｈｅ
ｓｃｏｒｅ

ｆｏｒｍｕｌａ

因素
ｔｆ（ｔｉｎｄ）

在公式中的作用描述

词条ｔ在文档ｄ中出现的次数，查询关键词出现的频
率越高，文档的得分就越高

ｉｄｆ（ｔ）

词条ｔ在文档中的倒排词频，．这个函数表示的是ｔ在
所有文档中一共在多少个文档中出现过。因为文档出现的次数越少就越容易定位，所以文档数越少，得分就越高

ｂｏｏｓｔ（ｔ．ｆｉｅｌｄ

ｉｎ

ｄ）
ｉｎ

在索引过程中设置的文字字段参数ｄ）

ｌｅｎｇｔｈＮｏｒｍ（ｔ．ｆｉｅｌｄ

字段的标准化值，表明在字段中存储了多少词条，这个数值是在索引过程中计算出来的，并且也存
储在索引中

ｃｏｏｒｄ（ｑ，ｄ）

协调因子，它的计算是基于文档ｄ中所包含的所有可供查询的词条数量，查询词ｑ在在文档ｄ中
命中的个数越多，则该因子也就越大这个函数是一个调节因子，不影响具体的排序情况。主
要是用来让排序结果在不同的查询条件之问可以比较

ｑｕｅｒｙＮｏｒｍ（ｑ）

在公式中加入加权因子（ｂｏｏｓｔｆａｃｔｏｒ），可有效地对某个查询或某一域给评分带来的影响施加控制。Ｌｕｃｅｎｅ在索引时，显式地通过ｂｏｏｓｔ（ｔ．ｆｉｅｌｄ
ｉｎｄ）来设置

某个域的加权因子。该加权因子的默认值为１．０。在索引期间，也可以为Ｄｏｃｕｍｅｎｔ对象设置加权因子。它隐式地把该文档中所有域的初始加权因子都设置为指定

１９

成都理工大学硕士学位论文

值。特定域的加权因子是初始加权因子的倍数，经过一定处理后才最终得出该域加权因子的值。在索引过程中，有可能多次将同一域添加到同一个文档中，在这种情况下，该域的加权因子就等于该域在这个文档的所有加权因子之和。在这个公式中除了一些明确的因子外，其他一部分作为查询标准（ｑｕｅｒｙＮｏｒｍ）的因子可以在每次查询的基础上计算出来。Ｑｕｅｒｙ对象本身对匹配文档的评分也会产生一定的影响。加权处理某一Ｑｕｅｒｙ对象仅在应用程序执行多重子旬的查询时比较有效；如果只搜索单个项，加权处理该项相当于同时对所有匹配该项的文档都进行了相同比例的加权。在多重子句的布尔查询中，一些文档可能只匹配其中的一个子句，使用不同的加权因子可以用来区分不同的查询条件。Ｑｕｅｒｙ对象
加权因子的值也默认为１．０。

在这个评分公式中，对绝大多数因子的控制都是通过Ｓｉｍｉｌａｒｉｔｙ实例来实现的。如果不另外指定，在默认的情况下Ｌｕｃｅｎｅ会用ＤｅｆａｕｌｔＳｉｍｉｌａｒｉｔｙ来实现Ｓｉｍｉｌａｒｉｔｙ类。此外，ＤｅｆａｕｌｔＳｉｍｉｌａｒｉｔｙ类还负责处理评分中更多的计算过程，例如，项频率（ｔｅｒｍ丘ｅｑｕｅｎｅｙ）因子就是实际频率的平方根。索引过程中改变加权因子或使用了Ｓｉｍｉｌａｒｉｔｙ类的方法后，为了同时协调所有的相关因子，应用程序需要对索引进行重建。Ｌｕｃｅｎｅ的搜索结果默认按相关度排序，这个相关度排序是基于内部的Ｓｃｏｒｅ
和ＤｏｃｌＤ，Ｓｃｏｒｅ又基于关键词的内部评分和做索引时的ｂｏｏｓｔ。默认Ｓｃｏｒｅ高

的排前面，，如果Ｓｃｏｒｅ一样，再按索引顺序，先索引的排前面。那么如果要先索引的排后面，只要构造一个ＳｏｒｔＦｉｅｌｄ［］就可以实现该功能／／评分降序，评分一样时后索引的排前面
ｎｅｗ

ＳｏｒｔＦｉｅｌｄ［］｛ＳｏｒｔＦｉｅｌｄ．ＦＩＥＬＤ

ＳＣＯＲＥ，ｆｌｅｗ

ＳｏｒｔＦｉｅｌｄ（ｎｕｌｌ，ＳｏｒｔＦｉｅｌｄ．ＤＯＣ，ｔｒｕｅ）｝

∥评分升序，评分一样时后索引的排前面，此为最不相关的排前面
ｎｅｗ

ＳｏｒｔＦｉｅｌｄ［］｛ｎｅｗＳｏｒｔＦｉｅｌｄ（ｎｕｌｌ，ＳｏｒｔＦｉｅｌｄ．ＳＣＯＲＥ，ｔｒｕｅ），ｎｅｗＳｏｒｔＦｉｅｌｄ（ｎｕｌｌ，ＳｏｒｔＦｉｅｌｄ．ＤＯＣ，

ｔｒｕｅ））

Ｌｕｃｅｎｅ中的相似度排序主要是在ｏｒｇ．ａｐａｃｈｅ．１ｕｃｅｎｅ．ｓｅａｒｃｈ包下的Ｓｉｍｉｌａｒｉｔｙ类中定义的，Ｓｉｍｉｌａｒｉｔｙ是一个抽象类，默认的相似度排序算法是在ＤｅｆａｕｌｔＳｉｍｉｌａｒｉｔｙ类中实现。除了内置的得分算法外，Ｌｕｃｅｎｅ还提供了一种方法来改变每个文档的得分。初始化Ｄｏｃｕｍｅｎｔ后，使用了Ｄｏｃｕｍｅｎｔ的ｓｅｔＢｏｏｓｔ方法来改变一下文档的ｂｏｏｓｔ因子。这种做法的实际目的是将文档的得分乘以这个因子，以这个新的数作为文档的得分。

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

３．１．３倒排索；

倒排文件就是把文档到词的关系倒排成词到文档的关系。倒排文件机制是一种面向单词的索引机制，利用它可以提高网络检索速度。倒排文件结构由词汇和出现情况两部分组成。对于每个单词，都有一个列表（称为词汇列表）来记录单词在所有文本中出现的位置，这些位置可以是单词的位置（是文本中的第几个单词）也可以是字符的位置（是文本中的第几个字符）。在倒排索引中，词汇表对空间的需求相对较小。倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每～项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。索引文件为了使得以项为基础的搜索更加有效而储存有所有项的统计数字。Ｌｕｅｅｎｅ的索引使用的就是倒排索引的索引方式，这是因为，这种索引方式是从特定的关键字可以列出所有包含它的文档，与通常方式的由文档列出所有关键字正好是反过来的。Ｌｕｃｅｎｅ是一个高性能的ｊａｖａ全文检索工具包，它使用的是倒排文件索引结构。该结构及相应的生成算法如下：设有两篇文章１和２文章１的内容为：ＲｕｉｆｉｖｅｓｉｎＢｅＯｈａｇ，ＩｌｉｖｅｉｎＢｅｒｉｎｇｔｏｏ．
文章２的内容为：Ｉ
ｏｎｃｅ

ｌｉｖｅｄｉｎＳｈａｎｇｈａｉ．

１油于ｌｕｃｅｎｅ是基于关键词索引和查询的，首先我们要取得这两篇文章的关
键词，通常我们需要如下处理措施

ａ．我们现在有的是文章内容，即一个字符串，我们先要找出字符串中的所有单词，即分词。英文单词由于用空格分隔，比较好处理。中文单词间是连在一起的需要特殊的分词处理。ｂ．文章中的“ｉｎ＇’，‘＇ｏｎｃｅ…＇ｔｏｏ”等词没有什么实际意义，中文中的“的“是”等字通常也无具体含义，这些不代表概念的词可以过滤掉ｃ用户通常希望查“Ｈｖｅ＇’时能把含“ｌｉｖｅｓ”，“ｌｉｖｅｄ＇’的文章也找出来，所以需要把“ｌｉｖｅｓ＇’，“ｌｉｖｅｄ”还原成“ｌｉｖＣ’ ｄ．文章中的标点符号通常不表示某种概念，也可以过滤掉在ｌｕｃｅｎｅ中以上措施由Ａｎａｌｙｚｅｒ类完成经过上面处理后文章１的所有关键词为：［Ｒｕｉ】【ｌｉｖｅ］【Ｂｅｉｊｉｎｇ］【ｌｉｖｅ】【Ｂｅｒｉｎｇ］文章２的所有关键词为：【Ｉ】［１ｉｖｅ】【ｓｈａｎｇｈａｉ】

２ｌ

成都理Ｔ大学硕士学位论文

２）有了关键词后，我们就可以建立倒排索引了。上面的对应关系是：“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来，变成：“关键词”对“拥有该关键词的所有文章号”。文章１，２经过倒排后变成
关键词文章号Ｂｅｉｊｉｎｇ
ｉｌ．２ｌｉｖｅｌ，２ｓｈａｎｇｈａｉ２Ｒｕｉ１１

通常仅知道关键词在哪些文章中出现还不够，我们还需要知道关键词在文章中出现次数和出现的位置，通常有两种位置：ａ）字符位置，即记录该词是文章中第几个字符。ｂ）关键词位置，即记录该词是文章中第几个关键词（优点是节约索引空间、词组查询快），ｌｕｃｅｎｅ中记录的就是这种位置。加上“出现频率”和“出现位置”信息后，我们的索引结构变为：关键词文章号【出现频率】出现位置
Ｂｅｉｊｉｎｇ１１２】３，６

ｉ１【ｌ】，２［１】４，１
ｌｉｖｅ

１１２］，２１１】２，５，２２１１】３

ｓｈａｎｇｈａｉＲｕｉ

１［１】１

以ｌｉｖｅ这行为例我们说明一下该结构：ｌｉｖｅ在文章１中出现了２次，那么“２，５” 就表示ｌｉｖｅ在文章１中出现的两个位置，文章２中出现了一次，剩下的‘‘２”就表示ｌｉｖｅ是文章２中第２个关键字。以上就是ｌｕｅｅｎｅ索引结构中最核心的部分。我们注意到关键字是按字符顺序排列的，因此ｌｕｃｅｎｅ可以用二元搜索算法快速定位关键词。实现时ｌｕｃｅｎｅ将上面三列分别作为词典文件、频率文件、位置文件保存。其中词典文件不仅保存有每个关键词，还保留了指向频率文件和位置文件的指针，通过指针可以找到该关键字的频率信息和位置信息。Ｌｕｃｅｎｅ中使用了ｆｉｅｌｄ的概念，用于表达信息所在位冕（如标题中，文章中，ｕｄ中），在建索引中，该ｆｉｅｌｄ信息也记录在词典文件中，每个关键词都有一个ｆｉｅｌｄ信息（因为每个关键字一定属于一个或多个ｆｉｅｌｄ）。为了减小索引文件的大小，Ｌｕｅｅｎｅ对索引还使用了压缩技术。首先，对词典文件中的关键词进行了压缩，关键词压缩为＜前缀长度，后缀＞，例如：当前

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

词为“阿拉伯语”，上一个词为“阿拉伯”，那么“阿拉伯语”压缩为岛，语＞。其次，大量用到的是对数字的压缩，数字只保存与上一个值的差值（这样可以减小数字的长度，进而减少保存该数字需要的字节数）。例如当前文章号是１６３８９（不压缩要用３个字节保存），上一文章号是１６３８２，压缩后保存７（只用一个字节）。下面我们可以通过对该索引的查询来解释一下为什么要建立索引。假设要查询单词“ｌｉｖｅ＇’，ｌｎｃｅｎｅ先对词典二元查找、找到该词，通过指向频率文件的指针读出所有文章号，然后返回结果。词典通常非常小，因而，整个过程的时间是毫秒级的。如果用普通的顺序匹配算法，不建索引，而是对所有文章的内容进行字符串匹配，这个过程将会相当缓慢，当文章数目很大时，时间往往是无法忍受的。下面是倒排索引构造基本算法描述：１．产初始化＋，
Ｃｒｅａｔｅａｎｅｍｐｔｙｄｉｃｔｉｏｎａｒｙ
ｓｔｒｕｃｔｕｒｅＳ．

２．产搜集文档中的所有项?／
Ｆｏｒｅａｃｈｄｏｃｕｍｅｎｔ

Ｄ１Ｉｎｔｈｅｃｏｌｌｅｃｔｉｏｎ，１≤ｉ≤Ｎ，
ｉｔｉｎｔｏｉｎｄｅｘｔｅｒｍｓ

１）Ｒｅａｄ口，ｐａｒｓｉｎｇ

２）Ｆｏｒｅａｃｈｉｎｄｅｘｔｅｒｍｔ∈Ｄｊ，
ｉ．Ｌｅｔ

Ｅ．１

ｂｅｔｈｅ丘ｅｑｕｅｎｃｙｉｎ

ｑ

ｏｆｔ．

ｉｉ．ＳｅａｒｃｈＳｆｏｒｔ．ｉｉｉ．ＩｆｔｉｓｎｏｔｉｎＳ．ｉｎｓｅｒｔｔ
ｉｖ．Ａｐｐｅｎｄ３．
ａ

ｎｏｄｅ

ｓｔｏｒｉｎｇ＜ｉ，只．ｆ＞ｔｏ

ｔｈｅｌｉｓｔｃｏｒｒｅｓｐｏｎｄｉｎｇｔｏｔｅｒｍｔ．

严倒排文件得输出?／
ｗｏｒｄ）

Ｆｏｒｅａｃｈｔｅｒｍ１≤ｔ≤ｎｆｎｉｓｔｈｅｎｕｍｂｅｒｏｆｄｉｓｔｉｎｃｔ

（１）Ｓｔａｒｔ

ａ

ｎｅｗｉｎｖｅｒｔｅｄｆｉｌｅｅｎｔｒｙ．ｌｉｓｔｃｏｒｒｅｓｐｏｎｄｉｎｇｔｏｔ，ａｐｐｅｎｄ＜ｉ，Ｅ，ｌ＞ｔｏｔｈｉｓ

（２）Ｆｏｒｅａｃｈ＜ｉ，Ｅ．ｆ＞ｉｎｔｈｅ
ｉｎｖｅｒｔｅｄｆｉｌｅｅｎｔｒｙ．

（３）Ｉｆｒｅｑｕｉｒｅｄ，ｃｏｍｐｒｅｓｓｔｈｅｉｎｖｅｒｔｅｄ（４）Ａｐｐｅｎｄｔｈｉｓｉｎｖｅｒｔｅｄ

ｆｉｌｅｅｎｔｒｙ．

ｆｉｌｅｅｎｔｒｙｔｏｔｈｅｉｎｖｅｒｔｅｄｆｉｌｅ．

３．２

Ｌｕｃｅｎｅ的设计原理和特色
Ｌｕｃｅｎｅ的ＡＰＩ接口设计的比较通用，输入输出结构都很像数据库的表＝＞记

录＿＞字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到

成都理工大学硕士学位论文

Ｌｕｃｅｎｅ的存储结构／接口中。总体上看：可以先把Ｌｕｃｅｎｅ当成一个支持全文索弓的数据库系统。比较一下Ｌｕｃｅｎｅ和数据库：

表３－５Ｌｕｃｅｎｅ数据库和普通关系数据库结构的对比
ＴａｂＩｅ３－５ＣｏｎｔｒａｓｔＬｕｃｅｎｅｂｅｔｗｅｅｎＩ
ｕｃｅｎｅ

ＤＢａｎｄ

ｃｏｍｍｏｎ

ＤＢ

数据库数据源：ｒｅｃｏｒｄ（ｆｉｅｌｄｌ，ｆｉｅｌｄ２…）ｒｅｃｏｒｄ（ｆｉｅｌｄＩ．．）、ＳＱＬ：ｉｎｓｅｒｔ／ＩＤＢ
Ｉｎｄｅｘ

数据源：ｄｏｅ（ｆｉｅｌｄｌ，ｆｉｅｌｄ２…）ｄｏｃ（ｆｉｅｌｄｌ，ｆｉｅｌｄ２…］
、ｉｎｄｅｘｅｒ／

Ｌｕｃｅｎｅ

Ｉｎｄｅｘｌ

／ｓｅａｒｃｈｅｒ、

／ＳＱＬ：ｓｅｌｅｃｔ、结果：ｒｅｓｕｌｔｓ（ｒｅｃｏｒｄ（ｆｉｅｌｄｌ，ｆｉｅｌｄ２。）ｒｅｃｏｒｄ（ｆｉｅｌｄｌ…））Ｒｅｃｏｒｄ：记录，包含多个字段Ｆｉｅｌｄ：字段

结果：Ｈｉｔｓ（ｄｏｃ（ｆｌｅｌｄｌ，ｆｉｅｌｄ２）ｄｏｃ（ｆｉｅｌｄｌ…））Ｄｏｃｕｍｅｎｔ：一个需要进行索引的“单元” 一个Ｄｏｃｕｍｅｎｔ由多个字段组成Ｆｉｅｌｄ：字段

Ｈｉｔｓ：查询结果集，由匹配的Ｄｏｃｕｍｅｎｔ组成ＲｅｃｏｒｄＳｅｔ：查询结果集，由多个Ｒｅｃｏｒｄ组成

全文检索≠ｌｉｋｅ”％ｋｅｙｗｏｒｄ％”

通常比较厚的书籍后面常常附关键词索引表，它能够帮助读者比较快地找到相关内容的页码。索引之所以效率高，另外一个原因是它是排好序的。对于检索系统来说核心是一个排序问题。由于数据库索引不是为全文索引设计的，因此，使用ｌｉｋｅ”％ｋｅｙｗｏｒｄ％”时，数据库索引是不起作用的，在使用ｌｉｋｅ查询时，搜索过程又变成类似于一页页翻书的遍历过程了，所以对于含有模糊查询的数据库服务来说，ＬＩＫＥ对性能的危害是极大的。如果是需要对多个关键词进行模糊匹配：ｌｉｋｅ”％ｋｅｙｗｏｒｄｌ％”ａｎｄ
”％ｋｅｙｗｏｒｄ２％”…其效率也就可想而知了。
ｌｉｋｅ

所以建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制，将数据源排序按顺序存储的同时，有另外一个排好序的关键词列表，用于存储关键词＝＞文章映射关系，利用这样的映射关系索引：【关键词＝＞出现关键词的文章编号，出现次数（甚至包括位置：起始偏移量，结束偏移量），出现频率１，检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程。从而大大提高了多关键词查询的效率，所以，全文检索问题归结到最后是一个排序问题。由此可以看出模糊查询相对数据库的精确查询是一个非常不确定的问题，这也是大部分数据库对全文检索支持有限的原因。Ｌｕｃｅｎｅ最核心的特征

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

是通过特殊的索引结构实现了传统数据库不擅长的全文索引机制，并提供了扩展接口，以方便针对不同应用的定制。可以通过表格对比数据库的模糊查询：
表３－６Ｌｕｃｅｎｅ全文索引和普通数据库索引对比
ＴａｂＩｅ３－６ＣｏｎｔｒａｓｔｂｅｔｗｅｅｎＩｕｃｅｆｌｅｆｕＩＩｊｎｄｅｘａｎｄｃｏｍｍｏｎｉｎｄｅｘ

Ｌｕｃｅｎｅ全文索引引擎索引将数据源中的数据都通过全文索引一一建立反向索引

数据库对于ＬＩＫＥ查询来说，数据传统的索引是根本用不上的。数据需要逐个便利记录进行ＧＲＥＰ式的模糊匹配，比有索引的搜索速度要有多个数量级的下降。

匹配效果

通过词元（ｔｅｒｍ）进行匹配。通过

使用：ｌｉｋｅ’％ｎｅｔ％’会把ｎｅｔｈｅｒｌａｎｄｓ也匹配出来。

语言分析接口的实现，可以实现
对中文等非英语的支持。

多关键词的模糊匹配，不能匹配词序颠倒的
没有匹配程度的控制：比如有记录中ｎｅｔ出现５词和出现１次的，结果是一样的。

匹配度结果输出

有匹配度算法，将匹配程度（相
似度）比较高的结果排在前面。

通过特别的算法，将最匹配度最高的头１００条结果输出，结果集
是缓冲式的小批量读取的。通过不同的语言分析接口实现，可以方便的定制出符合应用需要的索引规则（包括对中文的支持）

返同所有的结果集，在匹配条目非常多的时
候需要大量的内存存放这些临时结果集

可定制性

没有接口或接口复杂。无法定制

结论

高负载的模糊查询应用，需要负

责的模糊查询的规则，索引的资
料量比较大

使用率低，模糊匹配规则简单或者需要模糊查询的资料量少

全文检索和数据库应用最大的不同在于：让最相关的头１００条结果满足９８％以上用户的需求Ｌｕｃｅｎｅ的创新之处：大部分的搜索（数据库）引擎都是用Ｂ树结构来维护索引，索引的更新会导致大量的ＩＯ操作，Ｌｕｃｅｎｅ在实现中，对此稍微有所改进：不是维护一个索引文件，而是在扩展索引的时候不断创建新的索引文件，然后定期的把这些新的小索引文件合并到原先的大索引中，这样在不影响检索的效率的前提下，提高了索引的效率１２］。
表３—７
Ｔａｂｌｅ３－７

Ｌｕｃｅｎｅ和其他全文检索系统创新对比：
Ｃｏｎｔｒａｓｔ
ｂｅｔｗｅｅｎＩｕｃｅｎｅａｎｄｏｔｈｅｒｓｅａｒｃｈ
ｓｙｓｔｅｍ

Ｌｕｃｅｎｅ

Ｉ其他开源全文检索系统

量索引和批量阿以进行增量的索引（Ａｐｐｅｎｄ），可以对于大量数据Ｉ很多系统只支持批量索
索引

隧行批量索引，并且接口设计用于优化批量索引和ｆ引，数据源增加需要重

成都理一ｒ大学硕十学位论文小批量的增量索引。建索引。

Ｌｕｃｅｎｅ没有定义具体的数据源，而是一个文档的结很多系统只针对网页，数据源构，因此可以非常灵活的适应各种应用（只要前端缺乏其他格式文档的灵有合适的转换器把数据源转换成相应结构）Ｌｕｅｅｎｅ的文档是由多个字段组成的，甚至可以控制那些字段需要进行索引，那些字段不需要索引，索活性。

索引内容抓取引的字段也分为需要分词和不需要分词的类型：
需要进行分词的索引，比如：标题，文章内容不需要进行分词的索引，比如：作者／日期

缺乏通用性，往往将文档整个索引了

通过语言分析器的不同扩展实现：可以过滤掉不需
要的词：ａｎ语言分析
ｔｈｅ

ｏｆ等

西文语法分析：将ｊｕｍｐｓｊｕｒａｐｅｄｊｕｍｐｅｒ都归结成ｊｕｍｐ进行索７１／检索非英文支持：对亚洲语言，阿拉伯语言的索引支持

缺乏通用接口实现

查询分析

通过查询分析接口实现，可以定制查询语法规则：

Ｌｕｃｅｎｅ的另外一个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了。这也是和数据库应用需要将搜索的结果全部返回不同之处。

３．３增强用户体验的Ａｊａｘ技术
Ａｊａｘ是Ａｓｙｎｃｈｒｏｎｏｕｓ
ＪａｖａＳｃｒｉｐｔａｎｄ

ＸＭＬ的简写。Ａｊａｘ并不是一门新的语

言或技术，它实际上是几项技术按一定的方式组合在一起，并在共同的协作中发挥各自的作用，它包括：使用ＸＨＴＭＬ和ＣＳＳ标准化呈现：使用ＤＯＭ实现动态显示和交互：使用）【１ⅥＬ和ｘＳＬＴ进行数据交换与处理；使用ＸＭＬＨｔｔｐＲｅｑｕｅｓｔ进行异步数据读取；最后用ＪａｖａＳｃｒｉｐｔ绑定和处理所有数据；Ａｊａｘ是基于服务器技术的不确定性，独立于服务器语言的一门技术。所有
的开发人员都能使用并且一起讨论相同的表现层。

Ａｊａｘ的核心在于对Ｉｎｔｅｍｅｔ默认的请求／响应模式进行了修改，修改后框架基本的流程是：对象初始化专发送请求专服务器接收÷服务器返回专客户端接收专修改客户端页面内容。只不过这个过程是异步的，中间加入了一个Ａｊａｘ中『自Ｊ层。Ｗｅｂ应用开发人员现在可以自由的与服务器异步交互，这使得许多以前原本只能在胖客户端上完成的任务很完美的表现在客户端了。比如在客户端能够快速的验证表单输入的正确性。正是Ａｊａｘ的提出消除了胖客户（或桌面）应
用与瘦客户（或Ｗｅｂ）应用之间的界限。

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

由于ＡｊａＸ的使用使得系统响应和页面加载更加流畅，使得ｗｅｂ的工作性能接近桌面客户端软件。Ａｊａｘ使、№ｂ中的界面与应用分离（也可以说是数据与呈现分离），有利于分工合作、减少非技术人员对页面的修改造成的Ｗｅｂ应用程序错误、提高效率、也更加适用于现在的发布系统。也可以把以前的一些服务器负担的工作转嫁到客户端，充分利用客户端闲置的处理能力来处理。Ａｊａｘ数据跨过线路而不是整个页面传输。这种数据交换是经由特定的浏览器对象ＸＭＬＨｔｔｐＲｃｑｕｅｓｔ（ＸＨＲ）实现的；再由适当的逻辑来处理每个数据请求的结果，页面的某个特定区域而不是完整的页面被更新。从而达到更快的速度，更少的拥挤和更好的信息传送控制。使用ＸＨＲ对象与服务器进行异步通信，这样就能创建更加动态的Ｗｅｂ应用。例如，假设有一个下拉列表，这个列表是根据另外一个域或下拉列表的输入来填写的。正常情况下，必须在加载第一个页面时把所有数据都发送给客户，然后使用ＪａｖａＳｃｒｉｐｔ根据输入来填写下拉列表。这么做会让页面变得很臃肿，使下拉列表不再“动态”，页面很可能膨胀得过大，达不到预期的效果。利用Ａｊａｘ的话，当作为触发源的域有变化，或者失去了输入焦点，就可以向服务器做一个简单的请求，只要求得到更新下拉列表所需的部分信息。在ｗｅｂ应用中我们的最终目的是接收服务器的返回信息，修改当前文档的内容。在客户端采用Ａｊ８．Ｘ技术来更新文档，以及处理服务器返回的ＸＭＬ文档。能够更加快捷方便的完成我们的文档更新。文档对象模型（ＤＯＭ）是表示文档（比如ＨＴＭＬ和Ⅺｖ儿）和访问、操作构成文档的各种元素的应用程序接１２１（ＡＰＩ）。一般的，支持Ｊａｖａｓｅｒｉｐｔ的所有浏览器都支持ＤＯＭ。它是Ｗ３Ｃ定义的标准的文档对象模型，以树形结构表示ＨＴＭＬ和ＸＭＬ文档，定义了遍历这个树和检查、修改树的节点的方法和属性。Ｗｅｂ站点正在证明Ａｊａ）【的有效性、稳定性，并且使Ｗｅｂ看起来更像是一个桌面应用程序：即真正意义的ｗｅｂ开发。Ａｊａｘ特殊之处在于它可以使用验证过的现有技术完成这～切。换句话说就是，任何标准浏览器ｒ可以处理ＪａｖａＳｃｆｉｐｔ和ＤＯＭ的浏览器）都可以正常工作。您不需要单独安装其他插件。Ａｊａｘ能够赢得广泛认可的原因是基于它要缩短Ｗｅｂ应用程序和桌面应用程序之间的差距。相对于微软整体推出胖客户的理念把很多网络上的应用搬到本地运行时，基于本地化的用户体验成为了一个很重要的方向，我们的目标就是要让用户更好的使用我们的产品。用户的支持就是我们的技术更新的动力。因此用户体验是一个很重要的课题。没有用户就没有我们产品的推广，就不可能使我们计算机广泛的推广应用。

成都理丁＝大学硕士学位论文

３．４中文分词技术
英文是以词为单位，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子Ｉ
ａｍ
ａ

ｓｔｕｄｅｎｔ，用中文则

为：“我是一个学生”。计算机可以很简单通过空格知道ｓｔｕｄｅｎｔ是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确度常常直接影响到对搜索结果的相关度排序。中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解，其处
理过程就是分词算法。

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分
词方法和基于统计的分词方法。

１、基于字符串匹配的分词方法这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：１）正向最大匹配法（由左到右的方向）；２）逆向最大匹配法（由右到左的方向）；３）最少切分（使每一句中切出的词数最小）。还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为１／１６９，单纯使用逆向最大匹配的错误率为ｌ／２４５。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进行机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。对于机械分词方法，可以建立一个一般的模型，在这方面有专业的学术论文，这里不做详细论述。２、基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶
段。３、基于统计的分词方法

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字ｘ、Ｙ的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。到底哪种分词算法的准确度更高，目前并无定论。对于任何一个成熟的分词系统来说，不可能单独依靠某～种算法来实现，都需要综合不同的算法。中文是一种十分复杂的语言，让计算机理解中文语言更是困难。在中文分词过程中，有两大难题一直没有完全突破。

成都理工大学硕十学位论文

１、歧义识别

歧义是指同样的一句话，可能有两种或者更多的切分方法。例如：表面的，因为 “表面”和“面的”都是词，那么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧义。由于没有人的知识去理解，计算机很难知道到底哪个方案正确。交叉歧义相对组合歧义来说是还算比较容易处理，组合歧义就必需根据整个句子来判断了。例如，在句子“这个门把手坏了”中，“把手”是个词，但在句子 “请把手拿开”中，“把手”就不是一个词；在句子“将军任命了一名中将”中，“中将” 是个词，但在句子“产量三年中将增长两倍”中，“中将”就不再是词。如果交叉歧义和组合歧义计算机都能解决的话，在歧义中还有一个难题，是真歧义。真歧义意思是给出一句话，由人去判断也不知道哪个应该是词，哪个应该不是词。例如：“乒乓球拍卖完了”，可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”，如果没有上下文其他的句子，恐怕谁也不知道 “拍卖”在这里算不算一个词。
２、新词识别

新词，专业术语称为未登录词。也就是那些在字典中都没有收录过，但又确实能称为词的那些词。最典型的是人名，人可以很容易理解句子“王军虎去广州了”中，“王军虎”是个词，因为是一个人的名字，但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去，全世界有那么多名字，而且每时每刻都有新增的人名，收录这些人名本身就是一项巨大的工程。即使这项工作可以完成，还是会存在问题，新词中除了人名以外，还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题，而且这些又正好是人们经常使用的词，因此对于搜索引擎来说，分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用

目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译（ＭＴ）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。因为中文需要分词，可能会影响一些研究，但同时也为一些企业带来机会，因为国外的计算机处理技术要想进入中国市场，首先也是要解决中文分词问题。在中文研究方面，相比外国人来说，中国人有十分明显的优势。分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，

第３章Ｌｕｃｅｎｅ的实现原理及相关技术

如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说，分词的准确性和速度，二者都需要达到很高的要求。中文分词几种常用的方式：
Ａ．单字分词

单字分词，顾名思义，就是按照中文一个字一个字地进行分词。以这样方式切分出来的词再进入索引，称为字索引，但是这种方式随着索引的增大，相应索引条目的内容会不断增大，严重影响效率。如：我们是中国人，效果：我＼们＼是＼
中＼国＼人。Ｂ．二分法

二分法，就是无论什么词都按两个字进行切分，不考虑词义。如：我们是中国人，效果：我们＼｛『］是＼是中＼中国＼国人。Ｃ．词库分词词库分词是用一个已经建立好的词的集合（按照某种算法）去匹配目标，当遇上集合中已经存在的词时，就将它切分出来。通常词库分词被认为是最理想的中文分词算法。如：我们是中国人，通成效果为：我们＼是＼中国、中国人。对于词库分词方式，词库的建立是关键，它需要统计大量的内容，然后根据各种词出现的频率、概率再来进行筛选，最终决定什么词应当放进词库。还有一些高级的词库加入了语义和词性的标注，甚至还有不同词的权重，使用这样的词库进行分词的效果应该很是理想的。基于自动切分的最大优点是没有词表维护成本，实现简单，缺点是索引效率低，但对于中小型应用来说，基于二元语法的切分还是够用的。基于二元切分后的索引一般大小和源文件差不多，而对于英文，索引文件一般只有原文件的３０％４０％不同。
表３－８自动切分和词表切分比较
Ｔａｂｌｅ３－８ＣｏｎｔｒａｓｔｂｅｔｗｅｅｎａｕｔｏｐａｒｔｉＣｉＤＩｅａｎｄｌｉｓｔｐａｒｔｊＣｊＰＪｅ

自动切分实现查询存储效率维护成本

词表切分实现复杂适于实现比较复杂的查询语法规则

实现非常简单
增加了查询分析的复杂度

索引冗余大，几乎和原文一样大索引效率高，为原文大小的３０％左右无词表维护成本嵌入式系统：运行环境资源有限词表维护成本非常高：中日韩等语言需要分别维护。还需要包括词频统计等内容

适用领域

分布式系统：无词表同步问题多语言环境：无词表维护成本

对查询和存储效率要求高的专业搜索引擎

目前比较大的搜索引擎的语言分析算法一般是以上两种方法的结合。

成都理Ｉ：大学硕士学位论文

第４章主题搜索引擎的实现
４．１

Ｎｕｔｃｈ的结构设计和特点
Ｌｕｃｅｎｅ是一个提供全文文本搜索的函数库，它不是一个应用软件。它提供

的很多ＡＰＩ函数可以运用到各种实际应用程序中。Ｎｕｔｃｈ是一个建立在Ｌｕｃｅｎｅ核心之上的Ｗｅｂ搜索的实现，它在Ｌｕｅｅｎｅ的基础上添加了网络爬虫和一些和ｗｅｂ相关的应用包。其目的就是想从一个简单的站内索引和搜索推广到全球网络的搜索上，就像Ｇｏｏｇｌｅ和Ｙａｈｏｏ一样。具有很好的扩展功能，为用户进行二次开发提供了良好的框架。Ｎｕｔｃｈ是基于Ｌｕｅｅｎｅ的。Ｌｕｅｅｎｅ为Ｎｕｔｅｈ提供了文本索引和搜索的ＡＰＩ。总体上Ｎｕｔｃｈ可以分为２个部分：抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引。两者都使用索引中的字段。实际上搜索程序和抓取程序可以分别位于不同的机器上。抓取程序是被Ｎｕｔｅｈ的抓取工具驱动的。这是一组工具，用来建立和维护几
个不同的数据结构：ｗｅｂｄａｔａｂａｓｅ，ａ到的３个不同的数据结构。
Ｔｈｅｗｅｂ
ｓｅｔ

ｏｆｓｅｇｍｅｎｔｓ，ｉｎｄｅｘ。下面逐个解释上面提

ｄａｔａｂａｓｅ（ＷｅｂＤＢ）。是一个特殊存储数据结构，用来映像被抓取

网站数据的结构和属性的集合。ＷｅｂＤＢ用来存储从抓取开始（包括重新抓取）的所有网站结构数据和属性。ＷｅｂＤＢ只是被抓取程序使用，搜索程序并不使用它。ＷｅｂＤＢ存储２种实体：页面和链接。页面表示网络上的一个网页，这个网页的Ｕｄ作为标示被索引，同时建立一个对网页内容的ＭＤ５哈希签名。跟网页相关的其它内容也被存储，包括：页面中的链接数量（外链接），页面抓取信息（在页面被重复抓取的情况下），还有表示页面级别的分数ｓｃｏｒｅ。链接表示从一个网页的链接到其它网页的链接。因此ＷｅｂＤＢ可以说是一个网络图，节点是页面，链接是边。Ｓｅｇｍｅｎｔ是网页的集合，并且它被索引。Ｓｅｇｍｅｎｔ的Ｆｅｔｃｈｌｉｓｔ是抓取程序使用的ｕｒｌ列表，它是从ＷｅｂＤＢ中生成的。Ｆｅｔｃｈｅｒ的输出数据是从ｆｅｔｃｈｌｉｓｔ中抓取的网页。Ｆｅｔｅｈｅｒ的输出数据先被反向索引，然后索引后的结果被存储在
ｓｅｇｍｅｎｔ中。Ｓｅｇｍｅｎｔ的生命周期是有限制的，当下一轮抓取开始后它就没有用

了。默认的重新抓取间隔是３０天。因此删除超过这个时间期限的ｓｅｇｍｅｎｔ是可以的。而且也可以节省不少磁盘空间。Ｓｅｇｍｅｎｔ的命名是日期加时间，因此很直
３２

第４章主题搜索引擎的实现

观的可以看出他们的存活周期。索引库是反向索引所有系统中被抓取的页面，他并不直接从页面反向索引产生，它是合并很多小的ｓｅｇｍｅｎｔ的索引中产生的。Ｎｕｔｃｈ使用Ｌｕｃｅｎｅ来建立索引，因此所有Ｌｕｃｅｎｅ相关的工具ＡＰＩ都用来建立索引库。需要说明的是Ｌｕｃｅｎｅ

的ｓｅｇｍｅｎｔ的概念和Ｎｕｔｃｈ的ｓｅｇｍｅｎｔ概念是完全不同的，不要混淆哦。简单来说Ｌｕｃｅｎｅ的ｓｅｇｍｅｎｔ是Ｌｕｃｅｎｅ索引库的一部分，而Ｎｕｔｃｈ的Ｓｅｇｍｅｎｔ是
ＷｅｂＤＢ中被抓取和索引的一部分。Ｎｕｔｃｈ是一个可以构造大型分布式的搜索引擎。Ｎｕｔｃｈ的核心部分目前已经被重新用分布式的处理模型ＭａｐＲｅｄｕｃｅ实现了。并且Ｎｕｔｃｈ也吸引了很多研究者，他们非常乐于尝试新的搜索算法，因为对Ｎｕｔｃｈ来说，这是非常容易实现扩展的。Ｎｕｔｃｈ是非常灵活的，扩展性好，它可以很好的被客户订制并集成到应用程序中，使用Ｎｕｔｃｈ的插件机制，Ｎｕｔｃｈ可以作为一个搜索不同信息载体的搜索平台。当然，最简单的就是集成Ｎｕｔｃｈ到自己的站点，为用户提供搜索服务。Ｎｕｔｃｈ提供了一个高效、开源、易操作的搜索引擎，内部有许多细微之处都是值得借鉴的，例如采用了ｈａｄｏｏｐ的分布式文件系统，类似ｅｃｌｉｐｓｅ的插件技术。当然，为了让搜索引擎能够处理数以亿计的网页，以上的模块都应该是分布式的。也就是说，可以在多台机器上并行运行。Ｎｕｔｃｈ的结构图设计（如图４．１）

回国叵三习因固叵司
团园回固
Ｈａｄｏｏｐ图４—１
Ｆｉｇ．４－１

Ｎｕｔｃｈ结构图
Ｎｕｔｃｈ

Ｓｔｒｕｃｔｕｒｅｏｆ

Ｎｕｔｃｈ是一个开源Ｊａｖａ实现的搜索引擎。它提供了我们运行自己的搜索弓

成都理＿下大学硕＋学位论文

擎所需的全部工具。Ｎｕｔｃｈ是开放源代码的，因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的，我们无法知道搜索出来的排序结果是如何算出来的。更进一步，一些搜索引擎允许竞价排名，比如百度，这样的索引结果并不是和站点内容相关的。因此Ｎｕｔｃｈ对学术搜索和政府类站点的搜索来说，是个好选择。因为一个公平的排序结果是非常重要的。

４．２主题搜索引擎的主题词库
Ｎｕｔｃｈ有出色的架构实现，对于开发插件非常容易。主题搜索爬行的对象不一样，它只针对某些固定的网站，在评分过程中，针对该主题建立一个词库，把与词库中相关性大的查询词句加大权因子。在主题搜索中我们依旧要求更好的用户体验，Ａｊａｘ技术帮助我们实现这个目标．提供更好的搜索界面。４．２．１构造主题词库主题词是表达和描述文件、资料等主题内容并用于标引和检索的规范化语词。它和自然语言中的词是有区别的，是专门为文件、资料等的标引和检索而设计的一种标准化词汇。主题词是从自然语言的主要词汇中选出的标准化词汇，并且能反映文本的主题内容，它必定包含一定的分类意义。所以，分类词库中的词也
可以从主题词库中产生。

主题词标引是指抽取信息中能够表达其核心内容的词或词组．并将这些词或词组转化为受控词的过程。这里所指的主题词是某一特定专业检索和标引用的规范词。具体思路是利用汉语自动分词的研究成果，采用词典分词法将文献进行切分，通过词加权或词频统计法对切分后的词进行排序确定关键词，利用主题词表将关键词转化、合并、去重、重新排序后确定系统正式使用的主题词．并追加文献代号送入系统主题词字段中。在实现过程中，为了继续发扬关键词标引过程中能够及时反映新出现的专业术语，及时更新词表，把原文献给出的关键词一并加入到切分后的词汇集中，进行合并、去重、加权、排序后确定为关键词。主题词标引的目的是提高查全率和查准率，减轻用户构造索引的负担，缩短检索时间，便于扩检和缩检。普通叙词表属于先控词表，而把若干词或词的片断构造成一个检索策略，则属于一种后控过程。可借用后控制词表来改善关键词检索性能。具体地，后控制技术是指检索系统在标引阶段使用自然语言，不对标引进行严格控制，而在检索阶段才对检索词进行控制的一种自然语言检索优化技术。

第４章主题搜索引擎的实现

后控制词表的性质类似于入口词表，它是～种转换工具，～种扩检工具，一种罗列自然语言检索标识供选择的工具。后控制词表是利用先控语言的原理和方法编制的自然语言检索用词表，它主要是对自然语言中大量存在的等同关系、等级关系和一部分相关关系进行控制和提示，具有自学习功能，可根据检索的需要将新概念和新术语及时地加入词表中，是一个动态词表。用户通过浏览词表选用检索词，或者系统自动执行查询调整（主要是扩检）既减轻了用户负担，又提高了系统的易用性和检索效率。后控制词表是“自然语言检索和人工受控语言结合的最佳范例”。后控制词表系统是信息检索的核心，也是提高检索效率的关键。国外有关词表编制及词表在网络化应用方面的研究与实践已经取得了长足的发展。一方面，已经开发出了多种词表编制与维护软件。在此基础上，充分结合网络技术，使词表向着网络化和提供网络检索应用接口的方向发展。另～方面，把机读或网络化词表嵌入网络检索工具中或者作为检索系统的一个可调用接口，为用户检索策略的构造提供提示和导航，这样就提高了网络检索效率，真正体现了词表在网络检索中的应用价值。国外开发了一系列实用性的网络化词表和后控检索支持下的网络信息检索系统【引。４．２．２结合主题词库改进搜索结果在ｎｕｔｃｈ中提供了插件机制和各种可以修改的影响评分因子。通过自己建立的主题词表，使得相应主题的关键词能够获得更高的得分，返回结果更加接近用
户的需求。

评分公式中一些因子，它们使基于同一查询的某些文档的评分高于其他的文档。如果确实想知道这些因子是如何计算出来的，Ｌｕｃｅｎｅ提供了一个称为Ｅｘｐｌａｎａｔｉｏｎ的类来满足这个需要。ＩｎｄｅｘＳｅａｒｃｈｅｒ中有一个ｅｘｐｌａｉｎ方法，调用该方法需要提供一个Ｑｕｅｒｙ对象和一个文档ＩＤ作为参数，且该方法会返回一个Ｅｘｐｌａｎａｔｉｏｎ对象。Ｅｘｐｌａｎａｔｉｏｎ对象的内部包含了所有关于评分计算中各个因子的细节信息。如果需要的话，虽然可以对每个因子的细节进行访问，但是通常全部输出这些解释还是有必要的。ｔｏＳｔｒｉｎｇＯ方法可以将Ｅｘｐｌａｎａｔｉｏｎ对象很好地以文本格式输出来。通过Ｅｘｐｌａｎａｔｉｏｎ对象可以方便地看到评分计算的内部工作原理，但是它需要的开销和做查询操作是一样的，因此，不要过多地使用Ｅｘｐｌａｎａｔｉｏｎ
对象。

对于一般的搜索要求我们可以使用ｌｕｃｅｎｅ默认的评分类ＤｅｆａｕｌｔＳｉｍｉｌａｒｉｔｙ，但是在主题应用中，需要定制相应的Ｓｉｍｉｌａｒｉｔｙ来服务主题的应用需求。修改Ｓｉｍｉｌａｒｉｔｙ需要同时对索引和搜索都进行修改，必须在搜索或者排序之间修改

成都理丁大学硕士学位论文

Ｓｉｍｉｌａｒｉｔｙ。

要定制特定主题的Ｓｉｍｉｌａｒｉｔｙ，只要在建立索引之前调用

ｌｎｄｅｘＷｒｉｔｅｒ．ｓｅｔＳｉｍｉｌａｒｉｔｙ，或者在搜索之前调用Ｓｅａｒｃｈｅｒ．ｓｅｔＳｉｍｉｌａｒｉｔｙ。在Ｌｕｃｅｎｅ中，修改评分系统将比修改ｓｉｍｉｌａｒｉｔｙ能更大程度的影响结果。Ｌｕｃｅｎｅ的评分系统是一个非常复杂的机制，主要由下面三个类来实现：
Ｗｅｉｇｈｔ，Ｓｃｏｒｅｒ．Ｑｕｅｒｙ，

从某种意义上来说，Ｑｕｅｒｙ是评分开始的地方。没有查询就没有什么可以评分的。更重要的是它是其他的评分系统的催化剂，由它来生成其他的评分系统，然后将他们整合起来。Ｑｕｅｒｙ有一些重要的方法需要被继承：：
ｃｒｅａｔｅＷｅｉｇｈｔ（Ｓｅａｒｃｈｅｒｓｅａｒｃｈｅｒ）每个查询都要提供一个实现好的权重对象。

Ｗｅｉｇｈｔ权重接口主要用来定义Ｑｕｅｒｙ的一个代表实现接口，所以可以被重用。任何可以用来被搜索的类都应该内置一个Ｗｅｉｇｈｔ，而不是在Ｑｕｅｒｙ类。这个接口定义了６个要被执行的方法。Ｓｃｏｒｅｒ是评分的抽象类，提供一些基本的计分功能供所有的评分类实现，是Ｌｕｃｅｎｅ评分机制的核心类。Ｓｃｏｒｅｒ定义了一下的方法，必须被实现。Ｄｏｃｕｍｅｎｔｂｏｏｓｔ一文档的ｂｏｏｓｔ，是建索引的时候设是的文档得分对相关主题词的文档给较高的分数。在索引过程中根据考虑所收录的文档重要性来预先设置一个文档的级别（Ｒａｎｋ），对某个域进行加权处理，可通过ｄｏｃ．ｓｅｔＢｏｏｓｔ（ｆｌｏａｔ）来设置文档级别。当然相应的如果认为某一主题Ｆｉｅｌｄ级别高于另外的ｆｉｅｌｄ，那么也可以通过ｆｉｅｌｄ．ｓｅｔＢｏｏｓｔ（ｆｌｏａｔ）来实现目标。

４．３快速构建相关主题搜索引擎
４．３．１

Ｎｕｔｃｈ使用的准备工作（１）首先安装ｉｄＩ【和ｔｏｍｃａｔ并且配置环境变量

设置ＪＤＫ的安装路径ＪＡＶＡ＿ＨＯＭＥ＝Ｄ：ＸＰｒｏｇｒａｍＦｉｌｅｓＵａｖａ＼ｊｄｋｌ．５．ｏ＿０８

设置ＴＯＭＣＡＴ的安装路径ＴＯＭＣＡＴＨＯＭＥ＝Ｄ：Ｗｒｏｇｒａｍ
Ｇｒｏｕｐ＇Ｔｏｍｃａｔ４．１
ＳｅｔＳｅｔ

ＦｉｌｅｓｋＡｐａｃｈｅ

ｐａｔｈ－－－％ＪＡＶＡ＿ＨＯＭＥ％＼ｂｉｎ：％ＪＡＶＡＨＯＭＥ％＼ｊｒｅ＼ｂｉｎ

ｃｌａｓｓｐａｔｈ＝％ＪＡＶＡ＿ＨＯＭＥ％ｋｌｉｂ；％ＪＡＶＡ—ＨＯＭＥ％＼ｔｏｏｌｓ．ｊａｒ

（２）由于运行Ｎｕｔｅｈ自带的脚本命令需要Ｌｉｎｕｘ的环境，所以我们可以借助Ｃｙｇｗｉｎ来模拟这种环境。需要把＼ｅｙｇｗｉｎ＼ｂｉｎ目录加入ｐａｔｈ环境变量中。
在Ｗｉｎｄｏｗｓ系统的环境变量设置中，增加变量ＮＵＴＣＨ－ＪＡＶＡ＿ＨＯＭＥ＝％
ＪＡＶＡ

ＨＯＭＥ％。安装好ｅｙｇｗｉｎ后，双击桌面图标进入类似ＤＯＳ的窗口，进入

第４章主题搜索引擎的实现

安装ｎｕｔｃｈ的目录
ｃｄ／ｃｙｇｄｒｉｖｅ／ｄ／ｎｕｔｅｈ一０．８．１

执行命令ｂｉｎ／ｎｕｔｅｈ
安装成功。

（３）把下载的ｎｕｔｃｈ安装文件ｎｕｔｅｈ－Ｏ．８．１．ｔａｒ．ｇｚ解压到本地，在Ｎｕｔｃｈ的安装目录（ＤＡｎｕｔｅｈ．０．８．１）中建立一个文件夹，名称为ｕｒｌｓ，然后在ｕｄｓ中建立一

个名为谢．ｏ（ｔ的文本文件，文件中写入要抓取网站的顶级网址，即要抓取的起
始页。比如在此文件中写入如下内容：
ｈｔｔｐ：／／ｗｗｗ．ｇｏｄｅｙｅｓ．ｃｎ／

（４）编辑ｅｏｎｆｆｃｒａｗｌ．ｕｒｌｆｉｌｔｅｒ．ｔｘｔ文件，修改ＭＹ．ＤＯＭＡＩＮ．ＮＡＭＥ部分：
捍ａｃｃｅｐｔｈｏｓｔｓｉｎＭＹ．ＤＯＭＡＩＮ．ＮＡＭＥ

—。ｈｔｃｐ：／／ｗｗｗ．ｇｏｄｅｙｅｓ．ｅｎ／

（５）编辑ｅｏｎｆ／ｎｕｔｃｈ－ｄｅｆａｕｌｔ．ｘｒａｌ文件，修改ｈｔｔｐ．ａｇｅｎｔ．ｎａｍｅ部分为：
＜ｐｒｏｐｅｒｔｙ＞

＜ｎａｍｅ＞ｈｔｔｐ．ａｇｅｎｔ．ｎａｍｅ＜／ｎａｍｅ＞＜ｖａｌｕｅ＞ＮｕｔｃｈｌＣＴ＜／ｖａｌｕｅ＞＜ｄｅｓｃｒｉｐｔｉｏｎ＞ＨＴＴＰ。Ｕｓｅｒ－Ａｇｅｎｔ＇ｒｅｑｕｅｓｔｈｅａｄｅｒ．ＭＵＳＴＮＯＴｂｅｅｍｐｔｙ
ｐｌｅａｓｅｓｅｔｔｈｉｓｔｏａｓｉｎｇｌｅｗｏｒｄｕｎｉｑｕｅｌｙｒｅｌａｔｅｄｔｏｙｏｕｒｏｒｇａｎｉｚａｔｉｏｎ．ＮＯＴＥ：Ｙｏｕｓｈｏｕｌｄａｌｓｏｃｈｅｃｋｏｔｈｅｒｒｅｌａｔｅｄｐｒｏｐｅｒｔｉｅｓ：ｈａｐ．ｒｏｂｏｔｓ．ａｇｅｎｔｓｈｔｔｐ．ａｇｅｎｔ．ｄｅｓｃｒｉｐｔｉｏｎｈｔｔｐ．ａｇｅｎｔ．ｕｒｌ

ｈｔｔｐ．ａｇｅｎｔ．ｅｍａｉｌｈｔｔｐ．ａｇｅｎｔ．ｖｅｒｓｉｏｎ
ａｎｄｓｅｔｔｈｅｉｒｖａｌｕｅｓａｐｐｒｏｐｒｉａｔｅｌｙ．＜／ｄｅｓｅｒｉｐｔｉｏｎ＞＜／ｐｒｏｐｅｒｔｙ＞

４．３．２主题网站索引库内容的建立Ｎｕｔｅｈ的爬虫抓取网页有两种方式，一种方式是ｌｎｌｒａｎｅｔＣｒａｗｌｉｎｇ，针对的是企业内部网或少量网站，使用的是ｃｒａｗｌ命令；另一种方式是Ｗｈｏｌｅ．ｗｅｂｃｒａｗｌｉｎｇ，针对的是整个互联网，使用ｉＩｌｊｅｃｔ、ｇｅｎｅｒａｔｅ、ｆｅｔｃｈ和ｕｐｄａｔｅｄｂ等更底层的命令。启动ｃｙｇＷｉｎ＼ｂｉｎ下的ｂａｓｈ命令，在命令行窗Ｉ＝Ｉ中输入：
ｅｄ／ｃｙｇｄｒｉｖｅ／ｄ／ｎｕｔｃｈ－０．８．１

需根据安装路径改变一下进入当前放置ｎｕｔｃｈ文件的目录下面嘲。
然后再输入：
ｂｉｒｄｎｕｔｃｈｃｒａｗｌｕｒｌｓ—ｄｉｒｃｒａｗｌｅｄＧｉｓ—ｄｅｐｔｈ３?ｔｈｒｅａｄｓ３＞＆ｃｒａｗｌ．１０９

成都理［大学硕士学位论文

图４－２安装调试信息
Ｆｉｇ４－２Ｆ；ｘｄｅｂｕｇｓｎｆｏｒｍａｔｉｏｎ

等待大约２分多钟后，程序运行结束。会发现在ｎｕｔｃｈ－０．８．１目录下被创建了一个名为ｅｒａｗｌｅｄＧｉｓ的文件央，同时还生成一个名为ｃｒａｗｌ．１０９的日志文件。利
用这一日志文件，我们可以分析可能遇到的任何错误。另外，在上述命令的参数
中：

ｄｉｒ指定抓取内容所存放的目录ｄｅｐｔｈ表示以要抓取闷站顶级网址为起点的爬行深度
ｔｈｒｅａｄｓ指定并发的线程数

在网页抓取过程中生成的文件如下图４．３所示曰囝＃?－ｌ?罄ｉ戮嗣国ｃｒａｗｌｄ．ｂ嗣口ｉｒ，ｄａａｃｏｓ田口ｌｉｎｋｄｂ
ｉ

ｏ咄

Ｃｊ‘?一?ｎｂ

国盛２００７０４２９００５３１５７ｌｉｌ豳２００７０４２８００５４３７
簟ｌｉ
２００７０４２８００５５１０

围４－３生成文件组成信息
Ｆｉｇ，４－３ＣｒｅａｔｅｆｉＩｅｓｉｎｆｏ

ｒ旧ｔｉｏｎ

４．３。３数据管理器工具的编写测试由于ｌｕｃｅｎｅ采用了自己的数据格式，抓取数据后的保存格式，无法被直接浏览和管理，不像我们在操作普通关系型数据库时可以通过数据库提供商提供的开发工具可视化的观察分析数据．因为那些大型的数据库都有一个大型的研发团队，为使用者提供的服务极为方便，而我们在使用ｉａｖａ语言的项目研发中涌现出很多优秀的开源项目，这些开源的项目都是由我们开发者在不断的完善中，没有什么配套的第三方工具可以很方便的使用．所以我们需要在自己的研究过程中

第４章主题搜索引擎的实现

编写一些第三方辅助工具来为我们的研发提供方便和标准。Ｓｗｉｎｇ是一个用于开发Ｊａｖａ应用程序用户界面的开发工具包。它以抽象窗口工具包（ＡＷＴ）为基础使跨平台应用程序可以使用任何可插拔的外观风格。Ｓｗｉｎｇ开发人员只用很少的代码就可以利用Ｓｗｉｎｇ丰富、灵活的功能和模块化组件来创建优雅的用户界面。Ｓｗｉｎｇ组件集是ＪＦＣ提供的一套新的ＧＵＩ工具，它简化了基于图形界面的窗口系统的开发。Ｓｗｉｎｇ组件是所谓的轻量型组件，开发人员可以方便的选择自己的需要的ＧＵＩ风格：本地的显示风格、统一的｛ａｖａ显示风格或用户定制的风格。Ｓｗｉｎｇ有更多的灵活性和更强大的功能。由于ｌｕｅｅｎｅ的数据格式我们是不可以直接观察分析的，可以用ｉａｖａ自己编写一个可视化的数据管理工具，通过借助Ｓｗｉｎｇ的可视化组件来编写，利用简易的可视化程序来把ｌｕｅｅｎｅ数据格式转化为可直接观察的数据，并且分析查询相关数据。为此编写了ＤＢＭａｎａｇｅｒＦｏｒＮｕｔｃｈ这个数据管理器工具，该工具提供了数据格式的可视化以及查询功能，对索引中的各个文件夹下的数据都可以导入进来分析，其初始化界面如（图４．４）所示：

图４－４ＤＢＭａｎａｇｅｒＦｏｒＮｕｔｅｈ初始界面
Ｆｉｇ．４－４Ｉｎｉｔｉａｌｉｎｔｅｒｆａｃｅｏｆｔｈｅ

ＤＢＭａｎａｇｅｒＦｏｒＮｕｔｅｈ

结合上面抓取的索引信息，在这几个数据目录中ｅｒａｗｌｄｂ。ｌｉｎｋｄｂ是ＷｅｂＬｉｎｋ目录，存放ｕｄ及ｕｒｌｓ的相互关系，作为爬行和重新爬行的依据。Ｃｒａｗｌｄｂ是所有需要抓取的超连接信息，读取内容如（图４．５）：

成都理‘Ｔ大学硕＋学位论文

ｐ口ＮｕｌｃｈＣｒａｗｌ

卜凸翁ａｗ国
卜０
ＬｍｋＤＢ

；ｒｉｐｆ／ｂｂｓｇｏｄｅｙｅｓｎＨ口／ｆｂｂｓｈｔｌｐ

ｃ

１ｆ１１１１

２８；０４；２０

００００００

３００３００３００３００３００３００３００
３００

０００２１７９

０１ｆ０１门９７０

ｇｏｄｅｙｅｓｃ

２∞４／２０
２８；０４／２０２８；０４；２０２８；０４；２０２８；０４１２０２８１０５；２０２８／０５ｆ２０

０００２１７９０００２１７８０００２１７８３２２０６１２５４３４７８２０００４６５８
０

０Ｉ／０ＩＬｌ８７００１ｆ０１门９７００１ｆ０１门９７００１ｆ０１门９７００１ｆ０１』１９７００１ｆ０１』１９７００１ｆ０１门９７０

｝口Ｓｅｇｍｅｎｔｓｒ凸ｃｏ№ｒＩＩＬＤＣｒａｗｉＦｅｉｃｈ：

ｆ／ｂｂｓｇｏｄｅｙｅｓｃ

ｇｏｄｅｙｅｓｃｈｎ０ｆｉｄｏｗｎｌｏａｄｇｏｄ
Ｎｉｐ／／ｄｏｗｎｌｏａｄｇｏｄｈｔｔｐ；；ｄｏｗｎｌｏａｄ

ｌｔｔｐｆ／ｂｂｓ

｝＿Ｉｎ

ＰａｒｓｅＤａｔａ

ｇｏｄ

２２

ｏ凸ＰａｒｓｅＴｅ“｛

ｈ协；／ｄｏｗｎｌｏａｄｇｏｄ

００４６６８

图４－５
Ｆｉｇ，４－５

信息
ＩｎｆｏｒｍａｔｉｏｎｏｆＣｒａｗＩＤＢ

Ｌｉｎｋｄｂ中存放的是所有超连接及其每个连接的连入地址和锚文本。读取出来的信息如下（图４．６）：
｝叠
Ｌ
ｔ

ｏ’”一
ｈｒｉｐＨｂｂｓ｝，ｒｉｐＨｂｂＳｈｒｉｐＨｂｂ０

、试
ｇｏｄｅｙｅＥｃｒｌ，Ａｎ

”４

’、
Ｏｏｏｇｌｅ
ｒｌｃｅａｓａ５ａｓａ５ａ５ａｓａｓａＳａｓａ５

。ｈ＇ｄｉｎｋ一””黪。§潮
Ｅａｒｔｈ中文势据库支丁支持ＮＥＴ
３０７

ｒｌｏＬＩｎｃｅ／Ａｒ，ｎｏｕｒｌｃｅａ５

ｇｏｄｅｙｅＥＬｎ；ＡｎｌｌｏＵｆｌｃｅｌａｎｎｏｕ

便用＇３Ｅ中文数据厍提矛ｎｅｔｆｒａｍｅｗｏｒｋ出错

ｇｏｄｅｙｅｓｃｎ／Ａｎｒ，ｏＬＩｌｔｃｅＳＡｎｎｏｕｒｉｃｅｇｏｄｅｖｅｓｃｎ／ＡｎＮｏｕｎｃｅＪＡｎｎｏｕｎｃｅ

寻找战友ｔ一解秉封ｏＥ中文教据库雨壬亨∞Ⅱ瓦ｔ＇

ｔ，ｒｉｐ肋ｂ５

ｌ，ｔｉｐⅣｂｂｓｇｏａｅｖｅＳＬｒｄＡｒｌｈｏｕｒｉＣｅｆＡｒｌｎｏｕｎｃｅｉｉｒｉｐⅣｂｂ５ｇｏｄｅｖｅ５【ｒｄＡｎｎｏｕｆｉｌｅ，ＡｎｎｏｕｎｃｅｈｒｉｐＩ／ｌＯｂｓｇｏｄｅｙｅｓｃｒｄＡｎｎｏｕｎｃｅＳＡｎｎｏｕｎｃｅｈｔｔｐ／ｆＯｂＳｈｎ０ｌ？ＯｂＳｉｔｔｐｆｌｂｂＳ１ｎｎｆＳｂｂＳ

一＝０Ｅ中立剪据库纠描营帖ｔ中奠势据库台趟密么？
雌荐悟ｌ圈雾地标中圈干省市县慷洋细地…ｌ
Ｉ丘期网左笋于中文数据库的建议帖台集‘唐负＿＿
山幕穿阿详｝日地标

９００ｅｙｅｓｇｏｄｅｙｅＳ￡ｒｄＡｎｎＯｕｎｃｅＩＡｎｎｏｕｎｃｅ
ｃ

ｒｄＡｎｎＯｕｒ，ｃｅ／Ａｎｎｏｕｎｃｅ

Ｇｏｄｅｙｅｓ中芟筘冕库羌ｉ去启瓤—蕴孽后百动ｊｆ一

ｇｏｄｅｙｅ￥ｃ

ｒｄＡｎｎｏｕｎｃｅ／Ａｎｎｏｕｎｃｅ

ｇｏｄｅｙｅｓ￡ｒ＃Ａｎｎｏｕｎｃｅ／Ａｎｎｏｕｎｃｅ

我是鼬杀的新手什么私下僵我想下千中安数磊＝＝＝部妇皇帝诅辖听莅地地标

一～～

图４－６ＬｉｎｋＤＢ信息
Ｆｉｇ．４—６ＩｎｆｏｒｍａｔｉｏｎｏｆＬｉｎｋＤＢ

Ｓｅｇｍｅｎｔｓ是每轮抓取的时候根据ｃｒａｗｌｄｂ生成的，存放抓回来的网页。存放的信息包括６种ｃｏｎｔｅｎｔ、ｃｒａｗｌ
ｆｅｔｃｈ、ｃｒａｗｌｇｅｎｅｒａｔｅ、ｃｒａｗｌｐａｒｓｅ、ｐａｒｓｅ

ｐａｒｓｅ＿ｔｅｘｔ。其中ｃｏｎｔｅｎｔ是抓取下来的网页内容；ｃｒａｗｌ＿ｇｅｎｅｒａｔｅ最初生成；ｃｒａｗｌ—ｆｅｔｃｈ、ｃｏｎｔｅｎｔ在抓取时生成；ｃｒａｗｌ＿ｐａｒｓｅ、ｐａｒｓｅ＿ｄａｔａ、ｐａｒｓｅ＿ｔｅｘｔ在解析抓取的数据文件时生成。其中ｃｒａｗｌ
ｇｅｎｅｒａｔｅ、ｃｒａｗｌ

ｆｅｔｃｈ和ｃｒａｗ］Ｕａｒｓｅ是ｃｒａｗｌｄｂ

的部分ｕｒｌ数据，它们格式一样，不同的是抓取时间、状态、签名等有所变化。ｎｕｔｃｈ以广度优先的原则来爬行，因此每爬完一轮就会生成一个ｓｅｇｍｅｎｔ目录．上面设置的深度为３，所以生成３个以日期命名的文件夹。抓取网页时生成的ｃｒａｗｌｆｅｔｃｈ包含的信息如下：
｝口
一＇

｝篙糕瓣糕狲ｎｐｍ岫～ｗ
ｌｈｉｌｐ”¨ｖ＾ｖ

５７７５５

２目０４；２０２８１０４／２０２８Ｓ０４ｔ２０

０００

３００３００３００３００３００

１

０

０’，０１，Ｉ９ｉ００８

０

００２１７３９１３００２１７３９１３００２１７３９１３００２１７３９１３００４３４７８２６００２１７３９１３

０１，０１，１９７００８００’，０１，１９７００８００＇１０１，１９７００８００，，０１，１９７００８００’，０１，１９７００８００’，０１，１９７００ｅ０

２８１０４ｆ２０２８；０４／２０２８１０４ｔ２０２８；０４，２０

Ｏ
０

５
５

Ｏ０

３００
３００

ｌ｝ｌｎｐｍＭ～ｗ

图４－７ＣｒａｗｌＦｅｔｃｈ信息
Ｆｉｇ．４－７Ｉｎｆｏｒｍａｔｉｏｎｏｆ

４０

第４章主题搜索引擎的实现

解析抓取的数据文件分析过后生成网页文本内容如下：
ｔｕ— ｊ
ＩＳ
。

耙虹

目

ｈｎｐ”“ｗ
ｒ临ｍ¨ｗ

ｇｏｄｅｙｅｓＣｒｄｂｏｌｌｏｍ

Ｈ

Ｊ撕Ｓｒ．ｒｌｐｌＤ０ｃｕｒｎｅｎｔｄｏｃｕｍｅｎｔｗｒｉｔｅ（＇。＜ｔａｂＩ

ｇｏｄｅｙｅｓｃｒ＃ｂｒｏｗｓｅｒａｓｐｇｏｄｅｙｅｓｏｎ／ＣＯＮＵ￥ｈＩｍａｓｐ

口卜Ｌ０

ｈｌｔｐ『＾ｖⅥ＾ｖ

ｈｉｔｐ＂Ｈ蝴ｇｏｄｅｙｅｓｏｎ／ｄｏｗｎｌｏａｄｈｔｔｐ＂ｗｗｇｏｄｅｙｅｓｃｎ／ｇｅａｓｐ

ｈ坤ｍｗ

鼬薛漫游区—一上帚Ｚ骣首页ＩＧｏｏｇｌｅＥａｒｔｈ上帝Ｚ眼鞋茅我们ＧｏｏｇｌｅＥａｒｔｈｆ，＾／ｏｄｄＶ讪ｎｄＪ苴他Ｅａｒｔｈ赣件下戴ＧｏｏｇｌｅＥａｎｈ歇悻专题上帝：二霉ｇｏｏｇｌｅｅａ

ｇｏｄｍｆｅｓｃⅣｌｍｇ厅７８ｓｗｆ

ＣＷＳ｝０嵫；翟Ｐ嗟罨口”懂口糟冒Ｋｐｏ￥

ｈ扣，＾¨ｖ宵ｇｏｄｅｙｅｓｃｒｄ（ｎｄｅｙａｓｐｈ１１ｐⅣ■ｗ＿ｇｏｄｅｙｅｓｃｒｄｍａｐａｓｐ

上帝之呼蛰１、角度看世界钟钠ｙｇｏｄｅｖｅｓ

ｃｎ０

缒图舞援曹夏ＩＧｏｏｇｌｅＥａｄｈ专题ｌＮＡＳＡＷ０ｒ

围４－８
Ｆｉｇ．４－８Ｉｎｆｏｒｍａｔｉｏｎｏｆ

信息
ＰａｒｓｅＴｅｘｔ

ＤＢＭａｎａｇｅｒＦｏｒ

Ｎｕｔｃｈ这个工具实现的就是把非直观的数据可视化给使用

者，相当于一个格式的转化，当前实现的功能比较简单，在以后的开发过程中会逐渐的根据需求更加的完善该第三方工具。４．３．４使用Ｔｏｍｃａｔ服务器进行搜索测试（１）将ｔｏｍｃａｔ＼ｗｅｂａｐｐｓ下的ＲＯＯＴ文件夹名改成ＲＯＯＴｌ；（２）将ｎｕｔｃｈ－Ｏ．８．１目录的ｎｕｔｃｈ－Ｏ．８．１．Ｗｉｌｌ＇用ｗｉｎｒａｒ解压到ｔｏｍｃａｔ＼ｗｅｂａｐｐｓ下，
并将其改名为ＲＯＯＴ；

（３）打开Ｒ００１、ｗＥＢ删Ｆ＼ｃｌａｓｓｅｓ下的ｎｕｔｃｈ－ｓｉｔｅ．ｘｍｌ文件，修改成如下形式：
＜？ｘｍｌｖｅｒｓｉｏｎ＝”１．０”？＞
＜？Ⅺ１１１．ｓｔｙｌｅｓｈｅｅｔｔｙｐｅ＝”ｔｅｘｔ／ｘｓｌ”ｈｒｅｆ＝－”ｃｏｎｆｉｇｕｒａｔｉｏｎ．ｘｓｌ”？＞＜『－－Ｐｕｔｓｉｔｅ－ｓｐｅｃｉｆｉｃｐｒｏｐｅｒｔｙｏｖｅｒｒｉｄｅｓｉｎｔｈｉｓｆｉｌｅ．一＞＜ｃｏｎｆｉｇｕｒａｔｉｏｎ＞＜ｐｒｏｐｅｒｔｙ＞

＜ｎａｍｅ＞ｓｅａｒｃｈｅｒ．ｄｉｒ＜／ｎａｍｅ＞
＜ｖａｌｕｅ＞Ｄ：Ｉｎｕｔｃｈ一０．８．１／ｅｒａｗｌｅｄＧｉｓ＜／ｖａｌｕｅ＞

＜／ｐｒｏｐｅ啊＞

＜／ｃｏｎｆｉｇｕｒａｔｉｏｎ＞
其中的“＜ｖａｌｕｅ＞Ｄ：／ｎｕｔｅｈ．０．８．１／ｃｒａｗｌｅｄＧｉｓ＜／ｖａｌｕｅ＞”部分应根据自己的设置进行相应修改。该目录是指明需要查询的服务器索引文件的位置。如果不指明索引目录就会查询不到结果，如（图４．９）是Ｔｏｍｃａｔ中打印的信息。
２８８７—８４—２８８１：０６：１７，１６４ＩＨＦＯＩＮＦ０ＮｕｔｃｈＢｅａｎ—ｑｕｅｌ－ｙｔ＇ｅｑｕｅｓｔｆｌＰｏｍ１２７．９．０．１

２８８７—日４—２８龃：８６：１７，１７４
２８８７一日哇一２叠日ｌ：８６：１７，１７４２８０７—８４—２８日１：８６：１７，１９４２８８７－８４－２８日ｌ：Ｂ６：１７．ｔ９４

ＮｕｔｃｈＢｅａｎ—ｑｔｔｅｌ＂９；上常
ＮｌｕｔｃｈＢｅａｎ—ｌａｎｏ＝ｚｈＮｕｔｃｈＢｅａｎ一￥ｅａｒｃｈｉｎｇＨｕｔｃｈＢｅａｎ—ｔｏｔａｌｆｏｒ２Ｂ

ＩＮＦＯ
ＩＮＦＯＩＮＦＯ

Ｍｖ

ｈｉｔｓ

ｈｉｔｓ：Ｂ

图４—９查询过程信息
Ｆｉｇ．４－９＾ＩＩｔｈｅｉｎｆｏｒｍａｔｉｏｎｉｎｓｅａｒｏｈ

返回结果（ｔｏｔａｌｈｉｔｓ）始终为０。

（４）打开ＲＯＯＴ＼ＷＥＢ—ＩＮＦ＼ｃｌａｓｓｅｓ下的ｎｕｔｃｈ．ｄｅｆａｕｌｔ．ｘｍｌ文件，修改
４１

成都理丁大学硕＋学位论文

ｈｔｔｐ．ａｇｅｎｔ．ｎａｍｅ成如下形式：

＜ｐｒｏｐｅ啊＞
＜ｎａｍｅ＞ｈｔｔｐ．ａｇｅｎｔ．ｎａｍｅ＜／ｎａｍｅ＞
＜ｖａｌｕｅ＞ＮｕｔｃｈｌＣＴ＜／ｖａｌｕｅ＞

＜ｄｅｓｃｒｉｐｔｉｏｎ＞ＨＴＴＰ＇Ｕｓｅｒ－Ａｇｅｎｔ。ｒｅｑｕｅｓｔｈｅａｄｅｒ．ＭＵＳＴＮＯＴｂｅｅｍｐｔｙ
ｐｌｅａｓｅｓｅｔｔｈｉｓｔｏａｓｉｎｇｌｅｗｏｒｄｕｎｉｑｕｅｌｙｒｅｌａｔｅｄｔｏｙｏｕｒｏｒｇａｎｉｚａｔｉｏｎ．ＮＯＴＥ：Ｙｏｕｓｈｏｕｌｄａｌｓｏｃｈｅｃｋｏｔｈｅｒｒｅｌａｔｅｄｐｒｏｐｅｒｔｉｅｓ：ｈｔｔｐ．ｒｏｂｏｔｓ．ａｇｅｎｔｓｈｔｔｐ．ａｇｅｎｔ．ｄｅｓｃｒｉｐｔｉｏｎｈｔｔｐ．ａｇｅｎｔ．ｕｒｌ

ｈｔｔｐ．ａｇｅｎｔ．ｅｍａｉｌｈｔｔｐ．ａｇｅｎｔ．ｖｅｒｓｉｏｎ
ａｎｄｓｅｔｔｈｅｉｒｖａｌｕｅｓａｐｐｒｏｐｒｉａｔｅｌｙ．＜／ｄｅｓｅｒｉｐｔｉｏｎ＞

＜／ｐｒｏｐｅｒｔｙ＞

（５）启动Ｔｏｍｃａｔ，打开浏览器在地址栏中输入：ｈｔｔｐ：／／ｌｏｃａｌｈｏｓｔ：８０８０

图４－１０ｎｕｔｃｈ查询界面
Ｆｉｇ．４—１０Ｓｅａｒｃｈｉｎｔｅｒｆａｅｅｏｆｎｕｔｃｈ

Ｎｕｔｃｈ的安装分为３个层次：基于本地文件系统，基于局域网，或者基于ｉｎｔｅｍｅｔ。不同的安装方式具有不同的特色。比如：索引一个本地文件系统相对于其他两个来说肯定是要稳定多了，因为没有网络错误，也没有缓存文件的拷贝。基于Ｉｎｔｅｒａｃｔ的搜索又是另一个极端：抓取数以千计的网页有很多技术问题需要
解决。

因为使用Ｎｕｔｃｈ可以很快速的帮助我们构建自己的搜索引擎，尤其在使用局域网或者在自己的网站开发一个内部搜索引擎。而且Ｎｕｔｃｈ的算法公开，不会像某些网站提供的搜索智能查询到特定的某些网页。在测试ｎｕｔｅｈ的应用性能时，对此作出一番比较。在使用爬虫对Ｇｏｄｅｙｅｓ．ｃｎ做数据爬行，采用深度为３，线程数为３进行爬行建立索引库。并对本地的索引库查询，发现使用Ｇｏｄｅｙｅｓ只能查询到部分信息，而Ｎｕｔｃｈ返回信息数目更多。它的评分算法是按照关键词出现频率大小和文档本身的分值有关。比如说查询关键词“ＧＰＳ”，Ｇｏｄｅｙｅｓ返回８条信息。

第４章主题搜索引擎的实现

图４－”查询关键字“ＧＰＳ”结果比较图
Ｆｉｇ．４－１１ＣｏｎｔｒａｓｔｃｈａｒｔｏｆｓｅａｒｃｈＧＰＳ

而用ｎｕｔｃｈ查询ＧＰＳ可以搜索到１３条结果在长句查询时，Ｇ０ｄｅｙｅｓ效果相当差，而Ｎｕｔｃｈ可以收到一定的效用比如查询关键词：“可以支持不同的ＧＰＳ软件”，Ｎｕｔｃｈ可以搜索到部分相关信
息．

匦巫受獭蛭匮熏两二二二二二二］圈唑
第ｌ－颂（事｝有２项查询结果）：

垒１２ｄ！冀磐煎凸翌！照垂塑塾堂甚塑皂至逊翌：挂工望Ｉ虫，）二二上置Ｚ量 …了圣诞之前．不过比较可’睹的是我们并投…问跟进这个…
Ｊ／ｖ，ｎＴ，ｒｖ，１ｇｏｄｅｙｅｓ

ｃＰＪｄｏｗｎｌｏａｄ

ａ￥ｐ

ａ图厦‘废卫虱）吐臼趟兰攫Ｄ（童堑址￡０

Ｑ１９越！至ｇ！熊里壁

…版本定为Ｆｒｃｃ软件．可以不限时间地自…对Ｐｒｏ感并趣的… ｈ“Ｐ／，ｍｗ即ｄ。ｙｃ；‘ｔｕ＇ｇｅｆｌｅｗ础ｐ（围叵怯职）岛隆过至白勤（墼幽全国
图４－１２Ｎｕｔｃｈ长句查询结果
Ｆｉｇ．４－１２ＳｅａｒｃｈｒｅｓｕＩｔｏｆＩｏｎｇｓｅｎｔｅｎｃｅｉｎｎｕｔｃｈ

而Ｇｏｄｅｙｅｓ内部查询却不能查询到信息

｝搜索关键字一可以支持不同的ＧＰｓ软件
；没有记录ｊ
图４－１３Ｇｏｄｅｙｅｓ长旬查询结果
Ｆｉｇ．４－１２ＳｅａｒｃｈｒｅｓｕＩｔｏｆｔｏｎｇ
ｓｅｎｔｅｎｃｅ

ｉｎＧｏｄｅｙｅｓ

基于以上比较可知在ｎｕｔｃｈ快速建立自己的搜索引擎，并且优化的基础上，可以很好的应用在企业内网或本地搜索上。而且ｈｕｔｃｈ的评分规则透明，对用户而言很公正。

４３

成都理工大学硕士学位论文

４．４对中文分词的处理
４．４．１计算所汉语词法分析系统ｌ
ＣＴＣＬＡＳ

词是最小的能够独立活动的有意义的语言成分，但汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词法分析是中文信息处理的基础与关键。所谓分词，就是指把一个完整的句子划分为一个个词条（Ｔｏｋｅｎ）的过程。这种词条应当满足某种语言规则，以便宇为其建立索引。只有通过这样的方式才能完成对一种语言的分析和检索。为此，中国科学院计算技术研究所在多年研究基础上，耗时一年研制出了基于多层隐马模型的汉语词法分析系统
ＩＣＴＣＬＡＳ（ＩｎｓｔｉｔｕｔｅｏｆＣｏｍｐｕｔｉｎｇ
Ｔｅｃｈｎｏｌｏｇｙ．ＣｈｉｎｅｓｅＬｅｘｉｅａｌＡｎａｌｙｓｉｓ

Ｓｙｓｔｅｍ），该

系统主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用
户词典。分词正确率高达９７．５８％，基于角色标注的未登录词识别能取得高于９０％

召回率，其中中国人名的识别召回率接近９８％，分词和词性标注处理速度为
５４３．５ＫＢ／ｓ［２２］。

在获取计算所返回的注册码后可以进行有效测试。并且利用计算所提供的ＩＣＴＣＬＡＳ３．０动态链接库和词典文件进行二次开发。
４．４．２编写新的ＡｎａＩｙｚｅｒ

Ｎｕｔｃｈ分词的最底层使用的是Ｌｕｃｅｎｅ的Ａｎａｌｙｚｅｒ抽象类，它位于ａｎａｌｙｓｉｓ包中，ＮｕｔｃｈＡｎａｌｙｚｅｒ继承了Ａｎａｌｙｚｅｒ类、实现了Ｃｏｎｆｉｇｕｒａｂｌｅ、Ｐｌｕｇｇａｂｌｅ接口．。抽象类中定义了一个公有的抽象方法ｔｏｋｅｎＳｔｒｅａｍ（Ｓｔｒｉｎｇ
ｆｉｅｌｄＮａｍｅ，Ｒｅａｄｅｒｒｅａｄｅｒ）

返回的类型是ＴｏｋｅｎＳｔｒｅａｍ。该方法是用于分析文本，其后的具体类中在这个方法中实现了从文本中提取索引词组的策略、算法。而返回的ＴｏｋｅｎＳ仃ｅａｍ类是即可以从文本或者从查询词组中枚举ｔｏｋｅｎ序列的抽象类，在Ｌｕｅｅｎｅ中继承了它的具体类有Ｔｏｋｅｎｉｚｅｒ、ＴｏｋｅｎＦｉｌｔｅｒ。ＮｕｔｃｈＡｎａｌｙｚｅｒ类是Ｎｕｔｃｈ中扩展分析文本的扩展点，所有用于解析文本的插件都得实现这个扩展点。对于Ａｎａｌｙｚｅｒ一个典型的扩展就是首先建立一个Ｔｏｋｅｎｉｚｅｒ，它是用于将Ｒｅａｄｅｒ中读入的Ｓｔｒｅａｍ分解成最原始的Ｔｏｋｅｎ，在Ｔｏｋｅｎｚｉｅｒ分解Ｓｔｒｅａｍ之后，一个或多个ＴｏｋｅｎＦｉｌｔｅｒ会用于过滤这些词组中无意
义的词组。

ＮｕｔｃｈＤｏｃｕｍｅｎｔＡｎａｌｙｚｅｒ类继承了ＮｕｔｃｈＡｎａｌｙｚｅｒ，其中有三个静态私有内部类ＣｏｎｔｅｎｔＡｎａｌｙｚｅｒ、ＡｎｃｈｏｒＦｉｌｔｅｒ、ＡｎｃｈｏｒＡｎａｌｙｚｅｒ它们分别继承了Ａｎａｌｙｚｅｒ、
ＴｏｋｅｎＦｉｌｔｅｒ、Ａｎａｌｙｚｅｒ。在ＣｏｎｔｅｎｔＡｎａｌｙｚｅｒ中调用了ＣｏｍｍｏｎＧｒａｍｓ类，该类构

第４章主题搜索引擎的实现

建了一个ｎ－ｇｒａｍｓ的分词方案，因为需要在索引中考虑词组的出现频率，并且实现了对ｎ－ｇｒａｍｓ方案词组查询的优化措施。在ｎ－ｇｒａｍｓ方案中单个的词组同样会被该方案索引，索引期间大量使用了Ｔｏｋｅｎ的各种方法，并且还会调用ｎｕｔｃｈ／ｃｏｎｆ／ｎｕｔｃｈ—ｄｅｆａｕｌｔ．ｘｍｌ中ａｎａｌｙｓｉｓ．ＣＯｌｎｒｆｌｏｎ．ｔｅｒｍｓ．ｆｉｌｅ的配置属性，其上各个
类与接口的ＵＭＬ图如下：

图４－１４分析器类与接口的堋Ｌ图
Ｆｉｇ．４—１４ＵｉｌＬｃｈａｒｔｉｎａｒｉａｆｙｚｅｒｃｌａｓｓｅｓａｎｄｉｒｒｔｅｒｆａｃｅ

Ｌｕｃｅｎｅ本身的ＳｔａｎｄａｒｄＡｎａｌｙｚｅｒ提供了中文分词接口，不过其采用的为１－ｇｒａｍ，默认的切分规则是按一个个汉字分的。这种分词方法虽然不会损失任何索引信息，但是造成的索引垃圾太多，用户得到的查询结果中垃圾也是很多．如果要更好的分词，编写自己的Ａｎａｌｙｚｅｒ，只要把他们包装成Ｌｕｃｅｎｅ的ＴｏｋｃｎＳｔｒｅａｍ就可以了。再利用已有的词典，然后根据正向最大匹配法或者逆向最大匹配法写了一个分词方法，并且应用在Ｌｕｃｅｎｅ中。ＭｙＣｈｉｎｅｓｅＡｎｌｙｚｅｒ在中文分词方面使用ＪＮＩ调用ＩＣＴＣＬＡＳ的ｊａｖａ接口．所以其在中文方面性能上与ＩＣＴＣＬＡＳ相同。其在英文分词上采用了Ｌｕｃｅｎｅ的ＳｔｏｐＡｎａｌｙｚｅｒ，可以去除ｓｔｏｐＷｏｒｄｓ，而且可以不区分大小写，过滤掉各类标点符号．完全兼容Ｌｕｃｅｎｅ的底层分词格式。
ｐｕｂｌｉｃｆｉｎａｌｃｌａｓｓＭｙＣｈｉｎｅｓｅＡｎｌｙｚｅｒｅｘｔｅｎｄｓｐ而ｖａｔｅＳｅｔｓｔｏｐＷｏｒｄｓ；

Ａｎａｌｙｚｅｒ｛

／，可以在此扩展需要去除的ＦＩＬＴＥＲＳＴＯＰＷＯＲＤＳｐｕｂｌｉｃｓｔａｔｉｃｆｉｎａｌＳｔｒｉｎｇ［】ＦＩＬＴＥＲ—ＳＴＯＰ—ＷＯＲＤＳ＝｛
”ａ”，”ａｌｌ”，”ａｎｄ”，”ａｒｅ”，”ａｓ”，”ａｔ”，”ｂｅ”，”ｂｕｔ”，”ｂｙ”，”我”，”的”，”如果”，”是” ）；
ｐｕｂｌｉｃ

ＭｙＣｈｉｎｅｓｅＡｎｌｙｚｅｒ（Ｓｔｒｉｎｇ［】ｓｔｏｐＷｏｒｄｓ）｛

ｔｈｉｓ．ｓｔｏｐＷｏｒｄｓ＝ＳｔｏｐＦｉｌｔｅｒ．ｍａｋｅＳｔｏｐＳｅｔ（ｓｔｏｐＷｏｒｄｓ）；）
ｐｕｂｌｉｃ

ＭｙＣｈｉｎｅｓｅＡｎｌｙｚｅｒ０｛

成都理１＝大学硕士学位论文

ｓｔｏｐＷｏｒｄｓ＝ＳｔｏｐＦｉｌｔｅｒ．ｍａｋｅＳｔｏｐＳｅｔ（ＦＩＬＴＥＲ＿ＳＴＯＰ＿ＷＯＲＤＳ）；｝
ｐｕｂｌｉｃＴｏｋｅｎＳｔｒｅａｍ

ｔｏｋｅｎＳｔｒｅａｍ（ＳｔｒｉｎｇｆｉｅｌｄＮａｍｅ，Ｒｅａｄｅｒｒｅａｄｅｒ）｛

ｔｒｙ｛ｓｐｌｉｔＷｏｒｄ＝ｎｅｗＩＣＴＣＬＡＳ３００；ｉｎｐｕｔＳｔｒｉｎｇ＝ＦｉｌｅｌＯ．ｒｅａｄｅｒＴｏＳｔｒｉｎｇ（ｒｅａｄｅｒ）；ＳｔｒｉｎｇｒｅｓｕｌｔＳｔｒｉｎｇ＝ｓｐｌｉｔＷｏｒｄ．ｐａｒａｇｒａｐｈＰｒｏｃｅｓｓ（ｉｎｐｕｔＳｔｒｉｎｇ）；ｒｅｔｕｒｎｎｅｗＳｔｏｐＦｉｌｔｅｒ（ｎｅｗＬｏｗｅｒＣａｓｅＴｏｋｅｎｉｚｅｒ（ｎｅｗＳｔｒｉｎｇＲｅａｄｅｒ（ｒｅｓｕｌｔＳｔｒｉｎｇ）），ｓｔｏｐＷｏｒｄｓ）；｝ｃａｔｃｈ（ＩＯＥｘｃｅｐｔｉｏｎｅ）（
ＳｔｒｉｎｇＩＣＴＣＬＡＳ３０

Ｓｙｓｔｅｍ．ｏｕｔ．ｐｒｉｎｔｌｎ（”转换出错”）；
ｒｅｔｕｒｎｎｕｌｌ；

｝）

）用ＭｙＣｈｉｎｅｓｅＡｎｌｙｚｅｒ进行索引，查询，测试。效果很好．可以很明显观察到使用后的分词效果得到改善，接近于人工分词的效用。很好的体现了引用分词后的
特色。

范例句子：“正如地球围绕太阳转，飞行的物体以抛物线的轨迹降落等等现象，我们的搜索领域能不能模拟一个类似地球这种具有万有引力的智能化程序，
暂且称之为惯性搜索。”

分词后的效果：正／ｄ如／ｖ地球／ｎ围绕／ｖ太阳／ｎ转／ｖ，／ｗｄ飞行／ｖｉ的

／ｕｄｅｌ物体／ｎ以／ｐ抛物线／ｎ的／ｕｄｅｌ轨迹／ｎ降落Ｍ等等／ｕｄｅｎｇ现象／ｎ，／ｗｄ
我们，ｒｒ的／ｕｄｅｌ搜索／ｖｎ领域／ｎ能／ｖ不能／ｖ模拟／ｖ一个／ｍｑ类似／ａ地球，ｎ这种／ｒ具有／ｖ万有引力／ｎ的／ｕｄｅｌ智能化／ｖｎ程序／ｎ，／ｗｄ暂且／ｄ称之为／ｖ惯性／ｎ搜索／ｖｎ。／ｗｊＮｕｔｃｈ中要使用中文分词，因为中文分词程序的速度很快，需要分词的每篇文章字数不会达到需要占用其很长时间的程度。因此，对于每篇文章分词的请求可以看作是大量短小线程的请求，此时使用线程池技术是非常合适的，它可以极大减小线程的创建和销毁次数，提高程序的工作效率。

结论与展望

结论与展望
结论：
本论文结合自己三年来对软件开发知识的学习经验总结，结合当前热门的研究对象搜索引擎技术展开研究。结合当前热门的开源项目Ｌｕｅｅｎｅ深入研究分析。并结合中文分词技术，把中文搜索更好的融合进该研究课题中。本论文通过对开源框架的实现验证，得出以下结论：（１）本文通过提出按主题行业分类信息，建立相关主题词库的观点，选择性能好、效率高、经济合理的技术框架，从而更高效的快速建立主题搜索引擎，具有现实的意义。（２）由于Ｌｕｃｅｎｅ只支持单字的分割建立索引，通过引入ＩＣＴＣＬＡＳ分词程序对它进行改进，提高查询效果。（３）对开源框架Ｌｕｃｅｎｅ的源码和结构进行了较为深入的研究，并在此基础上进行二次开发，由于Ｌｕｃｅｎｅ的排序算法是透明的可以修改，可对该评分体系进行改进，提升相关主题信息的分值，使得查询结果更加接近用户的需求。（４）通过实例验证，对某一主题网站建立索引库，并进行分析查询，把建立的主题搜索引擎查询结果和网站现有的搜索结果进行比较分析，对长句查询具有
更好的效果。

展望：
对主题搜索引擎研究还在进一步的探讨中，尤其主题词库的更新和效率需要得到改进。怎样更加公平的让用户得到满意的查询结果也是我们将要面对的问题。高效的算法、用户的潜意识期望结果、硬件设施的更新等等都需要更好的去
摸索和改进。

从最初的电子黄页开始，到如今的各种搜索概念的崛起。搜索市场充满了各种挑战，不但是技术上要保持优势，市场运营的策略也至关重要，怎样吸引更多的用户来关注。像搜索引擎优化（ＳＥＯ）就是专门针对各个超级搜索公司来研究推广他们的技术成果。优化的过程就是琢磨大公司具体采用的什么排序算法，怎样让自己的网站能更多的被搜索到。各种围绕搜索引擎的行业由此展开。搜索是一种服务，外界对搜索引擎的评价体系形式多样，除了当前的竞价排名，未来基于搜索的商业模式和业务模式会在网络广告、电子商务、付费信息服务等方面有所突破，个性化搜索及搜索分析将占主导地位。搜索引擎的概念在不断的突破，诸如：语义搜索（结合上下文语境和专业领域搜索）、挖掘式搜索（使搜索结果和用户的意图相关）、群体搜索（搜索的结果可以加入到对结果网页的评估中，从而避免计算机算法的缺陷）。现在或许我

结论与展望

们的某些技术实现不了，但是结合人工智能的深入研究，我们将会开拓新的搜索领域。正如地球围绕太阳转，飞行的物体以抛物线的轨迹降落等等现象，我们的搜索领域能不能模拟一个类似地球这种具有万有引力的智能化程序，暂且称之为
惯性搜索。

由于本人能力有限，再加上时间仓促，本文不可避免的存在很多问题，希望大家批评指正。

４８

致谢

致谢
光阴荏苒，时间如梭，转眼间三年研究生求学生涯即将结束，迷茫、欣喜、激动与欢乐伴随着我度过人生中的这段美好时光，此时此刻有说不尽的感慨与喜悦，更有道不完的感激与感恩。首先感谢我的导师苗放教授这三年来对我的培养、关心与教导，在我求学期间，为我提供了大量的学习机会和研究场所，使我在研究方法、工作态度和治学态度上得到了很好的锻炼与提高。苗老师严谨的治学态度、深厚的学术造诣、高度的责任感和虚怀若谷的为人品格深深的感染着我，使我受益匪浅。在此谨向苗老师表示衷心的感谢！感谢在我学习生活巾给予帮助的各位同门。从研究生入学开始，就受到各１：ｃ７＝同门的关心和帮助，在学习上给予我莫大的支持和鼓励，特别感谢师兄王权海博士，在项目合作期间备受他的指导和关心。感谢陈建华博士、刘瑞博士、曹礼刚博十、史闻博、梁君、汪国华、胡文艺、王娟等师兄师姐对我学习的帮助。感谢黄皓、叶成名、梁军、李治强、夏涛、王海蓉、覃宇Ｅ、杨智翔、周宇鹏、郝庆华、李海鹰等同门，和你们在一起学习讨论的日子让我受益匪浅。感谢四蕊对我的论文进行帮助和修改，谢谢你对论文无私的细心整理。感谢同门的师弟师妹们对我学习的支持和帮助。感谢信工院的各位曾经一起相处过的同学和朋友们。感谢在我本科期间给予我学习成长莫大帮助的各位老师，一日为师，终身为师。你们的教诲ｔ卜我锦记于心。感谢王贺、刘超、丛群等同学，你们在我的学习生涯给予了巨大的支持、帮助和鼓励。感谢所有在我学习生活中出现过的人们，我的成长都离不开你们的影响，让我对生活，对社会有了更加深刻的认识和把握。感谢在我学习过程巾给予我提供实习机会的四川众诚信息技术有限公司和上海创远有限公司，感谢和我‘起工作过的同事，谢谢你们对我的帮助，让我在技术上得到很大进步，使我对计算机行业有了更深刻的认识和发展的信心。养育之恩，终生难忘，感谢我的爸爸、妈妈、舅舅、舅妈和全家人，在我十余年求学生涯中对我的关怀和支持，让我能够健康的成长，教会我懂得怎样做人，你们的言传身教，让我一辈子都不能忘怀。没有你们的理解和支持也就没有我今天的成绩。你们永远在我的心里是最最重要的。谢谢你们１

黄波
２００７年５月于成都

４９

参考文献

参考文献
［１】牛志奇，丁天，天蕴哲等译．Ｊ２ＥＥ核心模式．【Ｍ】北京：机械工业出版社，２００４．［２】车冬Ｌｕｃｅｎｅ：基于Ｊａｖａ的全文检索引擎简介［ｏｎｌｉｎｅ］．Ａｖａｉｌａｂｌｅ
ｈａｐ：／／ｗｗｗ．ｃｈｅｄｏｎｇ．ｃｏｍ／ｔｅｃｈ／ｌｕｃｅｎｅ．ｈｔｍｌ＞２００２ｗｗｗ＜ＵＲＬ：

［３］ＡｐａｃｈｅＬｕｃｅｎｅｐｒｏｊｅｃｔ［ｏｎｌｉｎｅ］．Ａｖａｉｌａｂｌｅ

ＷＩＦＷ＜ＵＲＬ：ｈｔｔｐ：／ｆｌｕｃｅｎｅ．ａｐａｃｈｅ．ｏ喧／＞

【４］侯震宇主题型搜索引擎的研究与实现［Ｄ】北京：中国科学院文献情报中心２００３［ｏｎｌｉｎｅ］．Ａｖａｉｌａｂｌｅｗｗｗ＜ＵＲＬ：［５］博客园论搜索技术对人类的四大社会性意义
ｈｔｔｐ：／／ｚｈｕｙｉ．ｃｎｂｌｏｇｓ．ｃｏｍ／＞２００６

［６】罗昶第四代搜索引擎一主题搜索引擎的设计与实现［Ｄ］北京：北京大学计算机科学技术系计算机软件专业
院２００６
１９９７

【７】陈杰主题搜索引擎中网络蜘蛛搜索策略研究【Ｄ］浙江：浙江大学计算机科学技术学【８】曹红林业主题搜索引擎研究【Ｄ】北京：北京林业大学林业信息管理２００５［９］ＥｒｉｋＨａｔｃｈｅｒ，Ｏｔｉｓ
Ｇｏｓｐｏｄｎｅｔｉｃ
ＬｕｃｅｎｅＩｎ

Ａｃｔｉｏｎ［Ｍ］ＭａｎｎｉｎｇＰｕｂｌｉｃａｔｉｏｎｓ

２００４

【１０】李刚宋伟邱哲编著Ａｊａｘ＋Ｌｕｃｅｎｅ构建搜索引擎［Ｍ】北京：人民邮电出版社２００６［１１］金灵等译Ａｊａｘ基础教程［Ｍ］北京：人民邮电出版社２００６［１２】孙卫琴李烘成著Ｔｏｍｃａｔ与ＪａｖａＷｅｂ开发技术详解［ＭＩｌＬ京：电子工业出版社２００５［１３］伽玛等著，李英军等译．设计模式：可复用面向对象软件的基础［Ｍ］．北京：机械工业出版社，２０００［１４］王宇，林琪，杜志秀等译．ＪＡＶＡ设计模式．［Ｍ］北京：中国电力出版社，２００３［１５儿美】霍斯特曼等著，程峰等译．Ｊａｖａ２核心技术卷Ｉ［Ｍ】．北京：机械工业出版社，２００３【１６】刘坤等译．Ｊ２ＥＥ技术内幕【Ｍ】北京：机械工业出版社，２００２［１７］柴晓路Ｗｅｂ服务架构于开放互操作技术［Ｍ】北京：清华大学出版社２００２［１８】李安渝ＷｅｂＳｅｒｖｉｃｅｓ技术与实现【Ｍ】北京：国防工业出舨社２００３［１９］刘树春等．用Ａｐａｃｈｅ建立Ｗｅｂ站点．［Ｍ】北京：电子工业出版社．２００１［２０］设计模式：可复用面向对象软件的基础［Ｍ】．北京：机械工业出版社２０００［２１】黄理等．ＪＳＰ高级编程．［Ｍ】北京：北京希望电子出版社．２００１［２２］中文自然语言处理开放平台［ｏｎｌｉｎｅ］．ＡｖａｉｌａｂｌｅＷＷＷ＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｎｌｐ．ｏｒｇ．ｃｎ／＞［２３】中文全文检索网『ｏｎｌｉｎｅ］．ＡｖａｉｌａｂｌｅＷＷＷ＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｆｕｌｌｓｅａｒｃｈｅｒ．ｃｏｍ／＞［２４］ＰｌｕｇｉｎＣｅｎｔｒａｌ—ＮｕｔｃｈＷｉｋｉ［ｏｎｌｉｎｅ］．ＡｖａｉｌａｂｌｅＷＷＷ＜ＵＲＬ：ｈｔｔｐ：／／ｗｉｋｉ．ａｐａｃｈｅ．ｏｒｇ／ｎｕｔｃｈ／
ＰｌｕｇｉｎＣｅｎｔｒａｌ＞

［２５】Ｎｕｔｃｈｔｕｔｏｒｉａｌ［ｏｎｌｉｎｅ】．ＡｖａｉｌａｂｌｅＷＷＷ＜ＵＲＬ：ｈｔｔｐ：＃ｌｕｃｅｎｅ．ａｐａｃｈｅ．ｏｒｇ／ｎｕｔｃｈ／ｔｕｔｏｒｉａｌ８．ｈｔｍｌ＞［２６】黄波基于Ａｊａｘ的客户端应用（Ｊ】成都：计算机应用研究增刊２００７［２７】何世林基于Ｊａｖａ技术的搜索引擎研究与实现［Ｄ】成都：西南交通大学计算机应用
２００３

［２８】车志军人工智能在搜索引擎资源获取中的应用［Ｄ】浙江：浙江大学软件学院２００６［２９］相生昌搜索引擎系统学习与开发实践总结［ｃ】北京：中国知网数图研发部２００５【３０］王亮搜索引擎及其相关性排序研究［Ｄ］武汉：武汉大学情报学２００４

５０

主题搜索引擎的研究与应用
作者：学位授予单位：黄波成都理工大学

相似文献(10条) 1.学位论文王常星基于中文分词的搜索引擎设计实现 2008
本项目是公司的电子商务网站项目下的一个关键子项目，项目的设计要求包括根据已有的分词算法，实现自有的中文分词系统，设计实现一个规模适中的搜索引擎系统，具备较强的扩展性和稳定性，控制搜索引擎的规模。虽然搜索引擎技术目前已经有较为成熟的解决方案，但是由于项目特别限定了搜索引擎，包括中文分词处理技术，都需要采用完全自有的设计方案，因此本文所针对的搜索引擎架构设计，以及中文分词算法的实现，都没有采用已经成型的开源设计方案。搜索引擎设计采用了层次化的设计结构，将搜索引擎划分为五个层次，分别是接口层，核心层，存储层，监控系统和中文分词系统。接口层负责处理外部程序与搜索引擎的通信过程。核心层包括四个子系统：中心控制系统，竞价系统，搜索节点和分词系统，中心控制系统是搜索引擎的核心调度系统，竞价系统是搜索引擎可以实现经济效益。存储层是搜索引擎索引数据的存储系统所在位置，其中包括了索引目录服务和数据存储节点，存储节点可随需求进行扩展，增撤节点只要在目录服务中作出相应更新就可以实现存储节点的扩展。搜索引擎集群在运行时，需要一个监控系统来实时监控系统各服务以及网络的运行状态，便于及时发现解决问题，保障系统的在线正常运行。中文分词子系统在查询和更新中被调用，进行信息的分词处理。搜索引擎个子系统间的通信，采用了成熟的HTTP协议，该协议性能稳定成熟，通过专门设计的HTTP Server达到非常高的传输性能。搜索引擎的索引数据随着时间的积累会越来越多，系统设计采取了分布式存储方式来满足搜索性能和存储容量的两方面要求，分布式的存储结构通过一个目录服务达到各节点数据同步的目的。分词系统实现了最大正向匹配切分结合tri-Gram排歧的分词方法。

2.学位论文李晓东搜索引擎中中文分词与纠错模块的设计与实现 2008
随着互联网的蓬勃发展，各种应用服务层出不穷，搜索引擎是其中最流行的一种服务，仅次子电子邮件。伴随着搜索引擎的普及，越来越多的人通过使用搜索引擎，获取日常工作和生活中需要的信息。搜索引擎涉及多种技术，其中，自然语言处理技术是其中重要的一种，它可以帮助搜索引擎提高查询准确度，并丰富搜索引擎的特色功能。中文分词技术与中文纠错技术是自然语言处理技术的两个分支，可应用在搜索引擎的分析系统与检索系统中，对于提高用户检索效率和检索结果准确度具有十分重要的意义。论文选题来源于一个提供旅游信息搜索的搜索引擎系统。文中对中文分词技术和中文查询词纠错技术进行了研究，并从软件工程的角度出发，设计与实现了系统的中文分词模块与纠错模块。具体的工作包括：（1）对一种基于规则的分词算法进行了改进，使用双hash词典结构降低了算法正向、反向最大匹配时的匹配次数；使用正反最大匹配切分策略取代逐词切分策略，降低了算法切分字符串的次数，提高了算法的分词效率。（2）通过相关算法研究提出并实现了一种基于拼音hash词典的同音别字词纠错算法，应用于搜索引擎系统中，用于同音别字词的纠错。（3）改进了双字驱动词典的结构，并结合新的字符串模糊匹配算法对漏字多字查询词进行纠错，增强了系统对漏字多字查询词的纠错能力。（4）将词典技术与Ajax技术相结合，实现了查询词智能提示功能。（5）采用N-gram切分的新词识别算法，用于发现未登录词，实现分词词库的动态更新，提高了中文分词模块的分词准确度。（6）在漏字多字查询词纠错建议中，选择相似度在一定范围内、词频数高于某一阀值的纠错建议词条，作为相关查询词，模拟了相关查询词推荐功能的实现。

3.期刊论文曹羽中.曹勇刚.金茂忠.刘超.CAO Yu-zhong.CAO Yong-gang.JIN Mao-zhong.LIU Chao 支持智能中文分词的互联网搜索引擎的构建 -计算机工程与设计2006,27(23)
中文分词技术对中文搜索引擎的查准率及查全率有重大影响.在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced.它可用作评测各类中文分词算法对搜索引擎的影响的实验平台.对NutchEnhanced的搜索质量与Nutch、Google、百度进行了,对比评测.结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量.

4.学位论文朱海星基于Lucene的搜索引擎的研究与应用 2007
本文对搜索引擎技术进行了深入的研究，并且探讨和实现了搜索引擎在企业中的应用。分析了当前的几种中文分词技术，并在此基础上设计出了自己的中文分词算法，该算法达到了很好的中文分词效果。最终，利用Lucene和自行设计的中文分词工具实现了企业搜索引擎。全文的主要内容是：一、对搜索引擎的原理和组成进行了研究。二、由于搜索引擎在迅速激增的企业内部信息资源中的使用越来越重要，提出了针对企业信息的专业搜索引擎：企业搜索引擎技术。三、研究全文检索技术和中文分词技术，在研究前人的分词技术的基础之上，基于开源全文搜索引擎Lucene，实现了一个自己的中文分词算法。四、设计并实现了一个基于Web的企业信息搜索引擎。

5.期刊论文顾爱华.赵泉.周塔.彭昱静.卫丽.徐莹莹.邹盛荣中文分词技术在搜索引擎中的探讨 -科技信息 2009(35)
本文通过深入探讨中文分词菝术在搜索引擎中的算法描述,并详细介绍机器不断地学习新词、动态地维护词典的模型,尝试解决最棘手的处理新词问题,使其更好地为分词提供更智能描述特别是对新词.

6.期刊论文王华栋.饶培伦.WANG Hua-dong.RAO Pei-lun 基于搜索引擎的中文分词评估方法 -情报科学 2007,25(1)
中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要.本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法.这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面.实例分析的结果表明此方法是行之有效的.在此基础上,作者进一步对实验评估的结果进行了深入讨论 ,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等.

7.学位论文马志强校园网搜索引擎核心技术——中文自动分词 2006
随着计算机技术和网络技术的不断发展，校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加，以及信息的分布存储，给用户检索信息带来了困难。导致校园网上大量资源得不到充分利用，造成了信息资源的浪费。校园网搜索引擎是一个对校园网内部信息资源进行搜集整理，然后供用户查询的系统，它包括信息搜集，中文分词，索引和检索四个部分。本课题是校园网搜索引擎课题的一个子课题。研究的目的是为校园网搜索引擎课题提供一个高效的中文分词软件包。为了实现这一目标，首先建立了中文分词子系统实验平台的结构模型以及与其它模块间的数据接口；然后，通过对词典结构机制、未登录词识别和分词算法的研究，提出了适合校园网搜索引擎中文分词的一整套解决方案。该方案是以机械分词为基础，包括逆向词库的建立与扩充、基于整词二分的二层索引结构、基于规则统计的未登录词识别算法以及改进的逆向最大匹配算法等。最后，实现了中文分词子系统实验平台以及中文分词软件包，并进行了速度和内存容量的测试，得到

了字典占用内存4.28M，分词速度每秒11k字节的实验数据。实验表明，这个分词软件包可以满足当前校园网搜索引擎课题的使用。本论文中提到的中文分词子系统实验平台和中文分词软件包是在 JDK 1.4和Oracle9i上实现的。

8.学位论文任海一基于上下文分析的中文分词算法研究 2006
随着Internet的迅速发展，网上信息不断丰富和发展起来。越来越多的人习惯在网上发布和获取信息。但是这些信息却是以各种形式庞杂无序地散布在无数的服务器上，更新变化快，用户要得到真正有价值的东西有很大的困难。因此，网络搜索引擎应运而生。然而，对于中文来讲，汉语以字为基本的书写单位。作为能够独立活动的有意义的最小语言成分的却是词。这与拉丁语系的语言以空格作为词界不同。在汉语中词与词之间没有明显的区分标记。因此在搜索引擎的整理加工阶段，重点需要解决的问题就在于如何准确的进行词的切分。本文专注于中文分词的优化性的研究，通过研究比对机械匹配算法和词频统计算法的各自的优缺点，提出应用马科夫链来表示中文分词的切分过程，并基于概率论提出语义切分理论，同时总结出语义信息函数，针对目前分词不准确，易于产生歧义等主要问题，对分词系统进行了优化处理，并最终提出了基于上下文分析的中文分词的算法。通过实验证明了基于上下文分析的中文分词算法的准确率提高，是目前较好的中文算法之一。本文的结构如下：第一章首先讲述搜索引擎的现状，由此进行对比中外搜索引擎的不同，同时引出中文搜索引擎的分词问题；第二章介绍中文分词的相关概念以及技术难点和基本状况；第三章主要阐述中文分词目前的研究成果和对主流的中文分词系统的分析；第四章主要讲解本文提出的基于上下文分析的中文分词算法的基本思想和实现目标。算法实现的过程，包括设计思想和实现的方法；第五章总结算法的不足之处，以及需要今后继续提高的部分。

9.期刊论文李艳欣.LI Yan-xin 搜索引擎中中文分词的研究 -电脑知识与技术（学术交流）2007,2(8)
针对目前最常用的分词算法--最大匹配算法效率低,长度受限等缺点,在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的词库数据结构.它支持首字Hash和标准二分查找,而且不限制词条的长度.然后介绍了基于该词库设计的一种快速的分词算法,并给出了算法的实现过程.

10.学位论文陆宵宏基于P2P的搜索引擎的关键技术研究 2009
Peer-to-peer(P2P)技术的一个优势便是开发出强大的搜索工具。随着互联网的快速发展，搜索引擎作为一个网络用户所需的信息检索工具，其作用性越来越受到人们的重视。就中文用户而言，提高搜索引擎的效率的关键因素是中文分词匹配效率与搜索引擎索引检索效率的提高。本文首先对P2P技术进行了阐述，包括P2P的定义、P2P模式与C/S模式的比较、P2P的特点以及P2P技术在搜索方面的应用及优势;其次对P2P搜索算法进行了分类探讨，重点研究和分析了几种P2P搜索算法，并指出它们的优缺点。对以传统索引方和倒排索引方这两种索引方式为核心的基于P2P的搜索引擎和其他几种典型的搜索引擎也进行了各方面的比较。接着，为了克服传统的集中式搜索引擎的缺点,针对中文分词本文提出了基于树状词库进行中文分词，这种经过优化的分词方法使传统的匹配算法效率得到大大地提高，并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与 B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。将搜索引擎架设在P2P分布式网络结构之上，利用P2P的良好的分布式特性，使搜索引擎从集中式走向分布式，使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制，使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。当前，这方向的研究还处于试验、探索阶段，某些方面在理论上还需要有所突破，逐步使搜索引擎更好地服务于用户。

本文链接：下载时间：2010年5月14日

本文关键词：主题搜索引擎的研究与应用，由笔耕文化传播整理发布。

本文编号：170305

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/170305.html

上一篇：基于百度搜索引擎的创业网站优化策略研究
下一篇：搜索引擎营销应用范围_主题搜索引擎的研究与应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|