支持智能中文分词的互联网搜索引擎的构建
本文关键词:支持智能中文分词的互联网搜索引擎的构建,由笔耕文化传播整理发布。
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutc
维普资讯
第 2卷第 2期 7 3 VO . 7 12
计算机工程与设计 Co p trE gn eiga dDe in m u e n ie r n sg n
20年 1月 06 2 De .2 0 c 06
N O. 3 2
支持智能中文分词的互联网搜索引擎的构建 曹羽中,曹勇刚,金茂忠,刘超 (京航空航天大学计算机学院,北京 108)北 003 摘要:中文分词技术对中文搜索引擎的查准率及查全率有重大影响。剖析开源搜索引擎 N t在 u h的源代码结构的基础上, c 基于 JvC a a C实现了一个可扩展的词法分析器并将其与 N t uc h集成,构建了一个支持智能中文分词的互联网搜索引擎 N t - uc h E hn e。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对 N th n acd的搜索质量与 N th o g、 n acd ucE hne uc、G o l e百度进行了对比评测结果表明它远优于 N th其查全率达到了 O 4前 3 uc, ., O个搜索结果的查准率达到了 O8, 7 .总体上具有与 6 G o l, o g百度接近的中文搜索质量 e
关键词:中文分词;分词算法;搜索引擎;词法分析器;检索精度
中图法分类号:P9. T 31 3
文献标识码: A
文章编号:00 04 20)3 35 4 10- 2 (06 2- 9- 7 4 0
Co s u t n o e e r h e g n u p rig it l g n i e ewo d s g n ain n t ci f b s a c n i es p o t el e t r o w n n i Chn s r e me tt o CAO— h n, CAO n— a g JN a—h n, L U a Yu z o g Yo g g n, I M o z o g I Ch o
(co l f o p tr c n e n n i e n, e ig nv rt Ae nuisn t n ui, eig10 8, hn) Sh o C m ue i c d gn r g B in i syo r at d r at s B in 0 3 C ia o Se a E ei j U ei f o c a Aso c j 0 Ab ta t Chn s r e me tt nh savtl fe t ntepe iina dterc lo bs ac n iefrChn s . Bya ay ig sr c: ieewods g
nai a i c r cso n al f o ae O h h e we e rhe gn o iee n lzn
n o e o rewe e he gn—Nuc, asaa l xc l ay e lme tdb s do a a a p nsu c bsac n ie r th c lbel ia lz rs mpe ne ae nJv CC. T e r u hitgaigiwi e n a ii h nt o g e rt t h n n t h Nuc, awe e c n ie th bsa he gn—Nuc En a c dwhc u p r tl g n ie e r e me tt nic n tu td a diu e s lt r th h n e ihsp o t i el e t n s ds g nai o sr ce, n sda pa- sn i Ch wo o s s a o m si f c v ro s fr fr et gtee e t f aiu ie ewo ds g nainag rtmsnsac n ie T e x ei na s lso o t n h o Chn s r e me tt lo h e he gn . h p rme tleut h w, fr iee o i i r e r o n s Ch q ey Nuc En a c do tefr tho epe iin W i e al f .4a dp e iino tp3 eut et gO8, i iee u r, th h e up romsNuc nt rcso . n h t rc lo 07 rcso fo 0rs l g tn .6 t Chn s h n s i s s ac u lyi sg o s o l n iui e ea。 e rhq ai a o da t s Go gea dBad g n rl n Ke r s Chn s r e me tt n; wods g nainag rtm; s ac n ie lxc l ay e; p e iin ywo d: ieewo ds g nai o r e me tt lo h o i e he gn; e ia a lz r rcso r n
O引言 搜索引擎通过蜘蛛程序 (虫)爬自动获取网页,,网页内把 容切分成词条 ( kn建立倒排索引,后把用户输入的关键 t e) o然 字与索引进行匹配,而帮助人们找到他们感兴趣的内容。从
类似于“综合表现和平时成绩”这样的无关结果,
百度搜索在“和服”会返回类似于“,管理和服务”这样的无关结果,要提高中文搜索引擎的搜索准确度,还有许多研究工作可做。 上面提到都是商品化的搜索引擎系统,其相关算法是不公开的,研究人员有了新的想法和改进方案,也不可能到这些
由于中文没有类似英文中的空格这样的显式表示词的边界标 志,对中文进行有效的索引和查询,先遇到的就是分词问要首
搜索引擎上去进行相关实验。为了构建一个进行搜索引擎技 术、文本挖掘技术相关研究的实验平台,我们在开源搜索引擎 Nuc口的基础上, th基于 JvC aa C为 Nu h开发了一个可扩展的 t c词法分析器,用可置换,易扩充的方式在词法分析的过程中集成中文分词,繁简转换等中文处理功能.实现了一个支持智能中文分词的互联网搜索引擎N t E h cd实验表明, uc— uc na e。 h n Nt h
题。具有中文分词能力的搜索引擎返回的搜索结果包含很不多无关内容,准确度往往不尽如人意。2世纪 8其 O O年代起, 北京航空航天大学梁南元等就开始从事基于词典和规则的中 文分词技术的研究…到目前为止,于统计的分词技术由于 基具备识别未登录词 (不在词典中出现的词)的能力,逐渐成为主流,它们常常被称为智能分词技术。研究如何把智能分词技术的研究成果引入搜索引擎技术中以提高搜索的准确度,
E h cd n a e显著的改进了N t的中文搜索准确度,具有近似 n uc h它 G o l的英文搜索能力, o ge中文搜索质量也接近于 Goge ol和百
度的水平。研究人员还可以方便的在 N t Eh cd中集成 u h na e c n 各种不同的中文分词算法/系统,测中文分词对搜索引擎查评 全率,准率,引速度等指标的影响查索
是具有重要意义的,尽管目前国内市场上的主流搜索引擎均 支持中文分词技术,由于中文分词固有的难度,但它们的分词结果还远不能令人满意。例如在 Goge索“ o l搜和平”会返回, 收稿日期:20—1 5 05 1 0。 -
本文首先介绍了 N t uc h以及中文分词技术在信息检索上
基金项目:国家 83高技术研究发展计划基金项目 ( 0A I93) 6 2 4 A 00。 0 1 作者简介:曹羽中 (9 8,男,湖南双峰人,
硕士研究生,研究方向为软件工程、信息检索、文本挖掘:曹勇刚 (9 7,男,博士研究 1 7一) 17一)生;金茂忠 ( 4一) 1 1,男,教授,博士生导师;刘超 ( 5一) 9 1 8,男,教授。 9 ——
4 9 - 3 5——
本文关键词:支持智能中文分词的互联网搜索引擎的构建,由笔耕文化传播整理发布。
本文编号:52157
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/52157.html