当前位置:主页 > 科技论文 > 搜索引擎论文 >

四大中文搜索引擎检索性能测评

发布时间:2016-07-10 14:18

  本文关键词:四大中文搜索引擎检索性能测评,由笔耕文化传播整理发布。


6期 四大中文搜索引擎检索性能测评程度划分为三个等级,边界清晰且易于判别)

(2)每个检索词Xi的查准率P(Xi)的计算方法。对每个检索词取前30个结果(调查显示一般的搜索引擎都以10为单位输出检索结果,人们对前三屏兴趣较大,N取为30是理想的),分为四组,记为Ji={1,2,3},J2={4,5, ,10},J3=

{11,12, ,20},J4={21,22, ,30}对每条记录j(j=1,2, ,N当返回记录数 30时,N取为30,否则N为实际返回记录数)。

0 45 j J1

令每组权值f(j)=

0 25 j J20 2 0 1

N

923

健康、生活类,受广大网民普遍关注的问题。

检索词:转基因食品、安全性

X3:雅典奥运会的相关情况 体育娱乐休闲类,专指度一般,网上热门检索主题。

X4:澳柯玛集团的公司和产品信息 国内著名公司的相关资料,公司企业、工商经济类,专指度较低,来自实际竞争情报检索课题案例。

检索词:澳柯玛

X5:俄罗斯外交的新动向 政治军事类,带有新闻性质,专指度一般。来自笔者在实际生活学习中遇到的检索课题。

检索词:俄罗斯、外交

X6:电脑病毒震荡波的预防和查杀 电脑网络类,震荡波是五月新出现的电脑病毒,有很强的时新性,可检测搜索引擎的更新频率。该检索主题对网络用户有很强的实用价值,来自网上热门检索主题。

j J3j J4

H(Xi)=j= 1f(j)g(j)(0<N 30)

0 45N 0<N 3

M(Xi)=

0 25N+0 6 3<N 100 2N+1 1 10<N 20

0 1N+3 1 20<N 30

H(Xi)

P(Xi)= 当N=0时,P(Xi)=0

M(Xi)n

(3)计算出P(A)= P(Xi),P(A)的

ni=1

值就是搜索引擎A的相对查准率。 3 3 检索主题的选择

从相对查全率和相对查准率的计算过程可以看出检索词为X1,X2, Xn的选取直接影响到计算结果,为了最大限度的保证测评的客观性。笔者在选择检索主题时查阅了大量文献和网上资料,在以下原则的基础上选择了六个检索主题。 现实性,即有实际检索价值; 既包含专指度高的主题,亦包含专指度低的主题; 考虑网络信息的分类,涉及尽可能多的类别; 考虑不同层次的网络用户的不同检索需求; 易于判定检索结果的相关性范畴。

从以上原则出发,参考其它学者在对搜索引擎测评时检索主题的选择以及搜索引擎和网站的分类目录,通过筛选大量网上和实际生活学习中的检索实例,确定了以下六个检索主题和相应的检索词。

X1:希腊古典哲学 社会科学类,专业性较强,专指度高,来自图书馆实际参考咨询工作。

检索词:希腊古典哲学

2 基本检索技术

4 测试结果与分析

4 1 检索功能

[4]

表3 各搜索引擎检索功能一览表(Y:有此项功能,N:无此项功能)

评价标准布尔检索邻近检索截词检索字段检索加权检索概念检索

百计YNNYNNNYNYY中英Y

搜狐YNYYNNNNYYY中英N

新浪YNNYNNNNYNY中英Y

天网YNNYNNNYYYY中英N

自然语言检索 相关反馈检索 目录式检索 多内码处理 多语种检索 多媒体检索

从表3可以看出四个中文搜索引擎检索功能都比较单薄,都具备的检索功能只有布尔检索和字段检索两个简单的基本检索技术,虽然都具备英文检索功能,但通过实际检索可以发现除大网络外,其它搜索引擎收录的英文网页都十分有限。邻近检索、字段检索、截词检索、加权检索、概念检索功能基本上都是空白,还有待填补。

值得一提的是百度的相关反馈检索对检索者有,

Word文档免费下载:四大中文搜索引擎检索性能测评_岳珍 (下载1-7页,共7页)


  本文关键词:四大中文搜索引擎检索性能测评,,由笔耕文化传播整理发布。



本文编号:68521

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/68521.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f83ff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com