基于网络知识库与通用搜索引擎的查询词扩展方法
【图文】:
D含义见表1。表1答案对应表是否检索出正确答案数量非正确答案数量检索出AB未检索出CD评估指标中,P@n代表了前n个实验结果的查准率;R-prec代表了前R个正确实验结果的查准率,即统计到第R个正确实验结果为止的所有结果的查准率;MAP方法是P@n方法的优化,先得到每个正确结果在实验返回结果中的P@i值,,其中i为该正确答案在所有结果列表中的位置,然后将所有P@i取平均得到MAP值;P-Rcurve方法包含了查准率和查全率,其为查准率与查全率的对应曲线图,即表示了当查全率为0.0到1.0时,对应的查准率值。3.3方法设计图1描述了基于网络知识库与通用搜索引擎的查询词扩展方法的流程。图1基于网络知识库与通用搜索引擎的查询词扩展方法流程该文提出的方法分为两步实现(简称为SM)。第一阶段(Step1),使用网络知识库维基百科对每个查询词q进行搜索,得到查询词q在知识库中的解释,抓取全部文本内容。其次对文本内容进行分词去重。重复的词并不能体现词对查询词的影响,因为在知识库的解释中能切实表征其含义的特征增刊2毛琪等:基于网络知识库与通用搜索引擎的查询词扩展方法7
询词扩展方法与TM、LM的评估结果评估指标P@5P@10R-precMAPSM公式(1)52263838.50SM公式(2)28263436.90SM公式(3)32243637.00SM公式(4)64324241.20TM42243035.40LM54303838.20此外,表4列举了在通用搜索引擎中查询“Apple”及它的各个待扩展词的返回数量,并使用SM公式(1)~(4)计算“Apple”对各个扩展词的依赖关系值。如上信息从搜索引擎Google搜索中获龋需要说明的是搜索结果的数量也是实时变化的,所以在实验时,要尽快获取所有实验结果。表5对比了SM公式(4),TM和LM针对Apple这个词的前10个扩展词。图2SM查询词扩展方法P-Rcurve曲线图表5SM公式(4),TM和LM针对Apple的前10个扩展词SM公式(4)TMLMIphoneVitaminIphoneActivityIphoneSteveJobsSteveJobsMacFruitAcidAndroidWisdomMacForbiddenRedAbilitySweetMacRedFruitVitaminActaWisdonPeaceFruitHealthAutumnAphidBananaBee3.6实验结果讨论从表2的实验结果可以看出,SMStep1的查全率值明显大于近义词词典法DM。因为词典只会用一两句精简的话解释词的含义,同时包含一些简单的词组和同近义词。词典法可以清晰发现两个含义相同的词,或者词的一两个特征,但作为查询词扩展,词汇量相对较少,因此其查全率比较低。从表中可以看出SteveJobs这个词的查全率为0,实际上是因为词典没有收录SteveJobs,因此并没有返回结果。而网络知识库方法(例如实验中采用的维基百科)中的信息都是人工编辑的,会对查询词的方方面面进行描述,大部分和其相关的词基本都会提及,因此其查全率很高,个别词可以达到100%的查全率。8计算机应用第32卷
【作者单位】: 清华大学电子工程系;
【基金】:国家863计划项目(2012AA011004) 清华大学自主科研项目(20111081023)
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 唐利;蓝强;;对网络搜索引擎的比较研究[J];重庆文理学院学报(自然科学版);2006年04期
2 韩建福;卢苇;;文档聚类在Web搜索结果中的应用研究[J];中国科技信息;2006年23期
3 付昕;;Google在信息检索中的应用[J];情报探索;2008年07期
4 曹蓓蓓;信息检索技术的设计探讨[J];河北建筑科技学院学报;2005年03期
5 彭波,闫宏飞;搜索引擎检索系统质量评估[J];计算机研究与发展;2005年10期
6 钟国韵;刘梅锋;;基于ASP技术的网络搜索引擎的开发[J];科技广场;2006年01期
7 周锦程;王丹;;基于Lucene的全文搜索引擎研究与应用[J];黔南民族师范学院学报;2009年03期
8 秦晓梅;;探讨搜索引擎在网络信息挖掘中的应用[J];科技资讯;2009年29期
9 王慧慧;;提高网络信息检索效率的几种策略[J];科技资讯;2009年30期
10 岳俊英;;网络信息挖掘中的搜索引擎技术探析[J];软件导刊;2010年03期
相关会议论文 前10条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 李智超;余慧佳;马少平;;使用支持向量机进行作弊页面识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
5 孙斌;;使用内存汇集的新闻搜索索引更新[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
9 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关重要报纸文章 前10条
1 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年
2 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年
3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
4 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年
5 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年
6 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年
7 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年
8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年
9 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年
10 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
3 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
4 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
5 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
8 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
9 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
10 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
相关硕士学位论文 前10条
1 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
2 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年
3 王启户;面向远程教育的搜索引擎系统设计与实现[D];西安电子科技大学;2008年
4 王晓华;基于内容的搜索引擎技术研究及其应用[D];郑州大学;2005年
5 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
6 刘佳;中文搜索引擎的设计与实现[D];东华大学;2008年
7 高凌;搜索算法与搜索引擎的研究与应用[D];武汉理工大学;2007年
8 孔祥凤;企业网搜索引擎的设计与实现[D];辽宁科技大学;2007年
9 郭晨娟;基于Web的网络搜索技术研究[D];西北工业大学;2007年
10 陈金森;XML搜索引擎中索引技术的研究[D];燕山大学;2006年
本文编号:2545175
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2545175.html