当前位置:主页 > 科技论文 > 搜索引擎论文 >

元搜索引擎中排序融合算法的优化研究

发布时间:2019-10-24 07:53
【摘要】:为了提高元搜索引擎的查准率,提出一种改进的排序融合算法。首先,根据搜索返回结果中文档的位序以及包含该文档的成员系统数目计算文档初始评分;其次,引入BM25F算法模型计算文档的相似度;最后,增设域名缓存表统计文档的URL分值;综合上述三项计算值,得到文档的最终评分并作为排序依据。实验结果表明,所提出的优化算法显著提高了元搜索引擎系统的查准率。
【图文】:

算法图,的影响,查准率,排序算法


各种算法以及成员搜索引擎前N篇文档中平均查准率比较IRBOABaiduGoogleSosoYahooBingBCWBCCM50.81280.77650.78010.77040.74590.71010.71080.75090.7371100.78790.73010.77890.76190.76980.71890.68510.72160.7083150.77110.70190.71380.70040.69780.68870.66650.70920.6802200.73310.67980.70130.69190.66540.64390.65000.67190.6851250.71580.66040.68110.66930.65100.62910.64050.66570.6834300.67870.63210.64390.60190.59860.55020.60820.62760.6398图1显示了IRBOA算法与BordaCount排序法、WeightedBordaCount排序法以及CombMNZ排序法在前N篇文档中的平均查准率比较,其中N=5,10,15,20,25,30。图1几种排序算法的平均查准率比较实验结果表明:Yahoo中文、Bing在处理中文查询时平均查准率相对较低,而Google中文、Baidu和Soso相对前者有较高的查准率,相比IRBOA算法虽然在个别点处略高,,但整体水平仍低于IRBOA算法。在结合初始排序位置信息的基础上,考虑了包含当前文档的成员搜索引擎个数的影响,引入BM25F算法模型计算查询串与标题、短摘要的相似度,并加入对文档URL的分析,使得IRBOA算法在平均查准率上相比BordaCount排序法、WeightedBordaCount排序法以及CombMNZ排序法都有了较大幅度提高。由表2可知平均提高幅度分别为10%-13%、5%-9%、6%-12%。2.2算法性能分析信息检索系统的另一个重要评估要素是其检索的实时性。本实验在五台PC机(Intel酷睿i7四核CPU2.66GHz,4GB内存)上运行。为了提高下载速度,将系统下载模块分别布到5台机器上,选择其中一台供用户查询以及后台融合。针对选取的10个主题各进行10次查询实验。设置成员系统返回的结果页数分别?

性能图,模型,算法图,概率图


226计算机应用与软件2012年从图5中可以看出,当对所有的数据块都进行证明时,算法运行时间与文件大小呈线性正相关。验证1000MB的文件,在I/O上耗费了1.48秒,总的算法运行时间为5.62秒,表明磁盘I/O对算法的性能存在一定的影响。在99%可靠性前提下,大约需要抽样900个数据块,产生证明的时间仅为0.023秒;95%可靠性前提下,大约需要抽样600块,产生证明时间仅需0.016秒。对比证明所有数据块的策略发现,概率型抽样检测策略带来了极大的性能提升。同时,还可以发现,采用概率型抽样检测策略时,算法运行时间不随文件大小的改变而改变。图5不同可信度下产生证明所需时间3.2服务器端计算本节通过实验对比了本文算法和其他算法在最坏情况下产生证明的性能。所谓最坏情况,即对于CS-PDP和S-PDP均验证所有数据块。图6显示了CS-PDP和S-PDP产生证明所需时间都与文件大小线性相关。在文件较小时,例如100MB,二者运行时间并没有显著差距;当文件逐渐增大时,CS-PDP的运行时间增长缓慢,而S-PDP的运行时间显著增长。文件为1000MB时,S-PDP的运行时间约为CS-PDP运行时间的11倍。实验结果表明,CS-PDP模型较S-PDP有很大的性能提升。图6CS-PDP和S-PDP运行性能的比较4结语本文分析了当前云存储的新特性和传统数据持有性证明PDP的局限性,在S-PDP模型的基础上通过加入可信存储服务提供商代理CSPP,构建了适用于对云存储中分布式外包存储的数据进行完整性验证的数据持有性证明模型CS-PDP。通过对该模型的安全性和性能进行理论和实验分析,表明本文提出的云存储中的数据持有性证明模型不仅可以抵制恶意欺骗和隐私泄露,而且只耗费很小的存储、计算和通信开销,该模型高效可行。参考文献[1]DeswarteY,QuisquaterJJ,SaidaneA.Remoteint
【作者单位】: 太原理工大学计算机科学与技术学院;
【基金】:山西省回国留学人员科研资助项目(2011-028)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前1条

1 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期

【共引文献】

相关期刊论文 前2条

1 吴远红;张建科;;面向海洋信息的个性化元搜索引擎[J];电脑知识与技术;2010年19期

2 敖飞;陈梅;;一种基于样本加权的位置文本排序算法[J];贵州大学学报(自然科学版);2010年05期

相关博士学位论文 前1条

1 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年

相关硕士学位论文 前7条

1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年

2 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

3 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年

4 樊德强;WEB个性化信息采集与管理关键技术研究[D];郑州轻工业学院;2011年

5 苏碧;基于元搜索的双语智能翻译搜索引擎的研究[D];武汉理工大学;2009年

6 胡维慧;基于用户模型的个性化元搜索引擎的研究与设计[D];山东科技大学;2009年

7 徐洋;基于用户行为学习的农业信息元搜索引擎研究[D];中国农业科学院;2010年

【二级参考文献】

相关期刊论文 前1条

1 张卫丰,徐宝文,周晓宇,许蕾,李东;元搜索引擎结果生成技术研究[J];小型微型计算机系统;2003年01期

【相似文献】

相关期刊论文 前10条

1 陈湘玲;;基于MVC模型的Web元搜索引擎[J];情报科学;2005年12期

2 薛云;;元搜索引擎个性化调度策略的研究与设计[J];煤炭技术;2011年04期

3 回雁雁;;多语种元搜索引擎的研究分析[J];图书馆理论与实践;2007年01期

4 旃群;;元搜索引擎的资料挖掘[J];电脑知识与技术(学术交流);2007年17期

5 吴楠;;元搜索引擎的研究[J];中国舰船研究;2007年05期

6 胡利平,胡亮,高文;一个实用型智能化元搜索引擎的设计与实现[J];微计算机信息;2005年23期

7 陈菊红;;带有聚类功能的个性化元搜索引擎的设计[J];电脑知识与技术;2008年34期

8 原福永;陈金森;林海霞;;基于XML的智能元搜索引擎研究[J];现代图书情报技术;2006年07期

9 王芬;;元搜索引擎研究[J];广东农工商职业技术学院学报;2008年02期

10 洪涛;;关于元搜索引擎的研究与分析[J];图书馆工作与研究;2010年04期

相关会议论文 前10条

1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年

2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年

4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年

6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年

9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年

10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

相关重要报纸文章 前10条

1 希安;微软试水信息检索[N];经济日报;2004年

2 叶静;开辟信息检索的新天地[N];人民邮电;2001年

3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年

4 刘静一;个人档案信息检索[N];建筑报;2000年

5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年

6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年

7 王旭;中文智能搜索引擎[N];计算机世界;2001年

8 彭岩 艾迪明;网络信息“拉取”技术[N];计算机世界;2001年

9 刘立新;信息社会技术前瞻[N];学习时报;2006年

10 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年

相关博士学位论文 前10条

1 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年

2 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年

3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年

4 董道国;高维数据索引结构研究[D];复旦大学;2005年

5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年

6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年

7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年

8 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年

9 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年

10 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年

相关硕士学位论文 前10条

1 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年

2 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年

3 陈琳;基于搜索引擎的问答系统若干关键技术研究与实现[D];天津大学;2008年

4 陈默;基于神经网络的元搜索引擎[D];浙江大学;2006年

5 种梅;元搜索引擎中的关键技术研究[D];山东师范大学;2008年

6 张帆;新闻信息采集系统的设计与实现[D];国防科学技术大学;2008年

7 胡升泽;个性化元搜索引擎若干关键技术研究[D];国防科学技术大学;2008年

8 李信利;基于信息类别的元搜索引擎研究[D];山东大学;2006年

9 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年

10 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年



本文编号:2552457

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2552457.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0318f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com