农业搜索引擎倒排索引缓冲机制研究
本文选题:农业搜索引擎 + 倒排索引 ; 参考:《新疆农业大学学报》2011年02期
【摘要】:为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这7种替代策略的缓冲命中率及查询访问时间对比测试表明,当所有词条以相同的概率进行检索时,Clock算法为较好的缓冲替代策略,当词条以特定差别概率进行检索时,本研究提出的FPA算法为较好的缓冲替代策略。
[Abstract]:In order to solve the efficiency problem caused by the ASPSeek inverted index directly using the operating system file buffer access mechanism, this study takes 1.25 million Chinese agricultural web pages as samples and adopts a variable block size inverted index storage structure.A special buffer management mechanism based on LRUU MRU LFU MFU ClockClockFPA replacement strategy is designed.A comparative test of buffering hit ratio and query access time of the seven alternatives shows that when all the entries are retrieved with the same probability, the clock algorithm is a better buffer substitution strategy, and when the entries are retrieved with a specific difference probability,The proposed FPA algorithm is a better buffer substitution strategy.
【作者单位】: 新疆农业大学计算机与信息工程学院;中国农业大学信息与电气工程学院;新疆维吾尔自治区招生办公室;
【基金】:新疆维吾尔自治区科技攻关项目(200931103)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前6条
1 张震波;杨鹤标;马振华;;基于LRU算法的Web系统缓存机制[J];计算机工程;2006年19期
2 刘小珠;彭智勇;陈旭;;高效的随机访问分块倒排文件自索引技术[J];计算机学报;2010年06期
3 栾华;杜小勇;冯玉;王珊;;关系数据库缓冲区置换策略的性能评测(英文)[J];计算机科学与探索;2008年02期
4 周鹏;吴华瑞;赵春江;杨宝祝;朱华吉;;基于Nutch农业搜索引擎的研究与设计[J];计算机工程与设计;2009年03期
5 韩向春;边玮;沈峰;樊书娟;;代理缓存替换一致性算法的研究[J];计算机工程与设计;2009年11期
6 吴文娟;车明;;搜索引擎倒排索引技术的改进[J];微处理机;2006年06期
【共引文献】
相关期刊论文 前10条
1 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
2 常燕;刘纯波;梁星涛;刘素红;;应用于村镇信息自助平台的电子地图构件关键技术研究[J];地理信息世界;2009年06期
3 李超;黄桂敏;宾辰忠;;一种基于改进LRU的P2P缓存机制[J];桂林电子科技大学学报;2011年03期
4 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
5 张琦;王梅;乐嘉锦;刘国华;;列存储数据仓库查询执行中重用缓冲区调度算法[J];计算机研究与发展;2011年10期
6 孔云;杨婷;;开源信息检索技术在高校图书馆的应用——以昆明理工大学图书馆为例[J];湖南科技学院学报;2011年08期
7 王远定;梁久祯;;利用关键词倒排表实时检索中文网页[J];计算机工程与应用;2010年28期
8 杨溢;王志良;王鲁;张富深;;面向智能空间的异构网络同构化通信框架[J];计算机科学;2012年04期
9 张璞;;基于Oracle DCN的缓存一致性技术[J];计算机工程;2008年22期
10 周进刚;邢铁军;纪勇;赵大哲;;一种结构化数据缓存方法[J];计算机工程;2010年20期
相关会议论文 前1条
1 ;A Method for Building the Index Dictionary Files on Domain-specific Search Engine[A];中国自动化学会控制理论专业委员会B卷[C];2011年
相关硕士学位论文 前10条
1 徐万锦;基于Ad Hoc网络的移动P2P系统协同缓存研究[D];西安电子科技大学;2009年
2 席敏;基于单汉字索引的全文检索系统的研究与实现[D];西安电子科技大学;2010年
3 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
4 王洋;军队科技成果知识共享管理系统的设计与实现[D];吉林大学;2011年
5 李帅;基于语义相似度的查询扩展优化[D];杭州电子科技大学;2011年
6 李春丰;面向动态文本的在线索引若干问题研究[D];广东工业大学;2011年
7 薛煜阳;农业搜索引擎倒排索引缓冲机制研究[D];新疆农业大学;2011年
8 陈车前;基于Nutch的并行搜索系统的优化设计[D];华南理工大学;2011年
9 董长春;基于Hadoop的倒排索引技术的研究[D];辽宁大学;2011年
10 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 王书芹;姜秀柱;徐敏;;不同代理缓存一致性技术中的网络流量[J];福建电脑;2007年07期
2 张国印,陈先,皮鹏;基于词频统计的个性化信息过滤技术[J];哈尔滨工程大学学报;2003年01期
3 郭来德;刘辉林;刘兰哲;王光兴;;农业信息搜索引擎设计与实现[J];河北工程大学学报(自然科学版);2007年03期
4 王本年,曹先彬;一种域分布式合作Web缓存系统[J];计算机研究与发展;2002年03期
5 杨春贵;吴产乐;彭鸿雁;;一种有效的Web代理缓存替换算法[J];计算机工程;2007年03期
6 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期
7 杨鸿雁,尚俊平,徐延华,王萌,张宇;农业专业搜索引擎建设探讨[J];农业图书情报学刊;2005年04期
8 刘小珠;彭智勇;;全文索引技术时空效率分析[J];软件学报;2009年07期
9 李世明;赵恒永;李世友;;专题搜索引擎中信息过滤的研究与实现[J];计算机工程与设计;2006年08期
10 张超群;李陶深;张增芳;;自适应一致性替换算法的设计与实现[J];计算机工程与设计;2007年07期
相关硕士学位论文 前1条
1 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年
【相似文献】
相关期刊论文 前10条
1 吴恒山,刘兴宇,左琼;一种基于可扩展散列表的倒排索引更新策略[J];计算机工程;2004年08期
2 王智强,刘建毅;一种实时更新索引结构的设计与实现[J];计算机系统应用;2005年10期
3 王宏宇;;基于Native-XML数据库倒排索引算法研究[J];情报科学;2006年07期
4 苏潭英;郭宪勇;金鑫;;一种基于Lucene的中文全文检索系统[J];计算机工程;2007年23期
5 黄少林;王华;张玉红;蒋一峰;;基于Lucene的索引系统的设计与实现[J];现代情报;2009年07期
6 王涛;吴洁明;;搜索引擎建立倒排索引的算法研究[J];现代计算机(专业版);2008年01期
7 王路芳;张虎;;一种面向搜索引擎的基于集合模型的搜索算法[J];山西农业大学学报(自然科学版);2009年06期
8 吐尔洪·吾司曼;维尼拉·木沙江;;维、哈、柯多语种搜索引擎中索引器的研究[J];新疆大学学报(自然科学版);2011年02期
9 余淼;杨丹;赵俊芹;;垂直搜索引擎的关键技术研究[J];软件导刊;2007年23期
10 宁可为;;自动答疑系统知识库文本的索引研究[J];电脑知识与技术;2009年35期
相关会议论文 前10条
1 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 李栋;史晓东;;对搜索引擎中倒排索引更新策略的研究和改进[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 董祥千;左志宏;刘强国;;Lucene倒排索引文件的实现与优化[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
4 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
5 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
7 李远宁;刘汀;蒋树强;黄庆明;;基于“Bag of Words”的视频匹配方法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 李勇;陈文斌;;嵌入式平台上的地址搜索[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
9 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 朱虹;吴林;;DM4全文检索机制的设计[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
相关重要报纸文章 前1条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
相关博士学位论文 前7条
1 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
2 龙柏;并行计算平台上的数据索引技术研究[D];中国科学技术大学;2011年
3 邝砾;基于接口和行为语义的Web服务发现与适配研究[D];浙江大学;2009年
4 胥正川;基于关系数据库的XML数据存储、更新和检索[D];复旦大学;2003年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 刘红;近重复视频检测算法研究[D];复旦大学;2012年
7 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
相关硕士学位论文 前10条
1 董长春;基于Hadoop的倒排索引技术的研究[D];辽宁大学;2011年
2 潘胜一;基于倒排索引的压缩算法性能研究[D];杭州电子科技大学;2009年
3 薛煜阳;农业搜索引擎倒排索引缓冲机制研究[D];新疆农业大学;2011年
4 吴俊森;维哈柯多语种搜索引擎倒排索引模块的实现[D];新疆大学;2007年
5 刘雪芹;单汉字全文检索技术研究[D];河北工业大学;2005年
6 卢光华;基于Lucene的全文检索研究与应用[D];吉林大学;2009年
7 吕晓旭;基于倒排索引的关系数据库全文检索查询效率研究[D];北京工业大学;2009年
8 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年
9 吴宝贵;搜索引擎中索引技术研究与实现[D];西安电子科技大学;2008年
10 王颖;中文局域网搜索引擎设计与实现[D];电子科技大学;2009年
,本文编号:1753318
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1753318.html