基于64位体系结构的倒排索引压缩算法
本文关键词:基于64位体系结构的倒排索引压缩算法
更多相关文章: 倒排索引 索引压缩 位体系结构 搜索引擎 信息检索
【摘要】:在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上GOV2和ClueWeb09B数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。
【作者单位】: 北京大学网络与信息系统研究所;哈尔滨医科大学附属第一医院信息中心;
【关键词】: 倒排索引 索引压缩 位体系结构 搜索引擎 信息检索
【基金】:国家自然科学基金资助项目(61272340,61073082) 人人游戏基金资助项目(QXWJ-YX-201206017)
【分类号】:TP391.3
【正文快照】: 1概述搜索引擎作为网络时代的信息检索工具,目前已成为用户获取网络信息的主要途径之一,其核心数据结构是倒排索引。搜索引擎通常利用倒排索引压缩技术来提升查询处理速度。该技术除了能够减少倒排索引占用的磁盘空间外,还能减少内存占用,提高CPU缓存的命中率[1]。为了不断提
【参考文献】
中国期刊全文数据库 前3条
1 朱虹,吴林;倒排索引压缩及在RDBMS全文检索中的实现[J];华中科技大学学报(自然科学版);2005年04期
2 王虎;王潜平;;对几种倒排文件压缩技术的研究与分析[J];计算机工程与应用;2006年07期
3 纪蕾,陈英;基于文档重排的索引压缩技术[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前4条
1 丁维;周长胜;崔凌云;马志强;杨娜;;基于多级指引索引的高效技术[J];计算机与信息技术;2006年06期
2 刘小珠;彭智勇;陈旭;;高效的随机访问分块倒排文件自索引技术[J];计算机学报;2010年06期
3 方雪华;刘祖润;;中小型中文报刊全文数据库的建立及其应用[J];邵阳学院学报(自然科学版);2006年01期
4 霍林;黄俊文;卢正鼎;黄保华;潘英花;王力;;二元互关联后继树精简索引模型研究[J];小型微型计算机系统;2011年02期
中国重要会议论文全文数据库 前3条
1 ;Improved Self-Indexing Inverted Files for Full-Text Retrieval[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
2 朱虹;黄欢;;DM4全文检索机制的改进[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前4条
1 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
2 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
3 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
4 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年
2 刘巍;基于内容的同源音频和视频检索[D];北京邮电大学;2011年
3 陈恒;基于内容的视频搜索引擎[D];北京邮电大学;2011年
4 李春丰;面向动态文本的在线索引若干问题研究[D];广东工业大学;2011年
5 蒋励;关系数据库中教育信息全文检索效率的改进研究与实现[D];天津师范大学;2011年
6 薛煜阳;农业搜索引擎倒排索引缓冲机制研究[D];新疆农业大学;2011年
7 潘胜一;基于倒排索引的压缩算法性能研究[D];杭州电子科技大学;2009年
8 孙德才;相似字符串匹配过滤算法研究[D];湖南大学;2009年
9 苗帅;海量数据存储与全文检索[D];江苏科技大学;2011年
10 漆团;数据库中基于多索引段的全文索引研究[D];华中科技大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 王涛;吴洁明;;搜索引擎建立倒排索引的算法研究[J];现代计算机(专业版);2008年01期
2 王路芳;张虎;;一种面向搜索引擎的基于集合模型的搜索算法[J];山西农业大学学报(自然科学版);2009年06期
3 方冰;张一中;;高性能FTP搜索引擎的设计[J];南京邮电大学学报(自然科学版);2007年03期
4 李栋;史晓东;;一种支持高效检索的实时更新倒排索引策略[J];情报学报;2006年01期
5 赵丽红;维尼拉·木沙江;;维、哈、柯多语种搜索引擎中改进索引创建的新方法的构思[J];现代计算机;2011年06期
6 吴文娟;车明;;搜索引擎倒排索引技术的改进[J];微处理机;2006年06期
7 李晓明;单栋栋;;基于文档重要度的静态索引剪枝方法[J];华南理工大学学报(自然科学版);2011年04期
8 匡振国;倪宏;嵇智辉;刘磊;;一种基于Lucene的影片搜索引擎的研究和应用[J];计算机工程与应用;2008年29期
9 郭立力;赵春江;;高效FTP搜索引擎的设计与实现[J];华南理工大学学报(自然科学版);2009年01期
10 易清亮;刘克剑;蔡祖恋;;基于P2P技术的大型分布式FTP搜索引擎研究[J];广西师范大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
3 李栋;史晓东;;对搜索引擎中倒排索引更新策略的研究和改进[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
8 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
9 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
10 张帆;搜索引擎中索引表求交和提前停止技术优化研究[D];南开大学;2012年
中国硕士学位论文全文数据库 前10条
1 吴宝贵;搜索引擎中索引技术研究与实现[D];西安电子科技大学;2008年
2 吴俊森;维哈柯多语种搜索引擎倒排索引模块的实现[D];新疆大学;2007年
3 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
4 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
5 王珍;维、哈、柯文搜索引擎中的自动分类技术研究[D];新疆大学;2010年
6 刘雪芹;单汉字全文检索技术研究[D];河北工业大学;2005年
7 王颖;中文局域网搜索引擎设计与实现[D];电子科技大学;2009年
8 胡晓翠;站点搜索引擎的研究与实现[D];武汉科技大学;2009年
9 刘宇波;面向可下载资源的WEB搜索引擎的设计与实现[D];湖南大学;2005年
10 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
本文编号:692641
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/692641.html