当前位置:主页 > 科技论文 > 软件论文 >

HiBase:一种基于分层式索引的高效HBase查询技术与系统

发布时间:2017-11-05 08:33

  本文关键词:HiBase:一种基于分层式索引的高效HBase查询技术与系统


  更多相关文章: HBase 非主键索引 查询处理 分层式索引 缓存替换策略 大数据


【摘要】:大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主键索引,不支持非主键索引,这导致HBase的数据查询效率较低,难以满足数据实时或准实时查询需求.为此,在HBase基础上提供面向非主键的快速查询能力,是目前Hadoop环境下急需研究和解决的一个重要问题.该文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,该模型和方法首先建立基于HBase的持久性索引.然后,为了利用内存提升查询性能,该文进一步提出了一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,以降低对HBase索引表的磁盘访问开销.热度累积缓存替换策略克服了最近最少使用(LRU)算法的局限性,考虑数据访问的累积热度和时间局部特性,从而更准确地捕获数据访问的特征.为了使索引热点数据缓存内存层具有良好的可扩展性,HiBase设计了基于一致性哈希的分布式内存缓存,支持高效的基于非主键的单点查询和范围查询.最终,该文设计实现了完整的分层式索引和查询系统HiBase.在千万至十亿条记录规模数据集上的测试结果表明,HiBase冷查询响应时间比标准HBase快65倍(大结果集)到3000多倍(小结果集);而引入基于查询热度累积算法的内存索引缓存方法后,热查询性能可在HiBase冷查询基础上再提升5~15倍,使得总体查询性能比标准HBase快300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍.
【作者单位】: 南京大学计算机软件新技术国家重点实验室;江苏省软件新技术与产业化协同创新中心;中兴通讯股份有限公司;清华大学计算机科学与技术系;
【基金】:国家自然科学基金专项基金(61223003,61362006) 中兴通讯产学研合作项目资助
【分类号】:TP311.13
【正文快照】: 项目资助.葛微,女,1979年生,博士研究生,中国计算机学会(CCF)会员,主要研究方向为查询处理、查询优化、分布式和并行计算.E-mail:gloria.w.ge@gmail.com.罗圣美,男,1971年生,硕士,高级工程师,中国计算机学会(CCF)会员,主要研究方向为云计算、云存储、大数据等技术领域.周文辉,

【相似文献】

中国期刊全文数据库 前10条

1 ;本期广告商索引表[J];电子与电脑;2000年01期

2 ;本期编辑内容产品索引表[J];电子与电脑;2000年02期

3 ;本期广告商索引表[J];电子与电脑;2000年02期

4 ;本期编辑内容产品索引表[J];电子与电脑;2000年04期

5 ;本期广告商索引表[J];电子与电脑;2000年04期

6 ;本期编辑内容产品索引表[J];电子与电脑;2000年11期

7 ;本期广告商索引表[J];电子与电脑;2000年11期

8 ;本期编辑内容产品索引表[J];电子与电脑;1999年05期

9 ;本期编辑内容产品索引表[J];电子与电脑;1999年08期

10 ;本期编辑内容产品索引表[J];电子与电脑;1999年09期

中国重要会议论文全文数据库 前9条

1 石玮峰;杨冬青;唐世渭;关涛;;COBASE的索引管理技术[A];第十二届全国数据库学术会议论文集[C];1994年

2 王彦祥;王广林;;“索引之星”的研制和索引编制[A];2004年辞书与数字化研讨会论文集[C];2004年

3 王晓辉;王柏;;通过有效使用索引优化Oracle应用系统性能[A];第九届全国青年通信学术会议论文集[C];2004年

4 孙云峰;陈渝;史元春;张宝鹏;张曦;江文峰;;基于高精度室内定位系统的移动物体轨迹索引[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

5 王先胜;乔健;汪卫;何震瀛;;AX-Tree:基于RDBMS的粒度自适应XML数据索引[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

6 邵雄凯;卢炎生;程学先;;用建立本地广播索引表的方法改善移动客户机的性能[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

7 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

8 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 杨彬;洪晓光;;基于XML大文档的动态索引[A];’2004计算机应用技术交流会议论文集[C];2004年

中国重要报纸全文数据库 前1条

1 裘宗燕;轻松做索引[N];中华读书报;2002年

中国博士学位论文全文数据库 前3条

1 张帆;搜索引擎中索引表求交和提前停止技术优化研究[D];南开大学;2012年

2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

3 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年

中国硕士学位论文全文数据库 前10条

1 周黎明;SYBASE数据库的索引压缩的设计与实现[D];上海交通大学;2015年

2 徐康;组学大数据的检索系统设计与实现[D];哈尔滨工业大学;2015年

3 王健;DWMS中索引选择策略的研究与实现[D];东华大学;2010年

4 胡玉乐;列存储DWMS中的索引关键技术研究[D];东华大学;2011年

5 张慧;一种基于位立方体的XML索引方式[D];山东大学;2007年

6 王学;面向SaaS应用交付平台的多租户数据索引研究[D];山东大学;2012年

7 石有滴;XML索引关键技术研究[D];华南理工大学;2011年

8 陈坚强;DB2数据库索引性能调整与优化[D];上海交通大学;2011年

9 葛付江;面向动态文档集的大规模文本索引构建技术的研究[D];哈尔滨工业大学;2008年

10 刘亦韬;基于压缩全文自索引的分布式索引技术研究[D];杭州电子科技大学;2015年



本文编号:1143445

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1143445.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户066b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com