大规模非结构化数据的索引技术研究
发布时间:2017-08-29 21:27
本文关键词:大规模非结构化数据的索引技术研究
更多相关文章: 大规模数据 倒排索引 分块式存储 线性散列 B+树
【摘要】:为解决搜索引擎ASPSeek在大规模数据下检索效率低下、占用空间大以及不利于更新等问题,提出了一种分块式存储的倒排索引组织技术,并对基于外存的B+树索引和线性散列索引的性能进行了比较测试研究。测试结果表明,查询每万条数据耗时线性散列为B+树索引快57.40%,插入每万条数据耗时线性散列为B+树索引的2.44倍,删除每万条数据耗时线性散列为B+树索引的83.52%,线性散列索引文件大小为B+树索引文件大小的109.56%。由测试结果可知,B+树索引具有较快的索引构建和更新速度,而线性散列索引则具有较高的磁盘空间占用率和较好的查询性能。
【作者单位】: 新疆农业大学计算机与信息工程学院;中国农业大学信息与电气工程学院;
【关键词】: 大规模数据 倒排索引 分块式存储 线性散列 B+树
【基金】:新疆自治区高校科研计划项目(XJEDU2013S13) 新疆维吾尔自治区科技攻关项目(200931103) 新疆农业大学前期资助课题(XJAU201117)
【分类号】:TP311.13
【正文快照】: 0引言大规模数据的分析与处理技术成为当今社会人们研究和讨论的热点问题。随着互联网技术的蓬勃发展,非结构化数据的数量日趋增大,面对呈现爆炸式增长的大规模非结构化数据,如何从中快速准确地获取有价值的信息成为各行业面临的一个严峻挑战。传统的商业数据库主要用于管理结,
本文编号:755523
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/755523.html