高阶熵压缩的全文自索引
本文关键词:高阶熵压缩的全文自索引,由笔耕文化传播整理发布。
【摘要】:大数据集正在以前所未有的速度产生,研制大数据集的实用压缩全文自索引是目前的挑战问题之一.该文提出了一种高阶熵压缩的全文自索引.对于长为n的文本T以及任意k≤clog_σn-1和c1,该压缩索引占用2nH_k(T)+n+o(n)位的空间,其中Hk(T)表示文本T的k阶经验熵,σ为字符表的大小.此外,该压缩索引可在线性时间O(n)内构造.在此基础上,该文还给出了上述压缩索引的一种实用改进.这种改进引入了混合编码方法,额外的空间开销为o(n)位.对于PizzaChili Corpus上的三类典型数据的实验表明:该文的压缩索引较之主流压缩索引在压缩率和查询时间上具有显著的优势.该文所述的压缩索引软件可在GitHub上访问.
【作者单位】: 西安电子科技大学计算机学院;
【关键词】: 大数据 压缩索引 自索引 高阶熵 混合编码
【基金】:国家自然科学基金(61173025,61373044)资助~~
【分类号】:TP391.3
【正文快照】: 士,教授,中国计算机学会(CCF)高级会员,主要研究领域为算法设计与分析、大数据压缩索引与检索、压缩数据结构、外存算法、生物信息学算法,算法工程.E-mail:hwhuo@mail.xidian.edu.cn.陈晓阳,男,1991年生,博士研究生,主要研究方向为大数据压缩索引与检索、图索引、外存算法.陈
【相似文献】
中国期刊全文数据库 前10条
1 杨淼淇;孙纳新;柴华;;大数据时代教育模式的研究[J];计算机工程与科学;2014年S1期
2 陈飞;;“大数据”对军事外宣的影响探析[J];军事记者;2014年05期
3 石岱;;大数据带给图书馆的影响和挑战[J];黑龙江教育(理论与实践);2014年05期
4 王玉筠;;浅谈大数据背景下的图书馆服务[J];合作经济与科技;2014年09期
5 赵伟;郭军;;大数据——我该用怎样的战略眼光看待你[J];中国新通信;2014年12期
6 赵建伟;;大数据初探[J];科技资讯;2013年20期
7 潘海鹏;;浅谈电信行业大数据的意义与应用[J];电子世界;2014年03期
8 黄锴;;世界杯中大数据显大威风[J];物联网技术;2014年07期
9 缪其浩;;当情报遇到大数据——大数据热点情报跟踪的回顾与感悟[J];情报探索;2013年05期
10 桑庆兵;;大数据在高校的应用与思考[J];南通纺织职业技术学院学报;2013年02期
中国重要会议论文全文数据库 前1条
1 康庆阳;;建立面向用户的架构推动新闻传播变革[A];中国新闻技术工作者联合会第六次会员代表大会、2014年学术年会暨第七届《王选新闻科学技术奖》和优秀论文奖颁奖大会论文集(三等奖)[C];2014年
中国硕士学位论文全文数据库 前7条
1 张占军;订阅式云存储方案设计[D];电子科技大学;2014年
2 王雪皎;大数据驱动下的数据新闻生产研究[D];电子科技大学;2015年
3 曲娜;基于网络数据的CPI典型商品采价质量优化方案研究[D];吉林大学;2016年
4 姚孟乐;大数据视野下的新闻传播变革[D];吉林大学;2016年
5 崔路云;基于大数据时代背景对统计学教育的几点思考[D];首都经济贸易大学;2014年
6 李佳飞;论遗忘权[D];西南政法大学;2015年
7 张晓帆;未来银行的设计与规划[D];河北大学;2014年
本文关键词:高阶熵压缩的全文自索引,由笔耕文化传播整理发布。
,本文编号:489935
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/489935.html