当前位置:主页 > 科技论文 > 软件论文 >

两种面向推荐系统的数据压缩方法

发布时间:2017-10-22 18:20

  本文关键词:两种面向推荐系统的数据压缩方法


  更多相关文章: 分段聚类压缩 哈希值编码压缩 字典压缩 训练数据 Gzip Snappy


【摘要】:今日头条的服务器每天都会产生规模庞大的训练数据,为方便进行训练,这些数据都具有特定的格式和分布特征。使用不同类型的通用压缩算法(字典类型及非字典类型)进行测试,发现单独任何一种算法都无法在满足业务需求(速率需求和CPU占比等)的同时获得较为可观的压缩比。针对今日头条的训练数据,提出了分段聚类压缩和Hash recoding压缩两种策略。实验结果表明,分段聚类压缩方式在更好地保证了压缩率的同时提高了压缩速率的目的;Hash recoding压缩方式则更好地达到了以少量压缩速率的损失换取更可观的压缩率的目的。分段聚类方式搭配Gzip压缩算法的组合能使压缩速率提高300%以上;Hash recoding方式匹配Snappy压缩算法能使压缩率缩小50%以上。根据实际需求,不论选择哪种策略,对于降低今日头条的运营成本,提升业务处理的效率,提供更好的用户体验,都有一定意义。
【作者单位】: 南开大学计算机与控制工程学院;北京字节跳动科技有限公司;
【关键词】分段聚类压缩 哈希值编码压缩 字典压缩 训练数据 Gzip Snappy
【分类号】:TP391.1
【正文快照】: 1引言从20世纪70年代开始,文本数据压缩技术在计算机领域占据重要位置,到目前,各种压缩技术日趋成熟,人们已经将视野从只针对通用压缩技术拓展到针对特定文本数据的专用压缩技术上来。已经有一些文献介绍了相关研究。Bergman等人[1]提出了针对Yahoo邮件信源的特定压缩方法,Tre

【相似文献】

中国期刊全文数据库 前9条

1 巫文佳;李云鹏;阎钲;赵红;;网球基础训练数据的粒计算方法研究[J];长春师范学院学报;2013年06期

2 郑志洵;杨建刚;;大规模训练数据的支持向量机学习新方法[J];计算机工程与设计;2006年13期

3 王晓;刘小芳;;基于NSVM的核空间训练数据减少方法[J];电子科技大学学报;2013年04期

4 张晓艳;王挺;梁晓波;;LDA模型在话题追踪中的应用[J];计算机科学;2011年S1期

5 纪爱兵;邱红洁;谷银山;;基于模糊训练数据的支持向量机与模糊线性回归[J];河北大学学报(自然科学版);2008年03期

6 徐宁;杨震;;一种稀少训练数据条件下的语音转换算法[J];南京邮电大学学报(自然科学版);2010年05期

7 杜俊卫;李爱军;;一种基于聚类的文本迁移学习算法[J];计算机系统应用;2010年12期

8 赖珉;陈一宁;初敏;胡访宇;;训练数据有限的英文语音重音标注研究[J];计算机工程与应用;2007年33期

9 ;[J];;年期

中国重要会议论文全文数据库 前2条

1 郭进;;训练数据量不足怎么办[A];第二届全国人机语音通讯学术会议论文集[C];1992年

2 钟亚平;胡卫红;胡文臣;张军;张蕾;于飞;孙新昱;吴庆建;马飞;;基于多通道用户界面的举重训练数据管理与测评系统研究[A];第八届全国体育科学大会论文摘要汇编(一)[C];2007年

中国硕士学位论文全文数据库 前6条

1 王梦阳;基于用户分析的个性化微博推荐技术研究[D];兰州交通大学;2015年

2 张嚕;基于异构训练数据的排序学习算法研究[D];西北农林科技大学;2016年

3 黄闽樟;基于监督聚类的专利训练数据修剪研究[D];上海交通大学;2010年

4 戴文渊;基于实例和特征的迁移学习算法研究[D];上海交通大学;2009年

5 周科;Tie关系、迁移学习与伪反馈在排序学习中的应用[D];上海交通大学;2010年

6 胡虎跃;海量训练数据如何影响人脸检测器性能:实验研究[D];南京航空航天大学;2010年



本文编号:1079535

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1079535.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d7981***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com