当前位置:主页 > 科技论文 > 计算机论文 >

Ceph中海量中文文本小文件存储性能优化方法研究

发布时间:2022-10-10 17:50
  随着互联网、移动互联网、物联网的快速发展,电子商务、社交网站、移动应用、网络教育、科研实验等各个领域产生的小文件呈几何级增长,其中最为典型的文本小文件具有数量大、数据量小、冗余性高等特点,海量文本小文件的存储为分布式存储系统带来了元数据管理难、磁盘I/O操作频繁、数据存取效率低等挑战。目前主流的分布式文件系统设计模式主要分为去中心化和中心化两类,以Ceph为代表的去中心化分布式文件系统多侧重于存储大文件而设计,虽然它的去中心化设计避免了中心节点的性能瓶颈问题,但是它的双倍写入设计和多副本备份策略为Ceph存储海量小文件带来了数据读取效率低和系统工作性能下降等问题。为此本文设计了一个小文件预处理框架和一个基于Redis数据库的动态缓存机制,在降低海量小文件存储开销的同时提高了小文件的读取速率。本文主要的创新性工作总结如下:1)针对海量小文件在Ceph中存储时带来的多I/O流问题,本文设计了一种针对海量文本小文件的预处理架构SFPS(Small File Preprocess System)。通过对文件进行两次聚类、自适应跳跃去重、相似文件合并等预处理操作,将杂乱的海量小文件整理为少量内容... 

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    §1.1 课题研究背景与意义
    §1.2 课题研究现状
        §1.2.1 海量小文件的存储优化
        §1.2.2 数据去重技术
        §1.2.3 缓存淘汰算法
    §1.3 课题研究内容
    §1.4 论文章节安排
第二章 相关技术
    §2.1 Ceph分布式文件系统
        §2.1.1 Ceph的基础架构组件
        §2.1.2 Ceph中数据的存储过程
    §2.2 聚类分析
        §2.2.1 基于连接的聚类方法
        §2.2.2 基于划分的聚类方法
        §2.2.3 基于密度的聚类方法
    §2.3 数据去重
        §2.3.1 完全文件检测技术
        §2.3.2 固定分块检测技术
        §2.3.3 可变分块检测技术
    §2.4 层次分析法
    §2.5 Sim Hash算法
    §2.6 缓存算法
        §2.6.1 先进先出(FIFO)算法
        §2.6.2 最近最少使用(LRU)算法
        §2.6.3 最不常用置换(LFU)算法
    §2.7 Redis数据库
    §2.8 本章小节
第三章 小文件预处理系统设计
    §3.1 引言
    §3.2 小文件预处理架构设计
    §3.3 小文件第一次聚类去重方案设计
        §3.3.1 特征词选取
        §3.3.2 小文件第一次聚类
        §3.3.3 WFD判重器设计
        §3.3.4 第一次聚类去重整体工作流程
    §3.4 小文件第二次聚类去重方案设计
        §3.4.1 第二次聚类去重方案设计分析
        §3.4.2 组合方案决策实现
    §3.5 分块数据合并器设计
    §3.6 本章总结
第四章 小文件读取及修改模块的设计与实现
    §4.1 引言
    §4.2 小文件读取流程
        §4.2.1 恢复元数据获取
        §4.2.2 小文件读取流程
    §4.3 小文件原子操作功能设计实现
    §4.4 实验与结果分析
        §4.4.1 实验测试环境
        §4.4.2 数据去重率和恢复元数据生成量
        §4.4.3 磁盘I/O流
        §4.4.4 数据读取速率
    §4.5 本章小结
第五章 基于Redis缓存的小文件读取性能优化
    §5.1 引言
    §5.2 缓存替换优化算法
        §5.2.1 Redis的缓存替换模式
        §5.2.2 基于内容热度值的缓存替换算法
        §5.2.3 基于内容热度值的缓存替换优化算法
        §5.2.4 缓存替换优化算法可行性分析
    §5.3 缓存工作模式改进
        §5.3.1 Redis缓存淘汰方案分析
        §5.3.2 三级缓存结构设计
        §5.3.3 三级缓存动态淘汰流程
    §5.4 小文件预取策略
    §5.5 实验测试与分析
        §5.5.1 实验测试环境
        §5.5.2 缓存命中率
        §5.5.3 Redis缓存命中率
    §5.6 本章小结
第六章 总结与展望
    §6.1 工作总结
    §6.2 未来展望
参考文献
致谢
作者在攻读硕士期间的主要研究成果


【参考文献】:
期刊论文
[1]基于Simhash的中文文本去重技术研究[J]. 彭双和,图尔贡·麦提萨比尔,周巧凤.  计算机技术与发展. 2017(11)
[2]基于Redis的海量互联网小文件实时存储与索引策略研究[J]. 刘俊龙,刘光明,张黛,喻杰.  计算机研究与发展. 2015(S2)
[3]基于对象的OpenXML复合文件去重方法研究[J]. 阎芳,李元章,张全新,谭毓安.  计算机研究与发展. 2015(07)
[4]重复数据删除技术[J]. 敖莉,舒继武,李明强.  软件学报. 2010(05)

硕士论文
[1]Hadoop分布式文件系统小文件数据存储性能的优化方法研究[D]. 宋晓东.北京交通大学 2017



本文编号:3690081

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3690081.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ef58***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com