基于随机森林的高能物理数据放置策略
发布时间:2024-06-29 13:39
随着LHAASO高海拔宇宙线等高能物理实验规模的不断扩大,每年需要存储PB级的海量物理数据。高能物理海量存储系统一般采用随机的数据放置策略,没有考虑数据访问场景和服务器节点、存储设备的差异性。针对以上问题,提出一种异构存储环境下基于随机森林算法的数据放置策略,根据存储设备性能差异划分快慢存储池,同时对后期文件的读写访问场景进行预测和识别,综合考虑当前设备负载为数据找到最佳的放置位置。使用真实物理实验数据验证了算法的有效性。
【文章页数】:5 页
【部分图文】:
本文编号:3997636
【文章页数】:5 页
【部分图文】:
图1高能物理计算系统典型结构
海量实验数据存储在I/O服务器中,通过EOS分布式存储系统来管理,计算节点通过高速网络从I/O服务器中获取数据[8]。中科院高能物理研究所计算中心开发了基于DNS负载均衡的前端登录系统[9],提供大规模用户登录服务,作为用户在计算和存储集群的单一入口点。用户在前端登录节点可以进行....
图2EOS典型架构
为了满足PB级甚至EB级的高能物理数据存储与分析压力,欧洲核子中心CERN于2010年开发了EOS文件存储系统。EOS是一种基于xrootd协议[10]框架实现的分布式并行文件系统,采用基于内存的元数据管理架构,节点支持条带化、文件多副本,可扩展性较好。它提供较高的聚合I/O带宽....
图3EOS文件写入过程
EOS中文件写入过程如图3所示。客户端将请求发给元数据服务器,元数据服务器收到请求后首先检查用户权限和文件逻辑路径,如果成功则创建一条元数据记录,包括用户名uid、用户组名gid、创建时间、访问权限、逻辑路径、文件名等,但不会记录文件大小和文件在存储集群中的物理路径。客户端初始时....
图4基于随机森林的文件放置框架结构图
如图4所示,在文件写入本地缓存后,采集文件后缀名、文件大小、文件目录、访问权限、创建时间、文件所属用户uid、用户组gid等信息,经过预处理、特征提取、One-hot编码[14]作为随机森林的输入数据。随机森林模型保存了文件访问场景的识别规则。例如,同种访问场景中的高能物理实验数....
本文编号:3997636
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3997636.html