当前位置:主页 > 科技论文 > 计算机论文 >

基于随机森林的高能物理数据放置策略

发布时间:2024-06-29 13:39
  随着LHAASO高海拔宇宙线等高能物理实验规模的不断扩大,每年需要存储PB级的海量物理数据。高能物理海量存储系统一般采用随机的数据放置策略,没有考虑数据访问场景和服务器节点、存储设备的差异性。针对以上问题,提出一种异构存储环境下基于随机森林算法的数据放置策略,根据存储设备性能差异划分快慢存储池,同时对后期文件的读写访问场景进行预测和识别,综合考虑当前设备负载为数据找到最佳的放置位置。使用真实物理实验数据验证了算法的有效性。

【文章页数】:5 页

【部分图文】:

图1高能物理计算系统典型结构

图1高能物理计算系统典型结构

海量实验数据存储在I/O服务器中,通过EOS分布式存储系统来管理,计算节点通过高速网络从I/O服务器中获取数据[8]。中科院高能物理研究所计算中心开发了基于DNS负载均衡的前端登录系统[9],提供大规模用户登录服务,作为用户在计算和存储集群的单一入口点。用户在前端登录节点可以进行....


图2EOS典型架构

图2EOS典型架构

为了满足PB级甚至EB级的高能物理数据存储与分析压力,欧洲核子中心CERN于2010年开发了EOS文件存储系统。EOS是一种基于xrootd协议[10]框架实现的分布式并行文件系统,采用基于内存的元数据管理架构,节点支持条带化、文件多副本,可扩展性较好。它提供较高的聚合I/O带宽....


图3EOS文件写入过程

图3EOS文件写入过程

EOS中文件写入过程如图3所示。客户端将请求发给元数据服务器,元数据服务器收到请求后首先检查用户权限和文件逻辑路径,如果成功则创建一条元数据记录,包括用户名uid、用户组名gid、创建时间、访问权限、逻辑路径、文件名等,但不会记录文件大小和文件在存储集群中的物理路径。客户端初始时....


图4基于随机森林的文件放置框架结构图

图4基于随机森林的文件放置框架结构图

如图4所示,在文件写入本地缓存后,采集文件后缀名、文件大小、文件目录、访问权限、创建时间、文件所属用户uid、用户组gid等信息,经过预处理、特征提取、One-hot编码[14]作为随机森林的输入数据。随机森林模型保存了文件访问场景的识别规则。例如,同种访问场景中的高能物理实验数....



本文编号:3997636

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3997636.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9b2cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com