数据中心大规模稀疏日志数据恢复方法研究
发布时间:2021-01-11 15:15
数据中心日志是数据中心性能优化的主要依据。随着数据中心规模的增长,数据中心日志的数据属性数量和记录数量也在稳定增长。在该背景下,数据中心日志的数据缺失问题日益严重。既有工作对缺失的数据的处理方法无法应对日志数据缺失问题的两大新挑战:数据稀疏性以及数据属性间复杂的相关关系。针对现有工作的不足,本文提出一种面向数据中心数据稀疏日志的缺失数据恢复方法STDR,基于张量理论对缺失数据进行恢复,并使用数据属性选取以及离散化优化方法来提高数据恢复的准确度并降低计算开销。(1)提出了一个数据中心大规模稀疏日志数据恢复框架。本文分析了具有代表性的阿里巴巴数据中心日志的数据缺失特征。在该缺失特征的基础上,提出的方法框架包含两个主要阶段,数据属性选取和离散化阶段以及张量构建和补全阶段。数据属性选取和离散化对日志数据进行预处理以降低数据恢复的计算开销并提高准确率。张量构建和补全阶段基于张量理论进行数据恢复。(2)提出了一个基于调整互信息的数据属性选取方法。同时考虑候选数据属性与缺失数据属性之间的相关性,以及选取数据属性之间的冗余性。提出了一个动态步长数据离散化方法。针对数据属性选取和张量补全两个过程的不同需...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
阿里巴巴数据中心日志批处理作业信息缺失情况
第 3 章 问题分析与整体设计测现象 1:对于大多数批处理任务,它们的 AMU/MMU 数据遵循模式。合并后的数据表中有 54.3%的任务出现了 AMU/MMU 数据7.7%的任务丢失了其全部实例的 AMU/MMU 数据。归属于同一个由于它们拥有完全一致的资源配置,执行完全一致的二进制代码,片的数据,它们的资源利用特种基本相似,即 AMU/MMU 数值相巴数据中心日志未缺失中,相同任务中的实例 AMU 数值的变异系,MMU 数值的变异系数平均为 0.11)。该观测现象表明,我们无兄弟实例,即归属于同一个任务的实例的 AMU 数值来恢复缺失必须经由分析其他任务实例的 AMU 数值变化规律来进行恢复。
图 3-3 阿里巴巴数据中心日志中不同数据属性之间的相关关系Figure 3-3 Correlations among attributes inAlibaba batch job trace之间存在线性相关关系及非线性相关关系。该观测现象表明,在对缺失数据属性进行建模时,应选取与之相关性较高的数据属性子集而非使用全部数据属性,以降低计算开销。同时,选取高相关性属性子集时,同时要考虑到该子集内数据属性间信息的冗余问题。另外,在选择相关性评价指标时,需选择能同时衡量线性和非线性相关关系的指标。3.3 数据中心日志恢复问题分析和方法设计本文针对的数据中心日志大比例数据缺失问题详细地说,是数据中心日志中数值型(numerical)数据属性中出现的大比例的数据缺失问题。本文以阿里巴巴数据中心日志为切入点展开研究,原因如下:1)作为继谷歌于 2011 年公布其数据中心日之后唯一一个对公众开放的大规模数据中心日志,阿里巴巴数据中心日志在离线负载内存使用量均值与最大值两个数据属性出现了高达 88%的数据缺
【参考文献】:
期刊论文
[1]云计算数据中心网络设计综述[J]. 王斌锋,苏金树,陈琳. 计算机研究与发展. 2016(09)
[2]云计算数据中心的新能源应用:研究现状与趋势[J]. 邓维,刘方明,金海,李丹. 计算机学报. 2013(03)
[3]面向Internet数据中心的资源管理[J]. 张伟,宋莹,阮利,祝明发,肖利民. 软件学报. 2012(02)
[4]多元回归模型在实际应用中的几种推广[J]. 项静恬,郭世琪. 数理统计与管理. 1994(04)
本文编号:2971010
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
阿里巴巴数据中心日志批处理作业信息缺失情况
第 3 章 问题分析与整体设计测现象 1:对于大多数批处理任务,它们的 AMU/MMU 数据遵循模式。合并后的数据表中有 54.3%的任务出现了 AMU/MMU 数据7.7%的任务丢失了其全部实例的 AMU/MMU 数据。归属于同一个由于它们拥有完全一致的资源配置,执行完全一致的二进制代码,片的数据,它们的资源利用特种基本相似,即 AMU/MMU 数值相巴数据中心日志未缺失中,相同任务中的实例 AMU 数值的变异系,MMU 数值的变异系数平均为 0.11)。该观测现象表明,我们无兄弟实例,即归属于同一个任务的实例的 AMU 数值来恢复缺失必须经由分析其他任务实例的 AMU 数值变化规律来进行恢复。
图 3-3 阿里巴巴数据中心日志中不同数据属性之间的相关关系Figure 3-3 Correlations among attributes inAlibaba batch job trace之间存在线性相关关系及非线性相关关系。该观测现象表明,在对缺失数据属性进行建模时,应选取与之相关性较高的数据属性子集而非使用全部数据属性,以降低计算开销。同时,选取高相关性属性子集时,同时要考虑到该子集内数据属性间信息的冗余问题。另外,在选择相关性评价指标时,需选择能同时衡量线性和非线性相关关系的指标。3.3 数据中心日志恢复问题分析和方法设计本文针对的数据中心日志大比例数据缺失问题详细地说,是数据中心日志中数值型(numerical)数据属性中出现的大比例的数据缺失问题。本文以阿里巴巴数据中心日志为切入点展开研究,原因如下:1)作为继谷歌于 2011 年公布其数据中心日之后唯一一个对公众开放的大规模数据中心日志,阿里巴巴数据中心日志在离线负载内存使用量均值与最大值两个数据属性出现了高达 88%的数据缺
【参考文献】:
期刊论文
[1]云计算数据中心网络设计综述[J]. 王斌锋,苏金树,陈琳. 计算机研究与发展. 2016(09)
[2]云计算数据中心的新能源应用:研究现状与趋势[J]. 邓维,刘方明,金海,李丹. 计算机学报. 2013(03)
[3]面向Internet数据中心的资源管理[J]. 张伟,宋莹,阮利,祝明发,肖利民. 软件学报. 2012(02)
[4]多元回归模型在实际应用中的几种推广[J]. 项静恬,郭世琪. 数理统计与管理. 1994(04)
本文编号:2971010
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2971010.html