云计算下大数据高效处理的若干关键问题研究
发布时间:2020-11-04 04:46
大数据已经成为信息技术及其它相关交叉领域的研究热点。它被认为是极具价值的重要资产,具有推动人们生产生活与科学技术发展的巨大潜力。通过对大数据进行相应的分析处理与开发利用,我们可以获得新的知识、新的规则、问题的答案、甚至是预测模型等对科研、生产和生活产生重要积极影响的信息。然而,大数据所具有的特性(如:大规模性、实时性等)使得当前广泛使用的集中式计算架构及经典的数据分析模型与算法无法直接适用于大数据而实现高效的大数据分析处理。这主要是因为大数据自身的复杂性以及当前的主流计算范式难以为大数据的高效处理提供弹性可扩展的充足计算能力。近些年云计算的出现与发展为解决这一难题提供了可能。云计算目前已经逐渐成为大数据研究与应用的基础底层平台。本文将云计算下大数据高效处理问题的研究分成以下三个方向:云计算平台、大数据预处理和经典数据处理算法与模型。第一,为了高效地处理大数据,我们需要利用具有弹性可扩展特性的云计算平台所提供的虚拟化并行计算能力来处理大数据计算任务。第二,我们可以在分析挖掘大数据之前先对大数据本身进行针对性的预处理以达到事半功倍的效果。因此,对云计算下大数据高效预处理方法进行研究十分必要。第三,现有的经典数据分析算法与模型应结合云计算技术针对大数据问题进行新的设计研究,进而实现云计算下大数据的高效处理,而不是将传统算法与模型直接用于处理大数据。本文将以上三个方向涉及到的研究问题称为云计算下大数据高效处理的关键共性问题。本文重点关注并研究了云计算下大数据高效处理的若干关键问题。首先研究了针对大数据高效处理的云计算下多任务部署方法与虚拟机动态迁移策略;然后研究了针对大数据高效处理的移动云计算模型与部署方法;最后研究了针对大数据高效处理的云计算下大数据实例约简预处理方法与云计算下大数据推荐系统框架。本文的主要贡献如下:(1)进行了针对大数据高效处理的云计算下多任务部署方法与虚拟机动态迁移策略的研究。为了利用云计算虚拟化资源池的弹性可扩展特性所支撑的强大并行计算潜力来获得大数据高效处理的底层基础设施,首先需要实现云计算下高效的多任务调度和虚拟机动态迁移策略。本文提出了一种新的针对长期负载均衡优化基于聚类分析与贝叶斯定理的启发式多任务部署方法LB-BC(Load Balancing approach based on Bayes theorem and Clustering)以及一种节能感知基于改进人工蜂群算法与贝叶斯概率模型的启发式虚拟机动态迁移位置选择策略PS-ABC(Placement Selection policy based on improved Artificial Bee Colony and bayes)。LB-BC方法以较小的开销实现了大数据云计算平台的长期负载均衡优化,提升了云平台的对外服务能力,进而促进云计算下的大数据高效并行处理。同时,PS-ABC方法实现了大数据云平台下高效节能优化的虚拟机动态迁移策略。PS-ABC方法在保证虚拟机动态迁移成功率的情况下结合虚拟机的负载均衡迁移优化,整体上实现了大数据云平台的性能提升。在一定程度上为云计算下大数据的高效处理打下底层基础。(2)进行了针对大数据高效处理的移动云计算模型与部署方法的研究。为了从探索大数据边缘计算的角度研究云计算下大数据的高效处理,本文对移动云计算模型及相应的部署方法进行了研究。首先,本文提出了一种基于移动端并行计算结合远端云存储与本地移动虚拟集群的移动云计算模型,并相应地设计了该模型下移动端多虚拟机的启发式部署方法VD-ABC(Virtual device Deployment based on Artificial Bee Colony)。该移动云模型旨在充分利用边缘移动端的多设备剩余资源,通过虚拟化多租户实现最大化资源利用与高效并行计算。VD-ABC方法在保证性能的情况下获得移动设备节能感知与服务响应延迟优化的虚拟机部署解决方案,促进实现基于边缘移动云计算的大数据高效处理。然后,本文提出了一种基于移动自组织社区下多设备协同计算的移动云计算模型。它利用大量移动端空闲设备组成逻辑移动社区作为边缘云计算集群,通过部署多移动应用划分实现对大数据处理请求的并行处理能力。相应地本文提出了该模型下基于改进粒子群优化的启发式移动应用划分分派方法MCC-PSO(Mobile Cloud Computing based on Particle Swarm Optimization)。MCC-PSO方法缩短了多移动应用划分的整体处理时间,在满足多任务并行计算性能的前提下减少了移动设备的剩余电量消耗。该模型在整体上具有促进实现自组织边缘移动云计算下大数据高效处理的潜力。(3)对云计算下大数据实例约简预处理与大数据推荐系统框架进行了研究。旨在从云计算下大数据预处理的角度研究云计算下大数据的高效处理,本文提出了一种基于聚类分析与最优极小样本集抽样思想的启发式大数据实例约简预处理方法CSA(Clustering Sampling Algorithm)。CSA方法在保证原大数据集实例分布特点与信息质量的同时,通过类簇的最优极小样本集抽样实现了高效的大数据实例约简预处理。CSA有效地促进了云计算下大数据高效处理目标的实现。另外,本文提出了一种新的云计算下结合大数据与社会上下文理论的大数据推荐系统框架方法BDRSF(Big Data Recommendation System Framework)。BDRSF方法实现了相应的推荐预测性能。从云计算下大数据的通用预测模型及算法的角度推动大数据高效处理的实现。
【学位单位】:吉林大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP311.13
【部分图文】:
吉林大学博士学位论文载均衡感知的启发式任务部署方法 LB-BC架构设计 描述了云计算环境中 LB-BC 方法的系统架构。它展示了 LB-BC 关系,也表明了 LB-BC 在整个架构中扮演的重要角色。首先,源信息和云计算平台中 m 个可用物理主机的剩余资源量(包括 C。通过使用从监控器获取的信息,LB-BC 生成部署策略并传递给部的功能是控制和实施请求任务的部署。最后,在一个 Δt 时间内到由 LB-BC 获得的最终最优物理主机集合中的相应物理主机中。
的第一个属性值,它是物理主机 nphj的后验概率。Lcj是其第二个属性 资源量。Lmemj是其第三个属性值,剩余内存资源量。步:在 nphj作为聚类中心的情况下计算 nphj与 NPH 中其它对象之间相似度值给出阈值SimilaritythresholdU。如果相似度值 SD 比SimilaritythresholdU大,那么这合 NPH'={}中的一员。聚类中心 nphj是第一个被放入 NPH'中的对象就是这个最终的聚类结果 NPH',即,NPH'={nph1',nph2',...,nphq'} (q m步:用户请求的任务将会被部署到 NPH'集合中的物理主机上。这里请求的先进先出处理顺序,同时 LB-BC 部署 TR 中的每个任务到当前理主机中,旨在进一步优化长期全局负载均衡的性能和效率。图 3.4 NPH'中的相应物理主机执行 TR 中的任务。LB-BC 算法从开始被调用决方案的时间间隔作为下一个时间窗口 Δt。即在那段时间间隔里收到下一轮任务请求集合 TR。在 Δt 时间内由云计算平台收到的任务请在下个算法周期的工作负载。
MakeSpan 的比较该组实验中,将 LB-BC 与 RD 和 DLB 进行关于 MakeSpan 的比较,即比合所需时间。图 3.5 展示了三个方法的实验结果。请求任务数量的增加必更多的时间来处理执行它们,因此其 MakeSpan 值会变大。RD 本质上是求任务到云计算平台的物理主机上。对于 RD 而言,任务请求数的增加会行性能下降得更快,任务执行时间也会相对增长得更快。对于 DLB 而言历史纪录和知识库来推断即将到来的任务需求,然后通过计算系统负载均决定任务部署方案。任务数量的上升会增加物理主机间的通信开销,进而性能的下降和时间开销的增加。但是,与 RD 方法相比要更小。LB-BC 方中会选择最优物理主机集合来部署和处理任务,以此来减少不必要的大量大程度地发挥物理集群的计算性能。处理任务的时间会随着请求任务数的在相同请求任务数的情况下,LB-BC 与 DLB 和 RD 相比具有更小的处理.5 所示,LB-BC 在相同的条件下,实现了相对更小的任务处理 MakeSpan表明 LB-BC 在对大数据云计算平台进行低代价且长期的负载均衡优化的务的执行性能和效率。
【参考文献】
本文编号:2869636
【学位单位】:吉林大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP311.13
【部分图文】:
吉林大学博士学位论文载均衡感知的启发式任务部署方法 LB-BC架构设计 描述了云计算环境中 LB-BC 方法的系统架构。它展示了 LB-BC 关系,也表明了 LB-BC 在整个架构中扮演的重要角色。首先,源信息和云计算平台中 m 个可用物理主机的剩余资源量(包括 C。通过使用从监控器获取的信息,LB-BC 生成部署策略并传递给部的功能是控制和实施请求任务的部署。最后,在一个 Δt 时间内到由 LB-BC 获得的最终最优物理主机集合中的相应物理主机中。
的第一个属性值,它是物理主机 nphj的后验概率。Lcj是其第二个属性 资源量。Lmemj是其第三个属性值,剩余内存资源量。步:在 nphj作为聚类中心的情况下计算 nphj与 NPH 中其它对象之间相似度值给出阈值SimilaritythresholdU。如果相似度值 SD 比SimilaritythresholdU大,那么这合 NPH'={}中的一员。聚类中心 nphj是第一个被放入 NPH'中的对象就是这个最终的聚类结果 NPH',即,NPH'={nph1',nph2',...,nphq'} (q m步:用户请求的任务将会被部署到 NPH'集合中的物理主机上。这里请求的先进先出处理顺序,同时 LB-BC 部署 TR 中的每个任务到当前理主机中,旨在进一步优化长期全局负载均衡的性能和效率。图 3.4 NPH'中的相应物理主机执行 TR 中的任务。LB-BC 算法从开始被调用决方案的时间间隔作为下一个时间窗口 Δt。即在那段时间间隔里收到下一轮任务请求集合 TR。在 Δt 时间内由云计算平台收到的任务请在下个算法周期的工作负载。
MakeSpan 的比较该组实验中,将 LB-BC 与 RD 和 DLB 进行关于 MakeSpan 的比较,即比合所需时间。图 3.5 展示了三个方法的实验结果。请求任务数量的增加必更多的时间来处理执行它们,因此其 MakeSpan 值会变大。RD 本质上是求任务到云计算平台的物理主机上。对于 RD 而言,任务请求数的增加会行性能下降得更快,任务执行时间也会相对增长得更快。对于 DLB 而言历史纪录和知识库来推断即将到来的任务需求,然后通过计算系统负载均决定任务部署方案。任务数量的上升会增加物理主机间的通信开销,进而性能的下降和时间开销的增加。但是,与 RD 方法相比要更小。LB-BC 方中会选择最优物理主机集合来部署和处理任务,以此来减少不必要的大量大程度地发挥物理集群的计算性能。处理任务的时间会随着请求任务数的在相同请求任务数的情况下,LB-BC 与 DLB 和 RD 相比具有更小的处理.5 所示,LB-BC 在相同的条件下,实现了相对更小的任务处理 MakeSpan表明 LB-BC 在对大数据云计算平台进行低代价且长期的负载均衡优化的务的执行性能和效率。
【参考文献】
相关期刊论文 前1条
1 罗刚毅;钱柱中;陆桑璐;;一种基于网络感知的虚拟机再调度算法[J];计算机学报;2015年05期
本文编号:2869636
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2869636.html