基于Spark的FCM算法的研究与应用
发布时间:2022-01-15 12:43
在现代社会中信息科学技术越来越重要,大数据处理、技术更新换代、商业模式的进化需求越来越旺盛,因而对大规模数据进行有效处理,并从大规模的数据中挖掘出有价值的信息已然成为当今时代众多企业以及学者关注的重要话题。在以大数据信息技术为主导的社会背景下,对经典聚类算法进行改进和扩展并使其为大数据进行服务是及其重要的,因而本文就是在此背景下的聚类算法的改进。模糊C均值算法(FCM)是目前众多模糊聚类算法中应用最广泛、较为成熟的算法,FCM算法通过目标函数的不断优化,进而可以得出所有样本点对每个类中心的隶属度,以此来判断输入样本的类别。FCM凭借这一运算原理在众多模糊聚类算法中脱颖而出,其求解的聚类结果通常会比一般其他的算法更为优良。论文的研究方案主要是基于理论基础以及实践实验来展开的,对常用的单机环境和Spark环境从应用特点、模型等方面进行对比,从理论分析对比两种架构在迭代学习任务上的性能差异,得出Spark在迭代性能方面更具有优势的结论。然后对模糊c均值算法基于Spark平台进行并行化的探讨,利用Spark平台上的特殊功能,对算法进行改进,对算法并行计算后的鲁棒性问题也进行了大程度的改善。针对...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
图1.1本文研究框架图??Fig.?1.1?The?Diagram?of?Research?Framework??
???-??厂????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP请求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主节点J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??图2.?4?YARN的工作流程图??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的运行流程??RDD在Spark中运行大概分为以下三步:??1、创建RDD对象;??2、DAGSchediiler模块介入运算,计算RDD之间的依赖关系,RDD之间的依赖关??系就形成了?DAG;??3、每一个Job被分为多个Stage。划分Stage的一个主要依据是当前计算因子的输??入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。??示例图如图2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
???-??厂????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP请求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主节点J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??图2.?4?YARN的工作流程图??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的运行流程??RDD在Spark中运行大概分为以下三步:??1、创建RDD对象;??2、DAGSchediiler模块介入运算,计算RDD之间的依赖关系,RDD之间的依赖关??系就形成了?DAG;??3、每一个Job被分为多个Stage。划分Stage的一个主要依据是当前计算因子的输??入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。??示例图如图2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
本文编号:3590637
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
图1.1本文研究框架图??Fig.?1.1?The?Diagram?of?Research?Framework??
???-??厂????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP请求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主节点J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??图2.?4?YARN的工作流程图??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的运行流程??RDD在Spark中运行大概分为以下三步:??1、创建RDD对象;??2、DAGSchediiler模块介入运算,计算RDD之间的依赖关系,RDD之间的依赖关??系就形成了?DAG;??3、每一个Job被分为多个Stage。划分Stage的一个主要依据是当前计算因子的输??入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。??示例图如图2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
???-??厂????;?;?Spark?AM?:??i?YARN?Client?!?;?????:???^??;?;?SparkContext?!?!??提交APP请求?::? ̄^?;;??;;?YarnCluster?;,??????^YARN?主节点J?|?CoarseGrained?|?:??;?7?;?;?SchedulerBackend?::??!?YARN?Client?j?.?i????I?;;??图2.?4?YARN的工作流程图??Fig.2.4?YARN?working?Flow?Chart??(五)RDD的运行流程??RDD在Spark中运行大概分为以下三步:??1、创建RDD对象;??2、DAGSchediiler模块介入运算,计算RDD之间的依赖关系,RDD之间的依赖关??系就形成了?DAG;??3、每一个Job被分为多个Stage。划分Stage的一个主要依据是当前计算因子的输??入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。??示例图如图2.5所示:??RDD?Objects?DA^S^eduto?Ta^Schedil^?Worker??^?I,??U?卜參么卜國?Cluster?—地??:斗?Set?Bio?ck??■?■?vVVWvvs?manager??MB?v?/????^????rddl.join(rdd2)?Split?graph?into?launch?tasks?via??.EroiroBv{...)?Stages?of?
本文编号:3590637
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3590637.html