面向大数据的聚类技术研究
发布时间:2021-06-22 08:07
聚类技术是一种分组技术,它将物理或抽象对象的集合分组为由同一类对象组成的多个集合,被广泛应用于各个领域,是数据挖掘、模式识别等研究领域的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用。随着信息产业的发展,数据的属性类型越来越复杂,然而传统的K-means等聚类算法只能处理单一属性数据,K-prototypes聚类算法则能处理混合属性数据,极大地拓展了聚类算法的应用领域,提高了聚类分析的效率。随着大数据时代的到来,传统的聚类方法已无法对大规模的数据进行处理,因此将聚类技术与集群环境相结合,已成为处理海量数据的新趋势,能分析出大量有价值的信息。本文主要的工作内容概括如下:(1)提出一种有效的GK-prototypes聚类算法。在经典的K-prototypes聚类算法的基础上,利用去模糊相似矩阵构造粗粒子集、粒计算和最大最小距离法确定初始聚类中心,并修改了目标函数。实验结果和理论分析表明,GK-prototypes聚类算法与其它基于K-prototypes的改进算法比较,聚类效果更准确,有效性更好,鲁棒性更强。(2)提出了一种面向大数据的MK-prototypcs聚类算法。大数...
【文章来源】:长沙理工大学湖南省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1?K-means聚类算法流程图??K-means聚类算法步骤如下所示:??输入:聚类簇々,样本集??
?第二章聚类算法与分布式系统架构基础???随机选择k个初始聚类中心???二二?…????Y???—??计第每个样本点与初始聚类中心的相异度,将其??划分到相异度最小的聚类中心所在聚类簇中??+?丨??更新聚类中心??no???示函数收^??备?yes??end??图2.2?K-modes聚类算法流程图??K-modes聚类算法步骤如下所示:??输入:聚类族A’,样本集X=/"x/,X2,??输出:A:个簇?Ofc/.cz?...?,CAv*。??步骤:(1)随机选抒A?个样本点作为初始聚类中心{/h/,W2,?...?,即Modes;??(2)利用海明威距离i十算样木集中剩余的(n-A:)个样本点与各初始聚类中心之间??的相异度,并将每t样本点分配到相异度最小的初始聚类中心所在的簇屮;??(3)更新聚类中心。基于频率来重新确定聚类中心的属性取值,簇中出现频率最??高的属性值即为新的聚类屮心的城忡值;??(4)计算收敛函数:??厂=?(2.12)??;-1?/=1??其中,vv,/e?{0,1},当w,/=l时,表示第/个样本点划分到第^个簇中。??(5)若|厂?-厂??,|“,返回迭代终止;否则,返M至步骤(2),继??13??
<2°18.[2^J^^^^^<2_.2r?>??2015.23?°??<201724°?>?X??/??2017.24°???<2016.[25°?]>^^recJuce?<^c2016.25">??2018.23°?1?<2015,21。〉??、^v?广Z—、一*N?<2015.22°?>??<2016.25*?>?^^?reduce?^??v_-?^-/<2017J4,?>??<201S.23?>?<2015仞。.21。j>?—??<2017.[24°?p>??图2.4?MapReduce程序计算每年的平均温度示意图??上图2.4中详细给出了分析2015-2018年的MapReduce程序分布式执行的过程。首??先,map函数接收到了与年份和气温相关的数据,并创建了<1?5;/,?valuelt,即<year,??temperature〉对。例如<2015,23°C>表示需要23°C来解决计算2015年平均气温的子问题。??然后,reduce函数从所有的map中接收一年的所有气温并计算其平均值。假设一个reduce??函数收到的数据为:在2015年有气温为23°C和21°C温度,即<2015,[23°C,?2】°C]>,??那么这一年的平均温度是22°C。??这个程序由一个框架执行,该框架能自动管理资源分配,在基础设施出现故障时能??道新执行程序的一部分,并能调度所有执行。它所分析的数据可以存储在多个分布式源??中,比如非关系数据库(nonrelational?databases)和分布式文件系统.(distributed?file??systems)?〇??对于开发人员和测试人员来说,要将所有这些技
【参考文献】:
期刊论文
[1]一种改进的K-Modes聚类算法[J]. 贾彬,梁毅,苏航. 软件导刊. 2019(06)
[2]采用机器学习的聚类模型特征选择方法比较[J]. 赵玮. 华侨大学学报(自然科学版). 2017(01)
[3]粒计算优化初始聚类中心的K-medoids聚类算法[J]. 谢娟英,鲁肖肖,屈亚楠,高红超. 计算机科学与探索. 2015(05)
[4]基于粒计算的概念聚类算法[J]. 苟光磊,黄丽丰,倪伟. 重庆理工大学学报(自然科学). 2013(06)
[5]面向大规模数据的快速并行聚类划分算法研究[J]. 牛新征,佘堃. 计算机科学. 2012(01)
[6]Notes on Rough Set Approximations and Associated Measures[J]. YAO Yiyu (Department of Computer Science,University of Regina,Regina,Saskatchewan,Canada S4S 0A2). 浙江海洋学院学报(自然科学版). 2010(05)
[7]基于K均值聚类分割彩色图像算法的改进[J]. 王易偱,赵勋杰. 计算机应用与软件. 2010(08)
[8]一种优化初始中心点的K-means算法[J]. 汪中,刘贵全,陈恩红. 模式识别与人工智能. 2009(02)
[9]密度敏感的谱聚类[J]. 王玲,薄列峰,焦李成. 电子学报. 2007(08)
[10]初始化K-means的谱方法[J]. 钱线,黄萱菁,吴立德. 自动化学报. 2007(04)
博士论文
[1]高维数据的聚类方法研究与应用[D]. 陈黎飞.厦门大学 2008
硕士论文
[1]基于Hadoop的并行K-prototypes聚类算法的研究与设计[D]. 李兴.北京工业大学 2014
[2]大规模数据聚类技术研究与实现[D]. 钱彦江.电子科技大学 2009
[3]基于约束的聚类算法及其应用研究[D]. 王小乐.国防科学技术大学 2008
本文编号:3242485
【文章来源】:长沙理工大学湖南省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1?K-means聚类算法流程图??K-means聚类算法步骤如下所示:??输入:聚类簇々,样本集??
?第二章聚类算法与分布式系统架构基础???随机选择k个初始聚类中心???二二?…????Y???—??计第每个样本点与初始聚类中心的相异度,将其??划分到相异度最小的聚类中心所在聚类簇中??+?丨??更新聚类中心??no???示函数收^??备?yes??end??图2.2?K-modes聚类算法流程图??K-modes聚类算法步骤如下所示:??输入:聚类族A’,样本集X=/"x/,X2,??输出:A:个簇?Ofc/.cz?...?,CAv*。??步骤:(1)随机选抒A?个样本点作为初始聚类中心{/h/,W2,?...?,即Modes;??(2)利用海明威距离i十算样木集中剩余的(n-A:)个样本点与各初始聚类中心之间??的相异度,并将每t样本点分配到相异度最小的初始聚类中心所在的簇屮;??(3)更新聚类中心。基于频率来重新确定聚类中心的属性取值,簇中出现频率最??高的属性值即为新的聚类屮心的城忡值;??(4)计算收敛函数:??厂=?(2.12)??;-1?/=1??其中,vv,/e?{0,1},当w,/=l时,表示第/个样本点划分到第^个簇中。??(5)若|厂?-厂??,|“,返回迭代终止;否则,返M至步骤(2),继??13??
<2°18.[2^J^^^^^<2_.2r?>??2015.23?°??<201724°?>?X??/??2017.24°???<2016.[25°?]>^^recJuce?<^c2016.25">??2018.23°?1?<2015,21。〉??、^v?广Z—、一*N?<2015.22°?>??<2016.25*?>?^^?reduce?^??v_-?^-/<2017J4,?>??<201S.23?>?<2015仞。.21。j>?—??<2017.[24°?p>??图2.4?MapReduce程序计算每年的平均温度示意图??上图2.4中详细给出了分析2015-2018年的MapReduce程序分布式执行的过程。首??先,map函数接收到了与年份和气温相关的数据,并创建了<1?5;/,?valuelt,即<year,??temperature〉对。例如<2015,23°C>表示需要23°C来解决计算2015年平均气温的子问题。??然后,reduce函数从所有的map中接收一年的所有气温并计算其平均值。假设一个reduce??函数收到的数据为:在2015年有气温为23°C和21°C温度,即<2015,[23°C,?2】°C]>,??那么这一年的平均温度是22°C。??这个程序由一个框架执行,该框架能自动管理资源分配,在基础设施出现故障时能??道新执行程序的一部分,并能调度所有执行。它所分析的数据可以存储在多个分布式源??中,比如非关系数据库(nonrelational?databases)和分布式文件系统.(distributed?file??systems)?〇??对于开发人员和测试人员来说,要将所有这些技
【参考文献】:
期刊论文
[1]一种改进的K-Modes聚类算法[J]. 贾彬,梁毅,苏航. 软件导刊. 2019(06)
[2]采用机器学习的聚类模型特征选择方法比较[J]. 赵玮. 华侨大学学报(自然科学版). 2017(01)
[3]粒计算优化初始聚类中心的K-medoids聚类算法[J]. 谢娟英,鲁肖肖,屈亚楠,高红超. 计算机科学与探索. 2015(05)
[4]基于粒计算的概念聚类算法[J]. 苟光磊,黄丽丰,倪伟. 重庆理工大学学报(自然科学). 2013(06)
[5]面向大规模数据的快速并行聚类划分算法研究[J]. 牛新征,佘堃. 计算机科学. 2012(01)
[6]Notes on Rough Set Approximations and Associated Measures[J]. YAO Yiyu (Department of Computer Science,University of Regina,Regina,Saskatchewan,Canada S4S 0A2). 浙江海洋学院学报(自然科学版). 2010(05)
[7]基于K均值聚类分割彩色图像算法的改进[J]. 王易偱,赵勋杰. 计算机应用与软件. 2010(08)
[8]一种优化初始中心点的K-means算法[J]. 汪中,刘贵全,陈恩红. 模式识别与人工智能. 2009(02)
[9]密度敏感的谱聚类[J]. 王玲,薄列峰,焦李成. 电子学报. 2007(08)
[10]初始化K-means的谱方法[J]. 钱线,黄萱菁,吴立德. 自动化学报. 2007(04)
博士论文
[1]高维数据的聚类方法研究与应用[D]. 陈黎飞.厦门大学 2008
硕士论文
[1]基于Hadoop的并行K-prototypes聚类算法的研究与设计[D]. 李兴.北京工业大学 2014
[2]大规模数据聚类技术研究与实现[D]. 钱彦江.电子科技大学 2009
[3]基于约束的聚类算法及其应用研究[D]. 王小乐.国防科学技术大学 2008
本文编号:3242485
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3242485.html