改进的K-means算法研究与实现
发布时间:2021-01-14 13:42
初始中心和相似性度量方法的选择都会影响K-means算法精准程度,论文研究的目的是引入新的相似性度量方法和初始中心参数选择技术,从而提高算法的准确度。论文研究内容及方法如下:首先,论文引入密度极小值理论,基于密度参数的基础上,利用欧氏距离计算数据集的密度参数,获取所有的密度参数之后,获取K个中心,如果数据对象A到K个中心具有相同的距离,此时排序簇中数据对象到A的密度距离,选择最小的密度距离并将A归至对应的类中,这就可以使数据对象与邻近的数据对象变得更加紧凑,表明数据对象与邻近对象密度更高,能够更加准确的反映数据集内部的分布式结构关系。其次,论文引入互信息作为相似性度量方法,可以利用互信息评估数据对象之间互相包含的程度,适用于模糊度较高的文档数据以及上下文信息包含量较大的应用场景,比如在文本聚类中,如果两篇文章同属于一个簇,这两片文档的特征词含量一般重叠的较多,因此可以更加准确的发现数据集潜在的结构。论文实验结果表明,引入密度极小值设置初始中心,可以提高K-means算法的准确度;利用互信息改进K-means算法的相似性度量,改进后的K-means算法能够较准确描述数据对象之间的关系,反...
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
密度相连数据划分簇结果
值算法在执行过程中,将数据集X划分到簇r中的同时,保持F的信息最大化,??这样就可以更好地将拥有最多互信息的文档划分到一个簇,基于互信息的K均??值算法执行思路如图5.1所示。??P(XJ)? ̄?1{XJ)??\?P(j\x、P〇-\T)?\?I??P(T)??\airiQ'-,X)?MAX?I(T-,Y)??图5.1基于互信息的K均值算法原理??基于互信息的K均值算法目标函数可以如公式(5.1)所示。??F\p(t?I?x)]?=?I{X-?Y)?+?1{X-T)-MT;Y)?(5.?〇??其中,符号P是一个拉格朗日乘法算子,其可以有效的实现压缩文本数据集??I的信息和保有相关特征单词变量y的一个关键平台,对于一个网站来讲,文本??数据集和征单词变量r评价之间的互信息/(x;?是一个常数,同时??36??
【参考文献】:
期刊论文
[1]基于内聚度和耦合度的二分K均值方法[J]. 郁湧,康庆怡,陈长赓,阚世林,骆永军. 计算机科学. 2018(S1)
[2]κ-均值算法的初始化方法综述[J]. 徐大川,许宜诚,张冬梅. 运筹学学报. 2018(02)
[3]基于余弦距离选取初始簇中心的文本聚类研究[J]. 王彬宇,刘文芬,胡学先,魏江宏. 计算机工程与应用. 2018(10)
[4]基于先验知识MinMax k-Means聚类算法的道路裂缝研究[J]. 郭立媛,张磊,李威,韩旭. 中国测试. 2018(04)
[5]基于改进k均值与高斯混合模型的宫颈图像分割[J]. 刘君,余婷婷,石慧娟. 中国生物医学工程学报. 2018(02)
[6]基于改进HOG特征提取的车型识别算法[J]. 耿庆田,赵浩宇,于繁华,王宇婷,赵宏伟. 中国光学. 2018(02)
[7]一种基于信息论模型的入侵检测特征提取方法[J]. 宋勇,蔡志平. 电子科技大学学报. 2018(02)
[8]改进K-means算法优化RBF神经网络的出水氨氮预测[J]. 乔俊飞,孙玉庆,韩红桂. 控制工程. 2018(03)
[9]基于kmeans聚类与BP神经网络算法的办公建筑逐时电负荷预测[J]. 刘倩颖,阮应君,时翔,李铮伟. 热能动力工程. 2018(03)
[10]基于AP布置优化和K-means聚类算法的室内定位研究[J]. 陈云飞,杜太行,江春冬,王景玉,李娟妹. 电子技术应用. 2018(03)
硕士论文
[1]K-means算法的改进及其在文本聚类中的应用研究[D]. 李敏.江南大学 2018
本文编号:2976960
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
密度相连数据划分簇结果
值算法在执行过程中,将数据集X划分到簇r中的同时,保持F的信息最大化,??这样就可以更好地将拥有最多互信息的文档划分到一个簇,基于互信息的K均??值算法执行思路如图5.1所示。??P(XJ)? ̄?1{XJ)??\?P(j\x、P〇-\T)?\?I??P(T)??\airiQ'-,X)?MAX?I(T-,Y)??图5.1基于互信息的K均值算法原理??基于互信息的K均值算法目标函数可以如公式(5.1)所示。??F\p(t?I?x)]?=?I{X-?Y)?+?1{X-T)-MT;Y)?(5.?〇??其中,符号P是一个拉格朗日乘法算子,其可以有效的实现压缩文本数据集??I的信息和保有相关特征单词变量y的一个关键平台,对于一个网站来讲,文本??数据集和征单词变量r评价之间的互信息/(x;?是一个常数,同时??36??
【参考文献】:
期刊论文
[1]基于内聚度和耦合度的二分K均值方法[J]. 郁湧,康庆怡,陈长赓,阚世林,骆永军. 计算机科学. 2018(S1)
[2]κ-均值算法的初始化方法综述[J]. 徐大川,许宜诚,张冬梅. 运筹学学报. 2018(02)
[3]基于余弦距离选取初始簇中心的文本聚类研究[J]. 王彬宇,刘文芬,胡学先,魏江宏. 计算机工程与应用. 2018(10)
[4]基于先验知识MinMax k-Means聚类算法的道路裂缝研究[J]. 郭立媛,张磊,李威,韩旭. 中国测试. 2018(04)
[5]基于改进k均值与高斯混合模型的宫颈图像分割[J]. 刘君,余婷婷,石慧娟. 中国生物医学工程学报. 2018(02)
[6]基于改进HOG特征提取的车型识别算法[J]. 耿庆田,赵浩宇,于繁华,王宇婷,赵宏伟. 中国光学. 2018(02)
[7]一种基于信息论模型的入侵检测特征提取方法[J]. 宋勇,蔡志平. 电子科技大学学报. 2018(02)
[8]改进K-means算法优化RBF神经网络的出水氨氮预测[J]. 乔俊飞,孙玉庆,韩红桂. 控制工程. 2018(03)
[9]基于kmeans聚类与BP神经网络算法的办公建筑逐时电负荷预测[J]. 刘倩颖,阮应君,时翔,李铮伟. 热能动力工程. 2018(03)
[10]基于AP布置优化和K-means聚类算法的室内定位研究[J]. 陈云飞,杜太行,江春冬,王景玉,李娟妹. 电子技术应用. 2018(03)
硕士论文
[1]K-means算法的改进及其在文本聚类中的应用研究[D]. 李敏.江南大学 2018
本文编号:2976960
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2976960.html