当前位置:主页 > 科技论文 > 数学论文 >

基于模糊集的不确定数据聚类算法研究

发布时间:2020-08-31 10:00
   随着数据挖掘技术的快速发展,聚类分析技术的应用越来越受到人们的广泛关注。聚类分析是无监督学习的过程,根据数据对象的相似性聚集成簇,从而发现数据集中数据的分布规律和发展趋势。现实数据集中存在不可靠、错误、不确定、噪声等属性对聚类分析的结果造成严重的影响,因此,对不确定数据的聚类进行研究具有很高的实用价值,可以使聚类分析结果更加趋于真实化。本文研究的不确定数据主要是数值型和信息型的属性不确定数据,在对不确定数据的聚类研究中,处理障碍不确定数据和高维不确定数据的聚类是两个无可避免的问题,同时也是两个巨大的挑战。针对以上研究中遇到的问题,本文内容结构如下:首先,对于传统不确定聚类算法无法有效解决障碍不确定数据的问题,本文对现有的障碍不确定聚类算法进行优化,提出一种基于Voronoi图的障碍空间中密度聚类算法。该方法引入Dev模糊集中的三角模糊数来解决数据的不确定性问题,同时引入R树进行剪枝,降低算法计算量,产生相对精准的数据集。然后根据障碍约束分情况进行分析,提高算法的效率,最后运用基于Voronoi图的密度聚类进行聚类分析,得到更真实准确的聚类结果。其次,为了对高维不确定数据进行有效聚类,本文利用投影子空间技术进行降维,通过对高维不确定数据进行子空间投影,有效降低无关或冗余属性对高维聚类的影响,并且减少了计算量。同时利用近似骨架理论给出聚类算法的初始解,弥补投影子空间易陷入局部解的问题,避免聚类结果出现局部极值;此外,基于直觉模糊集和相对熵技术提出不确定模糊聚类算法,通过改进的相对熵来有效衡量不确定数据样本间的差异度,保证算法聚类结果的稳定性、全面性、精确性。通过上述对不确定数据聚类问题的研究,本文最后对论文进行系统的总结,并对论文的研究方向进行展望,为接下来的学术研究定下目标,进行进一步的学习与研究。
【学位单位】:哈尔滨理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;O159
【部分图文】:

R树,空间,不确定数据,最大距离


) min{ ( , ) ( ,..., ) ( , )}p q p i i j j qdis d d = dis d o + dis o o + dis o d(3-4)算法 3-1 在计算模糊距离时,为了更快的在障碍空间中筛选出精准的不确定数据集,为聚类提供更好的基础,得到更好、更精准聚类结果。本文引入 R 树索引结构对初始数据集进行剪枝,根据文献[52]首先为不确定数据建立最小外接矩形 MBR,然后基于所有的 MBR 建立 R 树。在 R 树中,当相邻的最小外接矩形之间存在障碍物时,如图 3-1 所示。从图中可知最小外接矩形 R1与 R2的最小距离为1 2min dis ( R , R ),R1与R2的最大距离为1 2max dis ( R , R )。同理1 3min dis ( R , R )代表为 R1与 R3的最小距离,1 3max dis ( R , R )代表为 R1与 R3的最大距离。由于 R1与 R2、R3之间存在障碍物 O1、O2,所以计算 R1与 R2、R3的距离时要计算他们的障碍距离。而 R1与 R2的最小距离1 3min dis ( R , R )相较于 R1与 R3的最大距离1 3max dis ( R , R )距离更远,即1 2min dis ( R , R )>1 3max dis ( R , R ),这表明 R3与R1更适合相互合并。同时在最小外接矩形 R1中存在障碍物 O3,致使要计算 R13与 R2的距离时,涉及到计算距离更长的障碍距离。综上选择 R3作为代表点,剪枝掉以 R2为父节点的子 R 树,不再参与代表点的计算。

Voronoi图,Voronoi图,交点,质心


Voronoi单元的面积就是计算多边形的 ,n na n ∈ I,每个顶点的坐标分别为( x公式3-5所示:1 2 2 1 2 3 3 2 1...2m S = x y x y + x y x y + + x oronoi图的每个区域VDi中,相对每个不oi图的不确定质心vci,在Voronoi图VD确定质心集,不确定质心集记为ci V =数据集中具体分布情况的不同,分两 c 落入 vc1所属的范围内(不包含边和心 vc1之间不存在障碍物 o∈O(粗体虚线的虚线段),根据计算 ( )1,cdis c v 的距为簇心的簇中。若数据对象点 c 与质心,这时数据对象点 c 与质心 vc1的距离 c 到质心 vc1和与质心 vc1邻近的质心6),i ≤ k,那么将数据对象点 c 划分到

Voronoi图,交点,象点,对象


c 落入 vc1为质心的 Voronoi 图的边上象点 c 与数据对象点 c 两侧或周围邻近在障碍物 o(粗体虚线存在),则计的 障 碍 距 离 , 若8 ( , ) min{c dis c v = ci c ∈V,则对象点 c 划分到以质心 vc8 (对象点 c 两侧或周围的 Voronoi 单元粗体虚线不存在,c 与 vc1的距离为横点数 Minpts,将数据点 c 划分到 Minp

【参考文献】

相关期刊论文 前10条

1 夏卓群;欧慧;武志伟;范开钦;;基于属性划分和弧形距离的层次聚类算法[J];计算机工程;2015年08期

2 米允龙;米春桥;刘文奇;;海量数据挖掘过程相关技术研究进展[J];计算机科学与探索;2015年06期

3 金萍;宗瑜;屈世超;胡燕;田园;;面向不确定数据的近似骨架启发式聚类算法[J];南京大学学报(自然科学);2015年01期

4 张钰;林欣;;一种基于在线凝聚的层次聚类改进算法[J];计算机应用与软件;2015年01期

5 刘卓;杨悦;张健沛;杨静;初妍;张泽宝;;不确定度模型下数据流自适应网格密度聚类算法[J];计算机研究与发展;2014年11期

6 杨善红;梁金明;李静雯;;基于网格密度影响因子的多密度聚类算法[J];计算机应用研究;2015年03期

7 孙浩军;李惊涛;张磊;张崇锐;肖婷;;一种高维分类型数据的子空间聚类算法[J];汕头大学学报(自然科学版);2014年03期

8 吴涛;陈黎飞;郭躬德;;优化子空间的高维聚类算法[J];计算机应用;2014年08期

9 彭长生;;基于Fisher判别的分布式K-Means聚类算法[J];江苏大学学报(自然科学版);2014年04期

10 王勇;唐靖;饶勤菲;袁巢燕;;高效率的K-means最佳聚类数确定算法[J];计算机应用;2014年05期

相关硕士学位论文 前1条

1 张志超;不确定空间数据聚类方法的研究[D];哈尔滨理工大学;2016年



本文编号:2808652

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2808652.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户377b6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com