高维非线性数据上的聚类算法研究
发布时间:2021-09-23 11:10
聚类是一种重要的数据挖掘技术,它可以将获取的数据根据一定的约束条件划分为不同的类别。聚类的主要研究目标是同一类簇中数据点间的相似性以及不同类簇之间数据点间的相异性。由于现有数据普遍具有高维性和非线性,针对高维非线性数据的聚类已经成为数据挖掘领域的重要研究课题。本文在对高维非线性数据进行深入分析的基础上,针对传统降维算法的不足,提出了一种一种基于SU的特征提取算法,并在此基础上提出了一种基于加权流形距离的非线性数据聚类算法。本文取得的主要成果如下:针对传统降维算法泛化能力差,许多算法需要经验指导,并且无法对非线性增量数据进行处理等问题,本文借助信息论相关理论提出了一种相似度量方法-对称不确定性SU,提出了一种基于SU的特征提取算法(RFE-SU)。该算法解决了传统主成分分析算法中相关系数无法衡量数据间非线性关系的缺点,并在此基础上,通过基于滑动窗口技术的多级联动缓冲区机制,对基于SU的特征提取算法进行扩展,使其能应用于增量数据的降维处理。在采用RFE-SU算法对数据高维非线性数据降维的基础上,本文以信息论和流形学习为基础,提出了一种基于加权流形距离的非线性数据聚类算法(WMD-NLDat...
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
降维效果示意图
k义 1(反 k 近邻密度) 记 N(x)k为样本点 x 的 k 邻域, ()~Nxk为 x 的反反 K 近邻密度可描述为:()|~|()||()|~|NxNxNxDoNkkkx (4.6据近邻密度指标,可以描述局部流形的结构。xDoN 越大,则x 越能代范围内的其他样本点。义 2(中心点) 如果样本点x的 xDoN ,则认为x是中心点。心点一般被它自身的反 k 近邻点所包围,就好像它们的中心点。与均的邻域中心不同,中心点采用密度概念和距离结合,每个中心点都在,能切实地描述局部邻域结构,更符合客观流形的结构。索数据集中的每个中心点,将互为最近邻的每个中心点连接起,将每点连接到距离最近的中心点上,构建一个基于中心点的邻域图,该邻分地体现数据集潜在的结构信息,还能很好地区分边界点的类别。
e weight of each featurej . //根据第 3权重j 。//计算每个样本的 k 近邻和反 k 近邻e k neighbor and Anti-k neighbor ofix .eixDoNof eachix .ncy graph with center point. //将符合 图coreG , 并 将 其 放 入 新 的 矩 coreG 中每个连接在中心点上的样本点essed data set Y。是用来缩减整个数据集的数据规模,采表其邻域内的其他数据点,这样就保集的内部结构,保证数据集的性质不
【参考文献】:
期刊论文
[1]基于区域划分的DBSCAN多密度聚类算法[J]. 韩利钊,钱雪忠,罗靖,宋威. 计算机应用研究. 2018(06)
[2]一种加权主成分距离的聚类分析方法[J]. 吕岩威,李平. 统计研究. 2016(11)
[3]基于改进流形距离和人工蜂群的二阶段聚类算法[J]. 夏卓群,欧慧,李平,武志伟,戴傲. 控制与决策. 2016(03)
[4]聚类算法综述[J]. 伍育红. 计算机科学. 2015(S1)
[5]高维数据挖掘中基于稀疏回归的嵌入式特征提取方法[J]. 林书亮. 中国西部科技. 2013(12)
[6]基于互信息的主成分分析特征选择算法[J]. 范雪莉,冯海泓,原猛. 控制与决策. 2013(06)
[7]数据挖掘中聚类算法研究进展[J]. 周涛,陆惠玲. 计算机工程与应用. 2012(12)
[8]基于互信息的无监督特征选择[J]. 徐峻岭,周毓明,陈林,徐宝文. 计算机研究与发展. 2012(02)
[9]复杂分布数据的二阶段聚类算法[J]. 公茂果,王爽,马萌,曹宇,焦李成,马文萍. 软件学报. 2011(11)
[10]基于流形距离的量子进化聚类算法[J]. 李阳阳,石洪竺,焦李成,马文萍. 电子学报. 2011(10)
博士论文
[1]谱聚类与维数约简算法及其应用[D]. 杨艺芳.西安电子科技大学 2016
[2]流形学习理论与方法及其应用研究[D]. 詹宇斌.国防科学技术大学 2011
本文编号:3405598
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
降维效果示意图
k义 1(反 k 近邻密度) 记 N(x)k为样本点 x 的 k 邻域, ()~Nxk为 x 的反反 K 近邻密度可描述为:()|~|()||()|~|NxNxNxDoNkkkx (4.6据近邻密度指标,可以描述局部流形的结构。xDoN 越大,则x 越能代范围内的其他样本点。义 2(中心点) 如果样本点x的 xDoN ,则认为x是中心点。心点一般被它自身的反 k 近邻点所包围,就好像它们的中心点。与均的邻域中心不同,中心点采用密度概念和距离结合,每个中心点都在,能切实地描述局部邻域结构,更符合客观流形的结构。索数据集中的每个中心点,将互为最近邻的每个中心点连接起,将每点连接到距离最近的中心点上,构建一个基于中心点的邻域图,该邻分地体现数据集潜在的结构信息,还能很好地区分边界点的类别。
e weight of each featurej . //根据第 3权重j 。//计算每个样本的 k 近邻和反 k 近邻e k neighbor and Anti-k neighbor ofix .eixDoNof eachix .ncy graph with center point. //将符合 图coreG , 并 将 其 放 入 新 的 矩 coreG 中每个连接在中心点上的样本点essed data set Y。是用来缩减整个数据集的数据规模,采表其邻域内的其他数据点,这样就保集的内部结构,保证数据集的性质不
【参考文献】:
期刊论文
[1]基于区域划分的DBSCAN多密度聚类算法[J]. 韩利钊,钱雪忠,罗靖,宋威. 计算机应用研究. 2018(06)
[2]一种加权主成分距离的聚类分析方法[J]. 吕岩威,李平. 统计研究. 2016(11)
[3]基于改进流形距离和人工蜂群的二阶段聚类算法[J]. 夏卓群,欧慧,李平,武志伟,戴傲. 控制与决策. 2016(03)
[4]聚类算法综述[J]. 伍育红. 计算机科学. 2015(S1)
[5]高维数据挖掘中基于稀疏回归的嵌入式特征提取方法[J]. 林书亮. 中国西部科技. 2013(12)
[6]基于互信息的主成分分析特征选择算法[J]. 范雪莉,冯海泓,原猛. 控制与决策. 2013(06)
[7]数据挖掘中聚类算法研究进展[J]. 周涛,陆惠玲. 计算机工程与应用. 2012(12)
[8]基于互信息的无监督特征选择[J]. 徐峻岭,周毓明,陈林,徐宝文. 计算机研究与发展. 2012(02)
[9]复杂分布数据的二阶段聚类算法[J]. 公茂果,王爽,马萌,曹宇,焦李成,马文萍. 软件学报. 2011(11)
[10]基于流形距离的量子进化聚类算法[J]. 李阳阳,石洪竺,焦李成,马文萍. 电子学报. 2011(10)
博士论文
[1]谱聚类与维数约简算法及其应用[D]. 杨艺芳.西安电子科技大学 2016
[2]流形学习理论与方法及其应用研究[D]. 詹宇斌.国防科学技术大学 2011
本文编号:3405598
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3405598.html