面向维度的高维聚类边界检测技术研究
本文选题:高维空间 切入点:聚类边界 出处:《郑州大学》2017年硕士论文 论文类型:学位论文
【摘要】:聚类是数据挖掘的一个重要研究问题,它可以有效地帮助我们分析数据的分布、研究数据的特征、寻找隐藏在数据中的结构,以便作进一步分析和利用。聚类边界代表着那些归属明确,但又具备着脱离事物原属类别特征的对象。在医学隐性遗传疾病、基因表达谱数据、手写体签名、目标追踪等领域的研究中起着重要作用。本文在研究现有的聚类技术和聚类边界模式识别技术的基础上,针对高维空间中聚类边界理论还缺乏有效的研究工作这一问题展开研究,从面向空间和面向维度两个角度研究了高维边界检测模型及其有效性,并建立和引入多个高维测试数据集。论文的主要创新工作如下:(1)通过引入一种动态自适应kNN采样窗口降低固定采样窗口对密度估计敏感性的方法改进了核密度估计技术,并将改进的核密度估计技术作为邻域空间中均值漂移向量的权重,从而提出了面向高维空间的边界检测算法BorderShift。合成数据集和真实数据集上的实验结果表明该技术能有效地检测高维空间聚类边界模式。(2)为提高聚类边界的检测精度,采用面向维度的思想对霍普金斯统计量进行高维变换,提出一种新的描述高维空间均匀性的Symmetry统计量;通过引进物理学中的粒子空间对称性理论,即以当前数据点作为高维空间的中心原点,构建一个与数据空间维度相同的高维坐标系,并对中心原点的k近邻对象进行坐标反演,将近邻空间内的数据点投影到高维坐标系。以这两种技术为基础提出了Spinver算法。在合成数据集、医学数据集、手写体数据集、多姿态人脸数据集等上的实验结果验证了该方法有效性和具有较高的效率。(3)在证明了该杠杆上平衡支点存在的必然性和唯一性基础上,提出了从多个视角分析高维空间的思想,即将高维空间模拟为与空间维度数相同的多条杠杆,使用当前样本点在各维度上的投影坐标与平衡支点之间的距离计算平衡性系数,提出了Lever算法,人工合成数据集和真实数据集的实验表明,Lever算法能够较好的处理高维空间的聚类边界检测问题且具有更高的检测精度。(4)为解决更高维度空间中的聚类边界检测问题,提出了一种基于马尔科夫图模型的边界检测算法Knight。该技术将高维空间模拟为离散状态空间,并将状态空间内骑士巡游的马尔科夫过程转换为相应的图模型,并构造Hard系数判断图模型中路径求解的难度进行边界检测。在基因表达谱数据集、目标追踪、复杂人脸识图像数据集、万维人工合成数据集上的实验结果验证了Knigit算法的有效性。(5)提出了面向维度技术。将高维空间分解为与维数相同的多个一维子空间,从每个子空间分析数据分布特性。本文的研究工作展示了面向维度技术如何从面向全维空间至面向一维子空间的技术演变,丰富了高维空间聚类边界检测技术的理论研究,提高了技术的检测性能,降低了技术的实现难度,扩展了聚类边界的研究范围,特别是在基因表达谱数据、人脸识别、目标追踪、万维空间等领域的一些积极尝试和探索,进一步加速了理论研究向现实应用的转化。
[Abstract]:Clustering is an important research problem in data mining, which can effectively help us to analyze the data distribution characteristics of the data, find the structure hidden in the data, for further analysis and utilization. The cluster boundary represents those of clear ownership, but also has the object from the things formerly category feature in medical. Recessive genetic disease, gene expression data, handwritten signature, plays an important role in the research of target tracking and other fields. Based on the research of clustering and clustering boundary existing pattern recognition techniques for clustering on high dimensional space boundary theory is the problem to a lack of effective research study, from the space oriented and two angles for dimensions of a detection model of high dimensional boundary and its effectiveness, and to establish and introduce a number of high dimensional data set. The main innovations of this dissertation are as : (1) reduce the fixed sampling window improved kernel density estimation method for density estimation of sensitivity method by introducing a dynamic adaptive kNN sampling window, and the improved kernel density estimation technique as the weight of the mean shift vector space in the neighborhood, and then put forward the BorderShift. edge detection algorithm for synthetic data sets for high dimensional space and the experimental results on real data show that this technique can effectively detect the high dimensional clustering boundary model. (2) in order to improve the detection accuracy of cluster boundary, using the dimension of thought for high dimensional transformation of the Hopki statistic, presents a new description of the high dimensional space of uniform Symmetry statistics; through the introduction of particle space symmetry theory in physics, the current data point as the center of origin of high dimensional space, and a Gou Jianyi high dimensional data space coordinates of the same dimension Department of the center, and the origin of the k nearest neighbor object coordinate inversion, the projection space nearest neighbor data points to a high dimensional coordinate system. With the two kinds of technology based on Spinver algorithm is proposed. In the synthetic data set, medical data sets, handwritten data sets, multi pose face data sets the experimental results show the method is effective and has high efficiency. (3) in proving the existence of the lever balance fulcrum of the inevitability and uniqueness based on the proposed high-dimensional space analysis from the angle of thought, to simulation in high dimensional space into a plurality of lever with the same space dimension, using balance the coefficient between the current sample points in each dimension of the projection coordinate and balance pivot distance calculation, Lever algorithm is proposed, that the synthetic and real data sets of experiments, the Lever algorithm can better deal with the boundary clustering in high dimensional space The detection problem and has higher detection accuracy. (4) to solve the clustering boundary detection problem of higher dimensional space, presents a simulation of Knight. edge detection algorithm for Markov graph model of the technology based on high dimensional space into discrete state space, and convert the Markov process in the state space for the parade map the corresponding model, and construct the Hard graph model of path coefficient to determine the difficulty of solving the boundary detection. Expression data sets in gene target tracking, face recognition of complex image data sets, the synthetic data sets. The experimental results verify the effectiveness of the Knigit algorithm. (5) proposed for the dimension of technology. The high dimensional space is decomposed into multiple one-dimensional subspaces with the same dimension, analysis of distribution characteristics of the data from each subspace. This research work shows how technology oriented dimension from the full dimensional space To the one-dimensional subspace technology evolution, enriches the theory of research on detection technology of high dimensional spatial clustering boundary, improves the detection performance, reduce the complexity of technology, expands the research scope of cluster boundaries, especially in gene expression data, face recognition, target tracking, web space etc. some positive exploration, to further accelerate the theoretical research into practical application.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 张香琴,方如明,蔡健荣,许俐;基于去噪的熵算子边界检测法[J];江苏理工大学学报(自然科学版);2000年02期
2 郭圣文,罗立民;一种新的线边界检测方法[J];计算机学报;2003年07期
3 韩海;线条化的边界检测[J];湖北大学学报(自然科学版);2003年03期
4 张俊燕;全方向M型心动图像的边界检测[J];成都信息工程学院学报;2004年01期
5 许先斌,汪长城,陈勇华;一种基于运动特征的快速镜头边界检测方法[J];计算机应用;2004年12期
6 韩冰,姬红兵,高新波;一种基于小波的分层和多分辨的镜头边界检测方法[J];西安电子科技大学学报;2005年01期
7 韩冰,姬红兵,高新波;一种先切分后检测的分层镜头边界检测方法[J];系统工程与电子技术;2005年02期
8 高健;周宇玫;茅时群;;一种基于相关性分析的镜头边界检测系统[J];电视技术;2006年03期
9 蒋兴浩;孙锬锋;方之昕;李荣杰;冯冰;;基于可变窗的镜头边界检测算法[J];上海交通大学学报;2009年11期
10 肖永良;朱韶平;刘超群;;基于结构保留投影的镜头边界检测[J];计算机工程与应用;2012年32期
相关会议论文 前9条
1 Yue Feng WAN;Jack-Gérard POSTAIRE;Fran噻ois CABESTAING;;图像边界检测[A];1995年中国控制会议论文集(上)[C];1995年
2 管永红;刘瑞根;周俸才;;用计算机对比法进行边界检测[A];中国工程物理研究院科技年报(1998)[C];1998年
3 卢文锋;;基于贝叶斯方法的超声波图像边界检测[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 彭进业;郝重阳;;一种基于二维图像分割的视频镜头边界检测方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
5 刘瑞根;董维申;周俸才;管永红;;三种不依赖对比样品的闪光X光照相图像边界检测[A];中国工程物理研究院科技年报(1999)[C];1999年
6 宋二祥;;无限地基数值模拟的传输边界[A];第六届全国结构工程学术会议论文集(第三卷)[C];1997年
7 王丽辉;袁保宗;苗振江;;结合FCM和边界检测算法进行不规则点云去噪[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
8 高煜;程昊;毕传兴;陈剑;;基于分布源边界点的结构声辐射和声灵敏度的研究[A];第九届全国振动理论及应用学术会议论文摘要集[C];2007年
9 范竞往;翟晓飞;封化民;杨鼎才;方勇;;一种双层新闻逻辑单元分割框架[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
相关博士学位论文 前10条
1 邰振华;位场数据高精度处理方法的研究与应用[D];吉林大学;2016年
2 张辉;基于朝向对比度的边界检测和图像分类研究[D];北京交通大学;2014年
3 司马玉洲;基于双互易法的杂交边界点法及其应用研究[D];华中科技大学;2009年
4 晏飞;双重互易杂交边界点法理论及其应用研究[D];华中科技大学;2008年
5 李桂丹;无线传感器网络路由协议及容错事件边界检测研究[D];天津大学;2009年
6 王桥;快速多极杂交边界点法理论及在结构工程复合材料中的应用[D];华中科技大学;2013年
7 苗雨;奇异杂交边界点法理论研究及应用[D];华中科技大学;2005年
8 顾德;无线传感器网络拓扑边界与瓶颈辨识[D];浙江大学;2012年
9 刘剑明;可压缩流体计算中的浸入边界方法及其应用[D];南京航空航天大学;2010年
10 黄坤朋;基于改善时域有限差分边界的房间低频可听化实现[D];华南理工大学;2011年
相关硕士学位论文 前10条
1 曹晓锋;面向维度的高维聚类边界检测技术研究[D];郑州大学;2017年
2 耿鹏;混合属性数据聚类边界检测技术的研究[D];郑州大学;2015年
3 樊骏笠;关联稀疏在图像恢复和边界检测中的应用[D];浙江师范大学;2015年
4 孙娟;新的视频镜头边界检测的度量标准[D];兰州大学;2015年
5 刘烽;基于动态阈值与拟合特征的镜头边界检测[D];南京大学;2013年
6 刘胜男;基于超像素的点互信息图像边界检测与分割算法研究[D];西北农林科技大学;2016年
7 王瑞宇;无监督在线学习实现遮挡边界检测与遮挡规避方法研究[D];燕山大学;2016年
8 张铖;基于小型无人直升机的环境污染区域边界检测与跟踪算法的研究[D];华南理工大学;2016年
9 严征;无人车的道路边界检测研究[D];西安工业大学;2016年
10 Malichenko Viktor;实时道路边界检测和交通标志识别[D];北京工业大学;2016年
,本文编号:1597330
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1597330.html