基于数据场和云模型的维数约简方法研究
发布时间:2019-10-03 05:12
【摘要】:随着硬件设备和网络的发展,数据量和数据维数都以极快的速度增加。大多数模式识别算法在遇到高维数据时,运算的时间复杂度呈指数升高,但是识别效果反而变差。如何对高维数据进行维数约简,提取出更具识别度的特征,以提高或保持模式识别的准确度,已经成为一个热门的研究方向。维数约简算法旨在通过对原始特征的评估或者变换形成新特征空间,减少冗余特征对于模式识别的影响。现有的维数约简算法针对特征本身的不确定性、随机性以及多尺度特征的内在分布规律研究较少。有必要积极地提出新技术学习数据隐含的信息,描述数据内在分布规律,并且提取出更能反映数据本质的特征。鉴于此,论文引入认知物理学方法,通过数据本身的分布状态衡量特征重要性程度,尝试在多尺度视角下提取数据特征,约简特征的数目;并且应用提出的算法解决实际问题。采用认知物理学中的数据场和云模型理论,从不同角度探索数据的内在联系,提取相关的空间特征,揭示数据的蕴含信息。其中数据场用来探索特征本身的重要性程度以及不同特征之间的相关性。数据对象受其它对象影响而使得特征描述具有一定的不确定性。数据场中的质量、影响因子、势函数这些关键因素的分析有助于解决维数约简中特征的重要性度量、样本间距离的度量和样本局部映射的获得。云模型是不确定性研究的重要模型,可以实现定量数据和定性概念之间的相互转化。论文利用云模型构建出了点和概念两个层次的特征提取策略。丰富了认知物理学的应用范围,针对维数约简的若干应用问题,全面分析了数据场的质量、距离、影响因子等关键要素,深入研究数据场的各向异性、云模型的不确定度等关键技术在维数约简中的作用。论文从特征提取、特征重要性度量、特征子集选择和特征表示四个方面进行基于数据场和云模型的维数约简方法研究,论文的主要工作如下:(1)势函数影响因子σ体现特征的各向异性,需要密度估计进行计算,但是密度估计的时间复杂度较高。同时计算类间距离和类内距离时需要遍历整个数据集。对于一些分类器,更应该关注样本的临近数据分布状态而不是整个数据集。例如对于SVM类的分类器,在超平面附近的样本相对于其他样本更为重要。为此,论文引入最大间隔思想,提出K临近局部最大间隔特征提取算法(KLMM)。该算法通过影响因子σ体现特征的各向异性。将这种策略和最大间隔标准相结合,在广义数据场中进行最大间隔结构学习。将KLMM和SVM算法结合,在通用数据集上取得了比ALH更高的分类精度。(2)现有的特征重要性度量算法对于数据的物理分布和数据点之间的空间分布关系研究较少。为此,提出基于势熵的特征重要性度量算法(FRGDF)。FRGDF在度量特征重要性时除了考虑数据本身分布之外,还在将数据场扩展到广义的多维数据场基础上,将数据映射到高维空间,使其更具可分性,使用层次聚类算法得到最优特征子集。在通用数据集上的相关实验和分析证明FRGDF算法可有效剔除不重要或噪声特征。采用FRGDF得到的最优特征子集和多种分类器相结合都保持或提高了分类器的精度,表明FRGDF算法独立于具体的分类器。(3)在数据场框架下,样本质量m是计算数据点势值的重要参数。实际上样本的质量和其周围样本密度和类别都有关系。同时特征子集的选择不仅要考虑特征本身分布状态,还要考虑和其他特征以及类别的相关性。为此,提出基于数据场和互信息的特征子集选择算法(DFMIFS).在将数据转换到数据场中的同时,将数据投影到网格中计算;引入互信息理论,计算候特征和已选特征的相关性,只有那些弱相关的特征才被加入特征子集中。采用启发式评估算法选取最优特征子集,实验证明,DFMIFS可在提取比FRGDF更少特征的基础上,进一步提高或保持分类器的精度。(4)现有的维数约简算法缺乏对特征在不同尺度下不确定性的统一描述,同时对于定量特征点和定性概念之间的转换研究不足。为此,引入认知物理学中的云模型思想,进行特征在不同尺度上的不确定性研究;提出基于合成云模型的特征提取算法(FECCM)。并以图像边缘特征提取为例,分析了特征在微观和宏观上的不确定性问题。微观上,将云模型和Canny算子相互结合,提取出图像的像素级数字特征。传统的Canny算子需要手动设置双阈值,FECCM可以自动选择阂值。以在FG-NET数据库的人脸年龄识别为例,进一步表明FECCM的有效性。FECCM将图像的特征识别问题转换为知识概念提取的过程,有效的利用已检测的图像,通过不同尺度特征的表示和提取,解决了特征的不确定性描述问题,体现特征的随机性和模糊性。通过不同尺度的训练样本得到不同尺度样本的分布情况,抽取相应的共性概念云,计算出不同概念云的数字特征,边缘的提取结果在噪声点消除和边缘清晰度上都表现出色。综上所述,论文通过数据场中样本的势值表示样本分布状态及样本间的相互影响,使用场空间反映数据对象的空间关系特征。为了进一步表示特征在空间分布中的模糊性和随机性,引入云模型表示数据对象分布在不同尺度的多种状态,使提取的特征更具普适性。将认知物理学方法和具体的维数约简策略相互结合,使得认知物理学方法研究更加深入,同时为维数约简提供了新的参考模型。
【图文】:
随着数据维数的不断增大,为了加快数据的处理速度,避免过度拟合现象,维逡逑数约简已经成为数据挖掘研究的一个热点领域P1。为了提高数据处理的速度和模式识别逡逑的精度,对于高维数据,数据挖掘的流程如图1.1所示:逡逑约减后数据逡逑■Hli.,!耐邋Jk逡逑目巧数据逦g逡逑原始数据逦m逡逑LhJLibJ逡逑最终知识逦、逡逑挖掘结果逦标准数据逡逑图1.1ex据挖掘流程逡逑从图1.1中可看出,维数约简是高维数据挖掘的重要环节。维数约简的目标是寻逡逑找一个低维空间,在这个空间中,数据组织成不同的集群,且很容易分离。此外,低维逡逑表示也给数据可视化提供了可能,有利于探索性地分析数据。在统计学中,维数约简将逡逑高维空间投影到较低维度,使分类或者回归问题的精度更高。设存在一个d维数据集逡逑庐,包含《个样本,即:2....,n},则维数约简的目标是找到一个新的投影空问庐,逡逑这个空间的维度为雌K々,欠A中的点为WA=i,2....,n};找到投影F:庐一民h邋x-^l=F(x),逡逑/为X降维之后的形式。逡逑1逡逑
逑论文介绍了维数约简的xO巧现状及面临的问题,简略的回顾了特征选择、特征提逡逑取及认知物理学的相关知识。维数约简包括特征选择和特征提取两个方面,如图1.2所逡逑示:逡逑维ex约简逡逑逦邋11邋'邋逦逡逑I逦I逡逑‘I逦.逦、逦-逡逑特征选y翁卣魈崛″义襄危簟桑妫驽五五邋巍㈠澹桑慑澹叔五义希慑危慑危慑危慑危慑危慑危慑义希浚瀩因W因应逡逑图1.2维数约简内容逡逑在处理高维数据时,,特征选择和特征提取可W互为前提。对于高维数据集,尤其是逡逑图像数据,大多首先采用特征提取算法提取出主要特征,然后对提取出来的特征逡逑进行特征选择,最后按照选择出的最优特征子集进行模式识别。高维数据约简的逡逑步骤如图1.3所示:逡逑特征提取逡逑逦?逦逡逑特征重要性度量逡逑逦#逦逡逑生成最优特征子集逡逑呭逡逑特征表示逡逑逦-遂逦逡逑模式识别逡逑图1.3维数约简步燕逡逑论文介绍了维数约简的四个步骤及存在的不足,针对这些不足提出相应的改进策逡逑略,并详细描述这些策略的理论、步骤及实验对比与分析。逡逑论文共分成走章,组织结构如图1.4所示:逡逑6逡逑
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.4
本文编号:2545286
【图文】:
随着数据维数的不断增大,为了加快数据的处理速度,避免过度拟合现象,维逡逑数约简已经成为数据挖掘研究的一个热点领域P1。为了提高数据处理的速度和模式识别逡逑的精度,对于高维数据,数据挖掘的流程如图1.1所示:逡逑约减后数据逡逑■Hli.,!耐邋Jk逡逑目巧数据逦g逡逑原始数据逦m逡逑LhJLibJ逡逑最终知识逦、逡逑挖掘结果逦标准数据逡逑图1.1ex据挖掘流程逡逑从图1.1中可看出,维数约简是高维数据挖掘的重要环节。维数约简的目标是寻逡逑找一个低维空间,在这个空间中,数据组织成不同的集群,且很容易分离。此外,低维逡逑表示也给数据可视化提供了可能,有利于探索性地分析数据。在统计学中,维数约简将逡逑高维空间投影到较低维度,使分类或者回归问题的精度更高。设存在一个d维数据集逡逑庐,包含《个样本,即:2....,n},则维数约简的目标是找到一个新的投影空问庐,逡逑这个空间的维度为雌K々,欠A中的点为WA=i,2....,n};找到投影F:庐一民h邋x-^l=F(x),逡逑/为X降维之后的形式。逡逑1逡逑
逑论文介绍了维数约简的xO巧现状及面临的问题,简略的回顾了特征选择、特征提逡逑取及认知物理学的相关知识。维数约简包括特征选择和特征提取两个方面,如图1.2所逡逑示:逡逑维ex约简逡逑逦邋11邋'邋逦逡逑I逦I逡逑‘I逦.逦、逦-逡逑特征选y翁卣魈崛″义襄危簟桑妫驽五五邋巍㈠澹桑慑澹叔五义希慑危慑危慑危慑危慑危慑危慑义希浚瀩因W因应逡逑图1.2维数约简内容逡逑在处理高维数据时,,特征选择和特征提取可W互为前提。对于高维数据集,尤其是逡逑图像数据,大多首先采用特征提取算法提取出主要特征,然后对提取出来的特征逡逑进行特征选择,最后按照选择出的最优特征子集进行模式识别。高维数据约简的逡逑步骤如图1.3所示:逡逑特征提取逡逑逦?逦逡逑特征重要性度量逡逑逦#逦逡逑生成最优特征子集逡逑呭逡逑特征表示逡逑逦-遂逦逡逑模式识别逡逑图1.3维数约简步燕逡逑论文介绍了维数约简的四个步骤及存在的不足,针对这些不足提出相应的改进策逡逑略,并详细描述这些策略的理论、步骤及实验对比与分析。逡逑论文共分成走章,组织结构如图1.4所示:逡逑6逡逑
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.4
【参考文献】
相关期刊论文 前10条
1 李刚;万幼川;;商空间理论下面向对象的遥感影像分类[J];光电工程;2011年02期
2 朱长征,谌海新;云建模方法现状、发展趋势及在军事领域的应用[J];计算机应用;2003年09期
3 吕辉军,王晔,李德毅,刘常昱;逆向云在定性评价中的应用[J];计算机学报;2003年08期
4 张飞舟,范跃祖,孙先仿;基于云模型的导航系统模糊可靠性评测分析[J];自动化学报;2002年01期
5 岳训,孙忠林,张艳琦,李光忠;基于云模型的Web日志数据挖掘技术[J];计算机应用研究;2001年11期
6 杜瀊,李德毅;基于云的概念划分及其在关联采掘上的应用[J];软件学报;2001年02期
7 宋远骏,杨孝宗,李德毅,崔东华;多机多任务实时系统云调度策略[J];计算机学报;2000年10期
8 李德毅;三级倒立摆的云控制方法及动平衡模式[J];中国工程科学;1999年02期
9 张飞舟,范跃祖,沈程智,李德毅;基于隶属云发生器的智能控制[J];航空学报;1999年01期
10 杨朝晖,李德毅;二维云模型及其在预测中的应用[J];计算机学报;1998年11期
本文编号:2545286
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2545286.html