基于模糊理论的知识发现方法研究及其应用

发布时间：2020-03-24 13:49

【摘要】：随着信息技术的飞速发展,以知识发现为核心的数据驱动型发展模式正推动经济社会各领域从数字化、网络化向智能化加速转变。模糊理论作为一种天然的“数据知识转换器”,能够在一定程度上模拟人的推理关系,通过其特有的语义化和可解释的模糊规则可以直观地描述复杂数据中潜在有用的知识。本文首先从应用角度出发,对模糊规则系统中的经典Wang-Mendel方法做出必要的改进,并在其基础上提出了一种多民族面部特征的语义描述方法,以及该方法在人脸民族属性识别中的应用。然后总结了传统模糊集理论在知识发现的实际应用中存在的弱点,通过引入公理模糊集理论,并与谱聚类和随机权重神经网络等理论进行有机结合,针对知识发现领域中最主要的聚类和分类任务分别提出了新颖的解决方案。主要研究工作包括:(1)针对模糊规则系统中的Wang-Mendel方法在提取规则的完备性和算法的鲁棒性上存在的问题,本文进行了相应的改进,并以此为基础提出了一种多民族人脸面部特征的语义描述方法。该方法首先利用人脸特征点定位技术自动提取用于刻画人脸外观的特征点。然后借鉴人类学在面部形态方面的已有成果,在这些特征点的基础上定义了距离、周长和面积等几何特征。最后利用改进的Wang-Mendel方法从几何特征数据集中提取用于描述各民族面部形态特点的语义规则。这些语义规则还可以用于实现人脸民族属性识别,通过与朴素贝叶斯、C4.5、决策表、随机森林、Adaboost和Logistic回归等分类方法在中国民族人脸数据库的8个数据集上的对比实验,本文提出的方法既可以得到具有竞争力的分类准确率,还可以为人类学领域专家提供便于理解的语义解释。(2)谱聚类算法因其在非凸数据集上的出色聚类能力,近年来已成为应用最广泛的聚类算法之一。但是现有的谱聚类方法在构建相似性矩阵时对参数设定非常敏感,这严重影响了算法对于噪声数据的鲁棒性。而且在信用评估或医疗诊断等领域,知识发现过程要求模型的输出结果必须是可理解的。为了使谱聚类算法在聚类准确率和聚类结果的可解释性上做出合理的权衡,本文提出了一种融合谱聚类和公理模糊集理论的聚类方法,该方法整合了公理模糊集在概念提取和语义表示方面的能力和谱聚类对数据集的分布形状没有要求的优势。通过与传统的谱聚类算法和其他类型的聚类算法在17个UCI数据集上的对比实验表明,本文提出的方法可以有效地识别出数据中的类簇,并为这些类簇给出接近自然语言的模糊描述。(3)融合公理模糊集理论和随机权重神经网络两种理论工具的特点,本文提出了一种可以对结果进行语义解释的分类方法。该方法将基于公理模糊集理论构建的一致性隶属函数整合进随机权重网络的隐含节点之中。随机权重神经网络的输入权重由随机分配的方式确定,正是受这一思想启发,本文随机生成特征、简单概念和复杂概念之间的关系。隐含节点内的复杂概念由随机选取的简单概念通过公理模糊集理论中的逻辑运算组合形成。在传统的基于公理模糊集理论的分类方法中,适合描述目标类别的复杂概念需要采用调节约束条件的参数来获得,这个过程需要大量的计算时间,而在本文提出的算法中,神经网络的输出权重被用来评估复杂概念对于每个目标类别的适用程度。与其它基于神经网络的分类方法相比,本文提出的方法可利用隐含节点中的模糊概念为目标类别形成容易被人理解的语义解释,克服了传统神经网络模型存在的“黑盒”问题。在实验分析部分,我们将本文的方法与Ensemble、EvRBFN、NNEP、LVQ和iRProp+等5种基于神经网络的分类器在10个UCI数据集上的分类结果进行对比发现,本文的方法在具有良好分类能力的同时,还可以对分类结果进行直观地描述。
【图文】：

机器学习,知识发现

于知识发现的定义是由Ｆａｙｙａｄ［１ｌ等人提出的，知识发现是指从大量数据中提取有效的、逡逑新颖的、潜在有用的、最终可被理解的模式的非平凡过程。所谓非平凡过程是指具有一逡逑定程度的智能性和自动性，而不仅仅是简单的数值统计和计算，图１．１给出了这一过程逡逑的具体步骤。从宏观的角度上看，知识发现的过程主要分为四个步骤，即数据筛选、数逡逑据预处理与变换、数据挖掘和结果的可视化与评估。在这些步骤中，数据挖掘是该过程逡逑的核心，它决定了整个知识发现过程的效果。逡逑原始数据逦目标数据逦变换后的数据逦模型／规则逦可理解的知识逡逑＾邋＾吻晶逡逑数据筛选逦数据预处理与变换逦数据挖掘逦可视化与评估逡逑图Ｕ知识发现的过程逡逑Ｆｉｇｕｒｅ邋１．１邋Ｔｈｅ邋ｐｒｏｃｅｓｓ邋ｏｆ邋ｋｎｏｗｌｅｄｇｅ邋ｄｉｓｃｏｖｅｒｙ逡逑从挖掘任务的角度来看，数据挖掘可分为聚类、分类、关联规则挖掘、序列模式挖逡逑掘、回归和异常检测等方向［２］。实现这些挖掘任务可采用的方法包括统计方法、机器学逡逑习方法和数据库方法等。在过去的几十年间，机器学习已经成为智能数据分析技术的创逡逑新源泉［３］，被学术界和工业界认为是知识发现领域最重要的工具，图１．２总结了目前较为逡逑－１邋－逡逑

过程图,过程,子集,描述性

在很多科学和商业领域，我们要分析的数据往往是非常复杂的，它们并不满足一个逡逑特定参数的概率分布。知识发现始于对这种复杂性的探索，并从数据中发现隐含的模逡逑式。尽管图１．１给出的知识发现过程中包含数据清洗的环节，但经过该步骤处理后的数逡逑据仍然是非常复杂的。描述性数据挖掘可以降低数据的复杂性并对数据分析结果给出合逡逑理的解释，而聚类分析是描述性非监督数据挖掘的主要方法。逡逑聚类算法的目的是将由凡个样本数据组成的数据集Ｘ邋＝邋｛ａ，划分成逡逑凡个不相交的子集（７１，６＜２，．．．，（＾（；５义。每个子集被称为簇，构成簇的样本之间尽可逡逑能相似，且与其它簇内的样本尽可能不相似：逡逑ｘ逦…ＬＪｃ—，ｇ逦＝邋０，以邋ｊ逦（ｕ）逡逑每个簇代表了原始数据中存在共性的一个子集，例如天文数据中的一个星系或市场营销逡逑中的一个消费者群体，而表示离群点集合。如图１．４所示，，Ｘｕ［＜）］等人将聚类的过逡逑程概括为以下四个方面：逡逑逦＾邋特征提取与特征邋逦？聚类算法设计或逡逑选择逦＾逦邋选择逡逑ｍｍ：逦｜｜逡逑Ｉ？邋＾逦邋聚类结果评估逦考邋？逦解释聚类结果逡逑知识逡逑图１．４聚类的过程逡逑Ｆｉｇｕｒｅ邋１．４邋Ｔｈｅ邋ｐｒｏｃ
【学位授予单位】：大连理工大学
【学位级别】：博士
【学位授予年份】：2018
【分类号】：O159;TP18

【参考文献】