基于距离组合数据的模糊系统建模
发布时间:2021-06-13 20:57
目前,数据的特征多种多样,对数据进行充分挖掘成为许多研究的重点,数据的特征有时会影响数据本身的性质,如医学数据中,许多特征都是息息相关,但有些特征没有联系,将所有特征放在一起进行研究,会丢失数据间的信息,甚至做出错误的判断。因此,对特征进行数据分组,对不同的特征组给予不同的距离度量,可以利用数据间的隐藏信息,进而提高分类器的准确率。本文的工作主要包括以下两个方面:(1)传统的数据分析方法在挖掘许多数据信息时,可用的信息没有得到充分利用。本文针对这一问题,提出一种基于改进模糊聚类的Takagi-Sugeno(T-S)模糊系统,将系数调节与指数调节与经典模糊C均值聚类(Fuzzy C-means,FCM)算法结合,替换经典T-S模糊系统中的逻辑元件,合理利用T-S模糊系统在预测与回归等方面的优势的同时,通过指数或系数的灵活调控,深度挖掘可以被特征分组的数据中不同属性间的关联信息,进而提高算法在特征具有可分组性的数据分析预测中的准确性。为具体评估算法有效性,我们在可以特征分组的真实数据集上进行实验,实验结果表明,本文提出的算法具有更高的预测精度及可行性。(2)在经典的模糊c均值聚类方法的基础...
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
机器学习分类
个类,聚类后要使得类间的差异性尽可能最大,而类内的差异性尽可能最校上文中提到,聚类是最常见的无监督学习,聚类的目的是找到数据的标签,所以在很多领域,聚类过程只是一个数据预处理的过程,给进一步的分析提供数据基矗比如在文档分类时,可以使用聚类算法获得信息;在金融分析中,聚类算法可以从大量客户里找出许多类型的客户,如保守型投资客户和非保守型投资客户等。类似的运用还可以扩展到生物学、经济学、医疗卫生学等众多领域[41],简单来说,聚类在生活中无处不在。根据对聚类的描述,可以简略的将聚类表达为下图2-2所示。将图中的点聚成3类:图2-2聚类形象化描述通过对上文的理解,现将聚类定义为如下形式:定义一个有限数据样本集12{,,,}nXxxx[,根据样本间的特征和联系把数据集聚成k个簇且聚类中心为:12{,,,}kCCCC[,其中12,,,kCCC需要满足以下的条件:(1)1,2,,iCik;(2)12kCCCX;(3);1,2;1,2ijCC(iji=,,ki=,,k)。跟本身以外的类中的样本比,iC内各个样本的相似度更高,因此1,2,,iCik可以称作集合X的簇。综上所述,一个成功的聚类算法应该具有以下两个特征:簇内的对象相似性最强而簇间的对象相似性最弱[42]。作为一个常用数据处理技术,在实际应用中,聚类结果的好坏不仅仅取决于聚类过程的实现方式和距离度量的选择,能否挖掘出数据中潜在的信息也能直接影响聚类的质量。聚类不仅可以独立使用,还可以与分类等其他机器学习算法结合使用,利用每个算法的优缺点,相辅相成,更精确并且更迅速地获取到数据的所有信息,进而可以深入进行数据挖掘。
江南大学硕士学位论文122.4.1Mamdami模糊模型Mamdani模糊推理过程如图2-3所示:图2-3Mamdani模糊推理过程从理论上,推理系统的规则数计算如下:1=niiRFS(2.17)其中R为规则数,n为输入变量数,iFS表示分配给第i个输入变量的模糊集个数。如式(2.17)所示,规则的数量直接取决于系统中输入变量和模糊集的数量。增加输入和模糊集的数量会导致规则数量的显著增加,这可能导致系统失去对人类的可解释性。此外,大量规则的构建似乎不合理和可管理,增加了在推断和获取输出的语言值时出错的风险。此外,这需要较高的计算成本,这将限制模型的适用范围与快速动力学系统。应当指出,关于所调查的过程的性质,在某些情况下,输入变量的各种操作条件的所有组合都不可能发生,从而导致不适用的规则[65]。然而,这些不适用的规则的数量通常很少,所有可能的规则都应该包括在推理中,以便开发一个完整的Mamdani模糊模型,能够预测研究过程的所有可能方面。从数学上讲,根据式(2.17),规则的数量随着输入变量或模糊集的数量的减少而减少。减少模糊集的数量将以损失准确率为代价,其中模型精度的程度通常取决于用户对特定问题的需求。但是,还可以进行其他两项操作来减少规则的数量,而不会显著降低模型的准确性。第一种方法是找到一种方法将一些输入变量合并为一个变量。这是通过引入一个新的模糊概念“语言组成变量-LCV”来实现的,通过该模糊概念,可以将模型中物质流成分的摩尔(或质量)分数变量模糊地合并为一个模糊变量,从而大大减少规则的数量。当流中组分的摩尔分数位于模型的输入变量(例如反应器或分离器模型)中时,这个概念是有用的。由于Mamdani模糊方法可以有效地利用对所研究过程的知识进行分析,因此第二种方法是通过对所要
【参考文献】:
期刊论文
[1]多距离聚类有效性指标研究[J]. 刘丛,陈倩倩,陈应霞. 小型微型计算机系统. 2019(10)
[2]基于模糊区分矩阵的结直肠癌基因选择[J]. 李藤,杨田,代建华,陈鸰. 南京大学学报(自然科学). 2019(04)
[3]基于客观聚类的手写数字识别方法[J]. 王娜,胡超芳. 复杂系统与复杂性科学. 2019(02)
[4]一种集成簇内和簇间距离的加权k-means聚类方法[J]. 黄晓辉,王成,熊李艳,曾辉. 计算机学报. 2019(12)
[5]基于交叉验证网格寻优支持向量机的产品销售预测[J]. 张文雅,范雨强,韩华,张斌,崔晓钰. 计算机系统应用. 2019(05)
[6]高维数据的增量式聚类算法的距离度量选择研究[J]. 邵俊健,王士同. 计算机工程与科学. 2019(02)
[7]面向重尾噪声的模糊规则模型[J]. 贾海宁,王士同. 南京大学学报(自然科学). 2019(01)
[8]基于DTW距离度量的层次聚类算法[J]. 陶洋,邓行,杨飞跃,潘蕾娜. 计算机工程与设计. 2019(01)
[9]特征聚类的局部敏感稀疏图像修复[J]. 薛俊韬,倪晨阳,杨斯雪. 红外与激光工程. 2018(11)
[10]基于聚类识别的极化SAR图像分类[J]. 魏志强,毕海霞. 电子与信息学报. 2018(12)
硕士论文
[1]基于机器学习的癫痫及精神异常脑电信息识别研究[D]. 郑天依.北京邮电大学 2019
[2]动态聚类算法及其在医学数据上的应用[D]. 金永波.浙江大学 2011
本文编号:3228321
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
机器学习分类
个类,聚类后要使得类间的差异性尽可能最大,而类内的差异性尽可能最校上文中提到,聚类是最常见的无监督学习,聚类的目的是找到数据的标签,所以在很多领域,聚类过程只是一个数据预处理的过程,给进一步的分析提供数据基矗比如在文档分类时,可以使用聚类算法获得信息;在金融分析中,聚类算法可以从大量客户里找出许多类型的客户,如保守型投资客户和非保守型投资客户等。类似的运用还可以扩展到生物学、经济学、医疗卫生学等众多领域[41],简单来说,聚类在生活中无处不在。根据对聚类的描述,可以简略的将聚类表达为下图2-2所示。将图中的点聚成3类:图2-2聚类形象化描述通过对上文的理解,现将聚类定义为如下形式:定义一个有限数据样本集12{,,,}nXxxx[,根据样本间的特征和联系把数据集聚成k个簇且聚类中心为:12{,,,}kCCCC[,其中12,,,kCCC需要满足以下的条件:(1)1,2,,iCik;(2)12kCCCX;(3);1,2;1,2ijCC(iji=,,ki=,,k)。跟本身以外的类中的样本比,iC内各个样本的相似度更高,因此1,2,,iCik可以称作集合X的簇。综上所述,一个成功的聚类算法应该具有以下两个特征:簇内的对象相似性最强而簇间的对象相似性最弱[42]。作为一个常用数据处理技术,在实际应用中,聚类结果的好坏不仅仅取决于聚类过程的实现方式和距离度量的选择,能否挖掘出数据中潜在的信息也能直接影响聚类的质量。聚类不仅可以独立使用,还可以与分类等其他机器学习算法结合使用,利用每个算法的优缺点,相辅相成,更精确并且更迅速地获取到数据的所有信息,进而可以深入进行数据挖掘。
江南大学硕士学位论文122.4.1Mamdami模糊模型Mamdani模糊推理过程如图2-3所示:图2-3Mamdani模糊推理过程从理论上,推理系统的规则数计算如下:1=niiRFS(2.17)其中R为规则数,n为输入变量数,iFS表示分配给第i个输入变量的模糊集个数。如式(2.17)所示,规则的数量直接取决于系统中输入变量和模糊集的数量。增加输入和模糊集的数量会导致规则数量的显著增加,这可能导致系统失去对人类的可解释性。此外,大量规则的构建似乎不合理和可管理,增加了在推断和获取输出的语言值时出错的风险。此外,这需要较高的计算成本,这将限制模型的适用范围与快速动力学系统。应当指出,关于所调查的过程的性质,在某些情况下,输入变量的各种操作条件的所有组合都不可能发生,从而导致不适用的规则[65]。然而,这些不适用的规则的数量通常很少,所有可能的规则都应该包括在推理中,以便开发一个完整的Mamdani模糊模型,能够预测研究过程的所有可能方面。从数学上讲,根据式(2.17),规则的数量随着输入变量或模糊集的数量的减少而减少。减少模糊集的数量将以损失准确率为代价,其中模型精度的程度通常取决于用户对特定问题的需求。但是,还可以进行其他两项操作来减少规则的数量,而不会显著降低模型的准确性。第一种方法是找到一种方法将一些输入变量合并为一个变量。这是通过引入一个新的模糊概念“语言组成变量-LCV”来实现的,通过该模糊概念,可以将模型中物质流成分的摩尔(或质量)分数变量模糊地合并为一个模糊变量,从而大大减少规则的数量。当流中组分的摩尔分数位于模型的输入变量(例如反应器或分离器模型)中时,这个概念是有用的。由于Mamdani模糊方法可以有效地利用对所研究过程的知识进行分析,因此第二种方法是通过对所要
【参考文献】:
期刊论文
[1]多距离聚类有效性指标研究[J]. 刘丛,陈倩倩,陈应霞. 小型微型计算机系统. 2019(10)
[2]基于模糊区分矩阵的结直肠癌基因选择[J]. 李藤,杨田,代建华,陈鸰. 南京大学学报(自然科学). 2019(04)
[3]基于客观聚类的手写数字识别方法[J]. 王娜,胡超芳. 复杂系统与复杂性科学. 2019(02)
[4]一种集成簇内和簇间距离的加权k-means聚类方法[J]. 黄晓辉,王成,熊李艳,曾辉. 计算机学报. 2019(12)
[5]基于交叉验证网格寻优支持向量机的产品销售预测[J]. 张文雅,范雨强,韩华,张斌,崔晓钰. 计算机系统应用. 2019(05)
[6]高维数据的增量式聚类算法的距离度量选择研究[J]. 邵俊健,王士同. 计算机工程与科学. 2019(02)
[7]面向重尾噪声的模糊规则模型[J]. 贾海宁,王士同. 南京大学学报(自然科学). 2019(01)
[8]基于DTW距离度量的层次聚类算法[J]. 陶洋,邓行,杨飞跃,潘蕾娜. 计算机工程与设计. 2019(01)
[9]特征聚类的局部敏感稀疏图像修复[J]. 薛俊韬,倪晨阳,杨斯雪. 红外与激光工程. 2018(11)
[10]基于聚类识别的极化SAR图像分类[J]. 魏志强,毕海霞. 电子与信息学报. 2018(12)
硕士论文
[1]基于机器学习的癫痫及精神异常脑电信息识别研究[D]. 郑天依.北京邮电大学 2019
[2]动态聚类算法及其在医学数据上的应用[D]. 金永波.浙江大学 2011
本文编号:3228321
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3228321.html
最近更新
教材专著