汾河上游水文气象要素演变特征及径流影响因素研究
第1章 绪论
1.1 课题研究的目的和意义
近年来,随着全球信息科技的飞速发展,尤其是数据挖掘技术和信息采集技术的不断发展,利用这些技术可以快速收集大量的数据信息,并可以通过对数据的处理和分析获得对人们有价值的信息和知识。对于采集的数据,往往存在大量缺失的属性值,这就造成了数据的稀疏性[1]。尽管收集的数据量很大,但往往人们只关注其中一小部分数据,这又会导致数据失衡性[2]。而现实应用中兼具稀疏性和失衡性的数据普遍存在,也因此影响数据挖掘任务的准确性。因此面向失衡数据的稀疏性相关问题的研究具有重要的理论价值和现实意义。 对于类别分布均匀、结构完整的数据分类问题,基于这些数据的分类器都具有良好的性能,而现实中绝大多数情况下会因数据集的复杂性而遇到分类难题,例如,海量数据、稀疏数据、失衡数据、高维数据、不完全数据,甚至兼具几种特征的复杂数据,尤其失衡数据当遇到数据稀疏时,会造成分类准确度大幅度降低[3]。 失衡数据的稀疏性问题可以从预处理方面解决数据的稀疏性问题,也可以从算法改进方面解决数据集的失衡性和稀疏性问题。从数据预处理方面,对于稀疏性可以采用缺失值处理方法针对稀疏数据集中缺失的属性值进行填充,传统填充方法普遍存在填充结果不可靠甚至改变原有数据形态,造成数据挖掘任务准确性降低。如何能够在保证数据原有形态的基础上将稀疏数据集转化成非稀疏数据集的问题受到研究人员的关注。针对数据失衡性从算法改进方面,由于数据集中类别分布极其不均匀且存在大量属性值空缺,对于二分类问题,即小类别的样本规模远远小于大类别,会使小类别的信息量极度匮乏,造成分类器功能失效,数据稀疏性和失衡性是分类模型建立中的两个决定性因素,必须两者兼顾才有可能得到比较理想的分类模型,因此面向稀疏失衡数据的分类问题目前正受到该领域研究人员的高度重视。
.........
1.2 失衡数据的稀疏性问题的研究现状及分析
目前,从国内外针对失衡数据的稀疏性相关问题所发表的高水平论文及研究成果来看,该研究方向正逐渐受到越来越多学者和研究人员的重视。从研究侧重点角度,可分成两个子问题:解决数据稀疏性问题,解决数据失衡性问题。近年来,微博作为网络社交平台备受人们的喜爱,也成为情感分析领域的研究热点之一,英国学者 Saif 对微博数据在训练分类器过程中经常遇到数据稀疏问题进行研究,并提出使用两个不同的特征集来缓解稀疏性问题:语义特征集和情感主题特征集,该方法可以在缓解数据稀疏性的同时提高数据分类的准确性[5];为了解决协同过滤推荐算法实施过程中“用户-项目”数据集的稀疏性问题,学者 Hoseini 采用“逐步分割法”对“用户-项目”数据集进行分割操作,一级分割根据用户、项目的潜在相似性对用户和项目进行分别聚类,二级分割是在一级类簇的基础上对用户和项目进行联合聚类,该方法不仅解决了传统协同过滤推荐算法稀疏性问题,也同时提高了推荐算法的可扩展性[6];同样是在协同过滤算法中数据稀疏性问题上,印度学者 Devi 提出使用概率神经网络来计算用户之间的信任值,并通过信任值矩阵来预测稀疏矩阵中的缺失属性值,以此来平滑稀疏矩阵,再由平滑的矩阵计算其他用户之间的信任值,以此克服数据集稀疏性问题[7];日本学者 Abdelwahab 则使用迭代预测方法解决协同过滤算法相似性计算时由于数据稀疏性造成的参考信息不足的问题,将稀疏矩阵转化为稠密矩阵,从而也克服了推荐算法的稀疏问题和冷启动问题.
.........
第2章 数据稀疏性和失衡性问题
2.1 数据稀疏性和失衡性问题描述
失衡数据集的稀疏性问题可以从概念上分为两个子问题,首先是数据的稀疏性问题,也是本文重点要解决的关键问题,然后是失衡数据本身所存在的失衡问题,主要表现在失衡数据的分类问题上,因此要解决失衡数据集的稀疏性问题首先要从本质上了解数据稀疏性和失衡性这两个内在因素,并将这两个问题综合考虑,才能提出完整的解决方案。稀疏数据(Sparse Data)是指属性值存在缺失的数据,其中缺失部分称为缺失数据又称缺失值。缺失数据分析问题在经典统计学中已经有很长的历史,1976年,美国学者 Rubin 指出了基于缺失数据的统计推断所存在的问题,并对造成这种缺失的原因进行了详细分析与说明[36]。在此基础上许多关于缺失值处理的模型策略、推论和详细的课题定义也因此得到了开展,并吸引了很多世界范围的学者进行研究。 描述稀疏数据的一个重要的度量指标是数据的稀疏度(Sparsity),稀疏度是指数据中所有非缺失单元的数目占总单元数目的比例。数据集越稀疏,其稀疏度数值越小,,相应的缺失度数值就越大。按照缺失数据的缺失类型,还可以将其分为下面三种。
............
2.2 数据稀疏问题的原因及解决办法
稀疏数据最典型的特征就是属性值的不完整性,通常是因为数据获取限制、数据理解有误或漏读等方面的原因导致的,而由于原因的不同数据缺失值表现出来的特征也不一样,从而稀疏度也相差甚远,如上文所述的三种不同类型的缺失值。在 UCI 数据库中,很多数据集是不完整的,即存在一定程度的稀疏性,在数据挖掘中缺失值处理不恰当就会导致与缺失值相关的某些有价值的信息或知识被忽略,从而影响结果的可靠性。因此为了提高数据挖掘算法的性能,首先必须解决的是数据本身所存在的问题,即数据稀疏性问题。现实中缺失数据产生的原因有多种,例如,调查问卷实施过程中,受访者对问题的遗漏、拒绝,或调查员与调查问据卷本身存在的一些疏忽,在调研中不恰当地收集数据或者数据录入错误等。总的来说,主要原因可以分为以下几类情况:信息暂时无法获取例如,对于医疗系统数据库来说,在某一时间段内,会存在大量的病人信息是不完整的甚至是完全空缺的,这是因为某些病人的检查结果的获取需要一定的时间间隔,导致没有办法将这些病人的数据及时录入系统。信息被遗漏这种情况往往是由于录入者本身的主观因素所造成的,例如,忘填或者对要填写的项目没有理解而未录入且系统无提示,或由于数据采集、传输、存储设备故障或损坏导致的等。
..........
第 3 章 基于稀疏数据聚类的缺失值填充方法 ......... 15
3.1 缺失值填充 ....... 15
3.1.1 数据缺失值填充与稀疏性的关系 ..... 15
3.1.2 基于统计学的填充方法 ............ 16
3.1.3 基于机器学习的填充方法 ........ 17
3.2 基于聚类协同过滤的填充方法 ........... 20
3.2.1 聚类分析技术概述 ........... 20
3.2.2 协同过滤算法 .......... 21
3.2.3 K-means CF 填充算法 ...... 22
3.3 基于递归增量式聚类的填充方法 ....... 25
3.4 实验结果与分析 ........ 28
3.5 本章小结 ........... 34
第 4 章 失衡数据集分类方法 .......... 35
4.1 失衡数据集分类策略概述 .......... 35
4.2 基于随机游走模型的失衡数据分类方法 .... 39
4.2.1 随机游走模型概述 ........... 39
4.2.2 IRWM 分类算法 ....... 40
4.3 实验与分析 ....... 43
4.4 本章小结 ........... 46
第4章 失衡数据集分类方法
如前文所述,稀疏失衡数据集具有两个重要的因素,即稀疏性和失衡性,在第三章中,我们通过两种策略解决了失衡数据集的稀疏性问题,即通过前面的缺失值填充过程我们得到了完整的非缺失的数据集,为了数据集最终能准确分类的目的,下一步要解决数据的失衡性问题。目前,解决数据集失衡的方法主要从两个方面入手:数据重采样方法和分类方法改进。其中,通过对现有的比较成熟的常规分类方法的改进,可以得到适应不同失衡程度的分类方法,是失衡数据集分类的主要方法和常用方法之一。我们选择随机游走模型作为失衡数据的分类模型,是因为随机游走模型已经在模式识别领域和数据多标签分类领域有成熟的理论基础,并得到了应用,并且随机游走模型建模过程简单,没有众多参数的影响。
4.1 失衡数据集分类策略概述
分类是按照数据集的特征构建适合的分类模型或分类器,从而将未知类别的对象映射到已知的类别当中。分类之前通常要对数据集进行预处理,包括对数据集进行清理和数据变换操作,例如,对数据的缺失值进行处理、对噪声数据进行消除,将连续性属性值转变成离散性属性值等;分类建模是最重要也是最关键的步骤,一般包括训练(又称学习)和测试两个阶段,通常将数据集通过一定的方法分成训练样本和测试样本,并分别应用到相应的阶段。主要的分类方法如下: 决策树算法是以实例为基础的归纳学习算法。方法通过从树的根节点自顶向下对树的内部节点属性值的对比,若不相同则进行分支处理,最后形成叶子节点不能继续向下分支,这时叶子节点则是最后要划分的类别。其中,从根节点到叶节点的所有路径均可作为一种合取规则。KNN 法的思想是若某个实例的 k个最近邻居大部分归为某组或某类,那么目标实例同样应该归到该组。采用KNN 法进行分类时,仅仅按照一小部分实例的信息进行分类决策,因此KNN 更适合有交集的组进行快速的分类。
.........
结论
本文针对失衡数据的稀疏性问题进行了深入的研究,设计了一套解决稀疏性和失衡性问题的完整方案。在数据预处理阶段,针对缺失值分别提出基于聚类协同过滤的单层填充方法和基于递归增量式聚类的填充方法。在数据的失衡性问题上提出基于随机游走模型的失衡数据分类方法。本论文主要有以下几方面的研究成果及创新:
1. 本文对失衡数据的稀疏性问题的国内外研究现状进行了总结和分析,从而将复杂数据—失衡稀疏数据所带来的综合性问题分解成稀疏性问题和失衡性问题两个子问题进行分别探讨和研究,将稀疏性问题放在处理阶段解决,而失衡性问题放在分类算法的改进上解决。
2. 在预理阶段,针对数据稀疏问题进行深入研究,介绍和分析了现存方法的不足,并创新性的提出了聚类协同过滤的缺失值填充方法。该方法既克服了基于统计学的方法中分布假设判定困难的局限性也不需要复杂的建模过程,并且通过对比实验验证了该方法确实可以有效地填充缺失值。这种先聚类再计算填补值的一次性填充方法容易因初始数据存在大量缺失值而造成对象的误聚,从而影响填充效果。因此在此基础上提出了递归增量式填充方法,引入初始化填充步骤以弥补一次性聚类填充的局限性,并采用递归方式聚类并替换填充值,直到结果收敛或达到最小误差,并通过对比实验验证了递归增量式方法性能上的提高。
3. 在失衡数据分类过程中,介绍和分析了现有解决数据失衡性问题的两大类方法,即从数据端解决和从算法端解决。本文提出一种基于随机游走模型的分类方法,试图从算法端解决失衡数据分类问题,考虑到正反例比例相差较大,分别设计了正例和反例两套游走图,能够更好地适应失衡数据。设计了对比实验,验证了该分类算法的有效性和分类性能的提升。
.........
参考文献(略)
本文编号:75997
本文链接:https://www.wllwen.com/wenshubaike/lwfw/75997.html