稀疏学习及其在数据挖掘的应用
发布时间:2017-12-29 18:16
本文关键词:稀疏学习及其在数据挖掘的应用 出处:《广西师范大学》2016年硕士论文 论文类型:学位论文
更多相关文章: 数据挖掘 稀疏学习 kNN算法 样本自表达 决策树 子空间学习 属性选择
【摘要】:数据挖掘处理的数据经常含有噪音样本和高维属性,稀疏学习已经显示能非常有效地反映数据之间的相关关系,即在学习的过程中对相关的样本或者属性学习出大的权重系数,不相关的样本或属性学习出小权重或者零权重系数。本文研究和扩展现有稀疏学习框架,提出新的稀疏学习模型对k最近邻分类算法关于k值难以确定的公开性问题和高维数据的属性选择算法存在的一些问题进行研究。具体地说,(1)提出了一种基于稀疏学习和决策树的k最近邻分类算法(Decision Tree k Nearest Neighbor Classification algorithm based on sparse learning, DTkNNC)。 k最近邻分类算法(kNearest Neighbor Classification, kNNC)由于简单易实现而且效果显著被广泛的应用于数据分类问题,但是kNNC算法存在三个缺陷:(i)、kNNC算法的k值难以取定;(ii)、固定k值的kNNC算法对数据分类时效果不能保证;(iii)、改进的kNNC算法没有充分考虑数据的全局信息。因此,本文第三章提出的DTkNNC算法融合稀疏学习和样本自表达且与决策树技术结合来解决kNNC算法存在的不足。详细地说,DTkNNC算法利用稀疏学习来研究kNN算法存在k值难以取定的公开性难题,使用样本自表达技术考虑数据的全局信息来提高算法的效果,而且利用决策树的低时间复杂度来加速算法和提高分类效果。在真实数据的模拟实验中,DTkNNC算法比常见的ADkNN、LMNN、kNNC算法效果要好。提出的基于稀疏学习框架的目标函数不但在一定程度上丰富了现有稀疏模型框架同时也扩充了其应用范围,即将稀疏学习应用于数据分类方面。(2)提出了一种基于子空间学习和图稀疏学习的属性选择算法(Graph sparse learning for Feature Selection algorithm based on Subspace learning,缩写为SG_FS)。属性选择是一类常见的用来处理高维数据的方法,然而现有的属性选择方法存在以下缺陷:简单地对所有属性按某一规则排序或者简单的通过稀疏学习获得属性之间的重要关系,没有很好的考虑到属性间的相关关系。本文第四章利用子空间学习的两种算法(线性判别分析(LDA)和局部保持投影(LPP))考虑数据的全局特性和局部特性,同时将子空间学习算法嵌入现有基于稀疏学习的属性选择框架中。该方法不仅具有子空间学习方法的优越性(即显著的分类效果)还具有属性选择的优点(即可解释性)。在真实数据的模拟实验中,SG FS算法比NFS、PCA、LDA、LPP、LE、L21方法效果要好。提出的基于稀疏学习框架的目标函数在一定程度上丰富了现有稀疏模型框架,同时也将稀疏学习推广应用于高维数据属性选择方面。本文对数据挖掘领域中的kNNC算法关于k值的难以取定和高维数据的属性选择两个方面进行了研究,即首先使用稀疏学习的理论和方法来解决这两个方面现有算法存在的缺陷,然后提出了两种新的数据挖掘算法。论文中提出的每种算法都使用了真实的公开数据集进行实验验证和分析,在各个评价指标下,本文提出的两种算法均优于现有的常见算法。
[Abstract]:......
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181;TP311.13
,
本文编号:1351307
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1351307.html