基于局部标签关联的并行多标签k近邻
发布时间:2021-03-20 20:01
多标签分类问题中每个对象和若干个类标签关联,多标签分类的主要任务是识别所有可能和样本关联的标签。多标签分类的主要挑战在于如何应对随标签数量的增长呈指数级的标签输出空间,然而现存的多标签学习算法无法高效地挖掘和利用标签之间的关联性促进多标签学习过程。多标签k近邻算法(Multi-Label k Nearest Neighbor,ML-kNN)由经典的kNN改而来的惰性多标签学习方法,其克服了多标签学习领域类别不平衡问题且继承了惰性学习的优势,但其忽略了标签之间的关联性。基于ML-kNN的特点,本文在ML-kNN预测样本的标签集合时引入局部标签子集的关联性提高模型的有效性;此外,结合分布式计算框架和惰性学习的优势,本文对局部关联多标签k近邻算法进行了并行化研究,使其能够适应大规模多标签数据挖掘应用。本文主要的研究工作如下:1.为了提高ML-kNN的有效性和泛化能力,本文提出了一种局部标签关联多标签k近邻分类方法。首先为了缩减标签空间,按照互信息的大小选择和标签具有共现和互斥关系的标签子集,其次在计算标签的后验概率时考虑标签子集在近邻中分布的影响;最后,使用标签子集在近邻集合中分布的相似性对...
【文章来源】:重庆邮电大学重庆市
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
LD-kNN算法流程图
适应法在 SubsetAccuracy 指标上总体表现地较差。与 ML-kNN 相比,LD-kNN 总体上更具有优势。参数敏感性ML-kNN 算法是基于经典的机器学习算法 kNN 改进而来以处理多标签数据集,自然地继承了 kNN 算法的优缺点。该算法主要依据近邻中标签的分布拟合待预测样本的标签集合,因此参数近邻的个数 k 对模型的性能影响巨大。近邻个数 k 实质上是对特征空间的不等分划分,k 取值很小意味着模型的输出只和较少的输入样本有关,上述情况容易引起过拟合的现象;相反地,k 取值很大,在某种程度上缓解过拟合问题,但是当训练集中存在大量噪声时,异常样本参与到模型的输出,导致模型不稳定。本节进一步以数据集 enron 为例探索不同的近邻个数 k 对算法 LD-kNN性能的影响。试验中 k 的取值范围为[5,50],步长为 5。
适应法在 SubsetAccuracy 指标上总体表现地较差。与 ML-kNN 相比,LD-kNN 总体上更具有优势。参数敏感性ML-kNN 算法是基于经典的机器学习算法 kNN 改进而来以处理多标签数据集,自然地继承了 kNN 算法的优缺点。该算法主要依据近邻中标签的分布拟合待预测样本的标签集合,因此参数近邻的个数 k 对模型的性能影响巨大。近邻个数 k 实质上是对特征空间的不等分划分,k 取值很小意味着模型的输出只和较少的输入样本有关,上述情况容易引起过拟合的现象;相反地,k 取值很大,在某种程度上缓解过拟合问题,但是当训练集中存在大量噪声时,异常样本参与到模型的输出,导致模型不稳定。本节进一步以数据集 enron 为例探索不同的近邻个数 k 对算法 LD-kNN性能的影响。试验中 k 的取值范围为[5,50],步长为 5。
【参考文献】:
期刊论文
[1]基于Spark的多标签超网络集成学习[J]. 李航,王进,赵蕊. 智能系统学报. 2017(05)
[2]Spark下的并行多标签最近邻算法[J]. 王进,夏翠萍,欧阳卫华,王鸿,邓欣,陈乔松. 计算机工程与科学. 2017(02)
本文编号:3091583
【文章来源】:重庆邮电大学重庆市
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
LD-kNN算法流程图
适应法在 SubsetAccuracy 指标上总体表现地较差。与 ML-kNN 相比,LD-kNN 总体上更具有优势。参数敏感性ML-kNN 算法是基于经典的机器学习算法 kNN 改进而来以处理多标签数据集,自然地继承了 kNN 算法的优缺点。该算法主要依据近邻中标签的分布拟合待预测样本的标签集合,因此参数近邻的个数 k 对模型的性能影响巨大。近邻个数 k 实质上是对特征空间的不等分划分,k 取值很小意味着模型的输出只和较少的输入样本有关,上述情况容易引起过拟合的现象;相反地,k 取值很大,在某种程度上缓解过拟合问题,但是当训练集中存在大量噪声时,异常样本参与到模型的输出,导致模型不稳定。本节进一步以数据集 enron 为例探索不同的近邻个数 k 对算法 LD-kNN性能的影响。试验中 k 的取值范围为[5,50],步长为 5。
适应法在 SubsetAccuracy 指标上总体表现地较差。与 ML-kNN 相比,LD-kNN 总体上更具有优势。参数敏感性ML-kNN 算法是基于经典的机器学习算法 kNN 改进而来以处理多标签数据集,自然地继承了 kNN 算法的优缺点。该算法主要依据近邻中标签的分布拟合待预测样本的标签集合,因此参数近邻的个数 k 对模型的性能影响巨大。近邻个数 k 实质上是对特征空间的不等分划分,k 取值很小意味着模型的输出只和较少的输入样本有关,上述情况容易引起过拟合的现象;相反地,k 取值很大,在某种程度上缓解过拟合问题,但是当训练集中存在大量噪声时,异常样本参与到模型的输出,导致模型不稳定。本节进一步以数据集 enron 为例探索不同的近邻个数 k 对算法 LD-kNN性能的影响。试验中 k 的取值范围为[5,50],步长为 5。
【参考文献】:
期刊论文
[1]基于Spark的多标签超网络集成学习[J]. 李航,王进,赵蕊. 智能系统学报. 2017(05)
[2]Spark下的并行多标签最近邻算法[J]. 王进,夏翠萍,欧阳卫华,王鸿,邓欣,陈乔松. 计算机工程与科学. 2017(02)
本文编号:3091583
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3091583.html