基于局部标签关联的并行多标签k近邻

发布时间：2021-03-20 20:01

　　多标签分类问题中每个对象和若干个类标签关联,多标签分类的主要任务是识别所有可能和样本关联的标签。多标签分类的主要挑战在于如何应对随标签数量的增长呈指数级的标签输出空间,然而现存的多标签学习算法无法高效地挖掘和利用标签之间的关联性促进多标签学习过程。多标签k近邻算法（Multi-Label k Nearest Neighbor,ML-kNN）由经典的kNN改而来的惰性多标签学习方法,其克服了多标签学习领域类别不平衡问题且继承了惰性学习的优势,但其忽略了标签之间的关联性。基于ML-kNN的特点,本文在ML-kNN预测样本的标签集合时引入局部标签子集的关联性提高模型的有效性;此外,结合分布式计算框架和惰性学习的优势,本文对局部关联多标签k近邻算法进行了并行化研究,使其能够适应大规模多标签数据挖掘应用。本文主要的研究工作如下:1.为了提高ML-kNN的有效性和泛化能力,本文提出了一种局部标签关联多标签k近邻分类方法。首先为了缩减标签空间,按照互信息的大小选择和标签具有共现和互斥关系的标签子集,其次在计算标签的后验概率时考虑标签子集在近邻中分布的影响;最后,使用标签子集在近邻集合中分布的相似性对...

【文章来源】：重庆邮电大学重庆市

【文章页数】：79 页

【学位级别】：硕士

【部分图文】：

基于局部标签关联的并行多标签k近邻

LD-kNN算法流程图

变化曲线,近邻,数据集,变化曲线

适应法在 SubsetAccuracy 指标上总体表现地较差。与 ML-kNN 相比，LD-kNN 总体上更具有优势。参数敏感性ML-kNN 算法是基于经典的机器学习算法 kNN 改进而来以处理多标签数据集，自然地继承了 kNN 算法的优缺点。该算法主要依据近邻中标签的分布拟合待预测样本的标签集合，因此参数近邻的个数 k 对模型的性能影响巨大。近邻个数 k 实质上是对特征空间的不等分划分，k 取值很小意味着模型的输出只和较少的输入样本有关，上述情况容易引起过拟合的现象；相反地，k 取值很大，在某种程度上缓解过拟合问题，但是当训练集中存在大量噪声时，异常样本参与到模型的输出，导致模型不稳定。本节进一步以数据集 enron 为例探索不同的近邻个数 k 对算法 LD-kNN性能的影响。试验中 k 的取值范围为[5,50]，步长为 5。

变化曲线,近邻,数据集,变化曲线

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3091583.html

上一篇：集成学习结构多样性研究
下一篇：基于深度学习的激光扫描SLAM三维点云质量评价

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|