当前位置:主页 > 科技论文 > 自动化论文 >

基于主题模型的多标签学习问题研究

发布时间:2020-10-31 19:27
   在现实世界中,很多时候一个事物可以同时和一组标签相关联,这种情况可以被建模为多标签学习。多标签学习是指一个实例可以同时关联多个标签而不是单个标签。近些年多标签学习在越来越多的应用场景中被广泛运用,包括文本分类、图像领域、生物信息学、web挖掘等领域。多标签学习由于其数据集的特殊性,还面临着很多困难和挑战。其中一个最常见的问题是潜在可能的输出标签空间的巨大规模。为了缓解这个问题,一些方法选择利用标签相关性来减少预测过程中的输出空间。然而,如何挖掘标签相关性是一个很大的问题。此外,标签不平衡是多标签分类中普遍存在的另一个问题,当前的不平衡校正方法经常直接使用单标签方法,不能考虑标签相关性。针对多标签学习的相关问题和挑战,本文的主要工作有:1.针对标签之间关联性,提出了基于主题模型的多标签学习算法MLLT。首先本文利用主题模型去挖掘标签和标签集中隐含的标签主题,从而进一步的利用标签主题作为额外的标签之间关联信息,将其引入学习过程中,使其成为新的特征,构成新的多标签训练集。最终在得到一部分从标签主题得到的关联信息后,本文借助了BR算法的思想,直接将多标签学习拆分为多个单标签学习过程进行学习。且不难发现,该算法的时间复杂度很低,基本是接近BR算法的。实验表明,该算法在多个不同规模不同领域的标准数据集上,均取得了不弱于目前先进算法的效果,而从算法效率来说,它和算法BR接近,大大优于现在主流的多标签学习算法。2.基于算法MLLT,本文进一步提出了相应的扩展和改进,使其可以更加灵活,准确,且使用范围更加广泛。首先,考虑到多标签学习算法MLLT是通过标签主题来引入一部分标签关联信息,本质上其实是对多标签数据集的改造。本文将任意现有的先进的多标签学习算法作为基分类器引入,这样一来多标签学习算法MLLT就被扩展为一个多标签学习框架MLLTM,该框架可以适用于绝大多数已有的多标签算法,可以在原有算法性能的基础上得到额外的提升和突破,同时算法的时间效率和原算法接近。接着,本文具体讨论了标签主题个数的选取策略,本文采用一个递增的主题个数序列来取代固定的主题个数,从最小值开始依次选取作为标签主题个数,依次将预测得到的主题加入到特征中为更大值的标签个数的预测提供额外信息,这样一来前面预测的标签主题就可以为后面待预测的标签主题提供额外信息,从而提升准确率。迭代的重复上述过程直至序列终止,以最终生成的数据集去预测标签,从而使得算法可以随着序列的增长性能得到稳定的提升,同时所花费的时间复杂度也和原算法基本接近。最后,本文针对在包含过多单类别样本的多标签数据集上很难挖掘标签关系这一问题,我们进一步扩展框架,构建一个二元分类器的训练集,将是否为多标签样本作为类标,以此分类器作为一个前置处理。实验表明,通过该策略改进和优化框架,使得对单标签样本过多的数据集上效果不好的问题得以很好的解决,也使得框架具有更好的完备性和普适性,同时所花费的时间复杂度也和原算法基本接近。3.针对多标签类别不均衡的问题,传统的多标签类别不均衡的处理策略往往伴随着牺牲了标签关系信息,所以本文希望在前文工作的基础上针对类标不均衡问题进一步扩展算法框架,从而兼具考虑标签相关性的发掘和类别不平衡的处理。本文提出了一种面向多标签不均衡问题的算法框架MLLTC-IMB。我们针对每一个标签,将其与每一个主题构建一个多类分类器,去评估每一个标签和每一个标签主题的共生关系。最终再以MLLT框架的结果和多个多类分类器的结果集成得到最终结果,计算合适的阈值,得到最终的分类模型。这样一来,该方法同时兼顾了标签的关联性和类别不均衡问题。实验表明,该框架一方面可以在原有的基础上继续提高性能,同时非常擅长处理多标签的类别不均衡的情况。唯一的弱点在于由于额外训练了多个多类分类器,使得时间的成本有所提升。4.以实际的中医帕金森诊疗的应用场景为例,将中医量表诊断帕金森这一问题抽象出来,建模成一个多类标问题,并构建相应的多标签数据集。分析数据集特点,发现数据集中单标签样本比例过高,且有着严重的类别不均衡问题,符合本文的研究场景。通过实验分别对比了传统多标签算法,框架MLLTC,框架MLLTCS以及框架MLLTC-IMB上的结果。实验证明,本文提出的框架在处理多标签问题的标签关联性,单类别样本过多以及类别不均衡问题上都有着很好的应对模式,最终取得了具有突破性的结果。同时,利用本文提出的框架建立了帕金森量表诊疗的分类模型,从而为医生在诊断过程中提供一个标准化的参考和辅助,同时在挖掘的过程中得到的一些潜在可解释规律可以由医生做进一步的研究和分析。
【学位单位】:南京大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP181
【部分图文】:

图像,标签,分类器,实例


因可能包含多个功能等等。为了解释现实世界的这些多语义的对象,最直观的??解决方案就是用一组标签代替单个标签来与实例对象关联,来显式的表达其语??义。如图1.1所示,该图像上就同时包含了大海,海滩,鸟,树等标签。这样一??来,多标签学习框架作为这类问题的处理框架自然而然的出现。在此给出多标??签学习的形式化定义。??晒,,'墨??,.:.??\?i??图1.1:多标签图像??假设;f?=舻表示实例的d维特征向量输入空间,y?=?{也仍,...,%}表示实??例的g维标签输出空间。于是多标签学习的训练集可被定义为{(而,%)丨1?<??i?<?iv丨,其中而e?y是实例的d维特征向量,x?g?;y是实例而所对应的标签??集。这样一来多标签学习任务其实就可以转化为从训练集中寻找一个合适的??分类器&?:1?使得可以通过该分类器从特征向量的输入空间映射到标??签集的输出空间。当遇到未知标签的实例z时,可以通过该分类器预测其标签??集简单的说

关系图,结构关系,主要工作,论文


?第一章绪论???行中医帕金森的诊疗。??第七章是总结与展望,主要对本文工作进行了总结,并对下一步工作进行??了展望。??在本文中,一二章主要交代了背景知识,第三章利用主题模型的思想提出??了一种具体的多标签学习算法,第四章在第三章的基础上将该算法泛化成一个??普适的多标签学习优化框架,第五章针对多标签不均衡的问题进一步扩展框架,??第六章则是针对实际的中医诊疗帕金森的应用场景进行建模,发现该应用场景??下的数据情况完全符合三四五章算法框架所针对的问题,在此基础上运用本文??的算法框架对此实际应用进行很好的解决。具体论文主要工作与组织关系图??如1.2所示。??

算法评价,指标,标签集


一个样本实例的结果,最终给出所有样本的综合结果,如均值等等。而基于标??签的指标则是通过独立的评估每一个标签的结果,最终返回的是所有标签结果??的综合值,如mirco/macro均值等,具体分类如图2.1。下面来具体介绍每个指标??的定义。??1.基于实例的指标??Subset?Accuracy:多标签学习中最严格的指标,统计测试集中预测结果集和??测试样本的实际标签集完全一致的样本所占比例。不难想象,当标签空间??很大的时候,想要做到预测结果和实际标签集一致是非常困难的事情,所??11??
【相似文献】

相关期刊论文 前10条

1 朱昌俊;;“二等座院士”身上的职业精神[J];作文与考试;2017年26期

2 李艳;贾君枝;;轻型标签本体与受控词表的结合研究[J];数字图书馆论坛;2014年08期

3 包佳佳;田伟;;大规模图上标签集约束路径的集合查询[J];计算机科学;2013年04期

4 吴金成;曹娇;赵文栋;张磊;;标签集中式发布订阅机制性能分析[J];指挥控制与仿真;2010年06期

5 吴小兰;章成志;;结合用户关系网和标签共现网的微博用户标签推荐研究[J];情报学报;2015年05期

6 李松丽;曹平;姜盼;;国际标准化组织的标准标签集研究分析[J];航空标准化与质量;2018年02期

7 乔亚琴;马盈仓;张毅斌;杨小飞;;标签相关的多标签分类算法[J];纺织高校基础科学学报;2017年04期

8 田枫;沈旭昆;;基于标签集相关性学习的大规模网络图像在线标注[J];自动化学报;2014年08期

9 郑海雁;王远方;熊政;李昆明;崇志宏;尹飞;;标签集约束近似频繁模式的并行挖掘[J];计算机工程与应用;2015年09期

10 包靖玲;霍永丰;顾佳;韩静;李君;袁庆;李敬文;沈锡宾;;美国国立医学图书馆期刊文档标签集概述[J];中国科技期刊研究;2013年04期


相关博士学位论文 前3条

1 彭岳;基于主题模型的多标签学习问题研究[D];南京大学;2018年

2 黄媛;面向服务的社会化标注方法研究[D];武汉大学;2013年

3 杜卿;面向个性化服务的User Profile研究及应用[D];华南理工大学;2014年


相关硕士学位论文 前10条

1 聂藤;一种基于子空间分解和判别分析的多标签分类算法[D];华中科技大学;2016年

2 贺释千;标签零模型及子图分布算法应用研究[D];燕山大学;2017年

3 何敬怡;播存环境下基于标签的个性化推荐技术研究[D];东南大学;2017年

4 刘春伟;微博用户个性化标签提取技术研究[D];哈尔滨工程大学;2016年

5 杨烁陶;基于非负矩阵分解的多标签分类算法研究[D];大连理工大学;2017年

6 方泽阳;基于多标签的海量文本的分类算法的研究与设计[D];北京邮电大学;2017年

7 张荣辉;基于深度学习的图像多标签分类算法研究[D];北京邮电大学;2016年

8 张永伟;多标签分类中在线学习算法研究[D];南京师范大学;2017年

9 叶婷;社会化标签语义规范化及其在推荐系统中的应用[D];南京财经大学;2017年

10 颉小凤;基于深度标签关联挖掘的高维不平衡文本分类方法研究[D];重庆邮电大学;2017年



本文编号:2864401

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2864401.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d7ec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com