当前位置:主页 > 科技论文 > 自动化论文 >

多标记众包学习研究

发布时间:2020-10-31 13:16
   多标记学习处理的是单个样本可以同时拥有多个相关标记的任务。以往的多标记工作要求使用耗费高昂且不易获取的真实标记。相比之下,通过将任务分配给多个易于访问但可能犯错的非专家,众包提供了一种新的标记收集方式。本文考虑众包环境下的多标记学习,从以下几个方面进行了研究:1.标记关系及标注者能力建模的多标记众包学习。众包标注一方面存在错误,另一方面其数量和质量的变化也敏感地影响标记关系的估计。本文提出基于概率图模型的方法NAM,模拟标注者在各个标记上的准确率并使用邻域样本的局部标记关系。基于相似样本的标注也应该相似,我们利用样本特征空间的信息增强标记关系的估计,使用邻域样本标注的局部影响。考虑到实际应用中标注预算通常有限,本文还将NAM扩展到主动众包学习,降低标注成本。实验验证了方法的有效性。2.标记关系及标注者特殊行为建模的多标记众包学习。由于涉及多个标记,标注复杂度和难度的增加会对标注者的行为产生不同于其在单标记任务上的影响。本文注意到标注者“省力”的行为方式,即相比于仔细检查所有标记并认真标注,标注者倾向于快速地标出他们认为最相关的少数几个标记。本文提出RAM方法,从标记相关程度考虑,将标注者能力定义为区分两两标记相关性的准确率,同时刻画标注者的行为和标记对的关系。我们也将RAM扩展到主动众包学习。实验验证了方法的有效性。3.不完整标注的快速多标记众包学习。由于完整的多标记标注不仅标注负担很重,还可能对标注者行为及其标注结果产生不可控影响,本文考虑从对标注者要求更低的数据形式中进行学习,仅要求样本的“部分”标注。本文提出CRIA方法,考虑到标注者可靠的情况下,所有标注者在所有样本和标记上的标注应该存在全局的低秩结构关系,首先使用高效地低秩张量优化方法补全缺失的标注,然后在完整的标注上做融合。CRIA在学习效果和计算效率方面均远远优于以往的工作。我们也将CRIA扩展到主动众包学习。实验验证了方法的有效性。4.多标记众包的不良标注者检测。多标记任务上垃圾标注者和恶意标注者不仅会造成很大的资源浪费,还会破坏整体的标注质量。本文提出WorkerAna方法检测这些不好的标注者。在缺少标注者特征信息和仅有少量标注数据的情况下,基于好的标注者、恶意标注者之间存在二聚类结构,而垃圾标注者类似异常点的想法,我们学习标注者的隐空间表示并分析标注者的类型。实验验证了方法的有效性。本文还将WorkerAna方法扩展到部分视图聚类的情况,以处理多视图数据中视图存在缺失的情况。
【学位单位】:南京大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP181
【部分图文】:

对标,数据收集平台,学习器,标记信息


现也为实际应用提供了方便的数据收集平台。??考虑到本文的工作集中在机器学习中利用众包收集标记信息,本节接下来??主要介绍标记收集学习方面的工作。图1.1展示了通过众包收集标注的过程,??其中涉及到标注者,标注的收集过程,以及学习器从标注中学习。??作为一种新的标记获取方式,众包的优势在于快速、灵活,但由于标注者??并非确定的专家,众包收集的数据一方面可能存在错误,如何从有错误的标注??中估计更高质量的标记吸引了大量的研宄关注;另一方面,由于数据的收集涉??及到成本,并且不同的标注者的标注质量不同,如何以最优的方式分配标注任??务,以最少的花费收集到最优的数据也是众包学习关注的重点;此外,由于参??与标注的众人对标注的结果、质量有很大的影响,因此对标注者行为的理解和??分析也是众包的重要研宄方向。接下来

模型图,概率图,多标记,单标记


众包学习框架DS[30],然后将其扩展到多标记N题上,使用特征空间中邻近样??本的局部标注信息以估计更准确的标记关系。??图2.1(a)以标记/为例,展示了经典的单标记众包概率图模型。基于众包??标注结果同时依赖于样本及其隐含的真实标记,用Rp,.(0)表示模型的参数及其??先验,则丨%,<}的联合概率分布可以表示为:??=] ̄[?piz^Xi,?9)?] ̄]?p(yj7|z|,?X,-,?e)pr{e).?(2.1)??i?j£M[??这里可以将第一项看作对真实标记乂做预测的分类器。第二项??P(y?,的刻画/标注者对样本X,的标注过程,其标注结果?<?与X,及其??真实标记Z丨相关。未知的真实标记^丨为模型的隐变量。通过在第二项中定义??一个或多个变量刻画标注者的标注能力,此投型被广泛的用r?众包'7:4,例如??[80,?178]使用准确率(accuracy)定义标注者标注能力,丨30,?128,?M3,?212]使川M??石角率(precision)

数目,参数,固定参数,学习效果


在上面的实验中,我们对NAM使用了固定参数。本节讨论NAM中参数??J和近邻个数A的影响。我们测试了/t?e?{1〇-5,10-'4,…,102},?/:e{0,5,9,13},在??图2.2中展示了?NAM方法在参数变化情况下的学习效果。考虑标注者数目的影??响
【相似文献】

相关期刊论文 前10条

1 马旭燕;;众包在项目翻译教学中的应用初探[J];上海翻译;2017年06期

2 王志宏;傅长涛;李阳阳;;众包的行业应用研究述评[J];长安大学学报(社会科学版);2017年05期

3 李洋;温亮明;李健;;国内图书馆众包研究文献综述[J];知识管理论坛;2018年02期

4 刘彤;;关于档案众包的分析与研究[J];山东档案;2018年04期

5 曾婧婧;;国外政府资助型科研众包研究综述[J];中国科技论坛;2016年12期

6 郝迎春;祖菊;;人力资源众包服务平台应用研究[J];企业改革与管理;2017年07期

7 张永云;张生太;吴翠花;;嵌入还是卷入:众包个体缘何贡献知识?[J];科研管理;2017年05期

8 张宏树;陈雪波;;众包十年背景下的众筹新闻再考察[J];青年记者;2017年17期

9 任重;;基于万众创新的科研众包研究:定义、理论内涵与启示[J];自然辩证法通讯;2017年04期

10 王晔;;科研众包模式下图书馆支持服务研究[J];图书馆研究;2017年04期


相关博士学位论文 前10条

1 李绍园;多标记众包学习研究[D];南京大学;2018年

2 张立晔;基于众包的WLAN室内定位技术研究[D];哈尔滨工业大学;2018年

3 提倪(Muhammad Zahid Tunio);面向众包软件开发的任务分配技术研究[D];北京邮电大学;2018年

4 向为;创意设计柔性众包的方法与应用[D];浙江大学;2017年

5 吴薇;众包竞赛情境下接包者持续参与行为研究:竞争自我效能的作用[D];中国科学技术大学;2018年

6 林素芬;基于众包参与者网络的众包绩效提升研究[D];华侨大学;2015年

7 冯小亮;基于双边市场的众包模式研究[D];武汉大学;2012年

8 饶华铭;人本计算系统中众包数据质量控制方法的改进及其应用研究[D];南京理工大学;2017年

9 庞建刚;众包社区创新的运营机制设计[D];中国科学技术大学;2014年

10 胡昭阳;众包科学:网络传播语境下的公众参与创新[D];中国科学技术大学;2015年


相关硕士学位论文 前10条

1 刘红丽;空间众包任务分配算法研究[D];哈尔滨工程大学;2018年

2 刘爽;O2O模式下众包物流的风险评价研究[D];天津科技大学;2017年

3 杜田玉;大规模定制服务下的众包物流调度研究[D];天津科技大学;2017年

4 王彦媚;众包物流服务中接包人员参与行为研究[D];天津科技大学;2017年

5 王梦婧;基于众包的物流配送调度优化方案[D];哈尔滨工业大学;2017年

6 莫小燕;基于众包手机数据的实时路况估计和路径规划研究[D];哈尔滨工业大学;2017年

7 张玉;《众包与网络协作翻译》(第五章)翻译报告[D];河南大学;2018年

8 常峥;《众包与网络协作翻译》(第八章)翻译报告[D];河南大学;2018年

9 王允;《众包与网络协作翻译》(第三章)翻译报告[D];河南大学;2018年

10 孔晓晓;《众包与网络协作翻译》(第二章)翻译报告[D];河南大学;2018年



本文编号:2863994

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2863994.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc0c4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com