众包系统中标注质量控制问题研究
发布时间:2023-12-10 17:50
随着互联网技术的快速发展,很多机器智能难以完成的任务,例如情感分析﹑图像标注和蛋白质结构预测等,可以通过众包的方式由诸多在线工人完成。大量的标注任务由传统耗时耗费的专家标注方式转变为相对经济高效的互联网工人标注,加快了数据标注效率,推动了机器学习和数据挖掘领域的发展。然而,由于在线工人的标注质量不确定性,众包标注数据普遍存在噪声,甚至不正确。因此,如何控制众包标注质量具有重要研究价值和广泛应用空间。本文围绕众包标注质量控制问题,从多标记众包答案聚合、任务分配策略及结合主动学习的众包标注这三个角度展开研究,在此基础上开创性探索工人注意力影响的众包标注及质量控制问题,本文的主要工作如下:1、多标记众包答案聚合研究:当从众包平台获取标签时,一个任务可能关联多个标签,即所谓的多标记众包任务。而现有的大多数众包答案聚合方法一般只关注单标记(二分类和多分类)场景,当应用到多标记场景时,由于忽略了标记之间的关联性,因而可能会影响其聚合质量。针对这一问题,本文提出了一种基于联合矩阵分解的多标记答案聚合方法(ML-JMF)。首先,该方法联合不同工人的样本-标记关联矩阵分解为代表不同工人的个体矩阵和一个共...
【文章页数】:114 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 众包答案聚合
1.2.2 众包任务分配
1.2.3 主动众包标注
1.3 本文研究目标、主要内容及创新点
1.4 本文组织结构
2 相关研究概念
2.1 属性定义
2.1.1 工人属性
2.1.2 任务属性
2.2 优化算法
2.2.1 期望最大化
2.2.2 期望传播算法
2.2.3 交替方向乘子法
2.3 评价指标
2.4 本章小结
3 多标记众包答案聚合研究
3.1 问题定义
3.2 ML-JMF算法
3.3 算法优化
3.4 实验及结果分析
3.4.1 数据集及实验设置
3.4.2 多标记答案聚合
3.4.3 参数μ成分分析
3.4.4 欺诈者的鲁棒性分析
3.4.5 参数敏感性分析
3.4.6 复杂度分析
3.5 本章小结
4 众包任务分配策略研究
4.1 问题定义
4.2 Crowd WT算法
4.2.1 工人偏好策略
4.2.2 任务困难度预测
4.2.3 联合任务分配模型
4.3 实验及结果分析
4.3.1 实验设置
4.3.2 任务分配结果及分析
4.3.3 聚合标注结果及分析
4.3.4 稀疏标注鲁棒性分析
4.3.5 参数敏感性分析
4.3.6 运行时间分析
4.4 本章小结
5 结合主动学习的众包标注研究
5.1 问题定义
5.2 AMCC算法
5.2.1 多标记答案聚合
5.2.2 代价敏感的主动众包学习
5.2.3 算法优化
5.2.4 凹凸性分析
5.2.5 时间复杂度分析
5.3 实验及结果分析
5.3.1 实验设置
5.3.2 聚合标注结果
5.3.3 主动众包学习结果分析
5.3.4 参数敏感性分析
5.3.5 鲁棒性分析
5.3.6 运行时间
5.3.7 收敛性分析
5.4 本章小结
6 基于注意力的众包标注过程研究
6.1 问题定义
6.2 A3C算法
6.3 算法推理及优化
6.4 实验及结果分析
6.4.1 数据集及实验设置
6.4.2 答案聚合比较
6.4.3 A3C在不同注意力分布下的结果
6.4.4 任务估计数分析
6.4.5 噪声鲁棒性分析
6.5 本章小结
7 总结与展望
7.1 论文总结
7.2 论文展望
参考文献
致谢
发表论文及参与课题一览
本文编号:3872848
【文章页数】:114 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 众包答案聚合
1.2.2 众包任务分配
1.2.3 主动众包标注
1.3 本文研究目标、主要内容及创新点
1.4 本文组织结构
2 相关研究概念
2.1 属性定义
2.1.1 工人属性
2.1.2 任务属性
2.2 优化算法
2.2.1 期望最大化
2.2.2 期望传播算法
2.2.3 交替方向乘子法
2.3 评价指标
2.4 本章小结
3 多标记众包答案聚合研究
3.1 问题定义
3.2 ML-JMF算法
3.3 算法优化
3.4 实验及结果分析
3.4.1 数据集及实验设置
3.4.2 多标记答案聚合
3.4.3 参数μ成分分析
3.4.4 欺诈者的鲁棒性分析
3.4.5 参数敏感性分析
3.4.6 复杂度分析
3.5 本章小结
4 众包任务分配策略研究
4.1 问题定义
4.2 Crowd WT算法
4.2.1 工人偏好策略
4.2.2 任务困难度预测
4.2.3 联合任务分配模型
4.3 实验及结果分析
4.3.1 实验设置
4.3.2 任务分配结果及分析
4.3.3 聚合标注结果及分析
4.3.4 稀疏标注鲁棒性分析
4.3.5 参数敏感性分析
4.3.6 运行时间分析
4.4 本章小结
5 结合主动学习的众包标注研究
5.1 问题定义
5.2 AMCC算法
5.2.1 多标记答案聚合
5.2.2 代价敏感的主动众包学习
5.2.3 算法优化
5.2.4 凹凸性分析
5.2.5 时间复杂度分析
5.3 实验及结果分析
5.3.1 实验设置
5.3.2 聚合标注结果
5.3.3 主动众包学习结果分析
5.3.4 参数敏感性分析
5.3.5 鲁棒性分析
5.3.6 运行时间
5.3.7 收敛性分析
5.4 本章小结
6 基于注意力的众包标注过程研究
6.1 问题定义
6.2 A3C算法
6.3 算法推理及优化
6.4 实验及结果分析
6.4.1 数据集及实验设置
6.4.2 答案聚合比较
6.4.3 A3C在不同注意力分布下的结果
6.4.4 任务估计数分析
6.4.5 噪声鲁棒性分析
6.5 本章小结
7 总结与展望
7.1 论文总结
7.2 论文展望
参考文献
致谢
发表论文及参与课题一览
本文编号:3872848
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3872848.html