众包系统偏置标注问题研究

发布时间:2022-11-09 21:08
  近年来随着诸如Amazon Mechanical Turk等众包系统的出现,很多无法通过机器智能完成的任务可以通过这种微型外包的方式交由在线用户手工完成。机器学习和数据挖掘领域也从中受益,大量的样本标注任务由传统的耗时费力的专家标注方式转变为众包标注,加快了数据更新和模型迭代的速度。然而,由于众包标注者的标注质量无法保证,使得利用众包标注数据进行机器学习面临巨大挑战。因此,如何利用多噪声标签进行机器学习具有重要的研究与应用价值。本文从广泛存在的偏置标注问题着手,主要研究内容如下:(1)从众包系统数据质量和模型质量的概念以及偏置标注问题的定义出发,理论上分析了偏置标注对大多数众包系统中使用的多数投票策略所产生的影响。然后,对大量来自于众包系统的实际数据进行分析,揭示出偏置标注问题的普遍性,并分析产生偏置标注的原因。最后,在几个典型的偏置标注数据集上进行实验,分析了基于期望最大化的算法的真值推理性能,从而得出偏置标注问题使得基于期望最大化算法性能退化的结论。(2)针对二分类偏置标注问题,提出一种基于自动阈值估计的正标签频率阈值算法PLAT。该算法只依赖于每个样本的多噪声标签集中正负标签的分... 

【文章页数】:130 页

【学位级别】:博士

【文章目录】:
致谢
摘要
ABSTRACT
第一章 绪论
    1.1 众包系统概论
        1.1.1 众包系统在智能计算领域的应用
        1.1.2 众包系统与机器学习
    1.2 众包系统的数据质量和模型质量问题
        1.2.1 问题定义
        1.2.2 两类提升数据质量的方法
        1.2.3 真值推理算法
        1.2.4 偏置标注问题的研究范畴
    1.3 主要研究内容与组织结构
        1.3.1 课题来源
        1.3.2 主要研究内容
        1.3.3 内容组织
    1.4 本章小结
第二章 多噪声标签的相关研究
    2.1 引言
    2.2 基于EM的真值推理算法
        2.2.1 问题定义
        2.2.2 Dawid & Skene(DS)算法
        2.2.3 Raykar,Yu and et al.(RY)算法
        2.2.4 GLAD算法
        2.2.5 ZenCrowd算法
    2.3 其它真值推理算法
    2.4 学习模型构建方法
        2.4.1 静态环境下学习模型的构建方法
        2.4.2 动态环境下学习模型的构建方法
    2.5 本章小结
第三章 偏置标注问题实证分析
    3.1 引言
    3.2 相关工作
    3.3 二分类偏置标注问题
        3.3.1 问题定义
        3.3.2 对多数投票算法的影响
    3.4 实际数据集中的偏置标注现象
        3.4.1 数据集Affective Text
        3.4.2 数据集Adult Content
        3.4.3 数据集Word Similarity
        3.4.4 数据集Trec2010
        3.4.5 其它三个二类数据集
        3.4.6 讨论
    3.5 实验及分析
        3.5.1 实验设置
        3.5.2 实验1:偏置数据集上的真值推理性能
        3.5.3 实验2:失效EM算法详细分析
        3.5.4 实验3:小类召回率
    3.6 本章小结
第四章 基于自动阈值估计的算法
    4.1 引言
    4.2 相关工作
    4.3 自动阈值估计算法
        4.3.1 一个案例研究
        4.3.2 正标签频率阈值算法
        4.3.3 阈值估计算法
    4.4 实验结果及分析
        4.4.1 数据集及相关实验设置
        4.4.2 实验1:mushroom数据集上性能分析
        4.4.3 实验2:不同数据集上的比较
        4.4.4 实验3:无偏置数据集性能分析
        4.4.5 实验4:真实数据集上学习模型性能
    4.5 本章小结
第五章 偏置标注下的主动学习
    5.1 引言
    5.2 相关工作
    5.3 主动学习框架
        5.3.1 主动学习框架
        5.3.2 标签集成时的偏置处理
    5.4 样本选择策略
        5.4.1 样本选择时的偏置处理
        5.4.2 基于多噪声标签集和偏置水平的不确定度
        5.4.3 基于学习模型和偏置水平的不确定度
        5.4.4 混合不确定度
    5.5 实验结果及分析
        5.5.1 合成数据集及实验设置
        5.5.2 实验1:方法的有效性
        5.5.3 实验2:样本选择策略之间的比较
        5.5.4 实验3:实际数据集验证
    5.6 本章小结
第六章 基于聚类的多类真值推理
    6.1 引言
    6.2 相关工作
    6.3 基于聚类的真值推理算法
        6.3.1 动机
        6.3.2 原理和特征生成
        6.3.3 算法GTIC
    6.4 实验结果及分析
        6.4.1 数据集和实验设置
        6.4.2 实验1:准确度指标比较
        6.4.3 实验2:M-AUC指标比较
        6.4.4 实验3:运行时间比较
    6.5 本章小结
第七章 结束语
    7.1 主要研究工作
    7.2 下一步工作
参考文献
攻读博士学位期间的学术活动及成果情况


【参考文献】:
期刊论文
[1]众包质量控制策略及评估算法研究[J]. 张志强,逄居升,谢晓芹,周永.  计算机学报. 2013(08)



本文编号:3704897

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3704897.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ece3b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com