众包技术中开放性答案的决策算法研究
发布时间:2020-04-30 11:27
【摘要】:现实生活中往往存在一些计算机难以处理或者处理效果不佳的问题,如给图像打标签、判断两个记录是不是同一个实体等。众包直接将这些问题发布到互联网上,通过集合互联网上的未知大众来解决这些传统计算机难以单独处理的问题。已有的答案决策方法存在一定的局限性:一方面,以往工人的质量模型矩阵大小是固定的,仅适用于候选答案固定的情形。另一方面,众包平台上的问题类型有填空题、选择题(分单选题和多选题)、选择和填空的混合等,以往的答案决策算法主要是基于单选题提出的,不能兼容多种答案类型,尤其无法处理包含开放性答案的问题。针对以上问题,本文综合考虑多种答案类型,提出了一种基于贝叶斯的开放性答案决策算法。首先,利用工人以往表现,建立了工人质量模型,该模型不受候选答案个数影响;其次,利用Jaro-Winkler Distance方法计算填空答案间的相似度,以此将填空内容扩展为候选选项,决策时考虑到了填空答案间的相互影响,认为相似度较大的一组答案很可能为相同的答案。此外,以往的决策中,候选答案的先验概率是未知的,本文根据机器算法给出的先验知识以及扩展答案情况,对候选答案的先验概率进行了预处理。相关实验表明,本文的决策算法能够综合处理多种答案类型,对开放性答案以及先验概率的处理,提高了算法的准确性。由于多选题答案决策过程是一个NP-hard问题,本文对多选题的答案决策算法提出了基于剪枝的优化策略,减少了需要计算后验概率的候选答案个数。相关实验表明,本文的优化策略,在保障决策算法准确一致的情况下,降低了算法的运行时间。
【图文】:
答案决策相关技术概述逡逑题自动放到同一组内。平台为用户提供接口,根据用户的问题描述、酬劳、以及逡逑其他设置信息生成问题,如图2-2示例所示,为了方便工人作答,雇主也可以提供逡逑一些图片或表格信息。AMT采用的是拉模式的推荐方式,工人可以接受任何的逡逑HIT任务。HIT任务的答案决策采用的是冗余策略,利用EM算法从多个工人的答逡逑案中决策出最优解。逡逑SoJtby:逦first)逦Show邋扢她虹丨邋Hi你邋ail邋}0眺逦H逡逑ft微Chris邋C?}wn-Bwch逦HIT逦Expiration邋Date:逦Apr逦5,邋2023邋(2§7邋weeks邋I邋day}逦Rewarrf:逦S0.£H逡逑Tkrw!邋Allotted:逦60逦mimites逡逑|`.to邋^螅遱{逡逑Tofty邋Rivera逦Mil邋fxpJration邋Date:逦May邋20,2018邋(42邋we?4cs邋5邋days)逦¥0.04逡逑Time邋AMolt*.?d:逦60逦mimites逡逑R?q撕sten逦.>mturtc逦M!T逦Expiration邋Date:逦3ul逦24,邋2018邋(52邋we#剩螅?逦Ueward:逦S0.00逡逑Time邋Allotted:逦20逦mlnutts逡逑..邋.邋.…—逦邋 ̄邋—邋——………"——————逡逑Requeister:逦v?3is逦MrT逦Cxpirslion邋Oat?:逦Aup逦3
以降低工人做任务的难度。CrowdlQ还提供质量控制和成本控制模块。质量控制逡逑模块通过本文的开放性答案决策算法以及工人质量模型对整个平台质量进行控逡逑制,其具体架构如图2-3所不。通过Quality邋Inspection模块,可以检测网络表格是逡逑否存在缺值、噪声数据等问题;雇主通过平台语言CrowdlQL设计任务,平台自动逡逑解析语言生成众包问题;根据任务的难度、工人的质量等信息,在满足平台质量逡逑的要求下,Recommendation模块将任务推荐给合适的工人。逡逑逦邋Origin#!逡逑八逦|邋Table逡逑Cj邋original逦Quality邋Inspection逦^逦逡逑y逦Problems逦Additional邋Functions逡逑\_high-quality逦—邋一 邋一邋一邋_一邋一邋—邋^逦穴逡逑Tables逦逦邋逦1逦1逦g逡逑^邋Gfaphic^^.邋Conventor逦Optional邋Functions逦|逦s逡逑Operation邋逦邋i,,逦|,逦M—逦.邋.逦K邋^r-逡逑(D逦j邋kuw<,逦HtNitjprs邋I邋AMtibut*?逦(T>邋左逡逑H邋Reduction逦Recovery邋属邋Augmentation邋|,逦邋0Q逡逑〕CrowdlQL邋—I-1逦邋| ̄ ̄Co
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O225
本文编号:2645717
【图文】:
答案决策相关技术概述逡逑题自动放到同一组内。平台为用户提供接口,根据用户的问题描述、酬劳、以及逡逑其他设置信息生成问题,如图2-2示例所示,为了方便工人作答,雇主也可以提供逡逑一些图片或表格信息。AMT采用的是拉模式的推荐方式,工人可以接受任何的逡逑HIT任务。HIT任务的答案决策采用的是冗余策略,利用EM算法从多个工人的答逡逑案中决策出最优解。逡逑SoJtby:逦first)逦Show邋扢她虹丨邋Hi你邋ail邋}0眺逦H逡逑ft微Chris邋C?}wn-Bwch逦HIT逦Expiration邋Date:逦Apr逦5,邋2023邋(2§7邋weeks邋I邋day}逦Rewarrf:逦S0.£H逡逑Tkrw!邋Allotted:逦60逦mimites逡逑|`.to邋^螅遱{逡逑Tofty邋Rivera逦Mil邋fxpJration邋Date:逦May邋20,2018邋(42邋we?4cs邋5邋days)逦¥0.04逡逑Time邋AMolt*.?d:逦60逦mimites逡逑R?q撕sten逦.>mturtc逦M!T逦Expiration邋Date:逦3ul逦24,邋2018邋(52邋we#剩螅?逦Ueward:逦S0.00逡逑Time邋Allotted:逦20逦mlnutts逡逑..邋.邋.…—逦邋 ̄邋—邋——………"——————逡逑Requeister:逦v?3is逦MrT逦Cxpirslion邋Oat?:逦Aup逦3
以降低工人做任务的难度。CrowdlQ还提供质量控制和成本控制模块。质量控制逡逑模块通过本文的开放性答案决策算法以及工人质量模型对整个平台质量进行控逡逑制,其具体架构如图2-3所不。通过Quality邋Inspection模块,可以检测网络表格是逡逑否存在缺值、噪声数据等问题;雇主通过平台语言CrowdlQL设计任务,平台自动逡逑解析语言生成众包问题;根据任务的难度、工人的质量等信息,在满足平台质量逡逑的要求下,Recommendation模块将任务推荐给合适的工人。逡逑逦邋Origin#!逡逑八逦|邋Table逡逑Cj邋original逦Quality邋Inspection逦^逦逡逑y逦Problems逦Additional邋Functions逡逑\_high-quality逦—邋一 邋一邋一邋_一邋一邋—邋^逦穴逡逑Tables逦逦邋逦1逦1逦g逡逑^邋Gfaphic^^.邋Conventor逦Optional邋Functions逦|逦s逡逑Operation邋逦邋i,,逦|,逦M—逦.邋.逦K邋^r-逡逑(D逦j邋kuw<,逦HtNitjprs邋I邋AMtibut*?逦(T>邋左逡逑H邋Reduction逦Recovery邋属邋Augmentation邋|,逦邋0Q逡逑〕CrowdlQL邋—I-1逦邋| ̄ ̄Co
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O225
【参考文献】
相关期刊论文 前1条
1 张志强;逄居升;谢晓芹;周永;;众包质量控制策略及评估算法研究[J];计算机学报;2013年08期
相关硕士学位论文 前1条
1 刘华西;基于众包的网络表格语义恢复[D];北京交通大学;2016年
本文编号:2645717
本文链接:https://www.wllwen.com/kejilunwen/yysx/2645717.html