众包系统中基于参与者互评的数据质量控制研究
发布时间:2021-10-30 17:32
利用大众的力量和智慧来解决一些复杂问题的众包系统和应用获得飞速的发展,而大规模参与者提供的数据质量参差不齐,使得质量控制成为众包平台面临的一项巨大挑战。同伴/参与者互评(peer grading)作为众包技术的一个特殊应用,能够极大地改善参与者的提交质量,是质量控制的一种重要方式。但是,因为参与者缺乏认真评价的动力、受自身专业能力的限制或是恶意打低分等,导致了提供的评分不准确或是随意评分的情况。本文基于同伴互评,并将MOOCs作为典型的应用环境,设计并实现适用于解决开放型任务(例如文章写作或图形设计)的同伴互评方案,也就是基于参与者互评的数据质量控制方法,并且与现有的一些同伴互评方案进行对比。论文的主要贡献如下:(1)首先提出了一个教师辅助的的同伴互评方案,RankwithTA。不同于简单的聚合方法,RankwithTA方案执行一系列的迭代,每次迭代由两个更新步骤组成:(i)根据评价者给出的评分与被评价者推测出来的聚合成绩之间的差异更新评价者评分的可靠性(准确性);(ii)基于评价者的可靠性以加权的方式更新每个被评价者提交的质量(即被评价者的成绩)。此外,RankwithTA方案还利用...
【文章来源】:南京邮电大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
Amazon Mechanical Turk 平台的网页
CrowdGrader系统
我们选择四个同伴互评的练习,这些同伴互评结果的统计数据如表 3.2 所示。表 3.2:四个练习的同伴互评结果统计练习 1 练习 2 练习 3 练习 4提交的数量 74 77 74 74TA 评价的数量 74 77 74 74同伴互评的数量 349 420 401 377我们将 RankWithTA 方案与两种种基线方法进行比较:平均值和 PeerRank。我们还是均方根误差(RMSE)来衡量估计的聚合成绩与实际成绩的偏差。图 3.6 显示了我们的方法和其他两种方法PeerRank 和均值方法的性能。在这个实验中们使用 TA 给出的 10 个成绩来校准学生的打分。结果表明,我们提出的方法虽然比 PeerR现更好,但是却不如均值方法。原因可能是在 RankwithTA 方案中,将学生的成绩(即学成任务的能力)看作是学生评价其他人的能力,这在实际中是不太可行的。比如,在现课环境下,学生尽管本身成绩优异,但是他可能会给别人故意打低分或是很随意地打分时他自身的成绩和他给别人评分的能力就严重不相符。
本文编号:3467134
【文章来源】:南京邮电大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
Amazon Mechanical Turk 平台的网页
CrowdGrader系统
我们选择四个同伴互评的练习,这些同伴互评结果的统计数据如表 3.2 所示。表 3.2:四个练习的同伴互评结果统计练习 1 练习 2 练习 3 练习 4提交的数量 74 77 74 74TA 评价的数量 74 77 74 74同伴互评的数量 349 420 401 377我们将 RankWithTA 方案与两种种基线方法进行比较:平均值和 PeerRank。我们还是均方根误差(RMSE)来衡量估计的聚合成绩与实际成绩的偏差。图 3.6 显示了我们的方法和其他两种方法PeerRank 和均值方法的性能。在这个实验中们使用 TA 给出的 10 个成绩来校准学生的打分。结果表明,我们提出的方法虽然比 PeerR现更好,但是却不如均值方法。原因可能是在 RankwithTA 方案中,将学生的成绩(即学成任务的能力)看作是学生评价其他人的能力,这在实际中是不太可行的。比如,在现课环境下,学生尽管本身成绩优异,但是他可能会给别人故意打低分或是很随意地打分时他自身的成绩和他给别人评分的能力就严重不相符。
本文编号:3467134
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3467134.html
最近更新
教材专著