基于信任模型的鲁棒众包数据分析方法及应用
发布时间:2021-01-21 13:17
众包是互联网大发展趋势下衍生的一种非常流行的新型商业模式,企业将过去由员工执行的任务分配出去,以自由自愿的形式外包给非特定的(通常是大型的)大众志愿者来完成,遵从开放式的集思广益的思想来获得最优质的任务结果。志愿者在付出了自己的努力,完成任务之后,可以获得不小的报酬。这就是众包在当前互联网时代下为软件业和服务业提供的全新劳务分包模式。大量志愿者得益于众包提供的工作模式,获得了不小的报酬。但是,在这一过程中,有些志愿者并没有认真地完成任务,为了骗取佣金,使利益最大化,往往会提供虚假数据,一旦将这类志愿者提供的数据采纳使用,将会给企业带来重大损失。因此,对众包任务结果质量的评估筛选是一项具有挑战性的工作。目前,国内外对于众包质量的控制研究还处于初始阶段。针对以上存在的问题,本文对众包数据质量评估进行研究,提出了一些有效的方法,以达到获取高质量众包数据的目的,主要包括以下几个方面:(1)本文对众包的发展历程进行了研究,并对现存的众包数据质量评估方法进行了分析总结;本文对贝叶斯算法模型进行了研究,并对贝叶斯算法模型在不同情况下的应用进行了综述与分析。(2)本文提出了一种基于信任模型的鲁棒众包数...
【文章来源】:南京邮电大学江苏省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
贝塔分布概率密度图
南京邮电大学专业学位硕士研究生学位论文第一章绪论5图1.1贝塔分布概率密度图图1.1展示了在α和β值不同时,通过贝塔分布得出的不同概率密度函数分布图,观察上图可以发现,贝塔分布的形状虽然多种多样,但是都在区间[0-1]内。因此,贝塔分布特别适合为某个事件发生或者成功的概率建立模型,并且,当α=1、β=1时,贝塔分布是一个均匀分布。贝塔分布也广泛地应用于求某事件发生的先验概率,下面以预测运动员棒球击球率为例对贝塔分布进行简要介绍。图1.2为贝塔分布先验示意图。图1.2贝塔分布先验示意图图1.2展示了贝塔分布作为先验时的概率模型图。如图所示,参数θ代表的是该名运动员击球率的分布(这里的θ既代表一个分布,也表示该分布的参数。因为在概率图模型中,通常用某个分布的参数来代替说明某个模型),也就是说,这里的θ代表的是该名运动员击球成功的概率。假设该名运动员在整个赛季中一共击打了n次球,击中的次数是x,这是一个二项分布,即。要推导出θ分布并估算θ的值,利用贝叶斯求后验概率:
南京邮电大学专业学位硕士研究生学位论文第一章绪论6。公式中,是常数,代表的是数据结果。分子的第一项是二项分布,分子的第二项即是贝塔分布所代表的先验概率的结果。(b)投票一致性策略所谓投票一致性策略(VotingConsistencyStrategy,简称VCS)[7][8],指的是大部分人认为正确的结果即为正确的结果。在数据分析中,将所有数据聚合处理,得出数据的均值,均值数据就是一致性数据,将每一份数据和均值数据对比,即得出符合要求的数据。本文采用的数据分析方法包含了投票一致性规则,将工作者提交的任务结果数据聚合处理,得出一致性数据。雇主根据自己对任务结果数据精度的需求设定阈值,将众包工作者提交的任务结果与一致性数据的差距和设定的阈值做对比,判别工作者提交的任务结果数据是否达到要求,方法流程如下图1.3所示。图1.3投票一致性规则示意图图1.3中所示的数据预处理[65],就是将众包工作者们提供的任务结果数据整理到一起。第二步中的得出一致性数据,是指对处理好的数据采取投票规则得出一致性数据。第三步中涉及到的设计阈值,是雇主根据自己对任务精度的需求,设计出误差范围。第四步的数据对比,是以第三步设计出的阈值为参照,将工作者在此次任务中提交的任务结果数据和设计好的阈值作对比。如果工作者提供的结果数据和一致性数据之间的误差大于阈值,则表明工作者在此次任务中提交的任务结果无法满足雇主需求,应该排除。如果工作者提供的结果数据
【参考文献】:
期刊论文
[1]平台-社群商业模式构建及其动态演变路径——基于海尔、小米和猪八戒网平台组织的案例研究[J]. 宋立丰,宋远方,冯绍雯. 经济管理. 2020(03)
[2]新媒体传播中的数据造假与治理[J]. 郗芙蓉,杜秋. 传媒. 2020(03)
[3]大数据背景下数据预处理方法研究[J]. 周党生. 山东化工. 2020(01)
[4]基于猪八戒网“互联网+双创”平台背景下艺术设计改革研究[J]. 杨通明. 品牌研究. 2019(14)
[5]猪八戒网商业模式发展及转型研究[J]. 林冠颖. 商业经济. 2019(08)
[6]基于多项式朴素贝叶斯算法的垃圾邮件过滤器的设计与实现[J]. 李腾飞. 科技资讯. 2018(33)
[7]考虑工作者信誉的众包质量EM评估方法[J]. 仲秋雁,刘志娟. 科技管理研究. 2018(21)
[8]国内众包平台发展的限制要素与发展策略[J]. 李超民,侯倩. 成都行政学院学报. 2018(05)
[9]基于k-means++的多分类器选择分类研究[J]. 熊霖,唐万梅. 重庆师范大学学报(自然科学版). 2018(06)
[10]基于动态粒子群优化与K均值聚类的图像分割算法[J]. 阮威. 信息技术. 2018(10)
硕士论文
[1]基于最大似然估计的众包质量控制优化方法研究[D]. 郑妙.山东大学 2019
[2]基于不确定任务环境的众包用户行为分析及调度策略研究[D]. 江雨.华东师范大学 2018
[3]基于可信度的众包协同测试及其算法实现[D]. 肖江辉.大连海事大学 2015
本文编号:2991236
【文章来源】:南京邮电大学江苏省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
贝塔分布概率密度图
南京邮电大学专业学位硕士研究生学位论文第一章绪论5图1.1贝塔分布概率密度图图1.1展示了在α和β值不同时,通过贝塔分布得出的不同概率密度函数分布图,观察上图可以发现,贝塔分布的形状虽然多种多样,但是都在区间[0-1]内。因此,贝塔分布特别适合为某个事件发生或者成功的概率建立模型,并且,当α=1、β=1时,贝塔分布是一个均匀分布。贝塔分布也广泛地应用于求某事件发生的先验概率,下面以预测运动员棒球击球率为例对贝塔分布进行简要介绍。图1.2为贝塔分布先验示意图。图1.2贝塔分布先验示意图图1.2展示了贝塔分布作为先验时的概率模型图。如图所示,参数θ代表的是该名运动员击球率的分布(这里的θ既代表一个分布,也表示该分布的参数。因为在概率图模型中,通常用某个分布的参数来代替说明某个模型),也就是说,这里的θ代表的是该名运动员击球成功的概率。假设该名运动员在整个赛季中一共击打了n次球,击中的次数是x,这是一个二项分布,即。要推导出θ分布并估算θ的值,利用贝叶斯求后验概率:
南京邮电大学专业学位硕士研究生学位论文第一章绪论6。公式中,是常数,代表的是数据结果。分子的第一项是二项分布,分子的第二项即是贝塔分布所代表的先验概率的结果。(b)投票一致性策略所谓投票一致性策略(VotingConsistencyStrategy,简称VCS)[7][8],指的是大部分人认为正确的结果即为正确的结果。在数据分析中,将所有数据聚合处理,得出数据的均值,均值数据就是一致性数据,将每一份数据和均值数据对比,即得出符合要求的数据。本文采用的数据分析方法包含了投票一致性规则,将工作者提交的任务结果数据聚合处理,得出一致性数据。雇主根据自己对任务结果数据精度的需求设定阈值,将众包工作者提交的任务结果与一致性数据的差距和设定的阈值做对比,判别工作者提交的任务结果数据是否达到要求,方法流程如下图1.3所示。图1.3投票一致性规则示意图图1.3中所示的数据预处理[65],就是将众包工作者们提供的任务结果数据整理到一起。第二步中的得出一致性数据,是指对处理好的数据采取投票规则得出一致性数据。第三步中涉及到的设计阈值,是雇主根据自己对任务精度的需求,设计出误差范围。第四步的数据对比,是以第三步设计出的阈值为参照,将工作者在此次任务中提交的任务结果数据和设计好的阈值作对比。如果工作者提供的结果数据和一致性数据之间的误差大于阈值,则表明工作者在此次任务中提交的任务结果无法满足雇主需求,应该排除。如果工作者提供的结果数据
【参考文献】:
期刊论文
[1]平台-社群商业模式构建及其动态演变路径——基于海尔、小米和猪八戒网平台组织的案例研究[J]. 宋立丰,宋远方,冯绍雯. 经济管理. 2020(03)
[2]新媒体传播中的数据造假与治理[J]. 郗芙蓉,杜秋. 传媒. 2020(03)
[3]大数据背景下数据预处理方法研究[J]. 周党生. 山东化工. 2020(01)
[4]基于猪八戒网“互联网+双创”平台背景下艺术设计改革研究[J]. 杨通明. 品牌研究. 2019(14)
[5]猪八戒网商业模式发展及转型研究[J]. 林冠颖. 商业经济. 2019(08)
[6]基于多项式朴素贝叶斯算法的垃圾邮件过滤器的设计与实现[J]. 李腾飞. 科技资讯. 2018(33)
[7]考虑工作者信誉的众包质量EM评估方法[J]. 仲秋雁,刘志娟. 科技管理研究. 2018(21)
[8]国内众包平台发展的限制要素与发展策略[J]. 李超民,侯倩. 成都行政学院学报. 2018(05)
[9]基于k-means++的多分类器选择分类研究[J]. 熊霖,唐万梅. 重庆师范大学学报(自然科学版). 2018(06)
[10]基于动态粒子群优化与K均值聚类的图像分割算法[J]. 阮威. 信息技术. 2018(10)
硕士论文
[1]基于最大似然估计的众包质量控制优化方法研究[D]. 郑妙.山东大学 2019
[2]基于不确定任务环境的众包用户行为分析及调度策略研究[D]. 江雨.华东师范大学 2018
[3]基于可信度的众包协同测试及其算法实现[D]. 肖江辉.大连海事大学 2015
本文编号:2991236
本文链接:https://www.wllwen.com/guanlilunwen/xiangmuguanli/2991236.html