当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于噪音Oracle的模型未知错误识别研究

发布时间:2020-10-20 02:44
   近年来,随着以深度学习为代表的机器学习技术在学术界和工业界的不断发展与进步,研究人员训练出来的模型已经能够在多个领域能够该领域的专家,如图像识别、围棋、语音识别等。但是深度学习这类需要大量高质量有标签数据支持的技术,往往在一些数据量少或标注成本昂贵的任务上无法取得较好的预期效果,比如医疗诊断或者小语种机器翻译任务等。在这些任务中,由于训练时所收集到的数据和现实环境数据在分布上存在较大的偏差,导致训练出来的模型对于一些样本识别错误非常严重——识别错误的同时给予了这次识别非常高的置信度。这类被严重预测错误的样本被称作为模型的未知错误(Unknown Unknowns),这类错误对高风险任务(如医疗诊断)会造成灾难性后果。因此,对模型的未知错误进行识别和分析是非常必要的。由于未知错误是模型无法感知到的一类错误,因此现有的识别算法都依赖于第三方人工标注系统Oracle,即利用人工做最后的标注工作。而现有已提出的算法都是假设Oracle返回的标签是百分之百正确的,这在实际应用中并不现实。尤其是当识别算法基于众包(Crowdsourcing)等常规标注系统时,Oracle返回的标注结果往往带有一定的噪音,即有可能返回错误的标注结果。这些错误标注会导致识别算法将模型预测正确的样本认做是未知错误,这些伪未知错误的存在会对识别算法产生巨大的影响,包括降低最终识别出来的未知错误质量以及对识别过程造成误导。为此,本文将基于噪音Oracle对模型的未知错误进行识别和分析,试图在有限的预算下提高模型未知错误的识别率和准确率。归纳而言,本文的贡献有以下几点:1)本文指出和分析了传统识别模型未知错误算法在噪音Oracle下的局限性,这些局限性包括:识别出来的未知错误质量低以及算法在识别过程中容易受错误标注影响。并对已有效用函数进行扩展,提出了一种适用于噪音Oracle下识别未知错误的新效用函数。2)本文提出了两种高效的识别未知错误算法,包括基于动态最近邻算法和基于标签传播算法。实验验证了我们提出的两种算法在识别未知错误的有效性和在噪音Oracle下的抗噪性都优于已有的算法。此外,本文还设计并实现了一套模型未知错误自动化识别系统,能够在未标注数据中结合研究人员的自我标注快速找到大量有价值数据,方便理解模型的缺陷和后续模型的改善。
【学位单位】:华东师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP301.6
【部分图文】:

流程图,AI技术,流程图


虽然深度学习在很多任务上能表现出比传统算法更好的性能,但这类数据驱动技术往往需要大量高质量、有标签数据才能获得较好的效果。然而,很多任务的数据采集以及标注难度都很困难,比如图1-1中所示的医疗诊断任务。在这些任务中经常会发生收集到的训练数据覆盖不全面的问题,这种问题会导致训练集和真实部署环境数据之间存在采样偏差问题(Sampling Bias Problem),而且这种采样偏差问题往往很难发现。基于这些有偏差数据集训练出来的模型在真实环境中的预测性能没有实验环境下好。在所有模型预测错误的样本中,一部分会被模型给予较低的置信度,这类样本被称作为模型的已知错误(Known Unknowns)[2][18],即模型已经知道其预测结果可能是错误的样本。这类模型已知错误通常是训练集里含有但数量不多的样本[2],在预测阶段模型无法肯定其预测结果是一定正确的。在模型预测错误的样本中,还有一小部分是模型给予很高的置信度

流程图,错误识别,流程图,模型


目的是向训练集中添加在模型分类边界处的样本,使新模型能够学到更好的分类边界,减少已知错误的数量来提升准确率。另外,在一些高风险任务中,往往会对模型预测置信度不高的样本进行人工标注以避免重大事故的发生。比如,视频网站对用户上传的投稿审核流程一般是先模型预测,然后通过设置阈值把一些置信度低的稿件让审核人员人工检查一遍,降低这些已知错误带来的风险。虽然模型的未知错误数量相对于已知错误往往较少,但由于它们不能通过设置置信度阈值的方法筛选出来,因此在这些高风险任务中危害更大。假如在图1-1的医疗诊断系统中,当模型对一位潜在患者给出健康诊断同时给予非常高的置信度。这种情况下,由于对诊断模型的信任,医生往往不会再让该患者进行进一步的分析和审查,最终导致灾难性的后果。因此,对模型的未知错误进行识别和分析是一件非常有价值且迫切的任务。

示意图,分类模型,示意图,特征空间


往往都是假设未知错误聚集在特征空间上的一些确定区域[18]。比如,一个猫狗图片分类模型(图1-3),由于训练集里缺少白皮肤狗的图片,因此模型将很多白皮肤狗图片识别错误,其中一些置信度高的样本就成为了模型的未知错误。这些图片在一些高阶特征空间上具有一定的相似性(比如都具有相似颜色的皮肤)。而如果仅仅是在低阶特征空间上,如用原始像素作为特征向量来进行距离计算,那么识别算法很难捕捉到这些高阶抽象信息。
【相似文献】

相关期刊论文 前10条

1 张剑;;ORACLE字符集迁移及乱码问题的解析[J];赤子(上中旬);2016年22期

2 赫春晓;;一种基于Oracle的街景分布式数据库实现方法[J];现代测绘;2017年05期

3 宋岩;;基于服务器端的钻井工程计算的研究与运用——Oracle钻井数据库[J];科技创新与应用;2017年26期

4 冼志生;;虚拟技术在Oracle数据库备份中的应用[J];信息化建设;2015年12期

5 杜战伟;;探讨Oracle数据库管理之控制文件[J];电子测试;2016年10期

6 白天;杨志和;邱自华;;Oracle数据库系统及应用课程教学改革探索[J];湖南理工学院学报(自然科学版);2016年03期

7 李璐璐;;Oracle数据库优化方法分析[J];硅谷;2014年24期

8 杨莹;;基于Oracle数据库大数据的检索优化分析与设计[J];数码世界;2017年04期

9 沈一通;;基于oracle日志挖掘的增量同步方案的设计[J];数码世界;2017年06期

10 杨彦聪;武媛;;Oracle在学生管理系统中的应用[J];信息通信;2014年05期


相关博士学位论文 前1条

1 石跃勇;参数个数发散下具有oracle性质的SICA惩罚估计[D];武汉大学;2013年


相关硕士学位论文 前10条

1 郑波;基于噪音Oracle的模型未知错误识别研究[D];华东师范大学;2019年

2 孟津平;Oracle数据库下的系统性能调整与优化的研究[D];长春理工大学;2018年

3 秦岩;基于Oracle商务套件的宁夏移动公司ERP系统的应用研究[D];宁夏大学;2014年

4 朱文莹;基于Oracle三层结构的动车组关键配件管理模块的设计[D];华南理工大学;2013年

5 柯欣;ORACLE中国公司战略管理探析[D];西南财经大学;2010年

6 陈永亮;Oracle环境下数据迁移技术研究与实现[D];北方工业大学;2011年

7 庄海燕;数据库加密技术及其在Oracle中的应用[D];郑州大学;2006年

8 张岩;基于Oracle的高速公路收费系统数据库设计及应用[D];东南大学;2005年

9 韩峰;基于Oracle的电力营销数据仓库的设计与实现[D];山东大学;2007年

10 吕洪敏;基于Oracle数据仓库应用技术的研究与实现[D];武汉科技大学;2007年



本文编号:2848092

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2848092.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户938bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com