基于噪音Oracle的模型未知错误识别研究
【学位单位】:华东师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP301.6
【部分图文】:
虽然深度学习在很多任务上能表现出比传统算法更好的性能,但这类数据驱动技术往往需要大量高质量、有标签数据才能获得较好的效果。然而,很多任务的数据采集以及标注难度都很困难,比如图1-1中所示的医疗诊断任务。在这些任务中经常会发生收集到的训练数据覆盖不全面的问题,这种问题会导致训练集和真实部署环境数据之间存在采样偏差问题(Sampling Bias Problem),而且这种采样偏差问题往往很难发现。基于这些有偏差数据集训练出来的模型在真实环境中的预测性能没有实验环境下好。在所有模型预测错误的样本中,一部分会被模型给予较低的置信度,这类样本被称作为模型的已知错误(Known Unknowns)[2][18],即模型已经知道其预测结果可能是错误的样本。这类模型已知错误通常是训练集里含有但数量不多的样本[2],在预测阶段模型无法肯定其预测结果是一定正确的。在模型预测错误的样本中,还有一小部分是模型给予很高的置信度
目的是向训练集中添加在模型分类边界处的样本,使新模型能够学到更好的分类边界,减少已知错误的数量来提升准确率。另外,在一些高风险任务中,往往会对模型预测置信度不高的样本进行人工标注以避免重大事故的发生。比如,视频网站对用户上传的投稿审核流程一般是先模型预测,然后通过设置阈值把一些置信度低的稿件让审核人员人工检查一遍,降低这些已知错误带来的风险。虽然模型的未知错误数量相对于已知错误往往较少,但由于它们不能通过设置置信度阈值的方法筛选出来,因此在这些高风险任务中危害更大。假如在图1-1的医疗诊断系统中,当模型对一位潜在患者给出健康诊断同时给予非常高的置信度。这种情况下,由于对诊断模型的信任,医生往往不会再让该患者进行进一步的分析和审查,最终导致灾难性的后果。因此,对模型的未知错误进行识别和分析是一件非常有价值且迫切的任务。
往往都是假设未知错误聚集在特征空间上的一些确定区域[18]。比如,一个猫狗图片分类模型(图1-3),由于训练集里缺少白皮肤狗的图片,因此模型将很多白皮肤狗图片识别错误,其中一些置信度高的样本就成为了模型的未知错误。这些图片在一些高阶特征空间上具有一定的相似性(比如都具有相似颜色的皮肤)。而如果仅仅是在低阶特征空间上,如用原始像素作为特征向量来进行距离计算,那么识别算法很难捕捉到这些高阶抽象信息。
【相似文献】
相关期刊论文 前10条
1 张剑;;ORACLE字符集迁移及乱码问题的解析[J];赤子(上中旬);2016年22期
2 赫春晓;;一种基于Oracle的街景分布式数据库实现方法[J];现代测绘;2017年05期
3 宋岩;;基于服务器端的钻井工程计算的研究与运用——Oracle钻井数据库[J];科技创新与应用;2017年26期
4 冼志生;;虚拟技术在Oracle数据库备份中的应用[J];信息化建设;2015年12期
5 杜战伟;;探讨Oracle数据库管理之控制文件[J];电子测试;2016年10期
6 白天;杨志和;邱自华;;Oracle数据库系统及应用课程教学改革探索[J];湖南理工学院学报(自然科学版);2016年03期
7 李璐璐;;Oracle数据库优化方法分析[J];硅谷;2014年24期
8 杨莹;;基于Oracle数据库大数据的检索优化分析与设计[J];数码世界;2017年04期
9 沈一通;;基于oracle日志挖掘的增量同步方案的设计[J];数码世界;2017年06期
10 杨彦聪;武媛;;Oracle在学生管理系统中的应用[J];信息通信;2014年05期
相关博士学位论文 前1条
1 石跃勇;参数个数发散下具有oracle性质的SICA惩罚估计[D];武汉大学;2013年
相关硕士学位论文 前10条
1 郑波;基于噪音Oracle的模型未知错误识别研究[D];华东师范大学;2019年
2 孟津平;Oracle数据库下的系统性能调整与优化的研究[D];长春理工大学;2018年
3 秦岩;基于Oracle商务套件的宁夏移动公司ERP系统的应用研究[D];宁夏大学;2014年
4 朱文莹;基于Oracle三层结构的动车组关键配件管理模块的设计[D];华南理工大学;2013年
5 柯欣;ORACLE中国公司战略管理探析[D];西南财经大学;2010年
6 陈永亮;Oracle环境下数据迁移技术研究与实现[D];北方工业大学;2011年
7 庄海燕;数据库加密技术及其在Oracle中的应用[D];郑州大学;2006年
8 张岩;基于Oracle的高速公路收费系统数据库设计及应用[D];东南大学;2005年
9 韩峰;基于Oracle的电力营销数据仓库的设计与实现[D];山东大学;2007年
10 吕洪敏;基于Oracle数据仓库应用技术的研究与实现[D];武汉科技大学;2007年
本文编号:2848092
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2848092.html