基于深度学习的图像数据清洗方法研究
发布时间:2021-12-30 23:55
近年来,信息化社会不断发展,人工智能在越来越多的方面渗透到我们的生活当中。随着卷积神经网络相关理论的提出和不断完善,传统模式识别难以自动提取图像自有特征的缺点被很好地弥补。新的模型的学习能力更强,对图像特征的把握更好,使得基于卷积神经网络的模型在目标检测、人脸识别、图像识别甚至自然语言处理上都取得了良好的效果。与此同时,数据清洗相关产业随着互联网信息数量的持续爆炸增长应运而生,但是相关产业中对于图像数据清洗的研究仍旧很少。如何针对来自互联网的图像数据进行清洗,以提高数据质量,进而得到优质训练集来提高卷积神经网络的识别效果,是一个值得研究且有重要意义的课题。针对该问题,本文在介绍了卷积神经网络目前发展和数据清洗的行业现状后,提出了一种针对互联网图像数据的清洗方法,主要成果如下:(1)提出了一种评价图像数据集质量的方法。对于不同的数据集,将其通过同样的方式随机制作训练集和测试集,并通过同一CNN网络结构进行网络参数优化训练,根据训练迭代结束时的网络测试识别率判定该数据集质量的高低。(2)提出了一种低识别率图像数据的清洗方法。这里低识别率是指数据集标注错误相对较多。每次使用某数据集训练出的C...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
LeNet结构图
第 3 章 图像清洗方法及实验结果分析第 3 章 图像清洗方法及实验结果分析为了利用 CNN 实现一个植物花卉识别系统,本文从互联网爬取了十余万张图片,构建了一个植物花卉数据集,并针对于该数据集图像所存在的问题,设计了低识别率和少数类别两种清洗方法。而且,通过清洗前和清洗后的对比实验,验证了该方法的有效性。3.1 图像数据集的问题描述本文从互联网爬取下了十余万张植物花卉图片,共计七百余类,部分如图 3-1所示。
Figure 3-1 Example of image data然而,该数据集中的图像存在一些问题,以图 3-2 所示“虎刺梅”为例:有的图片标签与内容不相符合,如图3-2(a);有的图片所示植物花卉主体不够突出,辨识度低,如图 3-2(b);还有的图片含有较为明显的文字信息,对植物花卉主体造成了一定的干扰,如图 3-2(c)。这些图片与同类中其他图片相比,不利于 CNN进行分类训练,本文称之为“低识别率”数据,需要对其进行清洗。
【参考文献】:
期刊论文
[1]基于人工免疫系统的反垃圾邮件过滤机制[J]. 胡可,张家树. 计算机应用. 2005(11)
[2]一种可交互的数据清洗系统[J]. 王咏梅,陈家琪,耿玉良. 计算机工程与设计. 2005(04)
本文编号:3559215
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
LeNet结构图
第 3 章 图像清洗方法及实验结果分析第 3 章 图像清洗方法及实验结果分析为了利用 CNN 实现一个植物花卉识别系统,本文从互联网爬取了十余万张图片,构建了一个植物花卉数据集,并针对于该数据集图像所存在的问题,设计了低识别率和少数类别两种清洗方法。而且,通过清洗前和清洗后的对比实验,验证了该方法的有效性。3.1 图像数据集的问题描述本文从互联网爬取下了十余万张植物花卉图片,共计七百余类,部分如图 3-1所示。
Figure 3-1 Example of image data然而,该数据集中的图像存在一些问题,以图 3-2 所示“虎刺梅”为例:有的图片标签与内容不相符合,如图3-2(a);有的图片所示植物花卉主体不够突出,辨识度低,如图 3-2(b);还有的图片含有较为明显的文字信息,对植物花卉主体造成了一定的干扰,如图 3-2(c)。这些图片与同类中其他图片相比,不利于 CNN进行分类训练,本文称之为“低识别率”数据,需要对其进行清洗。
【参考文献】:
期刊论文
[1]基于人工免疫系统的反垃圾邮件过滤机制[J]. 胡可,张家树. 计算机应用. 2005(11)
[2]一种可交互的数据清洗系统[J]. 王咏梅,陈家琪,耿玉良. 计算机工程与设计. 2005(04)
本文编号:3559215
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3559215.html