论文大赛 怎么翻译 liumaolincycle的博客(4)
表2:在ILSVRC-2012验证集与测试集上的误差率比较。斜体字是由他人取得的最好结果。带星号的模型是经过“预训练”以对整个ImageNet 2011年秋季发布的图像集进行分类的。详见第6节。
最后,我们还报告在ImageNet 2009年秋季版本上的误差率,该版本有10,184种类别与890万张图像。在这个数据集上,我们按照文献惯例,用一半图像来训练,用另一半图像来测试。由于没有确定的测试集,我们的划分必然不同于以前的作者使用的划分,但这并不会明显地影响到结果。我们在该数据集上的top-1误差率和top-5误差率分别为67.4%和40.9%,这是通过上述的网络得到的,但还有个附加条件,第六个卷积层接在最后一个pooling层之后。该数据集上公布的最佳结果是78.1%和60.9%[19]。
图3显示了通过该网络的两个数据连接层学习到的卷积核。该网络已经学习到各种各样的频率与方向选择核,以及各种颜色的斑点。注意两个GPU显现出的特性,3.5节中描述了一个结果是限制连接。GPU1上的核大多数颜色不明确,而GPU2上的核大多数颜色明确。这种特性在每一次运行中都会出现,且独立于所有特定的随机权重初始化(以GPU的重新编数为模)。
图3:通过 的输入图像上第一个卷积层学习到的96个大小为 的卷积核。顶部的48个核是从GPU1上学到的,底部的48个核是从GPU2上学到的。详见6.1节。
在图4左边面板上,通过计算该网络在八个测试图像上的top-5预测,我们定性地判断它学到了什么。注意到即使是偏离中心的物体,比如左上角的一小块,也可以被网络识别。大多数的top-5标签似乎合情合理。例如,只有其他类型的猫科动物被认为是对豹貌似合理的标签。在某些情况下(铁栅、樱桃),对于图片意图的焦点存在歧义。
图4:(左图)八个ILSVRC-2010测试图像,以及被我们的模型认为最有可能的五个标签。正确的标签写在每个图像下面,正确标签的概率也以红色条予以显示(若它在前5之内)。(右图)第一列是五个ILSVRC-2010测试图像。其余列显示了六个训练图像,它们在最后的隐层产生的特征向量与测试图像的特征向量有最小的欧氏距离。
探测网络的视觉知识有另一种方法,就是考虑由位于最后的4096维隐层上的图像引起的特征激活。如果两个图像用小欧氏分离产生了特征激活向量,我们可以说,在神经网络的更高级别上认为它们是相似的。图4显示了测试集中的五个图像,以及训练集中根据这一标准与其中每一个最相似的六个图像。论文大赛 怎么翻译注意,在像素级别,检索到的训练图像一般不会接近第一列中的查询图像。例如,检索到的狗和大象表现出各种各样的姿势。我们会在补充材料里给出更多测试图像的结果。
通过使用两个4096维实值向量之间的欧氏距离来计算相似性是低效的,但它可以通过训练一个自动编码器将这些向量压缩为短的二进制代码来变得高效。这应该会产生一个比应用自动编码器到原始像素要好得多的图像检索方法[14],它不利用图像标签,此后还有一种用相似边缘图案来检索图像的倾向,而不论它们在语义上是否相似。
我们的研究结果表明,大型深度卷积神经网络在一个非常具有挑战性的数据集上使用纯粹的监督学习,能够达到破纪录的结果。值得注意的是,如果有一个卷积层被移除,我们的网络性能就会降低。例如,除去任何中间层都将导致该网络的top-1性能有2%的损失。所以该层次深度对于达到我们的结果确实是重要的。
为了简化实验,我们没有使用任何无监督的预训练,即使我们预计它将带来帮助,特别是我们可以获得足够的计算能力来显著地扩大网络规模,而不带来标记数据量的相应增加。到目前为止,我们的结果有所改善,因为我们已经让网络更大,训练时间更久,但是为了匹配人类视觉系统的infero-temporal路径,我们仍然有更高的数量级要去达到。最终我们想要在视频序列上使用非常大型的深度卷积网络,其中的瞬时结构会提供非常有用的信息,这些信息在静态图像中丢失了或极不明显。
[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter, 9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cires?an, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cires?an, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL
本文编号:1269976
本文链接:https://www.wllwen.com/wenshubaike/yywskj/1269976_4.html