IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS
Contact me
- Blog -> https://cugtyt.github.io/blog/index
- Email -> cugtyt@qq.com
- GitHub -> Cugtyt@GitHub
本系列博客主页及相关见此处
ABSTRACT
我们展示了在ImageNet上训练的CNN强烈的偏向于识别纹理而不是形状,这和人的行为是极为不同的。我们证明一些网络结构可以学会ImageNet上基于纹理的表示,也可以在Stylized-ImageNet上学会基于形状的表示。不仅更适合人类的行为,更惊讶的是提升了目标检测的精度,以及鲁棒性,更加体现了基于形状表示的优势。
1 INTRODUCTION
广为接受的直觉是CNN集合了低层次的特征(如边界),然后不断组成了复杂的形状(如车轮,车窗),直到目标可以被分类出来。我们把这种解释成为形状假设。也有很多的实验证明这个观点。
一些研究证明即使打破形状,CNN只靠纹理也可以达到不错的性能【略】。看起来局部纹理提供了足够的分类信息,只靠纹理就可以达到ImageNet的分类。因此我们考虑了第二个假设,称为纹理假设:目标识别而言,纹理比全局的形状更重要。
通过风格迁移,我们创造了新的图像,例如猫的形状但是大象的纹理,如图1c。我们的大量实验说明:大象纹理的猫对于CNN而言是大象,但是对于人而言还是猫。此外,还有两点贡献:改变这个偏向,以及改变偏向后的益处。我们展示了对纹理的偏向可以被克服,可以通过合适的训练数据改变为对形状的偏向。网络对于形状的偏向对于不同的扰动更加鲁棒,也能达到更高的性能。
2 METHODS
2.1 PSYCHOPHYSICAL EXPERIMENTS
【略】
2.2 DATA SETS (PSYCHOPHYSICS)
图2是我们的前5个实验,为简单的目标识别任务。
我们挑选的目标和纹理图像都是网络分类正确的。
【略】
2.3 STYLIZED-IMAGENET
我们构建了数据集Stylized-ImageNet(SIN)
3 RESULTS
3.1 TEXTURE VS SHAPE BIAS IN HUMANS AND IMAGENET-TRAINED CNNS
基本上所有的目标和纹理图像都能被CNN和人类分类正确(图2)。灰度图包括了形状和纹理,也识别的很好。当目标被填充成黑色后,CNN就很低与人类了。
我们设置了cue conflict实验,实验图像有自然图像的统计性,但是完全不同的纹理和形状,图4是结果。
3.2 OVERCOMING THE TEXTURE BIAS OF CNNS
ImageNet可以通过局部的信息达到很高的准确率。我们在SIN数据集上训练了ResNet-50。标准的ResNet50在SIN上达到79%的top5准确率(表1),相同的结构在ImageNet(IN)上达到92.5%的top5准确率。这表明SIN比IN更难。SIN上学到的特征在IN上泛化很好,反过来很差。
为了测试是否纹理特征仍然足够求解SIN,我们测试了BagNets。它有ResNet50的结构,但是最大的感受野限制在$9 \times 9,17 \times 17$ or $33 \times 33$像素。虽然它们在IN上达到了很高的准确率,但是在SIN上它们就不适用了(例如感受野$9 \times 9$的BagNet在IN上准确率70%,而SIN上10%)。这说明SIN的确移除了纹理,迫使网络需要学习较大范围的空间信息。
更重要的是,SIN上训练的ResNet50展示出更强的形状偏向(图5)。一些类别上甚至和人类一样强。
3.3 ROBUSTNESS AND ACCURACY OF SHAPE-BASED REPRESENTATIONS
增强形状偏向也改变了表示,那么影响了CNN的性能和鲁棒性了吗?我们设置了两个训练方案:
- 同时在SIN和IN上训练
- 同时在SIN和IN上训练,在IN上微调。称为Shape-ResNet。
如表2,Shape-ResNet超过了原始ResNet的准确率,说明SIN是有用的图像增强。
【略】
5 CONCLUSION
我们证明了机器识别强烈依赖于纹理,而不是全局的形状,以及形状偏向的表示更鲁棒的优势。【略】