MLP-Mixer|44种模型、1200种子网，RobustART评测CNN、Transformer、MLP-Mixer谁最鲁棒？_模型|训练|评估|余种|ImageNet

机器之心专栏
北京航空航天大学、商汤科技、京东探索研究院等

来自北航、商汤科技和京东探索研究院等机构的研究者提出了第一个在大规模数据集 ImageNet 上面向模型结构和训练技巧且针对多种噪音类型的模型鲁棒性评测基准——RobustART 。该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性的影响。

以深度学习为代表的人工智能技术，在计算机视觉、语音识别、自然语言处理等方向上已经取得了巨大进展，在我们生活中的多个领域得到了广泛的应用并发挥了极其关键的作用。然而，由于现实应用场景的开放性，以大数据训练和经验性规则为基础的传统人工智能（如深度学习）方法面临着输入样本含有噪音的挑战，如：自然噪音、对抗噪音等。这些微小的噪音对于深度学习模型的鲁棒性和安全性产生了很大的挑战，其对于社会稳定甚至是公共安全都可能产生极大的影响。
哪种模型对于噪音更加鲁棒？哪些模型架构和组件对于噪音有更强的抵御能力？对于这些问题的研究能够帮助我们更好地认识和理解模型鲁棒性的本质，从而帮助研究人员进行更加鲁棒的模型架构设计。进一步，这对于推进工业级鲁棒模型的评测和落地应用、并最终服务于国家相关智能模型鲁棒评测标准的推进和开展具有十分重大的意义！因此，来自北京航空航天大学、商汤科技和京东探索研究院的研究人员联合加州大学伯克利分校、牛津大学以及约翰斯 · 霍普金斯大学提出了第一个在大规模数据集 ImageNet 上面向模型结构（ARchitecture Design）和训练技巧（Training Technique）且针对多种噪音类型的模型鲁棒性评测基准——RobustART 。
该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性（对抗噪音、自然噪音、系统噪音等）的影响。并通过海量且深入的实验探究，得出了大量的有价值实验结果和众多启发性的结论，如：
（1）对于 Transformer 和 MLP-Mixer ，对抗训练可以全面提升其全部噪音鲁棒性和任务本身的效果；
（2）在模型大小一致的前提下，对于自然噪音和系统噪音鲁棒性：CNN>Transformer>MLP-Mixer ，对于对抗噪音鲁棒性， Transformer>MLP-Mixer>CNN；
（3）对于一些轻量化的模型族，增加其模型大小或者增加训练数据并不能提升其鲁棒性等。这些分析和结论将对人们认识模型鲁棒性机理并设计安全稳固的模型架构产生重要的意义。
RobustART benchmark（1）提供了一个包含 leaderboard、数据集、源码等详实信息在内的开源平台；（2）开放了 80 余种使用不同模型结构和训练技巧的预训练模型，以便于研究人员进行鲁棒性评估；（3）贡献了崭新的视角和大量的分析结论，让研究人员更好地理解鲁棒模型背后的内在机制。