AI|研究:一个有影响力的数据集“卡特尔”正在主导AI研究( 二 )


文件认为,这种非正式的标准化文化的最初优势开始被当一个数据体变得强大到足以有效定义其使用条款和影响范围时自然发生的缺点所抵消 。
研究人员们建议,跟最近许多行业和学术界对这个问题的想法一致,如果不能通过现有的基准数据集解决这些问题,研究界就不再能提出新的问题 。
此外,他们还指出,盲目遵守这少量的“黄金”数据集会鼓励研究人员取得过度拟合的结果 。
政府对计算机视觉研究的影响
根据这篇论文,计算机视觉研究受其概述的综合症的影响明显大于其他部门,研究人员们指出,自然语言处理(NLP)研究受到的影响要小得多 。他们认为,这可能是因为NLP社区更协调、规模更大而且NLP数据集更容易获得、更容易整理、在数据收集方面也更小、资源密集度更低 。
在计算机视觉领域,尤其是关于面部识别(FR)数据集,研究人员们认为企业、国家和私人利益经常会发生冲突 。
而对于FR任务,研究人员发现,纯学术数据集的发生率跟平均值相比大幅下降 。

AI|研究:一个有影响力的数据集“卡特尔”正在主导AI研究
文章图片

在上图中则可以看到,相对较新的Image Generation领域在很大程度上依赖于现有的、更古老的数据集,而这些数据集并不打算用于这一用途 。
事实上,这篇论文观察到数据集“迁移”的趋势变得越来越明显,从而使人怀疑它们是否适合新的或偏远的研究部门的需要以及预算限制可能在多大程度上将研究人员的雄心泛化到现有材料所提供的较窄的框架中,而这种文化又非常痴迷于每年的基准评级以至于新的数据集难以获得吸引力 。
关于近年来越来越多的机器学习名人呼吁增加数据集的多样性和策划,研究人员也支持了这种观点,但他们认为这种努力即使成功也有可能被当前文化对SOTA结果和既定数据集的依赖所破坏 。

推荐阅读