AI|研究:一个有影响力的数据集“卡特尔”正在主导AI研究

加利福尼亚州大学和Google研究院的一篇新论文指出,少数“基准”机器学习数据集主要来自有影响力的西方机构并且经常来自政府组织,现在,它们正在日益主导人工智能(AI)研究领域 。
【AI|研究:一个有影响力的数据集“卡特尔”正在主导AI研究】研究人员得出结论,这种“默认”的高度流行的开源数据集如ImageNet的趋势带来了一些实际的、道德的甚至是政治上的担忧 。
基于来自Facebook领导的社区项目Papers With Code(PWC)的核心数据,研究人员们认为,广泛使用的数据集只被少数精英机构引入,而这种“巩固”在最近几年已经增加到80% 。
“(我们)发现,在全球范围内,数据集的使用越来越不平等,在我们的43140个样本中超50%的数据集使用对应的是由12个精英机构,主要是西方机构引入的数据集,”文件写道 。

AI|研究:一个有影响力的数据集“卡特尔”正在主导AI研究
文章图片

据悉,这些主导机构包括斯坦福大学、微软、普林斯顿、Facebook、Google、马克斯-普朗克研究所和AT&T 。在前十名的数据集来源中有四个为业机构 。
另外,该文件还将这些精英数据集的使用越来越多的特点描述为“科学中不平等的载体” 。这是因为寻求社区认可的研究团队更有动力针对一致的数据集取得最先进的(SOTA)成果,而不是产生没有这种地位的原始数据集,这就要求同行适应新的指标而不是标准指标 。
在任何情况下,正如该文件所承认的那样,对于资源不足的机构和团队来说,创建自己的数据集是一种过于昂贵的追求 。
文件指出:“SOTA基准所赋予的表面上的科学有效性跟研究人员通过展示他们能够在一个广泛认可的数据集上进行竞争而获得的社会公信力相混淆,即使一个更具体的基准在技术上可能更合适 。
我们认为,这些动力产生了‘马太效应’(即富者愈富,穷者愈穷),在这种情况下,成功的基准和引入这些基准的精英机构在该领域获得了超然的地位 。”
这篇题为《Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》的论文由来自加州大学洛杉矶分校的Bernard Koch和Jacob G. Foster、Google研究院的Emily Denton和Alex Hanna共同编写 。
这项工作对其所记录的日益增长的合并趋势提出了一些问题,另外还在开放评审中得到了普遍的赞同 。一位来自NeurIPS 2021的评论员评论称,这项工作对任何参与机器学习研究的人都非常有意义,并且他还预计它将成为大学课程的指定读物 。
从必要性到腐败性
研究人员们指出,目前的“跑赢基准”文化是作为一种补救措施出现的,因为在三十多年前,在商业界对“专家系统”的新研究热情下降之后,缺乏客观的评估工具导致了对AI的兴趣和投资第二次崩溃 。

推荐阅读