AI|研究:一个有影响力的数据集“卡特尔”正在主导AI研究( 二 )
文件认为,这种非正式的标准化文化的最初优势开始被当一个数据体变得强大到足以有效定义其使用条款和影响范围时自然发生的缺点所抵消 。
研究人员们建议,跟最近许多行业和学术界对这个问题的想法一致,如果不能通过现有的基准数据集解决这些问题,研究界就不再能提出新的问题 。
此外,他们还指出,盲目遵守这少量的“黄金”数据集会鼓励研究人员取得过度拟合的结果 。
政府对计算机视觉研究的影响
根据这篇论文,计算机视觉研究受其概述的综合症的影响明显大于其他部门,研究人员们指出,自然语言处理(NLP)研究受到的影响要小得多 。他们认为,这可能是因为NLP社区更协调、规模更大而且NLP数据集更容易获得、更容易整理、在数据收集方面也更小、资源密集度更低 。
在计算机视觉领域,尤其是关于面部识别(FR)数据集,研究人员们认为企业、国家和私人利益经常会发生冲突 。
而对于FR任务,研究人员发现,纯学术数据集的发生率跟平均值相比大幅下降 。
文章图片
在上图中则可以看到,相对较新的Image Generation领域在很大程度上依赖于现有的、更古老的数据集,而这些数据集并不打算用于这一用途 。
事实上,这篇论文观察到数据集“迁移”的趋势变得越来越明显,从而使人怀疑它们是否适合新的或偏远的研究部门的需要以及预算限制可能在多大程度上将研究人员的雄心泛化到现有材料所提供的较窄的框架中,而这种文化又非常痴迷于每年的基准评级以至于新的数据集难以获得吸引力 。
关于近年来越来越多的机器学习名人呼吁增加数据集的多样性和策划,研究人员也支持了这种观点,但他们认为这种努力即使成功也有可能被当前文化对SOTA结果和既定数据集的依赖所破坏 。
推荐阅读
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 智能化|适老化服务让银行更有温度
- bleu|字节跳动火山翻译上新 38 个稀有语种,翻译能力再升级
- 重大进展|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 人物|马斯克谈特斯拉人形机器人:有性格 明年底或完成原型
- 视点·观察|科技巨头纷纷发力元宇宙:这是否是所有人的未来?
- 手机|【直播纪要】VR/MR会吹响消费电子反攻的号角吗?| 见智研究
- 人工智能|聚焦车载人工智能计算芯片研究 推进汽车产业高质量发展
- 智能化|龙净环保:智能型物料气力输送系统的研究及应用成果通过鉴定
- 研究院|传统行业搭上数字化快车,施工现场变“智造工厂”