最新消息 Facebook数据集通过让人们自我识别年龄和性别来打击AI偏见

Facebook今天开源了一个数据集,旨在体现计算机视觉和音频机器学习模型中的年龄、性别和肤色偏见 。该公司声称,这个语料库Casual Conversations,是第一个以付费者为主角的语料库,他们明确提供了自己的年龄和性别,而不是由第三方来标注这些信息或使用模型来估计 。
Casual Conversations包含3000名参与者的4100多段视频,其中一些来自Deepfake Detection Challenge,旨在通过加入 "明显 "肤色的标签来对抗这种偏见 。Facebook表示,这些色调是用Fitzpatrick量表估算出来的,Fitzpatrick量表是美国皮肤科医生Thomas B. Fitzpatrick在1975年开发的一种肤色分类模式 。菲茨帕特里克量表是一种对皮肤类型对紫外线的反应进行概括的方法,从I型(总是灼伤而从不晒黑的苍白皮肤)到VI型(从不灼伤的深色素皮肤) 。
Facebook表示,它为Casual Conversations招募了训练有素的注释员,以确定每个参与者的皮肤类型 。注释员还为视频标注了环境光照条件,这有助于衡量模特在低光照条件下如何对待不同肤色的人 。Facebook的一位发言人通过电子邮件告诉VentureBeat,聘请了一家美国供应商从 "各种背景、种族和性别 "中挑选该项目的注释者 。参与者来自亚特兰大、休斯敦、迈阿密、新奥尔良和里士满,并且都获得了报酬 。
作为一个领域,工业界和学术专家在理解人工智能的公平性和偏见方面仍然处于早期阶段,人工智能研究界可以将Casual Conversations作为实现亚群体测量和公平性研究正常化的重要基石之一,Facebook表示,通过Casual Conversations,希望能够推动这一重要的新兴领域的进一步研究 。为了支持Facebook的观点,有一系列证据表明,计算机视觉模型尤其容易受到有害的、普遍的偏见的影响 。科罗拉多大学博尔德分校的研究人员去年秋天的一篇论文证明,亚马逊、Clarifai、微软和其他公司的人工智能对同性男性和女性的准确率保持在95%以上,但有38%的时间会将跨性别男性误认成女性 。Gender Shades项目和美国国家标准与技术研究所(NIST)对主要厂商系统的独立基准测试表明,面部识别技术表现出种族和性别偏见,并表明目前的面部识别程序可能会出现疯狂的不准确,在96%以上的时间里误将人分类 。
除了面部识别之外,Zoom的虚拟背景和Twitter的自动照片裁剪工具等功能,历来都对皮肤较黑的人不利 。早在2015年,一位软件工程师就指出,谷歌照片中的图像识别算法给他的黑人朋友贴上了 "大猩猩 "的标签 。而非营利组织AlgorithmWatch显示,谷歌的云视觉API一度自动将深色皮肤的人持有的温度计标注为 "枪",而将浅色皮肤的人持有的温度计标注为 "电子设备" 。专家们将这些错误中的许多错误归咎于用于训练模型的数据集的缺陷 。
【最新消息|Facebook数据集通过让人们自我识别年龄和性别来打击AI偏见】但Casual Conversations远不是一个完美的基准 。Facebook表示,它并没有收集参与者的原籍信息 。而且在询问他们的性别时,该公司只提供了 "男性"、"女性 "和 "其他 "的选择--没有包括像那些认定为非二元的性别 。该发言人还澄清说,从今天起,Casual Conversations只对Facebook团队开放,不会要求员工将其用于评估目的 。关于Facebook公平方法的曝光并没有在人工智能社区内产生多少信任 。纽约大学在2020年7月发表的一项研究估计,Facebook的机器学习系统每天会犯大约30万个内容修改错误,而且有问题的帖子继续从Facebook的过滤器中溜走 。
Facebook方面表示,虽然该公司认为Casual Conversations是 "好的、大胆的 "第一步,但在未来一年左右的时间里,该公司将继续推动开发能够捕捉更多样化的技术,并且希望探索扩大这一数据集的途径,使其更具包容性,其代表性包括更多的地理位置、活动以及更广泛的性别认同和年龄等等 。
最新消息 Facebook数据集通过让人们自我识别年龄和性别来打击AI偏见
文章图片

    推荐阅读