算法|“黑箱”中的算法歧视


算法|“黑箱”中的算法歧视
文章图片

法国国家信息与自由委员会2020年12月10日宣布 , 对美国谷歌公司及其下属企业和亚马逊公司
分别处以1亿欧元和3500万欧元的罚款 , 理由是这两家互联网企业未经同意收集用户上网痕迹
算法中隐藏着歧视的风险 , 其作出的决策很可能会固化社会歧视 , 加剧社会不公 。 算法歧视问题应引起重视 。
刘昭希
如今 , 算法的运用已日益广泛 , 渗透于电子商务、新闻推送、搜索引擎、信用贷款、保险、医疗、社会治安等各个场景中 。
在人工智能时代 , 算法具有很强的自主学习能力 , 能够从海量的数据中不断学习并提取规律 , 进而形成自动化决策 , 大大提升了效率 , 满足了个性化的需求 , 为人们的工作和生活带来便利 。
但算法似乎天然地躲在“黑箱”里 。 一个企业或网站的算法 , 往往由数十上百甚至上千的工程师协作完成 , 但算法并非完全按照工程师编写的代码而产生 , 而是机器自我学习训练、不断调整优化而产生的 。
其复杂性和不透明性 , 已经带来了诸多问题 。 越来越多的实践经验表明 , 表面中立的算法也会产生歧视性结果 。 当算法产生歧视或造成侵害时 , 难以被人们察觉 , 即使察觉了 , 也难以进行维权 。
价格歧视
近几年来 , 大数据杀熟频频引发关注 。 充值了会员的老用户购买同款商品价格高于新用户;同一家店的外卖吃几次就涨价;用几部手机同时在旅游出行软件中预订机票、酒店存在价格差异 , 且“熟客”的订票界面会标注“即将售罄”“房源紧张”等不实信息;使用苹果手机下单 , 价格高于安卓手机……用户反映的遭遇大数据杀熟 , 涉及天猫、美团、携程、飞猪、滴滴等各大电商平台 。
了解不同消费者的支付意愿是企业实施价格歧视的重要前提之一 , 在大数据时代这对于互联网平台而言不是难事 。 平台通过数据挖掘等技术手段可以大量获取用户数据 , 包括购物记录、浏览记录、地理位置、手机型号等 , 并对用户进行精准画像 , 由此进行差异化的产品推荐及定价 。
从经济学的角度来看 , 这是商家为了实现利益最大化而作出的区别性对待 , 是符合经济理性的 。 但是 , 由于电商平台具备技术、资本等优势处于强势地位 , 而普通用户处于弱势 , 双方力量严重失衡 。
此外 , 由于算法的黑箱属性 , 算法决策对于用户而言是不透明的 , 存在信息不对称 , 平台在消费者不知情的情况下进行差异化定价 , 侵犯了消费者的知情权和公平交易权等合法权益 , 透支了消费者的信任 。
身份性歧视
身份性歧视是基于某些人属于特定群体 , 而非基于他们的表现对其进行区别、排斥、限制或优待的任何不合理措施 , 法律禁止歧视的事由包括性别、种族、民族、宗教信仰、家庭财产状况等 。 相比于人类决策 , 算法通常被认为是客观、中立的 , 会以同样的方式评估所有人并作出决策 , 从而避免了因对某一群体存在偏见而导致歧视行为 , 但事实上 , 来源于人类社会的歧视也会带入算法模型中 。
在人工智能时代 , 机器学习算法带来的身份性歧视现象并不罕见 。
比如 , 波士顿大学与微软的相关研究就证实了算法中的性别歧视 , 当研究人员向软件提问:“男性是程序员那么女性是?”它的回答是“家庭主妇” 。 弗吉尼亚大学赵洁玉团队的研究也发现 , 男性被误认成女性的图片多是因为“他”站在厨房或正在干家务 。 人工智能算法再现并放大了人类固有的性别偏见 。
再比如 , 在谷歌搜索引擎中 , 搜索黑人的名字时更容易出现“被捕”的广告 , 并链接到一个可以进行犯罪记录查询的网站 , 暗示其可能存在被捕记录;谷歌图片和雅虎旗下图片分享网站Flickr , 曾给黑人贴上诸如“大猩猩”“猿”或者“动物”的标签 。
算法歧视不仅会造成对特定群体的冒犯 , 还有可能造成对数据主体法律权利的侵害 , 使歧视成为社会常态 , 因此需引起格外的重视 。
就业歧视
为了处理大量来自应聘者的信息 , 越来越多企业改变了传统的依靠人力资源部门的工作人员浏览简历的方式筛选应聘者 , 开始使用机器学习算法处理大量数据 , 并对应聘者进行识别和打分 。
比如 , 亚马逊公司曾建立了一个算法系统 , 用于分析应聘者的简历以挑选出最佳雇员 。 但在该公司采用自己的招聘数据训练算法之后 , 发现该筛选算法对女性应聘者产生了偏见 。 “女性”一词或者女性特征的出现(比如毕业于女子大学或者在校期间参加了女子足球俱乐部等) , 会降低应聘者的排名 。 出现歧视女性求职者的问题后 , 亚马逊最终放弃了这个人力资源的机器学习项目 。
算法系统还可以根据雇主的不同需求进行不同的分类 。 比如以通勤时间为标准筛选潜在雇员的算法系统 , 会自动排除通勤时间较长的申请者 , 而大多数工作场所都位于城市的商业中心附近 , 这会导致居住在商业中心之外的低收入少数族裔受到歧视 。
此外 , 算法还会加剧不同性别的收入差距 , 比如谷歌向男性推送高薪工作的频率远远高于向女性推送的频率 。 它在推送定向广告时 , 认定男性更具有获得高薪职位的可能性 , 于是对男性群体推送了1852次薪资为20万元以上的职位 , 而对女性只推送了318次 。 造成这种歧视性结果的原因可能是多样的 , 除了训练数据的现实环境中男女收入不平等之外 , 可能还在于算法开发者中男性居多或者广告商有这种歧视性的要求 , 希望将特定广告投放给特定性别的群体 。
教育歧视
2016年美国白宫发布的《大数据报告:算法系统、机会与公民权利》指出 , 高等教育机构通过收集和分析大量申请人的数据 , 可能会在他们入学之前就预测其毕业的可能性 , 进而做出是否予以录取的决定 。 而家庭收入是作出预测的重要因素之一 , 这可能会导致高校为了削减成本 , 认为向一些申请者 , 如来自贫困家庭或在毕业上面临特殊挑战的学生提供额外经济支持是不值得的 , 从而使其面临入学障碍 , 导致产生歧视 。
据《华盛顿邮报》报道 , 威斯康星大学的招生官使用了一种鲜为人知但越来越普遍的做法:他们在学校网站上安装了追踪软件 , 当学生访问该网站时 , 该软件可根据cookie代码自动识别出他/她是谁 , 并生成学生的个人资料 , 包括姓名、联系方式、种族、就读的高中、在网站上的详细浏览信息(所有浏览过的页面内容及每个页面的浏览时间)、地理位置等 , 会据此评估他/她对这所大学的兴趣水平 。 大学正在收集更多关于其未来学生的数据 , 美国至少有44所公立和私立大学与外部咨询公司合作 , 通过跟踪潜在学生的网络活动或制定预测分数来衡量每个学生入学的可能性 。
今年由于疫情 , 英国取消了A-level考试 , 英国政府开发了一套智能评分系统按照学区综合表现给考生分数划等级 , 评估学生的成绩 。 学生所在考区2017年至2019年的考分分布情况、学生在这个考区的考试成绩排名、考生个人以往的考试成绩等 , 是该算法进行评分的重要标准 。 它最后会将考生所在考区过去的考试成绩进行排名 , 再决定某名考生最终的考试成绩 。 在该算法的系统下 , 考生所处的“学区”成为最终高考分数高低的关键 。 很多毕业生的成绩都在算法系统计算后被下调 , 低于老师的预计 。
比如 , 华裔数学天才Thanh在过去的模拟测试中数学成绩一直是A+ , 但由于其所就读的公立高中总体评分不高 , 他的数学成绩被降低了一个等级 。 很多人认为该系统存在明显的系统性歧视隐患 , 让那些家境没那么殷实的孩子无端遭遇歧视 。
信贷歧视
传统的信用评分主要是基于借款人之前的偿还贷款记录等信用信息计算的 , 以预测其在未来某段时间内发生拖欠还款等不良金融行为的可能性 。 但无论在美国还是在中国 , 均有相当规模的人群因缺少足够的偿还贷款记录等 , 而无法被传统的征信系统覆盖 。
随着大数据以及与之相关的人工智能技术和机器学习的不断发展 , 以算法自动化决策技术为核心的个人信用评分为解决征信难的问题提供了思路 。 通过挖掘海量数据 , 利用复杂的算法和模型技术整合广泛的数据点 , 为消费者获得贷款创造了机会 。 一些之前未被信贷机构利用的数据比如家庭住址、教育背景、电话账单、缴税记录、消费记录 , 以及一些非传统数据比如网页浏览记录、在线购物记录、社交媒体上的相关信息、手机使用过程中的位置数据等 , 都可以作为信用信息的来源 。
尽管基于大数据的信用评分系统扩大了征信体系的覆盖面 , 但也存在固化潜在歧视的风险 。 在该系统中 , 消费者的家庭、宗教信仰、社会和其他关系可能会决定他们是否有获得贷款的资格 。 这种歧视性评分可能不是故意的 , 复杂的算法可能会结合表面中立的数据点 , 把它们当作某些不可改变的特征如种族、性别等的代理 , 从而系统地拒绝向某些群体提供贷款或降低其信用额度 。
根据《纽约时报》的报道 , 一位非洲裔的商人凯文·约翰逊总是能按时支付信用卡账单 , 一直一丝不苟地维护着自己的信用 。 然而 , 他的信用卡公司美国运通(American Express)通知他,其信用额度从10800美元降低到3800美元 。 该公司给出的理由是“在凯文最近购物的地方 , 那些使用美国运通公司信用卡的客户还款记录不佳” 。 这种信用评估方式被称为“关联信誉” , 即对消费者还款能力的预测是根据其朋友 , 具有相似兴趣、收入水平和背景的人的还款能力作出的 , 而不是根据他们个人的还款能力和行为来判断 。
同时 , 算法的黑箱性 , 还会影响消费者对不利决定提出异议或者修正错误信息的能力 , 导致进一步固化歧视 。
刑事司法歧视
数据分析和算法系统正越来越多地被运用于美国的司法领域 , 法官、缓刑和假释官越来越多地使用算法来评估刑事被告成为累犯的可能性 。
Northpointe公司(更名为Equivalent)开发的COMPAS系统引起了广泛的关注 , 它被用于风险预测 , 可以基于犯罪记录以及其他个人相关信息预测罪犯的累犯风险 , 从而作出量刑建议 。 由于COMPAS系统的决策过程是不公开、不透明的 , 在借助算法进行裁判时 , 相对人无法知晓量刑决策是基于哪些信息作出的 , 而该决策直接关系到人的自由等基本权利 , 这套系统因此引发了很大的争议 。
美国“为了人民”网站对COMPAS系统分析发现 , 黑人被告比白人被告更容易被错误地判断为有更高的累犯风险 , 而白人被告比黑人被告更可能被错误地标记为有较低的累犯风险 。
与白人相比 , 在两年内没有再犯罪的黑人被误判为高风险的可能性是白人的两倍(占比分别是45%和23%) , 再次犯罪的白人被错误地贴上低风险标签的概率也几乎是黑人的两倍(分别是48%和28%) 。 其中 , 偏差较多集中于对暴力犯罪(包括谋杀罪、非预谋杀人罪、暴力强奸罪、抢劫罪和加重的企图伤害罪)累犯的预测 , 将COMPAS预测的累犯风险与被告在两年内的实际累犯率进行对比发现 , 它准确预测累犯的概率为61% , 但准确预测暴力犯罪累犯的概率只有20% 。 黑人被告被误判为暴力犯罪累犯的风险是白人的两倍 。 从上述失调的比例 , 可以看出COMPAS对少数族裔的偏见 。
由此可见算法中隐藏着歧视的风险 , 其作出的决策很可能会固化社会歧视 , 加剧社会不公 。 算法歧视问题应引起重视 。
(作者单位:中国人民大学法学院)
来源:2021年4月21日出版的《环球》杂志 第8期
《环球》杂志授权使用 , 其他媒体如需转载 , 请与本刊联系
【算法|“黑箱”中的算法歧视】本期更多文章敬请关注《环球》杂志微博、微信客户端:“环球杂志”

    推荐阅读