因果|NeurIPS 2021 | 一文洞悉因果机器学习前沿进展( 二 )


图2:因果语义生成模型(a)及其用于测试域的变种(b,c)
因果不变性与分布外预测
这个体现因果性质的模型可帮助做好分布外预测 。 其出发点是 “ 因果不变性”(causal invariance) , 即因果关系不会随环境或领域(domain)变化 。 这是因为因果关系反映的是基本的自然规律 , 例如一个场景下的物体和背景通过相机成像为图片的过程 , 即 p(x│s,v) , 以及从物体的本质特征给出标注的过程 , 即 p(y│s) 。 领域变化则源于先验分布 p(s,v) 的变化 , 例如训练环境下的 p(s,v) 会给(“哈士奇”, 暗背景)以及(“狼”, 雪地背景)较大的值 , 而测试环境则相反 。
作为对比 , 当前主流的领域自适应和领域泛化方法会在不同领域上使用同一个编码器来推断隐因子 。 这其实蕴含着“ 推断不变性”(inference invariance) 。 研究员们认为 ,推断不变性是因果不变性的特例 。 在支持推断不变性的例子中 , 比如从图片中推断物体位置 , 具有因果性的生成机制 p(x│s,v) 几乎是确定性的且可逆的 , 意味着只有一个“物体位置”的值(s 的一个分量)才能让 p(x│s,v) 对于给定的 x 非零 。 由于 p(x│s,v) 具有因果不变性 , 所以这种推断方式便也具有不变性 。 但当 p(x│s,v) 有噪或退化时 , 仅依据 p(x│s,v) 做推断是任意的 , 例如图3左图中的数字可能是由“5”也可能是由“3”产生的 , 而右图中 , 靠近我们的不论是 A 还是 B 面都会得到同样的图 。 这种情况下 , 由贝叶斯公式 p(s,v│x)∝p(s,v)p(x│s,v) 给出的推断结果便会明显受到先验的影响 。 而先验是会随环境变化的(对可能的推断结果的偏好因人而异) , 所以 推断不变性不再成立 , 而因果不变性却仍然可靠 。

因果|NeurIPS 2021 | 一文洞悉因果机器学习前沿进展
文章图片

图3:当生成机制 p(x│s,v) 有噪(左)或退化(右)时 , 推断结果具有任意性 , 因而推断不变性不再可靠
基于因果不变性 , 研究员们给出了在测试域(test domain)上进行预测的原则 。 本篇论文考虑了两种分布外预测任务 , 称为“ 分布外泛化”(out-of-distribution generalization)以及“ 领域自适应”(domain adaptation) 。 两者都只有一个训练域(training domain)(因而分布外泛化不同于领域泛化;下一篇工作会解决领域泛化任务) , 但领域自适应中有测试域上的无监督数据 , 而在分布外泛化中则对测试域一无所知 。
由因果不变性可知 , 在测试域上 , 具有因果性的数据生成机制 p(x│s,v) 和 p(y│s) 仍然适用 , 但先验分布会发生变化 。 对于分布外泛化则需要考虑测试域先验的所有可能性 。 因此 , 研究员们提出了适用一个独立的先验分布 p^⊥ (s,v)?p(s)p(v) , 其中 p(s) 和 p(v) 都是训练域先验 p(s,v) 的边缘分布 。 此选择去掉了 s 和 v 在训练域上的虚假关联(spurious correlation) , 并且由于 p^⊥ (s,v) 具有比 p(s,v) 更大的熵 , 因此减去了独属训练域的信息 , 从而让模型更依赖于具有因果不变性的生成机制进行预测 。 这种预测方法被称为 CSG-ind 。 对于领域自适应 , 可利用无监督数据学习测试域的先验 p ?(s,v) 用于预测 , 其对应方法称为 CSG-DA 。 这两个模型示于图2(b,c)中 。 值得注意的是 , 由于 CSG 在测试域上使用了与训练域不同的先验分布 , 在测试域上得到的预测规则 p(y│x) 会不同于训练域上的 , 因而此方法与基于推断不变性的方法严格不同 。

推荐阅读