因果|NeurIPS 2021 | 一文洞悉因果机器学习前沿进展( 五 )


文章图片

图6:领域泛化任务中各方法的可视化结果
解决模仿学习中因果混淆问题的察觉对象的正则化方法

因果|NeurIPS 2021 | 一文洞悉因果机器学习前沿进展
文章图片

  • 论文链接: https://arxiv.org/pdf/2110.14118
  • 代码链接: https://github.com/alinlab/oreo
这一篇因果机器学习的论文关注的是模仿学习(imitation learning)中的因果混淆(causal confusion)问题 。 模仿学习即为从专家示范中学习策略模型(policy) , 它可利用已有数据来避免或减少危险或高代价的与环境交互 。 行为克隆(behavioral cloning, BC)是一种简单有效的方法 , 它将模仿专家示范看作一个有监督学习任务 , 即用状态(state)s 预测动作(action)a 。 然而 , 该方法常会产生因果混淆问题 , 即学到的策略关注的是专家动作的明显结果而非原因(即专家策略所关注的对象) 。 De Haan等人 (2019)举了一个经典例子:考虑司机做驾驶示范的过程 , 其中车的仪表盘上有刹车指示灯 。 当视野中出现行人时 , 司机会采刹车同时刹车灯亮起 。 由于“a=踩刹车”和“s=刹车灯亮起”总是同时出现 , 策略模型很可能会仅仅基于刹车灯来决定是否踩刹车 , 这样可以很好地拟合示范数据 , 但在使用中当视野中出现行人时 , 由于刹车灯没有亮 , 它也仍然不会踩刹车 , 这显然不是人们希望的 。
研究员们发现 , 因果混淆问题在一般的场景中广泛存在 。 如图7所示 , 原本环境下学到的策略表现远不如训练时将分数掩盖掉的好 。 原环境中 , 策略模型会仅仅依赖于画面中的分数给出动作 , 因为它与专家动作的关系紧密而敏感 , 但却不知这只是专家动作的结果 , 所以在使用中不能采取有效的动作 。 而 在分数被掩盖的环境中 , 策略模型不得不寻找其他线索来预测专家动作 , 才得以发现真实规律 。
方法
由上述分析 , 研究员们发现产生因果混淆问题主要是因为策略模型仅仅依赖于画面中的个别对象采取动作 , 而此对象往往是专家动作所产生的看上去很明显的结果 。 这启发了研究员们通过让策略模型均衡地关注画面中的所有对象来应对此问题 , 使策略模型能注意到真正的因 。
实现此想法需要解决两个任务: (1)从图像中提取对象 。 (2)让策略模型注意到所有对象 。 对于第一个任务 , 研究员们采用了量子化向量变分自编码器(vector-quantized variational auto-encoder , VQ-VAE)[v.d. Oord’17] 抽取对象特征 。 如图8所示 , 研究员们发现 , VQ-VAE 学到的离散编码相近的值(相近的颜色)代表了同一(或语义相近的)对象 , 因此它找到并区分了图像中的对象 。

推荐阅读