因果|NeurIPS 2021 | 一文洞悉因果机器学习前沿进展( 五 )_环境|领域|背景|NeurIPS|哈士奇

文章图片

图6：领域泛化任务中各方法的可视化结果
解决模仿学习中因果混淆问题的察觉对象的正则化方法

文章图片

论文链接： https://arxiv.org/pdf/2110.14118
代码链接： https://github.com/alinlab/oreo

这一篇因果机器学习的论文关注的是模仿学习（imitation learning）中的因果混淆（causal confusion）问题。模仿学习即为从专家示范中学习策略模型（policy），它可利用已有数据来避免或减少危险或高代价的与环境交互。行为克隆（behavioral cloning, BC）是一种简单有效的方法，它将模仿专家示范看作一个有监督学习任务，即用状态（state）s 预测动作（action）a 。然而，该方法常会产生因果混淆问题，即学到的策略关注的是专家动作的明显结果而非原因（即专家策略所关注的对象）。 De Haan等人 (2019)举了一个经典例子：考虑司机做驾驶示范的过程，其中车的仪表盘上有刹车指示灯。当视野中出现行人时，司机会采刹车同时刹车灯亮起。由于“a=踩刹车”和“s=刹车灯亮起”总是同时出现，策略模型很可能会仅仅基于刹车灯来决定是否踩刹车，这样可以很好地拟合示范数据，但在使用中当视野中出现行人时，由于刹车灯没有亮，它也仍然不会踩刹车，这显然不是人们希望的。
研究员们发现，因果混淆问题在一般的场景中广泛存在。如图7所示，原本环境下学到的策略表现远不如训练时将分数掩盖掉的好。原环境中，策略模型会仅仅依赖于画面中的分数给出动作，因为它与专家动作的关系紧密而敏感，但却不知这只是专家动作的结果，所以在使用中不能采取有效的动作。而在分数被掩盖的环境中，策略模型不得不寻找其他线索来预测专家动作，才得以发现真实规律。
方法
由上述分析，研究员们发现产生因果混淆问题主要是因为策略模型仅仅依赖于画面中的个别对象采取动作，而此对象往往是专家动作所产生的看上去很明显的结果。这启发了研究员们通过让策略模型均衡地关注画面中的所有对象来应对此问题，使策略模型能注意到真正的因。
实现此想法需要解决两个任务：（1）从图像中提取对象。（2）让策略模型注意到所有对象。对于第一个任务，研究员们采用了量子化向量变分自编码器（vector-quantized variational auto-encoder ， VQ-VAE）[v.d. Oord’17] 抽取对象特征。如图8所示，研究员们发现， VQ-VAE 学到的离散编码相近的值（相近的颜色）代表了同一（或语义相近的）对象，因此它找到并区分了图像中的对象。

因果|NeurIPS 2021 | 一文洞悉因果机器学习前沿进展( 五 )

推荐阅读

什么样马犬毛色算正

芝士方便面的做法（微波菜谱）

支付宝企业店账号异常支付宝企业店账号异常怎样解决

治疗卵巢囊肿最有效的方法

家常菜蚝油杏鲍菇的做法

严重的柑橘病害有几种？

二本舞蹈学校有哪些

50度散光需要配眼镜吗

葡萄干受潮怎么办

一氧化碳超限是什么意思

吃完火锅身上有味道怎么回事

牛奶鉴定师什么意思

switch怎么连电视 switch连接电视的方法

硫磺肥皂洗脸有哪些好处

黑色沙漠梦境的羽毛什么用

情侣qq网名一对俄不是蜡笔俄也需要尛新

座右铭高冷

斑比融媒女子午休回家生了个娃，生完竟将孩子丢邻居门口，丈夫不知她怀孕

「最受关注男主角」河南78岁老农民竞逐“最受关注男主角”奖

一个微笑教你如何与女生相处