文章图片
图6:领域泛化任务中各方法的可视化结果
解决模仿学习中因果混淆问题的察觉对象的正则化方法
文章图片
- 论文链接: https://arxiv.org/pdf/2110.14118
- 代码链接: https://github.com/alinlab/oreo
研究员们发现 , 因果混淆问题在一般的场景中广泛存在 。 如图7所示 , 原本环境下学到的策略表现远不如训练时将分数掩盖掉的好 。 原环境中 , 策略模型会仅仅依赖于画面中的分数给出动作 , 因为它与专家动作的关系紧密而敏感 , 但却不知这只是专家动作的结果 , 所以在使用中不能采取有效的动作 。 而 在分数被掩盖的环境中 , 策略模型不得不寻找其他线索来预测专家动作 , 才得以发现真实规律 。
方法
由上述分析 , 研究员们发现产生因果混淆问题主要是因为策略模型仅仅依赖于画面中的个别对象采取动作 , 而此对象往往是专家动作所产生的看上去很明显的结果 。 这启发了研究员们通过让策略模型均衡地关注画面中的所有对象来应对此问题 , 使策略模型能注意到真正的因 。
实现此想法需要解决两个任务: (1)从图像中提取对象 。 (2)让策略模型注意到所有对象 。 对于第一个任务 , 研究员们采用了量子化向量变分自编码器(vector-quantized variational auto-encoder , VQ-VAE)[v.d. Oord’17] 抽取对象特征 。 如图8所示 , 研究员们发现 , VQ-VAE 学到的离散编码相近的值(相近的颜色)代表了同一(或语义相近的)对象 , 因此它找到并区分了图像中的对象 。
推荐阅读
- Google|谷歌暂缓2021年12月更新推送 调查Pixel 6遇到的掉线断连问题
- 精度|将建模速率提升10倍,消费级3D扫描仪Magic Swift在2021高交会大显“身手”
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- 系列|2021中国航天发射圆满收官!年发射55次居世界第一
- 项目|常德市二中2021青少年科技创新大赛再获佳绩
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 殊荣|蝉联殊荣!数梦工场荣获DAMA2021数据治理三项大奖
- 公司|外媒:2021,人类太空事业的重大年份
- 语境|B站2021个人年度报告发布:你共计看了多少个视频
- 最新消息|IT系统出错 英国银行给7.5万人多发11亿工资