架构|综合LSTM、transformer优势，DeepMind强化学习智能体提高数据效率( 二 )_表征|研究|优势|Atari|智能|智能

CoBERL 架构
在自然语言处理和计算机视觉任务当中， transformer 在连接长范围数据依赖性方面非常有效，但在 RL 设置中， transformer 难以训练并且容易过拟合。相反， LSTM 在 RL 中已经被证明非常有用。尽管 LSTM 不能很好地捕获长范围的依赖关系，但却可以高效地捕获短范围的依赖关系。
该研究提出了一个简单但强大的架构改变：在 GTrXL 顶部添加了一个 LSTM 层，同时在 LSTM 和 GTrXL 之间有一个额外的门控残差连接，由 GTrXL 的输入进行调制。此外，该架构还有一个包含从 transformer 输入到 LSTM 输出的跳跃连接。更具体地说， Y_t 在时间 t 时编码器网络的输出，可以用下列方程定义附加模块：

文章图片

这些模块是互补的，因为 transformer 没有最近偏差，而 LSTM 的偏差可以表示最近的输入——等式 6 中的 Gate 允许编码器表征和 transformer 输出混合。这种内存架构与 RL 机制的选择无关，研究者在开启和关闭策略（on and off-policy）设置中评估了这种架构。对于 on-policy 设置，该研究使用 V-MPO 作为 RL 算法。 V-MPO 使用目标分布进行策略更新，并在 KL 约束下将参数部分移向该目标。对于 off-policy 设置，研究者使用 R2D2 。
R2D2 智能体：R2D2（Recurrent Replay Distributed DQN）演示了如何调整 replay 和 RL 学习目标，以适用于具有循环架构的智能体。鉴于其在 Atari-57 和 DMLab-30 上的竞争性能，研究者在 R2D2 的背景下实现了 CoBERL 架构。他们用门控 transformer 和 LSTM 组合有效地替换了 LSTM ，并添加了对比表示学习损失。因此，通过 R2D2 ，以及分布式经验收集的益处，将循环智能体状态存储在 replay buffer 中，并在训练期间「烧入」（burning in）具有 replay 序列展开网络的一部分。
V-MPO 智能体：鉴于 V-MPO 在 DMLab-30 上的强大性能，特别是与作为 CoBERL 关键组件的 GTrXL 架构相结合，该研究使用 V-MPO 和 DMLab30 来演示 CoBERL 与 on-policy 算法的使用。 V-MPO 是一种基于最大后验概率策略优化（MPO）的 on-policy 自适应算法。为了避免策略梯度方法中经常出现的高方差， V-MPO 使用目标分布进行策略更新，受基于样本的 KL 约束，计算梯度将参数部分移向目标，这样也同样受 KL 约束。与 MPO 不同， V-MPO 使用可学习的状态 - 价值函数 V(s) 而不是状态 - 动作价值函数。
实验细节
研究者证明了 1） CoBERL 在更为广泛的环境和任务中能够提高性能， 2）最大化性能还需要所有组件。实验展示了 CoBERL 在 Atari57 、DeepMind Control Suite 和 DMLab-30 中的性能。
下表 1 为目前可获得的不同智能体的结果。由结果可得， CoBERL 在大多数游戏中的表现高于人类平均水平，并且显著高于同类算法平均性能。 R2D2-GTrXL 的中值（median）略优于 CoBERL ，表明 R2D2-GTrXL 确实是 Atari 上的强大变体。研究者还观察到在检查「25th Pct 以及 5th Pct」时， CoBERL 的性能和其他算法的差异更大，这表明 CoBERL 提高了数据效率。

架构|综合LSTM、transformer优势，DeepMind强化学习智能体提高数据效率( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)