PredNet|说到深度学习架构中的预测编码模型,还得看PredNet

机器之心分析师网络
作者:仵冀颖
编辑:Joni

本文中 , 作者对经典预测编码模型和深度学习架构中的预测编码模型进行了简单回顾 , 其中重点介绍了用于视频预测和无监督学习的深度预测编码网络 PredNet 以及基于 PredNet 进行改进的一些版本 。
0、 引言
预测编码(predictive coding)是一种认知科学的假说 。 与一般认为高层次的神经活动都是由感官输入引起的理念不同 , 该假说认为更高层次的神经表征会参与定义感觉输入(Sensory Input) 。 预测编码的概念起源于神经科学界 , 近年来 , 机器学习领域的一些研究人员也开始致力于研究预测编码相关的模型 。 本文以来自路易斯安那大学拉菲特分校(University of Louisiana at Lafayette) 的 Hosseini M 和 Maida A 近期发表的文章为基础[1] , 探讨预测编码是如何在深度学习的架构中应用的 。
预测编码的一个决定性特征是:它使用自上而下的重构机制来预测感觉输入或其低级别的表征 。 具体来说 , 预测编码首先确定预测值和实际输入之间的差异(称为预测误差) , 然后启动后续学习过程 , 以改进所学的更高层次表征的预测准确度 。 在深度学习发展之前 , 旨在描述新皮质计算(computations in the neocortex)的预测编码模型就已经出现 , 这些模型构建了模块之间的通信结构 , 称之为 Rao-Ballard 协议(RB protocol) 。 RB 协议是由贝叶斯生成模型得出的(通过结合感觉输入与先前的预期 , 以做出更好的未来预测) , 包含了一些强统计假设 。 而非贝叶斯预测编码模型(不遵循 RB 协议)一般用于减少信息传输要求和取消自身行动的影响 , 而不是用于预测 。
预测编码可以看作是一种表征学习(representation learning) 。 支持贝叶斯预测编码的学习机制能够改进所获取的内部表征的质量 , 这可以看做是减少未来预测误差的一种副作用 。 预测 / 重构能力确保获得的表征能够完全代表输入中所包含的信息 。 由于整个学习过程是由预测误差所驱动的 , 所以是一种无监督学习 , 只需要预测的数据流的信息 。
在应用方面 , 预测编码可用于学习重叠图像组件、物体分类、视频预测、视频异常检测、偏向竞争(Bias competition)建模、灵长类视觉皮层的反应特性以及脑电图诱发的大脑反应健康问题 。 此外 , 它还被提出作为新皮层功能的统一理论 。
到目前为止 , 在深度学习架构中构建大型的预测编码模型的示例非常少见 , 最著名的为文献 [3] 中提出的 PredNet 模型 , 我们会在文章中对其进行介绍 。 大多数预测编码模型都是在深度学习框架出现之前实现的 , 所以这些经典的模型规模都很小 , 而且都没有专门的时间处理模块 。

推荐阅读