模型|神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减( 二 )



具体来说 , 研究者提出了一个显式的体素表示方法 , 该方法基于一个不含任何神经网络的 view-dependent 稀疏体素网格 。 新模型可以渲染逼真的新视点 , 并利用训练视图上的可微渲染损失和 variation regularizer 对校准的 2D 照片进行端到端优化 。
他们把该模型称为 Plenoxel(plenoptic volume elements) , 因为它由稀疏体素网格组成 , 每个体素网格存储不透明度和球谐系数信息 。 这些系数被 interpolated , 以在空间中连续建模完整的全光函数 。 为了在单个 GPU 上实现高分辨率 , 研究者修剪了空体素 , 并遵循从粗到细的优化策略 。 虽然核心模型是一个有界体素网格 , 但他们可以通过两种方法来建模无界场景:1)使用标准化设备坐标(用于 forward-facing 场景);用多球体图像围绕网格来编码背景(用于 360° 场景) 。
模型|神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减
文章图片

Plenoxel 在 forward-facing 场景中的效果 。
模型|神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减
文章图片

Plenoxel 在 360° 场景中的效果 。
该方法表明 , 我们可以使用标准工具从反问题中进行逼真体素重建 , 包括数据表示、forward 模型、正则化函数和优化器 。 这些组件中的每一个都可以非常简单 , 并且仍然可以实现 SOTA 结果 。 实验结果表明 , 神经辐射场的关键要素不是神经网络 , 而是可微分的体素渲染器 。
框架概览
Plenoxel 是一个稀疏体素网格 , 其中每个被占用的体素角存储一个标量不透明度σ和每个颜色通道的球谐系数向量 。 作者将这种表征称为 Plenoxel 。 任意位置和观察方向上的不透明度和颜色是通过对存储在相邻体素上的值进行三线性插值并在适当的观察方向上评估球谐系数来确定的 。 给定一组校准过的图像 , 直接使用 training ray 上的渲染损失来优化模型 。 模型的架构如下图 2 所示 。
模型|神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减
文章图片

上图 2 是稀疏 Plenoxel 模型框架的概念图 。 给定一组物体或场景的图像 , 研究者在每个体素处用密度和球谐系数重建一个:(a)稀疏体素(Plenoxel)网格 。 为了渲染光线 , 他们(b)通过邻近体素系数的三线性插值计算每个样本点的颜色和不透明度 。 他们还使用(c)可微体素渲染来整合这些样本的颜色和不透明度 。 然后可以(d)使用相对于训练图像的标准 MSE 重建损失以及总 variation regularizer 来优化体素系数 。
实验结果
研究者在合成的有界场景、真实的无界 forward-facing 场景以及真实的无界 360° 场景中展示了模型效果 。 他们将新模型的优化时间与之前的所有方法(包括实时渲染)进行了对比 , 发现新模型速度显著提升 。 定量比较结果见表 2 , 视觉比较结果如图 6、图 7、图 8 所示 。

推荐阅读