StyleGAN 架构是生成高质量图像的好方法,但它缺乏精确控制相机姿势的能力。最近基于 NeRF 的生成器在创建真实结果方面取得了进展,因为它们无法生成逼真的图像。

华为和上海交通大学的研究人员开发了CIPS-3D,一种独立合成每个像素值的方法,就像它的 2D 版本一样。

所提出的生成器由一个浅层 3D NeRF 网络组成,该网络经过简化以减轻内存复杂性,并且具有深度 2D INR(隐式神经表示)网络的能力,无需任何空间卷积或上采样操作。所提出的生成器的设计与 GAN 众所周知的语义分层原则一致,其中早期层(即生成器中的浅层 NeRF 网络)确定姿势和中/高(即生成器中的 INR 网络)控制配色方案:早期的 NeRF 网络使研究团队能够轻松明确地控制相机姿势。

CIPS-3D 存在镜像对称问题,该问题也存在于其他 3D 感知 GAN 中,例如 GIRAFFE 和 StyleNeRF。该研究解释了为什么会发生这种情况,而不是简单地将其归因于数据集偏差。研究小组通过向网络添加辅助鉴别器解决了这个问题。提出了部分梯度反向传播作为以高分辨率训练 CIPS-3D 的训练策略。

研究人员在高分辨率人脸数据集上验证了 CIPS-3D 的优势,包括 FFHQ、MetFaces、BitmojiFaces、CartoonFaces 和动物数据集 AFHQ。详细信息可以在研究论文和 Github 中找到。链接如下。

论文:https://arxiv.org/pdf/2110.09788.pdf

Github:https://github.com/PeterouZh/CIPS-3D

发表评论