英伟达推出PiD图像生成技术：低显存下极速生成高分辨率图像

英伟达公司的最新研究成果是名为PiD的图像生成技术。这项技术在普通消费级RTX 5090显卡上表现出色，仅需13GB的峰值显存，即可在极短时间内把512×512像素的原始图像潜在变量解码并放大至2048×2048像素的清晰图像，整个过程耗时不到一秒。

根据团队的博文介绍，传统的高分辨率文本生成图像流程一般是先在模型的潜在空间中生成基础内容，再通过解码器将其还原为具体图像。潜在空间是图像经过模型压缩后的数值表示，它保留了图像的主要结构和语义信息，省略了大量的像素细节，从而显著降低了计算负荷。

这种处理方式虽然计算效率较高，但传统的解码器主要擅长复原原始编码器的输出，对于主动补充高分辨率图像的纹理和细节并不擅长。因此，在处理百万像素级别的图像时，其速度和图像质量都面临明显的挑战。

英伟达提出的PiD，其全称为Pixel Diffusion Decoder（像素扩散解码器），重新定义了潜在解码过程，将其视作一种条件式像素扩散。它将图像的解码和上采样功能整合到同一个生成模块中，使得在输出阶段能有效地补充丰富的纹理、结构和局部细节。

条件式像素扩散是一种在像素层面上逐步生成图像的方法，它的生成并非无限制的，而是会根据额外的输入信息来约束最终结果。

PiD的开发基础是PixelDiT模型，并额外引入了一个轻量级的ControlNet风格适配器。这个适配器能将带有噪声的潜在表示注入到模型中，并通过一种与西格玛相关的门控机制，根据噪声的强度动态调整模型对潜在表示的信任程度。

为了进一步缩短处理延迟，研发团队还采用了DMD2蒸馏技术，将推理所需的步骤缩减至4步。配合早期停止机制，PiD在保证输出质量的同时，也显著提升了处理速度。

PiD不仅能兼容传统的VAE（变分自编码器）潜在变量，还支持近期流行的RAE路线中使用的语义潜在变量，例如SigLIP和DINOv2，这使得它具有广泛的适用性。

数据显示，PiD可以将512×512像素的潜在图像变量直接解码并放大到2048×2048像素。在消费级RTX 5090显卡上，它仅需要13GB的峰值显存，并在不到1秒的时间内完成。而在GB200 GPU上，最快的生成速度可达到210毫秒。

与现有的级联式扩散超分辨率方案相比，PiD的端到端延迟最高可加快5.9倍，在一些情况下甚至可以达到约6倍的速度提升，同时其视觉保真度也更加出色。