高噪声扩散阶段仅包含低分辨率信息——全分辨率处理纯属算力浪费

背景

传统的扩散模型在整个去噪过程中都以固定的分辨率处理图像。无论图像是一团混沌的噪声，还是即将完成的杰作，UNet 架构都在处理相同数量的像素。研究人员长期以来怀疑这是低效的，特别是在确定结构布局早于细节浮现的“高噪声”早期阶段。

Flexi-UNet 论文证明，高噪声扩散阶段从根本上只包含低分辨率信息。通过将处理分辨率与每个阶段的实际信息密度相匹配，研究人员在最终图像质量零损失的情况下，实现了总计算量减少 40%。随着去噪进度从全局结构向局部细节移动，模型有效地“增长”了分辨率。

研究人员引入了一种分辨率自适应调度器，在正向和反向过程中动态调整潜变量的大小。在早期阶段（t > 0.7），模型以目标分辨率的 1/4 运行。随着噪声水平下降，调度器触发“分辨率提升”，允许 UNet 仅在细节开始在潜空间中实际显现时，才将参数集中在精细纹理上。

对于生成式 AI 行业来说，这证实了当前架构在任务处理上存在过度配置。实施分辨率自适应处理可以允许移动设备在本地运行高质量的扩散模型，或者使服务器端提供商大幅削减推理成本。它将图像生成从“暴力”像素堆砌转向更具生物启发性的、分层重建的过程。