看了很多文章 still 不懂Stable Diffusion原理？问题可能出在潜空间理解

总看不懂Stable Diffusion原理？这篇文章从潜空间、VAE、U-Net到完整生成流程，系统讲清底层逻辑与实操参数，帮你真正建立可用理解框架，立即收藏阅读。

常见问题

Stable Diffusion为什么不直接在原始图片像素上生成？

因为像素空间维度很高，直接做扩散会显著增加训练与推理成本。Stable Diffusion先用VAE把图像压缩到潜空间，再在更低维的latent上进行去噪生成，这样既提高效率，也让普通显卡具备可运行性。

理解Stable Diffusion原理时，VAE和U-Net哪个更关键？

两者缺一不可。VAE负责把图像压缩到潜空间并在最终阶段解码还原，决定模型在哪个空间工作；U-Net则是核心生成网络，负责每一步预测噪声并更新latent。真正理解Stable Diffusion原理，必须把二者放在同一条流程里看。

为什么我改了prompt，生成结果还是经常不稳定？

因为结果不只由prompt决定，还受到seed、CFG、采样器、步数和模型权重共同影响。prompt负责提供语义方向，但初始噪声会改变构图路径。建议先固定seed观察prompt差异，再逐步调整CFG和采样器，定位影响来源会更高效。