看了很多文章 still 不懂Stable Diffusion原理?问题可能出在潜空间理解
总看不懂Stable Diffusion原理?这篇文章从潜空间、VAE、U-Net到完整生成流程,系统讲清底层逻辑与实操参数,帮你真正建立可用理解框架,立即收藏阅读。
常见问题
Stable Diffusion为什么不直接在原始图片像素上生成?
因为像素空间维度很高,直接做扩散会显著增加训练与推理成本。Stable Diffusion先用VAE把图像压缩到潜空间,再在更低维的latent上进行去噪生成,这样既提高效率,也让普通显卡具备可运行性。
理解Stable Diffusion原理时,VAE和U-Net哪个更关键?
两者缺一不可。VAE负责把图像压缩到潜空间并在最终阶段解码还原,决定模型在哪个空间工作;U-Net则是核心生成网络,负责每一步预测噪声并更新latent。真正理解Stable Diffusion原理,必须把二者放在同一条流程里看。
为什么我改了prompt,生成结果还是经常不稳定?
因为结果不只由prompt决定,还受到seed、CFG、采样器、步数和模型权重共同影响。prompt负责提供语义方向,但初始噪声会改变构图路径。建议先固定seed观察prompt差异,再逐步调整CFG和采样器,定位影响来源会更高效。