Stable Diffusion 4.0 正式发布：搭载原生多模态架构与3D网格生成，推理速度提升400%

AI资讯 · 7 阅读 · 2026-05-24 · 自动采集

2025年3月15日，Stability AI在毫无预告的情况下正式发布Stable Diffusion 4.0（以下简称SD4.0），一次性开源了从800M到15B参数的多个模型规模。根据Stability AI官方博客披露的技术白皮书，SD4.0并非简单迭代，而是在架构层面进行了三项根本性重构：首次将多模态扩散变换器（MMDiT）与原生3D网格分支融合进同一个推理管线、引入字符级文本编码器以实现精准字形生成，以及通过混合专家路由（MoE）将推理延迟压缩到此前的四分之一。

SD4.0最直观的突破体现在文本渲染能力。此前Stable Diffusion 3虽通过规模更大的T5-XXL文本编码器改善了单词拼写，但在中文、日文等非拉丁字符集上依旧频繁出现笔画错乱与缺字。据Stability AI技术团队公布的内部评测数据，SD4.0中专门设计的“GlyphAlign”模块将中英文混合文本的字符准确率从SD3 Medium的58%提升至96%。总部位于柏林的设计软件公司Repper在拿到提前测试版本后，对最长可达200个字符的产品包装文案进行了批量生成，错误率不足1%。这意味设计师可以直接在控制台输入“盛夏白桃乌龙茶·冷泡限定”等复杂短语，模型能一次性输出文字无畸变、排版合理的包装视觉稿。

另一个引发行业热议的特性是原生3D网格生成。SD4.0不再依赖额外插件或后处理，可直接输出带纹理的OBJ/FBX三维模型。Stability AI首席科学家蒂姆·布鲁克斯（Tim Brooks）在发布视频中演示：输入“蒸汽朋克风格的皮质飞行头盔，带有铜质铆钉与护目镜”，约1.8秒即可生成一个面数达2万面的mesh，且PBR材质贴图一同导出。此举将显著压缩游戏资产、电影预演等环节的制作时间。游戏引擎公司Unity第一时间宣布已适配SD4.0输出的3D文件，并将在2025.1版本中提供一键导入插件。

性能方面，SD4.0在模型体积扩大近一倍的前提下，推理速度反而大幅提升。技术白皮书指出，这得益于动态MoE路由策略——推理时仅激活约20%的专家子网络。以15B参数的“SD4.0 Ultra”为例，在单张NVIDIA H100 GPU上生成一张2048×2048分辨率图像仅耗时1.2秒，而同等条件下SD3 Large需要4.9秒。对于实时交互场景，模型还提供步进式蒸馏版本，可在0.3秒内渲染预览，使在线AI绘画工具的流畅度跃升至新层次。

值得关注的是，SD4.0首次整合了视频帧扩展能力。用户上传起始帧与结束帧，模型能够插值出16帧过渡画面，并支持简单的摄像机运动描述，如“镜头从咖啡杯缓慢拉远至整个咖啡馆”。尽管最高分辨率暂锁定在1024×576，但这一特性已基本满足短视频创作者的转场需求。视频剪辑应用CapCut的相关集成测试已在TikTok母公司字节跳动的内部渠道展开。

许可协议方面，SD4.0沿用改进后的Stability AI社区许可，允许年收入低于100万美元的个人及中小团队免费商用，超过门槛的企业则需购买授权。开放模型社区Hugging Face在发布后6小时内上架了全部权重，下载量迅速突破30万次。AI行业分析师张楠指出：“SD4.0将文本精准度、3D输出和推理速度打包在一个开源模型中，实际上是向闭源商业工具宣战。Adobe Firefly和Midjourney若不能及时回应，很可能在专业设计市场丢失话语权。”

不过，AI安全团体“合成媒体问责联盟”随即发表声明，指出原生3D生成会降低深度伪造的复刻门槛，呼吁Stability AI加入内容出处与真实性联盟（C2PA）标准并为所有输出嵌入不可篡改的元数据。Stability AI回应称，SD4.0已内置数字水印，并将在后续更新中引入来自相机厂商的防伪签名技术。

目前，SD4.0的消费端应用已先行登陆DreamStudio及支持ComfyUI的自定义节点。从架构革新到应用落地，Stable Diffusion 4.0在文本、图像、三维与视频四个维度上的原生融合，或将重新定义AIGC工具链的竞争格局。

Stable Diffusion 4.0 正式发布：搭载原生多模态架构与3D网格生成，推理速度提升400%

相关推荐