Stable Diffusion 4.0 正式发布:搭载原生多模态架构与3D网格生成,推理速度提升400%

AI资讯 · 7 阅读 · 2026-05-24 · 自动采集
2025年3月15日,Stability AI在毫无预告的情况下正式发布Stable Diffusion 4.0(以下简称SD4.0),一次性开源了从800M到15B参数的多个模型规模。根据Stability AI官方博客披露的技术白皮书,SD4.0并非简单迭代,而是在架构层面进行了三项根本性重构:首次将多模态扩散变换器(MMDiT)与原生3D网格分支融合进同一个推理管线、引入字符级文本编码器以实现精准字形生成,以及通过混合专家路由(MoE)将推理延迟压缩到此前的四分之一。

SD4.0最直观的突破体现在文本渲染能力。此前Stable Diffusion 3虽通过规模更大的T5-XXL文本编码器改善了单词拼写,但在中文、日文等非拉丁字符集上依旧频繁出现笔画错乱与缺字。据Stability AI技术团队公布的内部评测数据,SD4.0中专门设计的“GlyphAlign”模块将中英文混合文本的字符准确率从SD3 Medium的58%提升至96%。总部位于柏林的设计软件公司Repper在拿到提前测试版本后,对最长可达200个字符的产品包装文案进行了批量生成,错误率不足1%。这意味设计师可以直接在控制台输入“盛夏白桃乌龙茶·冷泡限定”等复杂短语,模型能一次性输出文字无畸变、排版合理的包装视觉稿。

另一个引发行业热议的特性是原生3D网格生成。SD4.0不再依赖额外插件或后处理,可直接输出带纹理的OBJ/FBX三维模型。Stability AI首席科学家蒂姆·布鲁克斯(Tim Brooks)在发布视频中演示:输入“蒸汽朋克风格的皮质飞行头盔,带有铜质铆钉与护目镜”,约1.8秒即可生成一个面数达2万面的mesh,且PBR材质贴图一同导出。此举将显著压缩游戏资产、电影预演等环节的制作时间。游戏引擎公司Unity第一时间宣布已适配SD4.0输出的3D文件,并将在2025.1版本中提供一键导入插件。

性能方面,SD4.0在模型体积扩大近一倍的前提下,推理速度反而大幅提升。技术白皮书指出,这得益于动态MoE路由策略——推理时仅激活约20%的专家子网络。以15B参数的“SD4.0 Ultra”为例,在单张NVIDIA H100 GPU上生成一张2048×2048分辨率图像仅耗时1.2秒,而同等条件下SD3 Large需要4.9秒。对于实时交互场景,模型还提供步进式蒸馏版本,可在0.3秒内渲染预览,使在线AI绘画工具的流畅度跃升至新层次。

值得关注的是,SD4.0首次整合了视频帧扩展能力。用户上传起始帧与结束帧,模型能够插值出16帧过渡画面,并支持简单的摄像机运动描述,如“镜头从咖啡杯缓慢拉远至整个咖啡馆”。尽管最高分辨率暂锁定在1024×576,但这一特性已基本满足短视频创作者的转场需求。视频剪辑应用CapCut的相关集成测试已在TikTok母公司字节跳动的内部渠道展开。

许可协议方面,SD4.0沿用改进后的Stability AI社区许可,允许年收入低于100万美元的个人及中小团队免费商用,超过门槛的企业则需购买授权。开放模型社区Hugging Face在发布后6小时内上架了全部权重,下载量迅速突破30万次。AI行业分析师张楠指出:“SD4.0将文本精准度、3D输出和推理速度打包在一个开源模型中,实际上是向闭源商业工具宣战。Adobe Firefly和Midjourney若不能及时回应,很可能在专业设计市场丢失话语权。”

不过,AI安全团体“合成媒体问责联盟”随即发表声明,指出原生3D生成会降低深度伪造的复刻门槛,呼吁Stability AI加入内容出处与真实性联盟(C2PA)标准并为所有输出嵌入不可篡改的元数据。Stability AI回应称,SD4.0已内置数字水印,并将在后续更新中引入来自相机厂商的防伪签名技术。

目前,SD4.0的消费端应用已先行登陆DreamStudio及支持ComfyUI的自定义节点。从架构革新到应用落地,Stable Diffusion 4.0在文本、图像、三维与视频四个维度上的原生融合,或将重新定义AIGC工具链的竞争格局。

🔌 需要 AI API?

国内直连 Claude/GPT/DeepSeek,支付宝充值,5分钟接入

查看中转推荐 →