Midjourney V6.1全面推送,SD3开源争议与DALL·E 3多模态进化:AI图像生成2024年中战报

AI资讯 · 6 阅读 · 2026-05-23 · 自动采集
2024年8月,人工智能图像生成赛道再度升温。三大主力工具——Midjourney、Stable Diffusion与DALL·E——相继在版本更新、开源策略与生态整合上展开角力,各自的技术路线与商业逻辑变得愈发清晰。

7月31日,Midjourney通过其官方Discord频道宣布,V6.1版本正式向所有订阅用户推送。据创始人David Holz披露,此次更新重点解决了长期困扰用户的伪影(artifacts)、皮肤纹理失真以及文字渲染不准确等问题。在图像一致性方面,新模型特别强化了手、脚、肢体等部位的生成质量,以往常见的“六指畸形”与不自然关节弯曲大幅减少。Midjourney V6.1还将默认的画面锐度与色彩对比度提升至更接近专业摄影后期的水平,同时新增了“–q 2”模式,允许用户消耗双倍GPU时间以换取更细腻的纹理细节。此举被多位设计师评价为“将AI出图直接推进到商业交付标准”。目前,Midjourney在Discord上的社区成员已超2100万,年收入据业界估算突破3亿美元,且公司始终保持仅数十人的精干团队,全部以订阅制实现盈利,未进行任何外部融资。进入2024年,Midjourney还启动了脱离Discord的Alpha网页版测试,用户可于官网直接生成图像,进一步降低使用门槛。

与此同时,一度被视为开源社区旗帜的Stable Diffusion却陷入新一轮争议。6月12日,Stability AI在经历数度延迟后,终于开源了Stable Diffusion 3 Medium模型,参数量为20亿。然而,据开源平台Hugging Face与Reddit上的开发者反馈,SD3 Medium在生成人体姿态时出现严重变形,甚至被用户调侃为“瑜伽灾难片”——在提示词要求人物平躺草地的场景中,模型经常错误地将躯干扭结、四肢错位。此外,Stability AI对SD3 Large和更高版本施加了非商业许可收费,仅免费开放中等规模模型,令大量长期支持开源生态的创作者感到失望。公司本身也处在剧烈动荡之中:创始人Emad Mostaque于3月辞去CEO职务,随后裁员约10%。知情人士透露,Stability AI因算力成本高企与营收未达预期,正面临严峻的现金流压力。尽管其主导的Stable Diffusion生态仍被广泛用于本地部署与定制化工作流,尤其是借助ComfyUI等节点式界面,但不少专业工作室已将主力模型回退至SDXL或转向Flux等新兴替代品。

DALL·E则依托OpenAI的生态优势走出了一条截然不同的路径。自2023年10月DALL·E 3集成进ChatGPT Plus以来,自然语言交互式图像生成迅速获得海量用户。用户无需记忆复杂的参数与负面提示词,只需用日常对话描述需求,模型即可自动改写为详细的绘图指令。2024年5月,OpenAI在春季发布会上演示了GPT-4o的多模态能力,其中包含对DALL·E生成图像进行实时编辑与风格转换的原型功能。尽管该功能尚未全面开放,但8月中旬OpenAI已开始向部分免费版ChatGPT用户提供每月有限的DALL·E生成额度,被外界视为DALL·E用户规模扩张的关键信号。此外,微软将DALL·E技术深度嵌入了Designer应用与Bing图像创作器,使其成为Office生态中的默认AI配图引擎。相较于纯粹追求艺术性的对手,DALL·E在安全护栏上投入了更多资源,所有生成图像均会嵌入C2PA内容凭证,并拒绝生成公众人物面部或暴力敏感内容。这种偏向企业级合规的策略,正吸引大量品牌客户。

三强竞争的背后,法律与伦理的阴影始终未散。2024年8月12日,美国加州联邦法院就多位艺术家集体起诉Stability AI、Midjourney及DeviantArt案做出部分裁决。法官William Orrick驳回了部分次要指控,但允许核心的版权侵权与不正当竞争索赔继续庭审。原告认为,这些公司在未经许可的情况下,使用受版权保护的艺术作品训练模型,构成“21世纪的拼贴盗用”。被告方则以“合理使用”与“风格不受版权保护”作出抗辩。案件走向将对整个生成式AI产业产生深远影响,也促使各平台加速建立训练数据来源透明的机制。Stability AI已在SD3模型卡中标明部分训练数据集的来源,Midjourney则承诺将推出历史提示词追溯功能。

从市场格局观察,AI图像生成早已走出技术发烧友的小圈子,变为数字内容生产的基础设施。据科技市场分析机构Everypixel统计,截至2024年7月,全球由AI生成的图片累计已超过180亿张,相当于人类摄影师一个半世纪拍摄总量。而在这些天文数字背后,Midjourney凭借对艺术美学的极致追求固守付费阵地,Stable Diffusion通过开源生态维系着最庞大的开发者与模型微调社区,DALL·E则借力大语言模型的对话界面闯入亿万消费者的日常工作流。三种截然不同的生存范式究竟谁能走得更远,2024年下半程的技术演进与司法裁决将给出初步答案。

🔌 需要 AI API?

国内直连 Claude/GPT/DeepSeek,支付宝充值,5分钟接入

查看中转推荐 →