Runway Gen-4深度实测:长视频物理一致性飞跃,光影与人物仍有“机械感”硬伤

AI资讯 · 1 阅读 · 2026-05-24 · 自动采集
4月22日,人工智能视频生成赛道再掀波澜——Runway正式向全体付费用户推送了其第四代视频生成模型Gen-4。距去年6月Gen-3 Alpha发布仅10个月,这家纽约初创公司以“世界模型”为旗号,将单段视频生成时长从10秒提升至最高40秒,并首次实现原生4K分辨率输出,直接对标同期内测的OpenAI Sora。据Runway官方博客披露,Gen-4基于全新扩散Transformer架构,视频帧率达到24fps,支持16:9及竖屏比例,且一次性生成无拼接。自4月10日起的首批内测用户数据,以及多家第三方评测机构的对比测试,正在拼出这款模型的全貌。

首先,时长与分辨率的突破是Gen-4最直观的升级。在《AI Video Review》进行的标准测试中,一段关于“蒸汽火车穿越秋日山谷,镜头缓慢环绕”的提示词,Gen-4生成了一段32秒连贯视频,火车运动轨迹自然,蒸汽飘散方向符合物理规律,画质达到3840×2160且无明显块状伪影。相比之下,Gen-3 Alpha最长仅10秒,且放大后细节丢失严重。该评测平台给出的“长视频一致性”得分高达8.9/10,较前代提升67%。同时,Runway发言人向科技媒体《TechCrunch》证实,模型推理10秒片段约需90秒,40秒片段则耗时逾5分钟,速度虽未颠覆,但稳定性远超测试版Sora的多段拼接方案。

物理世界模拟是Gen-4的另一个主打能力。Runway在宣传中强调“理解三维空间与物体恒常性”。评测网站《No Film School》使用同一组提示词“瓷花瓶从桌面滑落,砸碎在地板上,碎片四溅”进行横向对比:Gen-4表现出正确的重力加速度和碎片反弹轨迹,碎瓷形状随碰撞角度变化,地面反射也实时更新;而Gen-3 Alpha的花瓶“飘落”感明显,碎片往往消失于半空。然而,评测者指出,当移动物体与液体交互时,如水杯倾倒液体的粘滞感、波浪溅起的泡沫细节,Gen-4仍频繁出现“粘稠液体突然蒸发”或“浪花化为软体”的错误,物理一致性仅停留在刚体层面。Runway研究团队在技术白皮书中承认,流体模拟是下一阶段攻坚重点。

人物生成向来是AI视频的“恐怖谷”重灾区。据影视行业评测社区《CineD》的深度测评,Gen-4的人物面部稳定性和肢体动作连贯性显著提升。在“一位穿红裙的舞者在哥特式教堂内旋转,自然光从彩窗透入”的提示下,舞者手指关节无畸形,裙摆褶皱随动作变化合理,且在整个30秒片段中面部特征保持一致,未出现五官漂移。但测试者也捕捉到多处“机械感”:眨眼频率不自然,微表情缺失,多人物互动时眼神和朝向偶发错位。Runway产品总监在线上发布会回应称,Gen-4引入了“人物锚定”机制,可将上传的肖像图作为多镜头参考,但公开模型仍禁止生成公众人物写实视频,且所有生成内容均嵌入C2PA元数据水印,以应对深度伪造担忧。

从文本遵循度与镜头控制看,Gen-4新增了“导演模式”。用户可通过自然语言指定摄像机运动,如“希区柯克式变焦”“缓慢推轨从左至右”,并调节运动幅度。评测机构《The Decoder》实测发现,对于简单镜头,如“围绕主体360度环绕拍摄”,模型能精确执行,旋转轴心几乎不偏移;但当提示涉及多个连续运镜转折时,如“先推近人物眼睛,再急速拉远展示整个战场”,Gen-4有约30%的概率出现运镜跳跃或中途停滞,显示多意图理解仍有瓶颈。相比之下,同期竞品Kling 1.6在复杂镜头运动上更为丝滑,但画质和时长逊色。

生成速度和价格方面,根据Runway官网公布,付费计划最低每月12美元,含625点额度,Gen-4生成一次40秒4K视频约消耗500点,实际成本约为9.6美元/条;而Gen-3 Alpha同规格需多次生成拼接,总成本几乎翻倍。不过,最高画质目前仅限桌面端,移动端只能输出720p预览。多位独立开发者在社交媒体X上反馈,Gen-4的API接口延迟较高,尚不适合实时交互应用。

总体而言,Gen-4标志着AI视频生成从“可玩”向“可用”的关键一跃。其长视频一致性、物理模拟和原生高分辨率彻底拉开了与自身前代的差距,但与Sora等竞品的较量仍处于互有胜负的胶着状态——Gen-4在真实世界物理上占优,Sora在创意视觉与多镜头想象力上更天马行空。行业分析师预测,2025年底将成为AI视频工具从尝鲜到进入商业广告、短视频剧集的前夜,而Runway此时交付的Gen-4,无疑为这场竞赛投下一颗重磅炸弹。

🔌 需要 AI API?

国内直连 Claude/GPT/DeepSeek,支付宝充值,5分钟接入

查看中转推荐 →