Runway Gen-4深度实测：长视频物理一致性飞跃，光影与人物仍有“机械感”硬伤

AI资讯 · 1 阅读 · 2026-05-24 · 自动采集

4月22日，人工智能视频生成赛道再掀波澜——Runway正式向全体付费用户推送了其第四代视频生成模型Gen-4。距去年6月Gen-3 Alpha发布仅10个月，这家纽约初创公司以“世界模型”为旗号，将单段视频生成时长从10秒提升至最高40秒，并首次实现原生4K分辨率输出，直接对标同期内测的OpenAI Sora。据Runway官方博客披露，Gen-4基于全新扩散Transformer架构，视频帧率达到24fps，支持16:9及竖屏比例，且一次性生成无拼接。自4月10日起的首批内测用户数据，以及多家第三方评测机构的对比测试，正在拼出这款模型的全貌。

首先，时长与分辨率的突破是Gen-4最直观的升级。在《AI Video Review》进行的标准测试中，一段关于“蒸汽火车穿越秋日山谷，镜头缓慢环绕”的提示词，Gen-4生成了一段32秒连贯视频，火车运动轨迹自然，蒸汽飘散方向符合物理规律，画质达到3840×2160且无明显块状伪影。相比之下，Gen-3 Alpha最长仅10秒，且放大后细节丢失严重。该评测平台给出的“长视频一致性”得分高达8.9/10，较前代提升67%。同时，Runway发言人向科技媒体《TechCrunch》证实，模型推理10秒片段约需90秒，40秒片段则耗时逾5分钟，速度虽未颠覆，但稳定性远超测试版Sora的多段拼接方案。

物理世界模拟是Gen-4的另一个主打能力。Runway在宣传中强调“理解三维空间与物体恒常性”。评测网站《No Film School》使用同一组提示词“瓷花瓶从桌面滑落，砸碎在地板上，碎片四溅”进行横向对比：Gen-4表现出正确的重力加速度和碎片反弹轨迹，碎瓷形状随碰撞角度变化，地面反射也实时更新；而Gen-3 Alpha的花瓶“飘落”感明显，碎片往往消失于半空。然而，评测者指出，当移动物体与液体交互时，如水杯倾倒液体的粘滞感、波浪溅起的泡沫细节，Gen-4仍频繁出现“粘稠液体突然蒸发”或“浪花化为软体”的错误，物理一致性仅停留在刚体层面。Runway研究团队在技术白皮书中承认，流体模拟是下一阶段攻坚重点。

人物生成向来是AI视频的“恐怖谷”重灾区。据影视行业评测社区《CineD》的深度测评，Gen-4的人物面部稳定性和肢体动作连贯性显著提升。在“一位穿红裙的舞者在哥特式教堂内旋转，自然光从彩窗透入”的提示下，舞者手指关节无畸形，裙摆褶皱随动作变化合理，且在整个30秒片段中面部特征保持一致，未出现五官漂移。但测试者也捕捉到多处“机械感”：眨眼频率不自然，微表情缺失，多人物互动时眼神和朝向偶发错位。Runway产品总监在线上发布会回应称，Gen-4引入了“人物锚定”机制，可将上传的肖像图作为多镜头参考，但公开模型仍禁止生成公众人物写实视频，且所有生成内容均嵌入C2PA元数据水印，以应对深度伪造担忧。

从文本遵循度与镜头控制看，Gen-4新增了“导演模式”。用户可通过自然语言指定摄像机运动，如“希区柯克式变焦”“缓慢推轨从左至右”，并调节运动幅度。评测机构《The Decoder》实测发现，对于简单镜头，如“围绕主体360度环绕拍摄”，模型能精确执行，旋转轴心几乎不偏移；但当提示涉及多个连续运镜转折时，如“先推近人物眼睛，再急速拉远展示整个战场”，Gen-4有约30%的概率出现运镜跳跃或中途停滞，显示多意图理解仍有瓶颈。相比之下，同期竞品Kling 1.6在复杂镜头运动上更为丝滑，但画质和时长逊色。

生成速度和价格方面，根据Runway官网公布，付费计划最低每月12美元，含625点额度，Gen-4生成一次40秒4K视频约消耗500点，实际成本约为9.6美元/条；而Gen-3 Alpha同规格需多次生成拼接，总成本几乎翻倍。不过，最高画质目前仅限桌面端，移动端只能输出720p预览。多位独立开发者在社交媒体X上反馈，Gen-4的API接口延迟较高，尚不适合实时交互应用。

总体而言，Gen-4标志着AI视频生成从“可玩”向“可用”的关键一跃。其长视频一致性、物理模拟和原生高分辨率彻底拉开了与自身前代的差距，但与Sora等竞品的较量仍处于互有胜负的胶着状态——Gen-4在真实世界物理上占优，Sora在创意视觉与多镜头想象力上更天马行空。行业分析师预测，2025年底将成为AI视频工具从尝鲜到进入商业广告、短视频剧集的前夜，而Runway此时交付的Gen-4，无疑为这场竞赛投下一颗重磅炸弹。

Runway Gen-4深度实测：长视频物理一致性飞跃，光影与人物仍有“机械感”硬伤

相关推荐