Normal view

There are new articles available, click to refresh the page.
Today — 1 June 2026Main stream

世界模型赛道,VAST 选了一条还没有人走过的路

By: 张子豪
1 June 2026 at 17:05

今年除了 Agent 赛道,世界模型也成为 AI 行业新的必争之地,前段时间李飞飞和杨立昆相继宣布获得 10 亿美元融资,世界模型也走到了一个十字路口。

APPSO 曾分析过当前世界模型的五大门派,它们有着不同的技术路线,如杨立昆的 JEPA 派,是做抽象表征预测;李飞飞的空间智能派,用 World Labs 的 Marble 在做显式 3D 重建;DeepMind 的学习型仿真派,推出 Genie 实现可交互虚拟环境等。

▲ 图片由 AI 生成

这些早在 ChatGPT 出现前的 AI 学者,甚至是 AI 教父/教母,都在说大语言模型的文本训练范式已到瓶颈,AI 要理解物理世界必须靠世界模型,但到底要做什么样的「世界模型」,没有一个达成共识的定义

这几天,AI 公司 VAST 完成了 A+ 及 A++ 轮的融资,合计金额近 2 亿美元。而在今年三月初,VAST 才完成了 5000 万美元的 A 轮融资。

提到 VAST,可能会有点陌生,但是 Tripo 3D 生成是不是很耳熟?我们之前分享的 Seedance 2.0 x GPT Image 2 两大模型的组合玩法,就曾多次提到过利用 Tripo AI 将 GPT Image 2 生成的多视角图片,转成一个 3D 模型。

▲ Tripo 是 VAST 旗下的通用 3D 大模型

VAST 首席科学家曹炎培表示,从第一天开始,VAST 真正在做的,就是解锁下一代互动内容的底层基础设施,也是为通用人工智能打造专属世界底座。

这件事被拆成了两步,第一步完成 「造万物」;第二步实现动态 「造世界」,为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物,是用 AI 3D 生成那些符合管线标准的资产;造世界,才是世界模型要干的事,理解空间尺度、状态演化,从而支持多人交互。

单纯的 3D 静态资产撑不起一个可交互的世界,曹炎培认为,资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。

和五大门派都不一样的地方在于,过去的世界模型把状态和画面压在一个模型里一起预测,VAST 把这两件事拆开,底层单独维护一个世界状态,上层按需渲染画面

这样做的好处是,状态独立存在,物体离开镜头不会消失;一个状态可以同时给多个人渲染不同视角,多人交互并发自然成立;用户对世界的改变会真实留在状态里,下一个进来的人看到同样的结果。

VAST 推出的 Project Eden,正是用这套逻辑把世界模型重做了一遍。它也成为全球首个允许对世界状态进行独立维护与确定性控制的世界模型。

那问题也来了,世界模型的状态和画面为什么要拆开,又为什么是 VAST 先采取这样的方式?

画面流畅不等于世界在运转

视频生成做得更流畅,可以叫世界模型。静态 3D 场景能走动,叫世界模型。能控制视角,也能叫世界模型。

世界模型这个词,似乎什么都能往里装了。

Google Genie 的演示视频里,玩家在里面操控一个角色,往前走,画面跟着生成。但可能一转身,背后的场景就改变了,或者出现从没存在过的东西,因为 Genie 是靠最近几帧的记忆猜我们身后有什么。

▲ Genie 这一类世界模型,本质上是生成了一段视觉上连贯的视频

我们把这一类称为视频生成派,在他们的技术实现里,世界模型就是预测下一帧,给模型喂动作输入,让它生成接下来的画面,反复接龙,就能模拟一个世界。

曹炎培管这种叫「一镜到底」,空间、事件、视角、外观全被压进一段自回归视频的历史帧里。镜头一移开,那个位置的状态没人保管,等你回头,模型只能靠 Transformer 里的 KV cache 重新幻想一遍。

说白了,它记住的不是世界,是几帧画面。

而另一类是李飞飞的 World Labs、腾讯的 HY World,可以被称为空间智能派,能够导出可复用的 3D 资产是这类模型最常见的特征。

他们尝试先把三维空间构建出来,让 AI 真正理解几何和物理关系,再谈其他。

例如,World Labs 的 Marble 能生成一段有限范围的世界,我们可以在里面自由游览。在这个生成的固定世界里,视角一致性解决了,因为 3D 资产是静态的。但同时,这个世界也丢失了时间维度,场景永远停在生成那一刻,没有物理变化,没有事件发生,没有因果关系。

▲ 生成的世界是固定的,灯不会随着时间的流逝熄灭,天也不会亮

我们能走进去,但什么都改变不了,也没有什么会因为我们的行为而变化。

对 VAST 来说,世界模型不能只是去生成像素,也不能只是一个静态空间。

一个可交互的世界模型,必须有一个跨时间持续存在、能被多视角同时观察和查询的底层状态,而且这个状态是在不断被更新的。

像做大世界游戏一样做世界模型

既然无法把空间、事件、视角等状态压缩进单一的视觉信息里,那就彻底把它们拆开。

就像我们玩的大世界游戏一样,游戏的服务器会维护着一套世界状态,谁在哪里、什么东西被打坏了、哪个宝箱被开启了。我们的电脑屏幕只是基于这套状态,结合本地文件夹里上百 G 的游戏文件,做一次实时渲染。

地图数据和画面渲染是两套完全分开的系统,有人进入我们的大世界,大家还是共享同一个静态文件的底层世界,各自的画面只是不同视角的渲染结果。

VAST Project Eden 做的,就是把这套逻辑用生成式 AI 重写一遍。他们放弃了传统模型大一统的黑盒逻辑,设计了一套「状态与渲染原生解耦」的三层算法结构。

底层是结构化状态,管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑,完全独立于任何相机视角。当玩家在世界模型里做出任何行为动作,系统首先更新的就是这套底层状态。

中间是转换层,它会根据「当前是谁在观察、从哪个视角观察」,把世界状态转换成一组局部条件信息。像是做了这个动作之后,这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。

上层才是生成式渲染,基于这些条件,把画面真正「画」出来,补足光照、材质、动态细节。

这么一分拆,视频模型的职责就只剩一件事:当一个高质量的渲染器。它不用记住整个世界,也不用猜某个物体还在不在,那些都交给底层状态。它擅长的本来就是画得好看,现在让它专心画得好看就行。

当世界模型开始维护一个持续存在的底层状态后,训练数据也跟着变了。

在 Project Eden 的定义里,真正适合训练世界模型的数据,得同时包含两层信息:底层的推演状态,和高质量的视觉画面。两层对不齐,就不算「原生数据」。

数据从哪来?

VAST 利用 Tripo 长期积累的 3D 基础模型能力,对海量的互联网 2D 视频进行反向解构,恢复深度、相机位姿、几何轨迹等信息,重新还原背后的空间状态。

曹炎培直言,如果没有这套 3D 理解和生成能力,「我们可能都没法开始做世界模型」。

另一方面,从游戏引擎中找到物体坐标、碰撞关系、动作输入等合成数据,形成「状态-结果」的完全对应数据,模型便能学到,一个动作发生之后,世界状态会如何演化。

互联网视频负责泛化和广度,引擎数据负责精准和控制,缺了哪一头都不成立。

这或许是未来的 AI 世界

当世界状态成为一个持续存在的独立系统后,这种架构层面的差异,在能力层面直接体现出来。

最明显的变化就是环境持久化。用户在 Project Eden 里进入一个场景,往前走或是做出其他动作,都是在原有的场景上进行活动。底层状态一直在那里,从没消失过,不需要从历史帧重建。

这件事听起来平淡,对视频生成路线却是一道至今难以迈过的坎。

多人共享同一个世界,也是同样的道理。两个玩家进入同一个底层状态,玩家 A 推动箱子到达了点位,玩家 B 看到的也是同步的箱子位置。在这套解耦架构里,多个玩家共享的是同一个世界底座,状态只有一份,渲染各算各的。

根据一些 Demo 的表现,VAST 已经跑通了两个玩家共同推箱子、两辆赛车在同一赛道竞速(不同屏幕)的场景。在纯视频框架下,几乎没有办法做这件事,它必须依靠一个唯一的全局状态。

打靶的例子更能说明问题。当玩家用水枪发射,系统可以确定性地判断当前朝向和靶子的相对位置,精确计算是否击中,记录得分,这个结果永久留在状态里。

同样一件事丢给视频生成,它能生成一段「水柱击中靶子」的画面,却无法把这个结果可靠地存下来。

视频生成模型擅长的是像不像,不是对不对。世界模型要的恰恰是后者,曹炎培说,一个模型如果没法对动作做出正确的预测和推演,「也很难叫它世界模型」。

还有动作类型的泛化。以往大多数世界模型能支持的动作,说白了就是上下左右加跳跃,方向键能做的那几种。

在 Project Eden 的 Demo 里还有赶羊、灭火、划船这类动作。这背后同样是解耦架构带来的训练效率优势,状态推演只需要学「给定这个动作,下一个状态是什么」,不用同时学「这个过程看起来怎样」,比搅在一起学省力得多。

这些能力拼在一起,才像一个真正在运转的世界,而不是一段画质很高的动态视频。

Eden 的架构,为世界模型提供了新可能

虽然 Project Eden 只是 VAST 团队提出的一次世界模型研究预览,但其背后的架构选择,为行业提供了一条值得长期关注的探索方向。

世界模型这个词现在人人都在说,但说的不是同一件事。谁能做持久化、谁能做多人、谁能高效拓展,除了有算力和融资量的因素,路线本身也在筛选玩家。

纯视频路线的世界模型,消耗的算力可能是生成一段 Sora 视频的成百倍,结局可能会像 Sora 一样在商业上此路不通。

但如果状态维护放云端,画面渲染做到端侧,像本地图形渲染一样,用户不必为每一帧付费,事情就不一样了。

VAST 提到他们现有的 3D 生成技术积累,恰好是训练世界模型数据的核心来源。用 3D 基础模型能力对海量互联网视频进行反向解构,提取深度和几何轨迹,把普通视频转化成带状态标注的训练数据。

而随着 Project Eden 的推进,在未来,随着多人并发问题在工程层面进一步解决,它或许还将颠覆现有的传统 DCC 工具,如 Blender,与类似 UE、Unity 等游戏引擎。

世界模型将不再按单次生成收费,是作为基础设施在内容分发、运行时进行,类似游戏引擎或云服务商的座席模式。

一方面,它是一个 AI 原生的沙盒平台,用户只需要通过自然语言或简易动作,就能一键创作出可供多人共享的、具备物理逻辑的互动数字世界,极大地降低了内容创作的门槛。

VAST 想做的,是把造世界这件事的门槛,压到拍照那么低。类似于 UGC 互动内容平台,生成的世界也可能像短视频一样进入我们的生活,成为新的互动娱乐生态。

另一方面针对科研和产业,它能够提供具备完整物理规则、长时序一致性、且可自由干预的仿真环境,能成为适配具身智能训练与性能评测的高质量仿真基座。

世界模型,就这样越来越接近一个真正持续运转的世界底座。

曹炎培在内部把路线划成三个里程碑:

第一步,验证状态推演和画面呈现真能完美解耦,Project Eden 放出的 Demo 就是在交这份答卷;

第二步,攻克状态预测的泛化,让模型对「弹指打碎一面墙」这种泛化的动作也能推演出自洽的结果;

第三步,才是多人并发和推理成本这些工程上的硬骨头。至于真正的商业化,他预计是一件非常中长期的事。

与最早人们还会争论 AI 生成的图片/视频像不像,到现在 AI 可以一次性直出,海报、宣传视频,AI 都能搞定这件事一样,世界模型大概也在这条路上,从谁的画面更真实,变成谁的世界能够持续运转、更稳定承载多人交互,以及沉淀越来越多用户创造的内容。

从预测下一帧像素,到推演下一个状态,世界模型的终点开始清晰了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌