作为半个3D世界模型区博主,
我开始期待做出来的AI视频都能像iphone拍的空间视频一样,啪一下转成3D世界,戴上各种VR,AR,XR眼镜,就可以走进实时反馈的真实世界。
月初Google Deepmind发布的Genie3真的有种游戏世界写进现实的感觉,
坏消息是Genie3只有内测版,放出来一大堆效果吊人胃口,结果搜了大半天发现只对特邀作者或企业开放。听着sora里sora气的。
那国内有没有呢?当然!
上周昆仑万维Skywork AI的技术发布周里,发布了包括视频生成、世界模型、统一多模态、智能体以及AI音乐创作等覆盖五大技术领域的多模态AI大模型,其中就开源了一款世界模型:
Matrix Game 2.0
一张16G的4090就可以拉得动,我的4090跟了我之后跑得最多的已经不是游戏。。。
聊聊使用体验吧,
Matrix Game 2.0擅长生成连续、动态的视频内容,并能根据用户的实时指令进行响应。它输出的是一段视频流,这段视频在时间上是连续且一致的,需要低延迟、高帧率还有及时反馈。
重要的是它完整开源,这就意味着我们不仅能看到效果,还能真正部署使用,并且基于Matrix训练。部署好的界面长这样:
上传一张静态图片,模型就会基于这个图像加载并生成一个相应的的虚拟世界,
然后我使用WASD方向键就能在这个世界移动,也可以使用上下左右方向键360度旋转视角四周看看,整体很丝滑,帧数加载速度还可以,探索部分也很有可玩性。
我可以在田野郊外的场景中穿梭移动,整个画面中的植物和房屋都没有崩坏,甚至能够展现场景中的光照变化以及水波纹理,整个画面细节处保持的很好。
甚至在模拟赛车行进的GTA场景下,对于快速移动物体控制的很精准,即使在长时间运行的状态下,场景的动态建模做的很稳定,不管是车辆加速减速还是改变行进方向,都没有对场景产生较大的影响。
而是甚至在两分钟的超长时长下,依旧能够稳定生成渲染场景,保持整个画面的动态一致,这个效果我确实有种梦回到我的世界中游玩的感觉。
即使是场景中切换不同的地形,
比如从陆地进入水中,或者从深水区接近陆地,这些不同的地形模型也能丝滑生成稳定转换,
我还尝试了现实世界的雪山场景,缓缓走在雪地中望着远处的雪山,画面非常有沉浸感,地面反光也很自然。
甚至我们还玩了一个在马里奥风格的世界中探索,实时生成渲染出的场景也很符合原图风格。
来拆解一下Matrix Game 2.0的秘密,
技术报告:/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
项目主页:matrix-game-v2.github.io/
HuggingFace:huggingface.co/Skywork/Matrix-Game-2.0
GitHub:/SkyworkAI/Matrix-Game
它是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。
Matrix-Game 2.0 基础模型框架
放在之前,我还觉得这种效果还要再过上一段时间才能做出来,至少这种长序列交互不像是现阶段就能够让我们立马玩上手的东西。
任何试图构建实时互动AI世界的人,都必然要面对三座大山:
无法忍受的延迟、高质量训练数据的匮乏,以及随着时间推移发生的“画面崩坏”。
我们之所以看到近期这类模型开始涌现,正是因为昆仑万维在解决这些问题上出现了新的思路。
Matrix-Game 2.0,它采取的策略就很妙。
首先,为了解决数据问题,它没有选择在真实世界里费力地采集和标注,而是非常务实地用虚幻引擎和GTA5搭建了一个“数据工厂”。这相当于为AI聘请了一位完美的陪练,在虚拟世界中生成了上千小时、动作与画面帧帧同步的“教学录像”。这种用虚拟哺育虚拟的思路,是当前阶段一条高效的捷径。
为了让世界能够“响应”我们,它设计了一套机制,将我们的键盘鼠标操作,实时地“注入”到模型生成下一帧画面的决策中。这确保了互动性,让世界不再是一个预设的剧本。
那它如何同时做到快速且稳定的呢?
这里它用了一种近似于“自我审视”的技巧,Matrix Game 2.0在训练中,会逼着AI去参考它自己上一帧画出的、可能并不完美的草稿来构思下一笔。这就像一个画师在创作中不断基于自己的笔触进行调整,而不是每画一笔都要抬头看一眼范画。这种能力让它对自身的小错误有更强的修正和容忍度,从而能维持长达一分钟的连贯叙事,并达到每秒25帧的实时速率。
昆仑万维把matrix-game 2.0封装成了一个普通人部署之后通过浏览器就能访问的体验。意味着创造世界的权柄,正在经历一次前所未有的下放。
尽管现在的演示还很初级,物体还不能进行复杂的交互,物理效果也还很简单,但它已经成功地构建了一个符合直觉的、连续的三维空间。你不会在转身后发现来时的路消失了,也不会穿过一堵看起来很坚固的墙。
这种看似简单却又基础的效果,是通往一个新世界的第一步,也是最难的一步。证明了模型所生成的,并非浮在表面的贴图,而是一个有骨架、有纵深的场。
而在我的想法中,这种世界模型可能会催生出一种全新的叙事艺术和娱乐形式。
就像这两年很火的这种互动游戏形式,在原本只能观看视频的基础上增加了选择互动提升用户的参与感,未来的游戏故事,也可能不再是线性地被讲述,而是以一个可供探索世界的新的游戏形式呈现。
这让我想起十几年前,
在学校门口街机里,我摇晃着操纵杆,控制着屏幕上像素构成的拳皇97,
到现在我还搓大招搓不明白。那时候的我没想过,有一天,我不再需要去适应游戏设计者预设的规则和场景。
只需要说出我心中的世界,
AI就会为我打造出来。
@ 作者 / 卡尔 & 阿汤
还没有评论,来说两句吧...