李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

当 OpenAI 的奥特曼还在到处买显卡 、买算力,来支撑他的 Sora 2 视频生成模型。 

李飞飞的实验室 The World Labs,用一张显卡就能运行一个世界。他们今天发布了一项名为 RTFM (Real-Time Frame Model) 的新技术,一个全新的实时世界生成模型。

和九月中旬发布的图生世界 Marble 不同,RTFM 不仅是用一张照片,生成一个我们可以自由漫步、探索的 3D 世界。最重要的是,它被设计为可以在单块 H100 GPU 上高效运行,并且实时生成

目前,RTFM 已经作为研究预览版正式发布,并提供了 Demo 可以亲自去试试。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

RTFM Demo 链接:

意外地发现,这个 Demo 的名字叫做 FRAMEBOY,结合这个网页布局,我很快想到了年代久远的 Game Boy 游戏机。

这样一个拥有逼真的光影、反射和阴影的世界,并且这一切还在我们眼前实时发生,在某种程度上,何尝不是另一种玩游戏。

不止于生成,更在于实时互动 

RTFM 的核心能力,就是能实时生成可供用户交互的视频。它可以从一张静态图片开始,实时渲染出一个可以自由探索的 3D 场景。

与许多世界模型不同,RTFM 能够学习并渲染出,极其复杂和真实的视觉效果。无论是光滑大理石地面的倒影、物体在阳光下的阴影,还是透过玻璃看到的景象,RTFM 都能准确地模拟。

RTFM 依靠的不是传统的图形学编程,而是让模型通过对海量视频数据的端到端学习,不断进化出来的。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

支撑这项能力的,是设计 RTFM 背后围绕的三项核心原则。

效率 (Efficiency) ,要想把未来拉到眼前,世界模型的计算需求是最大的阻碍。

无论是像 Sora 这样的 AI 生成视频,还是 Google 尚未正式公开上线的 Genie 3, 都意味着巨大的计算挑战。

有相关的研究提到,要实时生成 4K 60fps 的交互视频流,AI 模型每秒需要处理的 tokens 数量约等于一本《哈利·波特》的文字量。

而如果要在超过一小时的交互中,保持这些生成内容的持续性,需要处理的上下文,将超过 100M 个 token。这对于当下的计算基础设施而言,既不现实,也难以负担。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

李飞飞团队的目标是「在今天硬件上,运行的明天模型,并提供最高保真度的预览。」

他们通过对架构、模型蒸馏和推理过程的极致优化,以及整个系统的重新设计。RTFM 成功地实现了,仅使用单个 H100 GPU,就可以交互式帧率进行推理,实时生成。

可扩展性 (Scalability),从视频模型,能直接到世界模型

传统的 3D 引擎,用的是三角网格、高斯点云、体素渲染等显式结构,完全依赖于一些复杂的计算机图形学知识。每个物体都要建模、上材质、打光、烘焙阴影。这和我们之前介绍的混元 3D 世界,所采用的方法类似,它们主打的是实现 3D 全管道的生成。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

传统 3D 方式(左)和 RTFM 方式(右)

World Lab 选择的路和混元不同, RTFM 不会构建任何显式的 3D 模型。它使用了类似 Sora 的「自回归扩散 Transformer」,直接从视频帧序列中学习世界规律。

举个例子,模型不再需要知道「这是一堵墙」或「那是一盏灯」,它只通过成千上万段视频的学习,学会了什么是「空间感」,学会从输入的 2D 图像序列中,预测出下一个新的视角画面。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

和生成 3D 资产的路线不同,RTFM 能够更好地利用不断增长的数据和算力,从而实现无限扩展。

持久性 (Persistence),让世界模型像 nano banana 一样保持一致。

大部分的视频生成模型有一个天生缺陷,就是它们没有记忆。即便现在 Sora 一次性,能生成 25 秒的震撼画面,但视频生成结束后,世界就结束了,并不能提供持续的交互。

而如果要记住所有场景,计算负担势必又会随着探索的深入而无限累积。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

RTFM 试图解决的,就是让生成的世界具备持续存在的能力。它引入了一个叫「spatial memory(空间记忆)」的机制。它为生成的每一帧画面,都赋予了在 3D 空间中的精确「姿态」(位置和方向)。

在生成新画面时,模型会采用一种「上下文杂耍」 (context juggling) 的技术,只调用新画面附近位置的帧作为参考,而不是全局内容。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

这使得 RTFM 能够做到,让我们反复进入这个世界,离开再回来,而不会增加计算负担。

目前,RTFM 的 Demo 体验时间只有 3 分钟,3 分钟后,它还是会不记得这个世界。我在那个 Demo 里面拖动左右两个摇杆,玩了很久,想到了李飞飞之前说,空间智能才应该是 AGI 的下一个方向。

李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU

未来是否真的有机会,像头号玩家一样,让现实世界和虚拟世界之间,产生明确的联系,光看现在的世界模型,要加载的内容还有太多。

毕竟,即便单个 H100 GPU,售价也大约在 25000 美元以上。但是 当算力的价格下降,当算法再快一点;我们或许能看到,真正意义上的世界模型「大更新」,是现实,被完整生成的那一天。

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/104109.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年10月17日 下午4:49
下一篇 2025年10月17日 下午4:54

相关推荐

  • 赢得德国大选 默茨的难题还在后面

    我们赢得了2025年德国联邦议院选举!不出意外,德国基民盟主席、联盟党总理候选人默茨将成为德国新总理。但比起上任总理朔尔茨来,也许默茨所面临的难题更多。经济方面,受地缘冲突、能源危机和外需疲软影响,德国经济连续两年衰退,竞争力下滑,支柱企业外移,新兴产业转型滞后。 23日,基督教民主联盟(CDU)领导人弗里德里希·默茨在党总部向支持者致辞并鼓掌…

    2025年2月25日
    13000
  • 月薪3万,也不敢吃“快餐界爱马仕”

    谁又被上课了? “谁吃麻辣香锅能不被上一课呢。” 最近一条热搜让很多人恍惚:麻辣香锅,我上一次吃是什么时候来着? 随着和麻辣烫一样,与“贵”“刺客”绑定,麻辣香锅似乎淡出了许多年轻消费者的视线。 偶尔商场路过一些门店,也只是感叹一句吃不起就快步离开。 但在人们以为它凉了的时候,麻辣香锅其实仍坚挺,连麻辣烫巨头杨国福,都开始卖麻辣香锅了。 今年6月,杨国福麻辣…

    2025年9月19日
    12800
  • 通威股份两难:债务狂飙,市值缩水

    史上最冷寒冬让光伏企业面临着前所未有的困境,硅料龙头通威股份(600438)亦是如此。5月13日,光伏设备板块活跃,通威股份当日股价收涨7.56%,最新总市值826.1亿元。回溯过往,通威股份备受投资者青睐,曾一度位列千亿市值股阵营中。然而如今,公司千亿市值已成过眼云烟,这背后除了行业周期的无情碾压,财报之中也可窥见公司目前的资金压力,558亿元的长期借款,…

    2025年5月14日
    20600
  • 增收不增利 三只松鼠求解成本难题

    8月27日,三只松鼠发布的半年报显示,公司实现营业收入54.78亿元,同比增长7.94%;实现归母净利润1.38亿元,同比减少52.22%。 关于营收变动,三只松鼠方面在财报中表示,主要是2025年年货节前移致一季度营收错档,二季度依托D+N全渠道体系,整体营收增速超20%;另外,线下分销重点推进日销品铺市并试水乳饮、饮料,公司二季度渠道销售实现翻倍增长;以…

    2025年8月29日
    8200
  • 国展天虹落幕 社区商业崛起倒逼业态重构

    伴随北京一刻钟便民生活圈加速布局,北京商业的更迭在悄然进行着。3月20日,记者在走访中了解到,扎根社区15年的国展天虹将于4月18日正式闭店,这将是天虹股份年内关闭的第三家百货门店。财报显示,天虹百货2024年销售额同比下降9.85%,核心业务净利润骤降66%,租赁物业占比过高叠加社区商业内卷化加剧,使其在成本控制与业态创新上双重承压。尽管企业尝试数字化转型…

    2025年3月21日
    18000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信