“AI教母”李飞飞的全新世界模型问世！一张英伟达AI芯片就能生成无限3D世界

World Labs联合创始人兼CEO李飞飞（图片来源：彭博）

“AI教母”、美国华人科学家、斯坦福大学计算机科学教授、World Labs联合创始人兼CEO李飞飞的全新“世界模型”问世。

10月17日消息，李飞飞的World Labs于今晨发布全新实时生成式世界模型——RTFM（Real-Time Frame Model，实时帧模型）。

据悉，RTFM是一款基于大规模视频数据进行端到端训练、效率极高的自回归扩散Transformer模型。其核心突破在于不依赖显式3D表征，仅通过输入1张或多张 2D图像，就能直接生成不同视点的全新2D图像，被业内称为“学会渲染的 AI”。通过训练，该模型已能精准建模3D几何、反射、阴影等复杂物理现象，还可利用稀疏照片重建真实地点。

李飞飞表示，仅需一块英伟达H100 GPU芯片，RTFM模型就能实时渲染出持久且3D一致的场景，无论是真实空间还是虚拟想象场景，均可实现交互式体验。

“那些能随算力增长优雅扩展的简洁方法终将在AI领域占据主导，因为它们能享受数十年来推动技术发展的算力成本指数级下降红利。生成式世界模型正处在绝佳位置，必将从持续降低的算力成本中获益。”李飞飞团队在文章中表示。

“AI教母”李飞飞的全新世界模型问世！一张英伟达AI芯片就能生成无限3D世界

展开全文

对此，前谷歌高级工程师Rui Diao发文评价称，RTFM最新成果真正解决了，长期困扰世界模型可扩展性的问题。

实际上，所谓空间智能，是指人们或机器在三维空间中的感知、理解和交互能力。这一概念最早由美国心理学家霍华德·加德纳（Howard Gardner）在多元智能理论中提出，让大脑中形成一个外部空间世界的模式，并能够运用和操作。

空间智能让人有能力以三度空间的方式来思考，使人知觉到外在和内在的影像，也能重现、转变或修饰影像，从而能够在空间中从容地游走，随心所欲地操弄物件的位置，以产生或解读图形的讯息。

从广义上看，空间智能不仅包括对空间方位的感知能力，还包括视觉辨别能力和形象思维能力。而对于机器而言，空间智能则是指其在三维空间中的视觉数据处理能力，能够精准作出预测，并基于这些预测采取行动。这种能力使得机器能够像人类一样在复杂的三维世界中导航、操作和决策，从而超越传统二维视觉的局限。

李飞飞曾坦言，视觉能力引发了寒武纪大爆发，神经系统的进化带来了智能。“我们想要的不仅仅是能看会说的 AI，我们想要的是能做的 AI。”

而随着新一轮生成式AI技术的到来，“空间智能+世界模型”成为AGI重要发展路径之一。强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界，这类模型技术将彻底改变软件、机器人等很多领域和产业。

在李飞飞看来，空间智能与世界模型是解决 AI 技术难题的关键法宝。

相对于其他世界模型技术，李飞飞团队认为，在世界模型的性能不变下，需要减少单卡算力资源投入，用性价比更高的方式解决世界模型和空间智能的实时交互问题。

若直接套用现有视频架构，生成60帧的4K交互视频流每秒需产生超过10万个token（约等于《弗兰肯斯坦》或首部《哈利·波特》的篇幅），而要维持一小时以上的持续交互，需处理的上下文token更将突破1亿大关，但基于当前计算基础设施，这既不可行也不具备经济性。

因此，今年3月，李飞飞联合Ben Mildenhall、Justin Johnson、Christoph Lassner三位学者创立World Labs，并研发出RTFM——具备高效性、可扩展性、持久性三大核心优势。

其中，高效性体现在单块H100 GPU即可支撑交互式帧率推理；可扩展性方面，其通用端到端架构能随数据与算力增长不断优化；持久性则依靠“带位姿帧空间记忆”与“上下文调度”技术，实现世界场景“永不消逝”，用户长时间交互也能保持场景一致性。

“AI教母”李飞飞的全新世界模型问世！一张英伟达AI芯片就能生成无限3D世界

融资方面，今年9月，World Labs宣布获得2.3亿美元（约合人民币16亿元）融资，由a16z、NEA恩颐投资和Radical Ventures领投，AMD、Adobe、Databricks的风投部门和Shinrai Investments LLC，更有黄仁勋执掌的英伟达创投部门参与投资。

公司团队约24人，其中包括李飞飞在内共4位联合创始人，而华人面孔约占据了三分之一。

公开报道显示，World Labs成立3个月估值便达到10亿美元（约合70亿元）。

对于World Labs未来规划，投资人曾透露，李飞飞团队第一阶段将构建一个对三维、物理以及空间和时间概念有深入理解的空间智能大模型LWM；接下来大模型将支持AR；再之后，大模型将作用于机器人技术，改进自动驾驶汽车、自动化工厂、人形机器人等领域。

李飞飞表示，团队最早将在2025年推出产品，并表示现在只是刚起步，在盈利模式等问题上有很多边界需要突破，相信团队能够解决。

除了World Labs，李飞飞还在打造Behavior视觉挑战比赛，希望能复制当年ImageNet的成功——ImageNet已成为深度学习革命的关键催化剂，并正式开启以深度学习为核心的AI热潮，因此李飞飞被视为“让AI真正看懂世界”的推动者之一。

李飞飞认为，创建Behavior的灵感来自我们在机器人学习中遇到的三个主要痛点：1、任务缺乏标准化，研究往往依赖随机设定，导致不同论文之间难以比较；2、缺乏统一的任务体系，很多研究任务非常短、非常局限；3、缺乏训练数据。

今年10月，李飞飞正式发布了Behavior 1K，也就是Behavior 1000挑战。

这是一个面向具身智能与机器人研究的综合仿真基准与训练环境。它包含了1000个任务，主要聚焦在日常家庭环境中的“长时序任务”（long-horizon tasks），也就是需要多个动作步骤才能完成的真实任务。Behavior为全球研究者提供了一个开放源码的训练与评测平台，让不同机构可以在相同标准下训练算法、进行比较和评估。

“更让我兴奋的是，我们正处在一个文明性的转折时刻：语言、空间、视觉、具身智能等多种AI技术正在融合，并开始真正改变人类社会。只要我们始终把‘以人为本’放在心中，这些技术就能成为造福人类的力量。”李飞飞近期表示。

李飞飞团队表示，未来World Labs将进一步增强模型动态场景模拟与用户交互功能，更大规模模型有望带来更优性能。（本文作者｜林志佳）

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察，欢迎访问