李飞飞指引AI新方向：从语言到空间智能，构建无限宇宙

人类语言拥有五百万年的演进历程，而视觉与空间感知的出现，早在五亿四千万年前便促成了寒武纪生命的大爆发。当下，硅谷各大顶尖实验室正竞相投身语言模型的研发，然而斯坦福大学教授、World Labs创始人李飞飞却反复抛出一个引人深思的问题：如果人工智能仅限于理解语言和图像，它是否真能透彻地领悟世界？

通过三次重要的访谈，包括2025年6月在a16z Podcast上的对谈、2026年2月在思科AI峰会上的发言，以及2026年5月22日发布的、时长达79分钟的Lenny's Podcast深度访谈，李飞飞系统阐述了她对空间智能的判定。她认为，这项能力是人工智能领域未来发展的核心。

尤其是在a16z的访谈中，她提到的“创造无限的宇宙”和“生活在多元宇宙中”的概念，以及在Lenny's Podcast中提出的“世界模型才是下一个前沿”和“AGI更像营销术语”等观点，近期在X平台（原Twitter）上被广泛传播和讨论。

“我们缺少一个世界模型，”李飞飞如是说。a16z合伙人Martin Casado回忆起在硅谷的一次午餐会，当时席间所有AI从业者都在热烈讨论大型语言模型。而坐在餐桌另一端的李飞飞忽然转向他，问道：“你知道我们缺少什么吗？我们缺少一个世界模型。”

Casado作为World Labs的早期投资者，也是李飞飞在斯坦福时期便结识的老友。他回忆那一刻时表示，“一切都豁然开朗。”当时他刚从大规模的图像领域投资中独立得出了相似的结论：单靠语言并不能完全讲述整个故事。

李飞飞对于这一问题的思考，远比多数人更为深远。2024年4月，她在TED大会上发表了15分钟的演讲，以进化论的视角切入主题：五亿四千万年前，三叶虫的诞生标志着生命首次“看见”世界。视觉的萌发加速了智能的进化竞争，神经系统随之发育，动物变得更加活跃，智能由此生根发芽。而语言，仅仅是这场漫长竞争中一个相对较晚的产物。

在三次访谈中，这一判断被反复强化。思科AI峰会上，她的表述更为直接：“语言的历史大约只有五十万年。然而，动物早在十五亿年前就开始感知光线并与环境互动。在真实的3D、4D物理世界中进行理解、推理、交互和导航的能力是基础性的，其重要性不亚于语言智能。”

李飞飞并非否定语言智能的价值，她的核心论点在于：语言本质上是一种“存在信息损失的”世界编码方式。在a16z的访谈中，Casado提出了一个思维实验：蒙上眼睛，仅凭语言描述一个房间，然后尝试完成某项任务，成功的可能性极低。原因在于语言对现实的描述往往是粗略的。一旦摘下眼罩，大脑能迅速重构3D空间，从而实现操作、触摸与移动。

李飞飞补充了一个更为极端的例子，即科学史上著名的空间推理案例：罗莎琳德·富兰克林拍摄的DNA X射线衍射照片是平面的二维影像，其结构看似带有衍射的十字。然而，沃森和克里克却凭借这张二维图像，在三维空间中推导出了DNA的双螺旋结构。“那种结构不可能是二维的。你无法用二维思维来推导出那样的结构。”

“如果我们审视人类智能，很多方面都超越了语言范畴。语言是一种在信息上有所损失的捕捉世界的方式。纯粹的生成式‘语言’在自然界中并不存在；我们环顾四周，并没有现成的句子或词语，而整个物理、感知、视觉世界却真实存在。”

这是一个容易被忽视的视角：当前大多数大模型的能力，都建立在一种固有损耗的信息压缩格式之上。在Lenny's Podcast中，她用一个日常测试揭示了这一幻象：“今天，你让一个模型运行一段包含几个办公室房间的视频，然后要求模型数一下椅子的数量。这是幼儿都能做到的事情，而人工智能却做不到。”

更不用说从天体运动中推导出物理定律：“让我们把所有的数据都给人工智能，包括牛顿没有的现代仪器数据，让它创建一套17世纪关于物体运动规律的方程。今天的人工智能做不到。”

World Labs在2024年底发布了第一代模型Marble，旨在将这一判断推向实际产品。李飞飞在思科AI峰会上详细阐述了Marble的技术定位：它能够接收文本、图片、视频或简单的3D输入，并生成一个“完全可导航、可交互且具有永久一致性的3D世界”。她特别强调，这与Sora等视频生成模型存在本质区别，Marble所生成的环境具备几何结构，并非一段“看似是”视频的像素动画。

在Lenny's Podcast中，她以柏拉图的洞穴寓言作了更深入的阐释：囚犯被束缚在椅子上，只能看见墙上投射的二维影子，而真正的戏剧却在他们身后的三维空间中上演。视频模型如同那些影子，而空间智能的目标，则是创造并推理出影子背后那个真实的世界。

作为对比：GPT-5的训练算力大约在10的26次方FLOPS量级，而Marble在规模上小几个数量级。这背后的原因有二：首先，高质量3D物理数据极为稀缺，使得数据获取难度极大；其次，该领域尚处于“Scaling Law的上升曲线”的早期阶段。

在Lenny's Podcast中，她进一步解释了为何机器人学习无法简单复制语言模型的“苦涩教训”。AI领域有一个著名的论断：拥有海量数据的简单模型最终总能胜过复杂模型。然而，“语言模型拥有一个完美的设置：训练数据是单词，输出也是文字。”而在机器人技术中，“你希望获得行动，训练数据却缺乏在3D世界中的行动。”这种训练目标与数据形态之间的根本错位，才是机器人学习的核心难题。

World Labs采用混合数据策略：将互联网规模的文本、图像和视频数据，结合仿真模拟数据，再辅以真实世界采集数据。李飞飞坦承，“我们仍在探索模型架构的相对早期阶段”，但她预计“接下来的几年将会非常令人兴奋”。

此言一出，World Labs便于2026年2月完成了十亿美元融资，英伟达、AMD和a16z均参与投资，公司估值从一年前的十亿美元飙升至约五十亿美元。同年4月，团队开源了3D高斯溅射渲染引擎Spark 2.0，该引擎支持在网页端实现亿级3D场景的实时渲染，标志着其从闭源产品转向“产品加开源生态”的双轨策略，这正迅速降低空间智能的技术门槛。

在Lenny's Podcast中，李飞飞也少有地坦露了创业的艰辛：“如果我能对十八个月前的自己耳语一句话，我会说：‘这个领域的竞争强度，无论是技术还是人才，都远超你的想象。’”

真正让a16z那次访谈在X平台上反复出圈的，是李飞飞关于“无限宇宙”的表述：“在整个人类文明历史中，我们所有人都共同生活在一个三维世界里。只有极少数人登上过月球。如今，这项技术让数字虚拟世界变得无比精彩。突然间，我们能够创造无限的宇宙，有些专为机器人设计，有些服务于创造力，有些用于社交，有些用于旅行，还有些用于故事叙述。我们突然能生活在一个多元宇宙中，想象的空间是无穷无尽的。”

Casado则从技术层面做了更具体的阐释：通过一张二维照片，模型就能生成完整的360度3D表示，包括桌子背面。你可以操作、测量、堆叠，空间中能实现的任何事情都可以做到。

这并非科幻。在两次访谈中，李飞飞列举了Marble已经落地的应用：游戏开发者利用早期版本开发游戏；与索尼合作的虚拟制作团队将电影制作周期缩短了四倍；英伟达及多家学术实验室使用Marble训练机器人；建筑师和设计师用它进行室内设计；临床研究人员为强迫症、恐高症患者定制个性化的沉浸式触发环境；甚至有人用它生成个性化的瑜伽训练空间。

最后一个应用尤为出人意料。李飞飞在峰会上提到，强迫症（OCD）患者会因非常具体的场景触发，“例如我个人会被堆积的脏衣服困扰，但每个人的触发点各不相同。”在Lenny's Podcast中她补充道，发布后一位朋友连夜打电话询问是否可以用Marble治疗恐高症。搭建实体环境的成本极高，而Marble只需输入提示词，几分钟内便能生成各种环境。

柏拉图的洞穴寓言，恰好也是理解二维与三维分歧的最佳入口。李飞飞用此寓言解释：被束缚的囚犯，只能看到墙上投射的二维影子。当前的语言模型和视频模型，本质上就是那些影子，从二维中猜测三维。空间智能的野心，是创造、推理并与影子背后真实世界互动。

在技术路线上，她用简洁的对比划清了界限：“汽车可以被视作一个在二维平面上移动的方形机器人，其目标是避免碰撞。而机器人是一个三维实体，在三维世界中运行，通用机器人的目标是必须接触物体而不致损坏。这是一个更高维度的问题。”

她还分享了一个来自亲身经历的时间刻度：2006年，她参与研发了第一辆在沙漠中行驶138英里的自动驾驶汽车，当时预言20年后会有自动驾驶汽车。直到2025年，Waymo才开始在城市街道大规模运行。“看清北极星并不意味着旅程会很短。”

Casado在a16z对话中补充了更具商业直觉的观察：仅自动驾驶一个赛道，行业就投入了大约1000亿美元，耗费20年才走到今天。“我们原本的路线是先解决世界导航问题，但结果极其困难。”

李飞飞甚至在a16z访谈中分享了一段个人经历以强化论点：大约五年前，她因眼角膜受伤，失去了几个月的立体视觉。她说：“即使我非常清楚我的车有多大，也大致知道邻居家停的车有多大，而且我在这条路上开了许多年，但我无法很好地判断车与路边停着的车之间的距离。我只能以每小时十英里的速度行驶，以避免刮蹭其他车辆。”

一位毕生研究视觉智能的科学家，通过自己失去深度感知后的切身困境，有力回应了“为什么3D不可替代”这一核心问题。

在技术乐观主义和末日论之间，李飞飞选择了更克制、更具操作性的立场。她在思科AI峰会上明确表达了对两极化言论的担忧：“网络上的讨论往往非黑即白：要么是完全的技术乌托邦主义，忽视了技术作为双刃剑的本质；要么就是末日论调，仿佛人类时刻面临生存危机。对于一项对人类文明具有如此深远影响的技术，这种讨论方式是不负责任的。”

她没有停留在批评层面，而是给出了一个可量化的价值锚点：电力。“如果时光倒流一百多年，想象当时人们如何定义电力的成功。我希望那时的愿景是：学校灯火通明，家园温暖如春，机器被赋予力量实现工业化，进而延长人类寿命，让更多孩子接受教育。”

然后将这个锚点平移到AI：“成功的定义应该是文明变得更加美好，而文明是由每一个追求幸福、繁荣且拥有尊严的个体组成的。这就是AI以及每一项技术成功的定义。”

在Lenny's Podcast的结尾，她将这份关切落实到具体的人身上。她说自己每到一处都会被问到同一个问题：如果我是农民、护士、音乐家，AI会取代我吗？她的回答是：“归根结底，AI是关于人的。任何技术都不应该剥夺人的尊严。人类的尊严和自主性应该成为每项技术的开发、部署以及治理的核心。”

回顾这三次访谈，一条清晰的脉络浮出水面。李飞飞对空间智能的思考，并非是对大模型浪潮的反叛，而是在其基础上的延伸。她比大多数人更早地洞察到语言模型的局限性，一种有损的信息压缩格式所能实现的功能终究有限。而空间智能所要解决的核心问题是：让AI摆脱纯粹的“谈论世界”，进而进化到“理解世界”，并最终实现“在世界中行动”。

World Labs团队现有约30人，已完成超过十亿美元融资。Marble作为第一代产品，其规模远不及顶尖语言模型。3D数据的稀缺性以及模型架构的早期状态，预示着这条路线并非一蹴而就。然而，李飞飞在Lenny's Podcast中的另一句话，或许是对这份耐心最好的诠释：“我们的大脑只消耗大约20瓦电量，比房间里任何灯泡都暗，却能完成如此多的事。我在AI领域工作得越多，就越尊重人类。”

历经五亿四千万年的演化，碳基生命才获得了这微不足道的20瓦空间智能。如今，人工智能的这场进化，正被压缩在短短数年内加速完成。李飞飞在三次访谈中均未给出具体时间表。她只是反复提及从进化论中提炼出的判断：感知先于语言，空间先于符号。这场正在硅谷、斯坦福实验室和World Labs办公室里上演的，不仅仅是一次技术迭代，更是一场加速重演的进化历程。