← 返回新闻列表

李飞飞指引AI新方向:从语言到空间智能,构建无限宇宙

在硅谷聚焦语言模型的背景下,斯坦福大学教授李飞飞提出一个颠覆性观点:如果AI仅停留在语言和图像层面,将永远无法真正理解世界。她强调空间智能是AI发展的下一个关键领域,认为世界模型才是前沿,旨在让AI从“谈论世界”进化为“理解世界”并在其中行动。

文 / 编辑部 · 2026/05/27 · 阅读约 10 分钟

分享:
李飞飞指引AI新方向:从语言到空间智能,构建无限宇宙

人类语言拥有五百万年的演进历程,而视觉与空间感知的出现,早在五亿四千万年前便促成了寒武纪生命的大爆发。当下,硅谷各大顶尖实验室正竞相投身语言模型的研发,然而斯坦福大学教授、World Labs创始人李飞飞却反复抛出一个引人深思的问题:如果人工智能仅限于理解语言和图像,它是否真能透彻地领悟世界?

通过三次重要的访谈,包括2025年6月在a16z Podcast上的对谈、2026年2月在思科AI峰会上的发言,以及2026年5月22日发布的、时长达79分钟的Lenny's Podcast深度访谈,李飞飞系统阐述了她对空间智能的判定。她认为,这项能力是人工智能领域未来发展的核心。

尤其是在a16z的访谈中,她提到的“创造无限的宇宙”和“生活在多元宇宙中”的概念,以及在Lenny's Podcast中提出的“世界模型才是下一个前沿”和“AGI更像营销术语”等观点,近期在X平台(原Twitter)上被广泛传播和讨论。

“我们缺少一个世界模型,”李飞飞如是说。a16z合伙人Martin Casado回忆起在硅谷的一次午餐会,当时席间所有AI从业者都在热烈讨论大型语言模型。而坐在餐桌另一端的李飞飞忽然转向他,问道:“你知道我们缺少什么吗?我们缺少一个世界模型。”

Casado作为World Labs的早期投资者,也是李飞飞在斯坦福时期便结识的老友。他回忆那一刻时表示,“一切都豁然开朗。”当时他刚从大规模的图像领域投资中独立得出了相似的结论:单靠语言并不能完全讲述整个故事。

李飞飞对于这一问题的思考,远比多数人更为深远。2024年4月,她在TED大会上发表了15分钟的演讲,以进化论的视角切入主题:五亿四千万年前,三叶虫的诞生标志着生命首次“看见”世界。视觉的萌发加速了智能的进化竞争,神经系统随之发育,动物变得更加活跃,智能由此生根发芽。而语言,仅仅是这场漫长竞争中一个相对较晚的产物。

在三次访谈中,这一判断被反复强化。思科AI峰会上,她的表述更为直接:“语言的历史大约只有五十万年。然而,动物早在十五亿年前就开始感知光线并与环境互动。在真实的3D、4D物理世界中进行理解、推理、交互和导航的能力是基础性的,其重要性不亚于语言智能。”

李飞飞并非否定语言智能的价值,她的核心论点在于:语言本质上是一种“存在信息损失的”世界编码方式。在a16z的访谈中,Casado提出了一个思维实验:蒙上眼睛,仅凭语言描述一个房间,然后尝试完成某项任务,成功的可能性极低。原因在于语言对现实的描述往往是粗略的。一旦摘下眼罩,大脑能迅速重构3D空间,从而实现操作、触摸与移动。

李飞飞补充了一个更为极端的例子,即科学史上著名的空间推理案例:罗莎琳德·富兰克林拍摄的DNA X射线衍射照片是平面的二维影像,其结构看似带有衍射的十字。然而,沃森和克里克却凭借这张二维图像,在三维空间中推导出了DNA的双螺旋结构。“那种结构不可能是二维的。你无法用二维思维来推导出那样的结构。”

“如果我们审视人类智能,很多方面都超越了语言范畴。语言是一种在信息上有所损失的捕捉世界的方式。纯粹的生成式‘语言’在自然界中并不存在;我们环顾四周,并没有现成的句子或词语,而整个物理、感知、视觉世界却真实存在。”

这是一个容易被忽视的视角:当前大多数大模型的能力,都建立在一种固有损耗的信息压缩格式之上。在Lenny's Podcast中,她用一个日常测试揭示了这一幻象:“今天,你让一个模型运行一段包含几个办公室房间的视频,然后要求模型数一下椅子的数量。这是幼儿都能做到的事情,而人工智能却做不到。”

更不用说从天体运动中推导出物理定律:“让我们把所有的数据都给人工智能,包括牛顿没有的现代仪器数据,让它创建一套17世纪关于物体运动规律的方程。今天的人工智能做不到。”

World Labs在2024年底发布了第一代模型Marble,旨在将这一判断推向实际产品。李飞飞在思科AI峰会上详细阐述了Marble的技术定位:它能够接收文本、图片、视频或简单的3D输入,并生成一个“完全可导航、可交互且具有永久一致性的3D世界”。她特别强调,这与Sora等视频生成模型存在本质区别,Marble所生成的环境具备几何结构,并非一段“看似是”视频的像素动画。

在Lenny's Podcast中,她以柏拉图的洞穴寓言作了更深入的阐释:囚犯被束缚在椅子上,只能看见墙上投射的二维影子,而真正的戏剧却在他们身后的三维空间中上演。视频模型如同那些影子,而空间智能的目标,则是创造并推理出影子背后那个真实的世界。

作为对比:GPT-5的训练算力大约在10的26次方FLOPS量级,而Marble在规模上小几个数量级。这背后的原因有二:首先,高质量3D物理数据极为稀缺,使得数据获取难度极大;其次,该领域尚处于“Scaling Law的上升曲线”的早期阶段。

在Lenny's Podcast中,她进一步解释了为何机器人学习无法简单复制语言模型的“苦涩教训”。AI领域有一个著名的论断:拥有海量数据的简单模型最终总能胜过复杂模型。然而,“语言模型拥有一个完美的设置:训练数据是单词,输出也是文字。”而在机器人技术中,“你希望获得行动,训练数据却缺乏在3D世界中的行动。”这种训练目标与数据形态之间的根本错位,才是机器人学习的核心难题。

World Labs采用混合数据策略:将互联网规模的文本、图像和视频数据,结合仿真模拟数据,再辅以真实世界采集数据。李飞飞坦承,“我们仍在探索模型架构的相对早期阶段”,但她预计“接下来的几年将会非常令人兴奋”。

此言一出,World Labs便于2026年2月完成了十亿美元融资,英伟达、AMD和a16z均参与投资,公司估值从一年前的十亿美元飙升至约五十亿美元。同年4月,团队开源了3D高斯溅射渲染引擎Spark 2.0,该引擎支持在网页端实现亿级3D场景的实时渲染,标志着其从闭源产品转向“产品加开源生态”的双轨策略,这正迅速降低空间智能的技术门槛。

在Lenny's Podcast中,李飞飞也少有地坦露了创业的艰辛:“如果我能对十八个月前的自己耳语一句话,我会说:‘这个领域的竞争强度,无论是技术还是人才,都远超你的想象。’”

真正让a16z那次访谈在X平台上反复出圈的,是李飞飞关于“无限宇宙”的表述:“在整个人类文明历史中,我们所有人都共同生活在一个三维世界里。只有极少数人登上过月球。如今,这项技术让数字虚拟世界变得无比精彩。突然间,我们能够创造无限的宇宙,有些专为机器人设计,有些服务于创造力,有些用于社交,有些用于旅行,还有些用于故事叙述。我们突然能生活在一个多元宇宙中,想象的空间是无穷无尽的。”

Casado则从技术层面做了更具体的阐释:通过一张二维照片,模型就能生成完整的360度3D表示,包括桌子背面。你可以操作、测量、堆叠,空间中能实现的任何事情都可以做到。

这并非科幻。在两次访谈中,李飞飞列举了Marble已经落地的应用:游戏开发者利用早期版本开发游戏;与索尼合作的虚拟制作团队将电影制作周期缩短了四倍;英伟达及多家学术实验室使用Marble训练机器人;建筑师和设计师用它进行室内设计;临床研究人员为强迫症、恐高症患者定制个性化的沉浸式触发环境;甚至有人用它生成个性化的瑜伽训练空间。

最后一个应用尤为出人意料。李飞飞在峰会上提到,强迫症(OCD)患者会因非常具体的场景触发,“例如我个人会被堆积的脏衣服困扰,但每个人的触发点各不相同。”在Lenny's Podcast中她补充道,发布后一位朋友连夜打电话询问是否可以用Marble治疗恐高症。搭建实体环境的成本极高,而Marble只需输入提示词,几分钟内便能生成各种环境。

柏拉图的洞穴寓言,恰好也是理解二维与三维分歧的最佳入口。李飞飞用此寓言解释:被束缚的囚犯,只能看到墙上投射的二维影子。当前的语言模型和视频模型,本质上就是那些影子,从二维中猜测三维。空间智能的野心,是创造、推理并与影子背后真实世界互动。

在技术路线上,她用简洁的对比划清了界限:“汽车可以被视作一个在二维平面上移动的方形机器人,其目标是避免碰撞。而机器人是一个三维实体,在三维世界中运行,通用机器人的目标是必须接触物体而不致损坏。这是一个更高维度的问题。”

她还分享了一个来自亲身经历的时间刻度:2006年,她参与研发了第一辆在沙漠中行驶138英里的自动驾驶汽车,当时预言20年后会有自动驾驶汽车。直到2025年,Waymo才开始在城市街道大规模运行。“看清北极星并不意味着旅程会很短。”

Casado在a16z对话中补充了更具商业直觉的观察:仅自动驾驶一个赛道,行业就投入了大约1000亿美元,耗费20年才走到今天。“我们原本的路线是先解决世界导航问题,但结果极其困难。”

李飞飞甚至在a16z访谈中分享了一段个人经历以强化论点:大约五年前,她因眼角膜受伤,失去了几个月的立体视觉。她说:“即使我非常清楚我的车有多大,也大致知道邻居家停的车有多大,而且我在这条路上开了许多年,但我无法很好地判断车与路边停着的车之间的距离。我只能以每小时十英里的速度行驶,以避免刮蹭其他车辆。”

一位毕生研究视觉智能的科学家,通过自己失去深度感知后的切身困境,有力回应了“为什么3D不可替代”这一核心问题。

在技术乐观主义和末日论之间,李飞飞选择了更克制、更具操作性的立场。她在思科AI峰会上明确表达了对两极化言论的担忧:“网络上的讨论往往非黑即白:要么是完全的技术乌托邦主义,忽视了技术作为双刃剑的本质;要么就是末日论调,仿佛人类时刻面临生存危机。对于一项对人类文明具有如此深远影响的技术,这种讨论方式是不负责任的。”

她没有停留在批评层面,而是给出了一个可量化的价值锚点:电力。“如果时光倒流一百多年,想象当时人们如何定义电力的成功。我希望那时的愿景是:学校灯火通明,家园温暖如春,机器被赋予力量实现工业化,进而延长人类寿命,让更多孩子接受教育。”

然后将这个锚点平移到AI:“成功的定义应该是文明变得更加美好,而文明是由每一个追求幸福、繁荣且拥有尊严的个体组成的。这就是AI以及每一项技术成功的定义。”

在Lenny's Podcast的结尾,她将这份关切落实到具体的人身上。她说自己每到一处都会被问到同一个问题:如果我是农民、护士、音乐家,AI会取代我吗?她的回答是:“归根结底,AI是关于人的。任何技术都不应该剥夺人的尊严。人类的尊严和自主性应该成为每项技术的开发、部署以及治理的核心。”

回顾这三次访谈,一条清晰的脉络浮出水面。李飞飞对空间智能的思考,并非是对大模型浪潮的反叛,而是在其基础上的延伸。她比大多数人更早地洞察到语言模型的局限性,一种有损的信息压缩格式所能实现的功能终究有限。而空间智能所要解决的核心问题是:让AI摆脱纯粹的“谈论世界”,进而进化到“理解世界”,并最终实现“在世界中行动”。

World Labs团队现有约30人,已完成超过十亿美元融资。Marble作为第一代产品,其规模远不及顶尖语言模型。3D数据的稀缺性以及模型架构的早期状态,预示着这条路线并非一蹴而就。然而,李飞飞在Lenny's Podcast中的另一句话,或许是对这份耐心最好的诠释:“我们的大脑只消耗大约20瓦电量,比房间里任何灯泡都暗,却能完成如此多的事。我在AI领域工作得越多,就越尊重人类。”

历经五亿四千万年的演化,碳基生命才获得了这微不足道的20瓦空间智能。如今,人工智能的这场进化,正被压缩在短短数年内加速完成。李飞飞在三次访谈中均未给出具体时间表。她只是反复提及从进化论中提炼出的判断:感知先于语言,空间先于符号。这场正在硅谷、斯坦福实验室和World Labs办公室里上演的,不仅仅是一次技术迭代,更是一场加速重演的进化历程。

广告位 · 文末横幅