英伟达近日隆重推出了其创新成果——英伟达Cosmos 3,一款致力于物理人工智能领域的开放世界基础大模型。这款模型采用独特的混合Transformer架构,将视觉推理、世界生成和动作预测功能巧妙地整合进一个单一系统之中。
Cosmos 3被誉为全球首个全开源的多模态大模型,其卓越之处在于能够原生理解和生成包括文本、图像、视频、环境音效以及动作在内的多种内容。它在物理仿真精度方面达到了行业领先水平,有望将物理人工智能的训练与评估周期从过往的数月大幅缩短至短短数天。
为推动相关技术发展,英伟达同步成立了“英伟达宇宙联盟”(NVIDIA Cosmos Coalition),吸纳了Agile Robots、Black Forest Labs、Generalist、LTX、Runway及Skild AI等全球顶尖的世界模型研发团队与人工智能开发者,共同探索下一代世界模型技术。
英伟达创始人兼首席执行官黄仁勋表示,随着多模态推理在语言、视觉和世界模型领域取得突破性进展,物理人工智能正迎来一个革命性时代。Cosmos 3系列作为开源的前沿全模态模型,将赋能开发者,加速构建能在现实世界中感知、推理、规划并执行操作的机器人、自动驾驶汽车及视觉人工智能系统。
长期以来,物理人工智能面临的一大挑战是如何让机器人、自动驾驶车辆和视觉智能体,仅凭有限的训练数据和分散的仿真框架,就能在真实环境中表现出强大的泛化能力。Cosmos 3的出现,正是为了解决这一核心难题。
该模型采用创新的混合Transformer架构,将推理Transformer与专注于生成任务的Transformer相结合。它首先对物体间的互动、运动规律以及时空关联进行深入分析,随后完成视频生成与动作轨迹的精确预测。
Cosmos 3的训练建立在包含数十亿条文本、图像、视频、音效及动作轨迹样本的海量多模态物理人工智能数据集之上。开发者通过利用这个预训练的基础模型,将能够以更少的数据和更低的成本来构建和部署物理人工智能系统。
开发者可以将Cosmos 3灵活运用于以下三个方面:
首先,作为多模态图文大模型,实现跨模态的深度理解与推理能力。
其次,作为世界模型或视频基础模型,用于仿真物理环境、预测场景未来状态,为模型训练与评估提供有力支撑。
最后,作为世界动作模型的主干网络,辅助机器人完成各类特定的专业任务训练。
在物理人工智能的主流评测基准上,Cosmos 3展示了其卓越性能。在开源模型的范畴内,其世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench中均位居榜首;动作策略能力在RoboLab和RoboArena基准测试中表现领先;视觉理解能力则在VANTAGE-Bench和TAR榜单上拔得头筹。
为满足不同物理人工智能研发阶段的需求,Cosmos 3提供了多个版本:
Cosmos 3 Super:专为机器人与自动驾驶模型的二次训练设计,追求极致的物理精度与生成效果。
Cosmos 3 Nano:可在数秒内完成高质量的视频解析与动作推理任务。
Cosmos 3 Edge:即将推出,主要面向边缘端的实时推理应用场景。
目前,Cosmos 3 Super和Nano版本已正式发布,而Edge版本也即将上线,以支持边缘设备的实时推理功能。
