智元AGIBOT公司于5月29日发布消息,该公司自主开发的世界模型Genie Envisioner-Sim 2.0(GE 2.0)在备受关注的具身领域WorldArena Track1(世界模型感知与动作响应赛道)评测中拔得头筹。
世界模型被定义为能够理解物理世界运行法则的人工智能大模型。如果机器人具备世界模型能力,将能够掌握基本常识,例如杯子掉落会破碎、水流向低处以及积木堆叠过高会倒塌等。
智元团队在本次WorldArena Track1赛道的评测中,直接采用了原生的GE 2.0模型,并未针对特定赛题进行深度优化,仅基于榜单数据进行了基础性的微调。
据介绍,GE 2.0在功能上首次完整覆盖了长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别等核心环节,从而构建了世界模拟器全面的技术能力闭环。
在长时序推理任务中,GE 2.0展现出极高的稳定性,其画面质量随推理时间延长而衰减的程度显著低于行业内其他基线方案。当连续推演长达40至50秒的视频片段时,GE 2.0的生成质量依然超越了基线模型在最初10秒内的表现。
团队通过大量闭环评测结果验证,GE 2.0在多项任务中均与真实世界保持着强烈的相关性。这种相关性不仅停留在宏观统计学上的“成功率一致”,团队还进行了详细的逐案(Case-by-case)rollout结果对比分析,并通过混淆矩阵提供了严谨的量化依据,进一步证实了GE 2.0作为策略评测器的可靠性。
在奖励模型(Reward Model)的辅助下,GE 2.0能够对闭环评测的rollout过程进行自动化筛选,从而将世界模型中产生的高质量有效数据精确地反馈给策略模型(Policy Model)。实验结果表明,这项机制在多项任务中都显著提升了策略模型的性能表现。
此外,据上观新闻报道,智元GE 2.0此次在竞争中击败了包括英伟达最新模型DreamDojo以及清华大学与斯坦福大学联合开发的Ctrl-World团队等国内外顶尖AI团队,最终赢得冠军。值得注意的是,GE 2.0仅使用了20亿(2B)参数的模型,其表现却超越了英伟达、微软等公司的超大参数旗舰模型,这进一步证明了在人形机器人应用领域,轻量化模型的适配性与性能并不逊于拥有庞大参数的模型。
