小米技术团队近日公开了其在智能驾驶领域的重要进展——Xiaomi Auto World Model。这一创新框架旨在为辅助驾驶系统提供全新的发展方向,促进行业从单纯的“场景感知”向更深层次的“认知推演”与“场景进化”演进。
据介绍,Xiaomi Auto World Model的独特之处在于,它开创性地将三维重建技术与视频生成能力进行了深度耦合。这种“重建锚定几何,生成填补想象”的模式,彻底打破了以往业界将重建和生成技术独立开发的传统路线。目前,该模型在Waymo和nuScenes等主流基准测试中已取得了全面领先的成果,并已成功应用于小米汽车的合成数据生产、仿真测试以及智能座舱等三大核心业务。
当前,世界模型主要包含重建(WorldRec)和生成(WorldGen)两大技术路线,它们各自拥有特定的优势和局限性。重建技术能够通过多视角观测精确还原三维场景的几何结构,其优点在于高保真度和强一致性,但仅限于复现已观察到的内容,缺乏创造性。而生成技术则利用扩散模型预测未来的画面,具有“想象”未观测视角和未发生场景的能力,但缺乏明确的三维结构,且在长时间序列中可能出现漂移和失真。
Xiaomi Auto World Model巧妙地将重建模块和生成模块进行深度结合,通过结构上的相互约束,实现两者的协同增益。重建模块提供精确的三维几何作为结构化锚点,确保生成过程的稳定性;而生成模块则将预测能力延伸至观测范围之外,弥补了重建的局限性。这种闭环互动的机制,在稳定性、一致性和真实性方面带来了显著的提升。
具体而言,WorldRec的确定性几何约束,有效避免了长时间自回归预测中误差累积和内容漂移的问题,从而实现了高稳定性。通过4D场景表征作为跨帧共享记忆,该框架确保了不同时间、不同视角下场景内容的高度一致性。同时,WorldGen以WorldRec渲染的RGB图像为几何骨架,使得合成内容既符合物理布局,又与真实传感器观测数据高度贴近,极大地缩小了“仿真”与“现实”之间的差距,带来了高真实性。
目前,Xiaomi Auto World Model已在小米汽车的三大实际场景中得到应用。首先,在合成数据生成方面,该模型已交付了超过10万个高质量合成数据片段,这些数据被直接用于感知模型的训练,显著提升了车辆在危险场景下的识别能力。其次,在仿真测试领域,该模型构建了一个闭环仿真环境,有效提高了测试效率,完善了测试规范,并能在仿真中复现真实事故以进行针对性优化。最后,在辅助驾驶学堂中,世界模型能够动态生成第一人称驾驶教学视频,当用户面临复杂路况时,系统会通过生成式视频展示正确的操作方案。这项功能目前已在小米所有车型的辅助驾驶学堂——实景模拟场景中上线。
