小米汽车发布突破性世界模型框架：融合三维重建与视频生成，辅助驾驶迈向新纪元

小米技术团队近日公开了其在智能驾驶领域的重要进展——Xiaomi Auto World Model。这一创新框架旨在为辅助驾驶系统提供全新的发展方向，促进行业从单纯的“场景感知”向更深层次的“认知推演”与“场景进化”演进。

据介绍，Xiaomi Auto World Model的独特之处在于，它开创性地将三维重建技术与视频生成能力进行了深度耦合。这种“重建锚定几何，生成填补想象”的模式，彻底打破了以往业界将重建和生成技术独立开发的传统路线。目前，该模型在Waymo和nuScenes等主流基准测试中已取得了全面领先的成果，并已成功应用于小米汽车的合成数据生产、仿真测试以及智能座舱等三大核心业务。

当前，世界模型主要包含重建（WorldRec）和生成（WorldGen）两大技术路线，它们各自拥有特定的优势和局限性。重建技术能够通过多视角观测精确还原三维场景的几何结构，其优点在于高保真度和强一致性，但仅限于复现已观察到的内容，缺乏创造性。而生成技术则利用扩散模型预测未来的画面，具有“想象”未观测视角和未发生场景的能力，但缺乏明确的三维结构，且在长时间序列中可能出现漂移和失真。

Xiaomi Auto World Model巧妙地将重建模块和生成模块进行深度结合，通过结构上的相互约束，实现两者的协同增益。重建模块提供精确的三维几何作为结构化锚点，确保生成过程的稳定性；而生成模块则将预测能力延伸至观测范围之外，弥补了重建的局限性。这种闭环互动的机制，在稳定性、一致性和真实性方面带来了显著的提升。

具体而言，WorldRec的确定性几何约束，有效避免了长时间自回归预测中误差累积和内容漂移的问题，从而实现了高稳定性。通过4D场景表征作为跨帧共享记忆，该框架确保了不同时间、不同视角下场景内容的高度一致性。同时，WorldGen以WorldRec渲染的RGB图像为几何骨架，使得合成内容既符合物理布局，又与真实传感器观测数据高度贴近，极大地缩小了“仿真”与“现实”之间的差距，带来了高真实性。

目前，Xiaomi Auto World Model已在小米汽车的三大实际场景中得到应用。首先，在合成数据生成方面，该模型已交付了超过10万个高质量合成数据片段，这些数据被直接用于感知模型的训练，显著提升了车辆在危险场景下的识别能力。其次，在仿真测试领域，该模型构建了一个闭环仿真环境，有效提高了测试效率，完善了测试规范，并能在仿真中复现真实事故以进行针对性优化。最后，在辅助驾驶学堂中，世界模型能够动态生成第一人称驾驶教学视频，当用户面临复杂路况时，系统会通过生成式视频展示正确的操作方案。这项功能目前已在小米所有车型的辅助驾驶学堂——实景模拟场景中上线。