在2026年,自动驾驶领域的竞争逻辑正在经历第三次根本性的转变。短短几年内,该行业已经历了硬件军备竞赛和端到端算法竞争。目前,小鹏、理想等新兴汽车制造商以及吉利、长城等传统车企,正纷纷采纳VLA(视觉-语言-动作)模型,使其成为当前自动驾驶技术发展的重要趋势之一。
VLA模型凭借其“视觉感知+语言推理+动作输出”的整合架构,有效解决了传统自动驾驶技术的主要缺陷,即系统能够识别路况,但缺乏对路况背后逻辑的理解。然而,VLA的局限性也显而易见,其依赖语言模型进行推理,导致视觉到语言、再到动作的两次“翻译”过程,这不仅可能引入误差,还会降低响应速度。
行业的激烈竞争意味着“刚追上主流,又面临新迭代”。当一些厂商仍在努力实现VLA的量产落地,并优化其推理速度及场景泛化能力时,华为、小米等厂商却认为VLA并非自动驾驶的终极形态,而仅是辅助驾驶向全自动驾驶过渡的关键技术。真正的下半场竞争,已明确瞄准VLA之后的下一代技术范式。
要全面理解VLA的局限性及未来发展方向,首先需明确自动驾驶十年间三代技术范式的演进逻辑,每次迭代均是对前代技术根本性不足的彻底颠覆。第一代是规则驱动模式,这是最原始的自动驾驶形态。早期的自动驾驶系统完全依靠工程师手工编写的数百万行C++代码,通过预设固定规则来应对各种路况。系统核心逻辑在于“匹配规则,机械执行”,其优点在于稳定性强且可解释,但缺点是极度僵化。面对未预设的突发场景、异形路况或混合交通,系统可能直接失效,无法适应复杂的真实路况,这也是早期辅助驾驶仅限于高速巡航的核心原因。
第二代技术进入了端到端AI时代,以特斯拉FSD V12为标志。行业彻底放弃了模块化分解和人工规则堆砌,转而构建了“像素输入,动作输出”的全神经网络架构。通过海量真实路况数据的训练,AI能够自主学习驾驶决策。这项技术解决了传统规则算法僵化、迭代缓慢的问题,显著提升了自动驾驶的平顺性和场景适应性。然而,它也存在致命缺陷:系统仅具备感知能力,缺乏理解能力。AI虽然能识别障碍物和车道线,却无法理解场景背后的逻辑,不具备交通常识,这极易导致“识别准确但误判、避险生硬、决策不合理”等问题。
第三代便是当前主流的VLA时代。VLA在端到端视觉架构基础上,引入自然语言推理能力,构建“视觉感知世界、语言理解逻辑、动作输出决策”的完整闭环。与纯视觉端到端模型的“直觉式决策”不同,VLA能够像人类驾驶员一样,先识别路况、理解场景,再制定行驶策略,从而完美适应城市复杂路口、人车混行、临时施工等高频复杂场景,使高阶无图智能驾驶真正具备量产实用性。
VLA本质上是一种端到端的智能系统,通过统一的神经网络将多模态感知、高层逻辑推理和底层动作执行融合。其核心价值在于将原本独立的感知(看)、逻辑(想)和执行(做)模块在同一语义空间内对齐。与传统自动驾驶系统相比,VLA不仅能识别环境中的像素点或几何结构,更能理解这些信号背后的语义逻辑。VLA模型由视觉编码器、大语言模型(LLM)骨干网络和动作解码器三大核心组件构成。视觉编码器将摄像头采集的多视角图像转换为高维特征向量,包含环境空间布局和物体特征;LLM骨干网络作为决策中心,利用预训练积累的海量世界知识对视觉特征进行逻辑加工;动作解码器则将抽象推理结果转化为转向角度、加减速数值等具体物理动作。
这种一体化的映射方式使得系统能够以更接近人类认知的方式处理驾驶任务。在人类驾驶中,大脑不会先精确标注每个行人的坐标再计算,而是基于对场景的整体理解(如“这个行人可能要过马路”)直接产生避让动作。VLA模型通过共享的Transformer架构,协同编码语言、视觉和动作模态,构建了统一的语义空间,实现了从感知理解到动作决策的无缝衔接。经过三年迭代,VLA已彻底重塑行业格局,缩小了中小厂商在算法上的差距。目前,主流车企的VLA在常规城市道路和高速路况上的表现已趋于同质化,在日常通行平顺度和场景覆盖率方面的差距极小。这种同质化竞争表明VLA的技术红利已接近顶点,行业迫切需要新的技术突破点。
当前,舆论普遍将VLA视为自动驾驶的最佳解决方案,然而在一线技术团队和专家眼中,VLA从诞生之初就带有结构性缺陷。这些短板无法通过模型微调、数据增量或算力升级彻底解决,这正是其注定只能作为过渡技术的核心原因。
首先,VLA存在时序逻辑缺失,导致其对空间场景的推理能力较弱。目前大多数VLA模型擅长单帧瞬时路况分析,但在预测车流变化、行人移动轨迹以及多车交互的连续时序逻辑方面不足。面对“鬼探头”、近距离穿插、车流突然变道等高速动态场景,以及车辆在特定空间中的运动,VLA缺乏敏感的感知能力,常出现决策滞后或预判失误,难以实现人类驾驶员的“提前预判、主动避险”。
其次,算力成本高昂,其实时性难以适应车载场景。VLA融合了视觉、语言和动作三大模块,模型参数量庞大,推理计算量远超传统端到端算法。车载电控系统要求决策响应速度达到100Hz,而通用VLA的语言推理速度普遍低于10Hz。巨大的算力差距使得模型必须大幅精简才能应用于车辆。即使部分厂商通过优化推理链路将时延压缩至80毫秒以内,仍未能彻底解决智能化程度与速度不可兼得的矛盾,高算力成本也显著提升了高阶自动驾驶的量产门槛。
第三,VLA缺乏对物理世界常识的理解,导致其在长尾场景下的泛化能力失效。VLA的学习逻辑依赖于海量数据拟合,而非真正理解物理规律。它能通过训练学会避让常规障碍物,但无法自主推理“路面积水易打滑需减速”、“树枝悬空可能坠落需绕行”、“雨雪天路面摩擦力下降需延长制动距离”等物理常识。对于这类数据难以完全覆盖的稀缺长尾场景,VLA极易出现决策失误,而自动驾驶的安全底线恰恰由这些长尾极端场景决定。
最后,VLA存在跨模态对齐偏差,导致决策稳定性不足。视觉、语言、动作三大模块之间存在固有的链路损耗,视觉感知偏差、语言推理误差和动作输出偏差会层层叠加。在逆光、浓雾、暗光等视觉受限场景下,VLA可能出现语义理解与实际路况脱节的问题,导致“识别正确、理解错误、动作偏差”的异常决策,轻则导致行驶顿挫、路线偏移,重则引发安全事故,这也是纯视觉VLA方案固有的物理短板。综上所述,VLA虽解决了自动驾驶的智能化问题,但尚未解决其安全性、实时性和通用性问题,这也是行业必须超越VLA,探索下一代技术的核心驱动力。
站在2026年的技术节点,领先厂商正逐步摆脱VLA的模态融合思维,转向物理世界智能建模方向发展。VLA的核心在于“看懂、读懂、动作”,而下一代自动驾驶技术则聚焦于“懂规律、会推演、能预判”。目前,行业已明确四大主流迭代方向。
其一,多模态物理世界模型将成为下一代技术的核心基石。世界模型是彻底解决VLA物理常识缺失的最佳方案,也是特斯拉和华为等企业重点攻坚的方向。与VLA依赖数据拟合场景不同,世界模型能自主学习现实世界的物理规则、交通规律和运动逻辑,构建完整的虚拟路况世界。面对前所未见的长尾场景,它无需海量数据训练,便能依据物理常识自主推演最佳决策,真正实现“举一反三”。简而言之,VLA是“见过才会”,而世界模型则是“懂原理所以会”,这从根本上解决了长尾场景失效的行业难题,是实现全自动驾驶落地的关键基础。
其二,时序具身智能架构将弥补动态决策的短板。针对VLA时序推理能力薄弱的缺陷,下一代技术将全面强化连续场景建模能力,摒弃单帧静态推理模式,建立时序记忆与动态推演体系。系统能实时记录过去的道路信息,预判未来3-5秒车流和人流的动态变化,实现“过去-现在-未来”的全时序链路决策,更贴近人类驾驶思维。这将彻底解决高速动态避险、复杂车流交互、路口多主体博弈等决策难题,显著提升高速和城市拥堵场景下的行驶安全性和平顺性。
其三,神经符号融合技术将平衡智能与可解释性。目前的VLA属于纯黑盒AI模型,其决策逻辑不可解释,存在安全监管隐患,难以满足自动驾驶的合规要求。下一代神经符号融合技术将结合AI深度学习的直觉优势与符号逻辑的规则优势:AI负责实时场景感知和快速决策,符号逻辑则负责交通规则、物理常识和安全底线的约束校验。这既保留了大模型的极致智能,又解决了黑盒决策的不可控问题,确保每一次制动、变道、绕行都有逻辑可循,符合高阶自动驾驶的安全合规要求。
其四,轻量化通用自动驾驶基座将实现普惠量产。VLA过高的算力成本极大限制了高阶自动驾驶的普及。下一代技术将通过模型蒸馏、算子优化、边缘计算重构等方式,打造轻量化通用自动驾驶基座。在保留顶级决策能力的前提下,大幅压缩算力需求,摆脱对超高算力硬件的依赖。同时,它将适配多传感器融合架构,以视觉为主、雷达为辅,兼顾低成本与高安全冗余,彻底解决高阶自动驾驶仅限于高端车型的痛点,推动全自动驾驶技术全面普及至中端量产车型。
新一轮的技术差距正在显现。技术迭代的窗口期总是短暂的。目前,国内外领先厂商已经启动了下一代技术竞赛,提前布局VLA之后的技术赛道,新一轮的行业排位赛已然拉开帷幕。
特斯拉作为行业技术风向标,正推动端到端时序神经网络与神经世界模拟器融合,核心推理以端到端为主,云端闭环仿真为辅。与VLA不同,特斯拉并未引入大语言模型进行语义推理,而是坚持“纯视觉端到端+物理仿真训练”路线。特斯拉FSD采用“多模态(摄像头+IMU+导航+音频)输入 → 时序Transformer/占用网络 → 直接输出控制信号”的一段式端到端架构,而非传统的“感知-规划-控制”级联模式。该结构具备时序建模能力,可视为“端到端时序网络”。神经世界模拟器则用于云端生成未来状态(给定当前状态+动作 → 预测下一帧场景),支撑闭环训练、长尾场景合成与强化学习。
华为于四月推出了WEWA 2.0架构,其包含两大核心部分:云端的世界引擎(WE)和车端的世界行为模型(WA)。云端引入了多智能体博弈机制和在线强化学习,使得模型能够与环境实时互动,实现“边生成、边学习、边验证”的工作模式。车端架构则以安全风险场理论和Driving Agent模块为核心,通过量化动能场、势能场和行为场来评估实时风险,并生成风险热力图以辅助决策。Driving Agent模块支持系统自主优化策略以完成出行任务,从而提升在复杂场景下的应对能力和防御性驾驶水平。
小鹏和理想汽车则专注于量产落地优化,走出差异化的迭代路线。小鹏汽车在第二代VLA上做出了激进的选择——舍弃语言层。小鹏第二代VLA采用“视觉→隐式Token→动作”架构,彻底摒弃显式语言转译,让视觉信号直接生成连续的驾驶动作,极致压缩推理时延。同时,小鹏布局虚实结合的数据闭环,通过虚拟场景训练弥补长尾场景的短板。理想汽车推出了Mind VLA-01全新架构,针对性解决VLA三维空间对齐偏差问题,强化对异形路况和复杂地下停车场场景的适应能力,并推动模型轻量化,主打极致的量产性价比。
小米汽车于三月发布了XLA认知大模型,该模型在模态支持、效率和可控性方面有所侧重。其名称中的“X”代表原生支持多模态数据输入,可融合激光雷达、视觉、导航、声音及机器人数据等多种信息。XLA采用潜空间推理技术,旨在兼顾系统低时延与推理能力,并保持推理过程的可解释性和可追溯性。该模型基于Xiaomi MiMo-Embodied具身基座大模型研发,融合了VLA和世界模型架构,实现了从数据驱动到认知驱动的升级,并因其原生支持更丰富的多模态数据输入而被命名为XLA而非VLA。
在自动驾驶企业阵营中,小马智行的PonyWorld 2.0、文远知行的通用仿真模型WeRide GENESIS以及蘑菇车联的物理世界多模态大模型MogoMind均属于世界模型的范畴。世界模型本质上是一个能“理解物理世界、并在虚拟环境中与世界博弈”的能力框架。其核心能力主要体现在两个方面:一是对物理世界的数字化建模和抽象;二是基于这种建模,能够对物理世界产生合理的想象和预测,例如根据给定图片预测未来世界将如何变化。
基于世界模型,自动驾驶企业在进行云端仿真训练时,能够无限量地从各个维度生成所需场景,并能根据指令生成视频作为训练数据,从而使得模型迭代速度呈现出断代式的领先。在无人驾驶技术成熟落地之后,世界模型有望进一步拓展至其他物理AI应用,例如复杂的机器人控制和自动化物流系统等。总体来看,行业格局已然清晰:二线厂商仍在全力推进VLA的落地,努力追赶主流;而一线头部厂商则已彻底掌握VLA技术,并提前布局下一代世界模型和具身智能。未来两年内,车企在自动驾驶能力上的差距,将不再由VLA能力决定,而是取决于下一代物理智能技术的落地速度。
VLA之后,自动驾驶将迎来全民普惠时代。从规则算法到端到端,从VLA大模型到物理世界智能,自动驾驶的迭代逻辑始终清晰:即降低人工依赖、提升通用能力、缩小人机差距。VLA作为关键过渡技术,推动自动驾驶从“机械辅助”迈向“类人智能”,但其结构性短板注定无法支撑L4级完全自动驾驶的落地。未来2-3年,随着VLA和世界模型的进一步发展,自动驾驶将迎来三大颠覆性变化。
首先,安全兜底能力将实现质变,彻底解决长尾极端场景下的失效问题,真正实现全天候、全场景的可靠行驶,从而消除自动驾驶的核心安全隐患。其次,自动驾驶将彻底摆脱数据依赖,无需海量场景覆盖,依靠物理常识自主适应各类未知路况,解决不同城市、不同路况的适应难题。第三,成本将大幅下探,轻量化模型架构将降低硬件门槛,高阶全自动驾驶将从高端豪华车的专属配置,普及至十几万元的家用车型,实现全民普惠。
与此同时,行业竞争将彻底告别“参数内卷、功能堆砌”,回归核心的物理建模能力、时序推理能力和安全可控能力。单纯跟风堆叠大模型、模仿VLA功能的厂商,将逐步被市场淘汰。唯有真正掌握底层核心算法与物理智能技术的企业,才有机会赢得通往下一站的入场券。任何技术赛道都没有永恒的技术红利,唯有持续的底层革新。VLA的普及,使行业摆脱了低级的硬件和规则内卷,真正进入了AI智能驾驶时代。而VLA之后,自动驾驶将不再仅仅是“会开车的机器”,而是理解路况、物理规律、交通规则,并能自主预判的车载智能体。这一轮迭代,早已超越算法本身,标志着自动驾驶从“为人所用”到“与人共生”的终极跨越。
