2026年5月12日,谷歌在其安卓特别发布会——Android Show|I/O Edition上,为即将到来的I/O大会预热。安卓生态系统总裁Sameer Samat明确指出,安卓正从传统的操作系统向智能系统转型。这一核心转变的支撑在于Gemini Intelligence,它为安卓系统层注入了主动式人工智能能力。
与去年Gemini Nano和AICore的组合不同,此次谷歌进一步将Agent的跨应用和上下文理解能力深度融入操作系统。具体功能包括跨应用任务自动化(如订餐、采购)、表单自动填充、网页摘要生成以及个性化小组件等,这些都已成为系统级能力。同时,谷歌强调了产品设计的三大原则:用户显性控制、全面的数据保护和操作透明度。
一周后的5月19日,谷歌首席执行官Sundar Pichai在I/O主题演讲开场时便宣告:“欢迎进入Agent化的Gemini时代”。
然而,谷歌并非端侧操作系统Agent化浪潮的先行者。微软早在2024年5月的Build大会上推出了Copilot+PC,通过端侧小模型Phi Silica、屏幕Agent功能Click to Do和系统级活动记忆Recall,将Agent能力融入Windows 11操作系统。
苹果也在2024年6月的WWDC大会上发布了“Apple Intelligence”,将其定位为“个人智能系统”,但由于自身大模型研发和Siri智能化进程的挑战,其核心Agent能力尚未完全落地。华为则于2025年6月的HDC全球开发者大会上发布了HarmonyOS 6和鸿蒙智能体框架(HMAF),随后智能体广场上线了逾80个智能体。
这表明,端侧操作系统的Agent化已成为Android、iOS、HarmonyOS、Windows等主流操作系统共同的发展趋势。
发布会上展示的只是表面功能,操作系统厂商之间真正的较量,在于支撑OS Agent可靠运行并解决实际问题的三大底层能力:系统级AI运行时(AI Runtime)、可控芯片以及端云模型矩阵。
AI运行时是端侧模型在操作系统中运行的推理引擎和系统服务。它向下直接连接NPU和系统资源调度,向上通过稳定的API向所有应用程序暴露推理能力。AI运行时将端侧模型转变为“OS层的共享智能”,实现了跨应用模型权重共享、算力与内存统一调度,并承载了Agent所需的工具调用、引导生成、上下文和权限对接。它决定了OS Agent究竟是应用中的聊天按钮,还是能在操作系统层面执行操作的常驻服务。
安卓体系内最成熟的范例是谷歌的AICore。2023年12月,AICore作为Android 14的系统服务推出;2025年8月,Gemini Nano通过ML Kit GenAI APIs向开发者开放。从系统服务基础到面向应用程序的稳定API,AICore的打磨历程耗时近两年。
其他操作系统厂商也遵循相似路径,但节奏各异。苹果在WWDC25向开发者开放了Foundation Models框架,该框架集成了@Generable装饰器、工具调用、引导生成和有状态会话,其背后是约30亿参数的端侧基础模型,并辅以私密云端计算支持。微软将端侧AI框架Foundry on Windows与Phi Silica内置于Windows 11,采用Windows ML作为底层推理后端。华为则在HDC 2025发布了Agent Framework Kit(鸿蒙智能体框架,HMAF),开放了意图体系和Agent协作协议。
可控芯片是软件与硬件协同的关键支点。谷歌在Android Show|I/O Edition上为Gemini Intelligence设定了明确的硬件门槛,其完整功能集仅优先支持Pixel 10系列和Galaxy S26系列等少数最新旗舰机型,去年的机型均未包含。这揭示了一个简单的事实:AI模型快速迭代,软件对硬件持续提出新的要求。可控芯片是满足这些要求的基石,其可控程度决定了OS厂商在端侧OS Agent软硬件适配上的空间。
苹果是软硬一体化路线的典范。iOS和macOS从诞生之初便与A系列、M系列芯片同步演进,Core ML将CPU、GPU、ANE的调度统一封装到框架层。在大型语言模型时代,这一路线得以延续。苹果机器学习研究团队的测试显示,通过Core ML优化路径将Llama 3.1 8B Instruct部署到M1 Max上,本地解码速度可达每秒约33个token。《Apple Intelligence Foundation Language Models》技术报告也披露,苹果通过KV缓存共享和2位量化感知训练等架构级优化,才成功将其约30亿参数的端侧基础模型通过Foundation Models框架向开发者开放。这种深度优化只有在芯片自主可控的情况下才能实现,这正是可控芯片对OS厂商的价值所在:它决定了软硬协同的深度,也提升了端侧OS Agent的体验上限。
进入AI时代,谷歌也在做同样的事情,从Pixel 6开始走自研Tensor SoC路线。最新的Tensor G5将TPU性能最高提升60%,CPU平均提升34%,并作为首款完整运行新一代Gemini Nano的SoC在Pixel 10上落地。当然,Tensor G5也存在短板:Android Central的测试显示其内存配置(RAM容量)仍是AI性能瓶颈,Geekbench AI跑分低于骁龙8 Elite;Macworld的Geekbench 6测试中,G5的单核与多核分数亦低于A18 Pro。谷歌仍在追赶,但自研Tensor与端侧Gemini的协同路线已初具雏形。
华为的麒麟芯片搭配达芬奇NPU和盘古端侧模型,是另一条与苹果、谷歌并行的可控芯片路径。小米推出的玄戒O1,也显示出其向可控芯片方向迈进的决心。
端云模型矩阵是终端设备的“智力”来源:云端模型设定了复杂任务的能力上限,而端侧模型则撑起了日常运行的下限,包括延迟、续航、隐私和稳定性都依赖于端侧模型。两者缺一不可,关键在于与操作系统的耦合深度。端侧模型需要嵌入到每台终端设备的操作系统中,并与本地NPU深度耦合,在操作系统中扮演双重角色:向下作为运行时的本地推理后端,向上则通过运行时的框架和SDK作为系统级API向应用程序开放。
在云端和端侧,自研都具有重要意义,但端侧的投资回报更为显著。云端模型可以通过外部采购来达到能力上限,但自研的主要优势体现在路由控制权、商业条款和模型迭代节奏。端侧则不同。端侧模型嵌入到每台设备的操作系统和NPU中,自研的直接回报体现在产品性能上:例如KV缓存共享、针对特定芯片设计的2位量化感知训练、Per-Layer Embedding(源自Gemma 3n,按层从快速存储增量加载嵌入参数)等,这些都需要模型与硬件协同设计才能便捷实现;同时,协同节奏也不再受制于第三方硬件厂商。
Tensor G5的TPU算力相比上一代G4最高提升60%,但Gemini Nano在G5上的性能提升远不止于此。根据谷歌官方和Jon Peddie Research整理的数据,本地处理速度达到上一代的2.6倍,能耗降至原来的一半,token窗口从12,000扩展到32,000(相当于一次性处理约百张截图)。这些显著超出预期的性能表现,源于Gemini Nano v3采用的Matryoshka Transformer弹性推理架构,并与Tensor G5 TPU进行了协同优化。
在端侧模型这一层面,各主流操作系统厂商都掌握着自己的核心技术:谷歌的Gemini Nano、苹果约30亿参数的端侧基础模型、微软的Phi Silica、华为的盘古端侧模型。自研是这一层的默认选项。
这三层核心能力底盘自下而上紧密耦合:可控芯片决定端侧模型可实现的推理效率与功耗,端侧模型决定运行时可调度的本地智能,运行时决定Agent作为系统服务跨应用执行的可靠性。三者协同越深入,操作系统厂商在端侧Agent上的产品体验差异化就越大,其护城河也会越宽厚。
三层结构在同一套软硬件中结合得越深,操作系统Agent的产品能力就越能展现出单一层次无法实现的独特优势。
响应延迟与功耗是关键指标。Gemini Nano在Tensor G5上实现的2.6倍处理速度提升和能耗减半,正是依靠模型架构、芯片设计、运行时调度三层在同代软硬件设计中相互适配,才能涌现出如此量级的改进。
隐私与可信性至关重要。涉及隐私数据的常用任务由端侧模型本地完成,复杂请求再提交至云端,这是当前操作系统Agent处理用户数据的合理默认模式。三层耦合决定了这种“端侧优先、云端兜底”策略能否真正落地:NPU与端侧模型深度适配,是仍处于发展期的端侧模型承担日常高频推理任务的关键;模型为NPU进行量化压缩和KV缓存共享;运行时根据任务复杂度在端侧与云端之间进行路由。任何一层未能到位,“端侧优先”都将沦为营销口号。
系统级上下文是Agent真正“理解用户”的前提,也是操作系统Agent区别于单一应用级Agent的核心特征。操作系统厂商通过整合跨应用和OS层用户数据(如语义索引、屏幕感知、长期记忆)来构建系统级个人语境,并将其提供给Agent。其落地依赖于三层协作:运行时持有跨应用索引与权限,端侧模型常驻负责理解推理,NPU提供本地高效算力。苹果的Core Spotlight在终端建立语义索引,应用通过App Intents将动作与数据接入系统,Agent将通过Personal Context获取语境(苹果已宣布该能力将随未来软件更新上线);安卓侧的AppFunctions也遵循相似路径。
作为系统服务的可靠性是基本要求。操作系统Agent若要作为系统级服务被调用,就必须在无网络、低电量、热降频等实际场景下保持可用。端侧模型常驻设备,使得Agent即使离线也能运行;高度软硬优化的NPU承担低功耗推理;运行时在设备资源紧张时按可用性进行回退调度(切换到更轻量级模型,或将请求路由至云端)。任何一层缺失,操作系统Agent都无法维持系统服务的形态,只能退化为应用级的聊天按钮。
苹果智能(Apple Intelligence)展现了完整的协同范式:Apple Silicon、约30亿参数的端侧基础模型和Foundation Models框架自下而上紧密结合,端侧处理常用场景,复杂请求则转入私密云端计算。谷歌则呈现另一种模式。Tensor G5作为首款完整运行新一代Gemini Nano的SoC,在Pixel 10上落地,由AICore统一调度,使得Magic Cue、Pixel截屏等系统级Agent功能能够默认开启,无需依赖云端。华为则是国内构建三层协同的典范:麒麟芯片、达芬奇NPU、盘古端侧模型和HMAF均由其自主研发,自下而上构成了完整的三层底盘。
三层协同构筑了核心护城河。在此基础之上,尚有众多变量影响操作系统Agent时代的产品竞争力,包括Agent与应用的交互能力、隐私保护等。
操作系统Agent与应用的交互,是操作系统厂商和应用厂商博弈的前沿阵地。当前存在两条并行路径。其一是识屏与自动化,涵盖Gemini Live屏幕共享、Apple Visual Intelligence、Circle to Search等功能。操作系统Agent通过读取屏幕信息、模拟点击操作来介入应用,虽然单次任务可行,但每次调用都缺乏结构化信息,多步操作难以稳定构建工作流。其二是API深度集成,包括Google AppFunctions、Apple App Intents、华为Intents Kit等。应用通过结构化接口向系统暴露核心操作,Agent调用稳定,也能构建多步工作流。API路径能否普及,关键不在于操作系统厂商,而在于应用厂商。将核心功能交给Agent调用,可能意味着用户不再直接打开应用,品牌曝光、广告位、行为数据、付费入口都有被OS劫持的风险。这将成为用户端终端流量分配权的核心争夺点。
隐私保护是端侧系统的关键价值和根本底线。操作系统厂商在端侧拥有最深层的系统权限和最敏感的用户数据,隐私不仅是其职责所在,也是前述两项工作长期推进的前提条件。苹果通过端侧安全存储(Secure Enclave)独立安全芯片与私有云计算(PCC)节点共享的同一套硬件级安全设计,构建了基于终端的隐私保护体系。这一产品策略使得“隐私,这就是苹果”成为苹果在全球高端市场的核心品牌标识,从而赢得了用户的信任。
三层协同是构筑护城河的核心,而底盘之上的这些长期变量则决定了护城河的深度。
端侧操作系统Agent化趋势下,系统级AI运行时、可控芯片、端云模型矩阵这三层底盘越稳固,操作系统厂商在此次竞争中的产品下限就越高,差异化空间也越大。抓住这一趋势的操作系统厂商,才有机会推动端侧入口流量分配权的重新调整,获得更强的竞争优势。
这一趋势不仅限于手机和个人电脑。操作系统Agent的底层能力正沿着各家已搭建的多设备生态系统向更多终端领域溢出,尤其是在物联网领域。可控芯片正向汽车SoC等场景下沉,华为已布局车规级麒麟芯片,小米澎湃OS也已应用于自家车型;端侧模型正向智能眼镜等新型硬件轻量化迁移,谷歌与三星、Gentle Monster、Warby Parker联合开发的安卓XR智能眼镜预计将于2026年秋季上市;运行时与Agent的协同则借由各家已铺设的“超级终端/分布式”框架扩展到设备群,例如华为的1+8+N和鸿蒙分布式软总线、小米的“人车家全生态”和HyperConnect、苹果的Continuity、谷歌的Cross device SDK和跨设备服务。操作系统Agent的战役,远不止于手机和个人电脑领域的胜负。
AICore历经近两年的打磨;苹果的操作系统与Apple Silicon系列芯片也磨合了十余载;Tensor芯片经过迭代至G5,Pixel 10方能承载Gemini Nano v3的重任。这场竞争的胜负,从来不在发布会上短短的一两个小时,而是在一代代芯片、模型和运行时中磨砺出来的。
