← 返回新闻列表

Agent化的OS:拼的不是AI,是底盘

(本文作者为 云涌AI,钛媒体经授权发布) 文 | 云涌AI ,作者 | 黄云皓 一 . Google I/O 2026之后:四大端侧OS步入Agent时代 2026年5月12日,Google举办了Android Show|I/O Edition发布会,这是5月19日I/O大会之前的Android专场。Android生态总裁Sameer Samat给这场发布会定调:Android要从操作系统

文 / 云涌AI · 2026/05/27 · 阅读约 16 分钟

分享:
Agent化的OS:拼的不是AI,是底盘

(本文作者为 云涌AI,钛媒体经授权发布)

文 | 云涌AI ,作者 | 黄云皓

一 . Google I/O 2026之后:四大端侧OS步入Agent时代

2026年5月12日,Google举办了Android Show|I/O Edition发布会,这是5月19日I/O大会之前的Android专场。Android生态总裁Sameer Samat给这场发布会定调:Android要从操作系统转化成一套智能系统。承接这条主线的,就是Gemini Intelligence——Android系统层的一套主动式AI能力。

2026年Android Show|I/O Edition发布会海报

来源:Android Heaadlines

与去年Gemini Nano+AICore的组合相比,这次Google让Agent跨App与上下文的能力进一步嵌入OS层:跨App任务自动化(订餐、采购、下单)、表单自动填充、网页摘要、自定义小组件,依次写进系统级能力清单。Google同时把用户显性控制(explicit user control)、全面数据保护(comprehensive data protection)、运营透明(operational transparency)列为产品三原则。

一周后的5月19日I/O主题演讲上,Google CEO Sundar Pichai沿这条主线开场:

Welcome to the agentic Gemini era(欢迎进入Agent化的Gemini时代)

投身端侧OS Agent化浪潮,Google算不上起跑早。

Microsoft在2024年5月的Build 2024上推出Copilot+PC(搭载40+ TOPS NPU的新一代Windows 11机型品类),基于端侧小模型Phi Silica、屏幕Agent能力Click to Do、系统级活动记忆Recall三项能力将Agent能力嵌入OS系统。

2024年6月的WWDC24上,Apple就已正式公布“Apple Intelligence”,Apple当时给它的定位就是“personal intelligence system”(个人智能系统),后续陆续上线了一些AI辅助功能,只不过由于自家大模型难产、Siri“弱智”等问题,Apple Intelligence的核心Agent能力一直未能面世。

华为则在2025年6月HDC 2025上发布HarmonyOS 6与鸿蒙智能体框架(HMAF),随后小艺智能体广场上线了80多个智能体。

端侧OS Agent化的大趋势已经同时出现在Android、iOS、HarmonyOS、Windows等主流操作系统上。

发布会展示的只是功能,OS厂商真正要拼的,是支撑OS Agent可靠运行、实际解决问题的三层能力底:系统级AI Runtime、可控芯片、端云模型矩阵。

二. 发布会之下:撑起OS Agent的三层底盘

系统级AI Runtime:端侧智能的调度中枢

Runtime是端侧模型在操作系统里运行的推理引擎与系统服务。往下,它直接对接NPU与系统资源调度;往上,它以稳定API把推理能力暴露给所有App。它把端侧模型变成了“OS层的共享智能”:跨App共享模型权重、统一调度算力与内存、承载Agent所需的工具调用、引导生成、上下文与权限对接。它决定了OS Agent究竟是App里的一个聊天按钮,还是操作系统上能执行系统级操作的常驻服务。

Android体系内最完整的样本是Google AICore。2023年12月,AICore作为Android 14的系统服务(system service)上线;2025年8月,Gemini Nano通过ML Kit GenAI APIs对开发者开放。从系统服务底座到面向App的稳定API,AICore走了近两年,不断打磨。

其他OS厂商走的是同一条路,节奏不同。Apple在WWDC25把Foundation Models框架开放给开发者,框架自带@Generable装饰器、工具调用、引导生成(guided generation)与有状态会话(stateful session),背后接的是约3B参数的端侧基础模型,加上私密云端计算提供云端支持。Microsoft把端侧AI框架Foundry on Windows与Phi Silica装进Windows 11,以Windows ML作为底层推理后端。华为在HDC 2025发布Agent Framework Kit(鸿蒙智能体框架,HMAF),把意图体系与Agent协作协议一起开放。

Android AICore 作为系统服务,调度 Gemini Nano 在硬件加速器上推理

来源:Android Developers

可控芯片:软硬协同的支点

Google在Android Show|I/O Edition上为Gemini Intelligence设置明确的硬件门槛:完整功能集首发仅面向Pixel 10系列与Galaxy S26系列等少数最新旗舰,去年的机型均不在列。这指向一个简单事实:AI模型还在快速演进,软件对硬件持续提出新要求。可控芯片是承接这些要求的底盘,可控程度决定OS厂商为端侧OS Agent做软硬适配的空间。

Apple是软硬一体路线的典范。iOS与macOS从一开始就与A系列、M系列芯片同代演进,Core ML则把CPU、GPU、ANE的调度统一封装到框架层。这条路线在LLM时代继续延伸。Apple Machine Learning Research给出过一组实测:按Core ML的优化路径把Llama 3.1 8B Instruct部署到M1 Max上,本地解码速度可达约33 tokens/s。《Apple Intelligence Foundation Language Models》技术报告也披露,Apple为自家芯片做了KV cache共享与2-bit量化感知训练等架构级优化,才得以成功把约3B的端侧基础模型通过Foundation Models框架开放给开发者。这种深度,只有把芯片握在自己手里才做得出——这正是可控芯片之于OS厂商的价值:它决定了软硬协同的深度,也提高了端侧OS Agent的体验上限。

进入AI时代,Google也在做同一件事——从Pixel 6起走自研Tensor SoC路线,最新的Tensor G5把TPU性能最高提升60%、CPU平均提升34%,作为首款完整运行最新一代Gemini Nano的SoC在Pixel 10落地。当然,Tensor G5也有短板:Android Central实测显示其内存配置(RAM容量)仍是AI性能瓶颈、Geekbench AI跑分输给骁龙8 Elite;Macworld的Geekbench 6实测中,G5的单核与多核分数都低于A18 Pro。Google还在追赶,但自研Tensor加端侧Gemini的协同路线已经成形。

华为麒麟搭配达芬奇NPU与盘古端侧模型,是另一条与Apple、Google并行的可控芯片路径。小米落地了玄戒O1,是朝可控芯片方向走出的新进者。

端云模型矩阵:Agent的智力源泉

端云模型矩阵是终端设备的“智力”源泉:云端模型撑起复杂任务的能力天花板,端侧模型托起日常运行的下限——延迟、续航、隐私、稳定性都压在端侧这一头。两端缺一不可,差别在与OS的耦合深度。端侧模型要嵌入每一台终端设备的OS、与本机NPU深度耦合,在OS里承担双重身份:往下,它是Runtime的本地推理后端;往上,它通过Runtime的框架与SDK作为系统级API向App开放。

自研在云端、端侧都有意义,只是端侧的回报更显性。云端模型外采也能撑起能力天花板,自研的优势则主要体现在路由控制权、商业条款、模型迭代节奏。端侧不同。端侧模型嵌入到每一台设备的OS与NPU之中,自研的回报直接体现在产品性能上:KV cache共享、为某代芯片专门设计的2-bit量化感知训练、Per-Layer Embedding(源自Gemma 3n,按层从快速存储增量加载嵌入参数)等等,这些都得是模型与硬件同步设计才方便实现;与此同时,协同节奏也不可再受第三方硬件厂商制约。

Tensor G5的TPU算力较上一代G4最高提升60%,但Gemini Nano在G5上的提升远不止于此——据Google官方与Jon Peddie Research整理,本地处理速度达上一代的2.6倍、能耗降至原先的一半、token窗口从12,000扩到32,000(相当于一次性消化约百张截图)。这些显著超出的性能表现,源自Gemini Nano v3采用的Matryoshka Transformer弹性推理架构,叠加与Tensor G5 TPU的协同优化。

Gemini Nano on Tensor G5较上一代的性能跃迁

来源:Google/Jon Peddie Research,云涌AI制图

端侧模型这一层,各主流OS厂商手里握着的都是自家牌:Google的Gemini Nano、Apple约3B参数的端侧基础模型、Microsoft的Phi Silica、华为的盘古端侧模型。自研,是这一层的默认选项。

三. 三层之间:协同越深,差异化空间越大

三层能力底盘自下而上耦合:可控芯片→端侧/云端模型→Runtime→Agent。可控芯片决定端侧模型可达到的推理效率与功耗,端侧模型决定Runtime可调度的本地智能,Runtime决定Agent作为系统服务跨App执行的可靠性。三者协同越深,OS厂商在端侧Agent上的产品体验差异化越大,护城河也越厚。

三层在同一套软硬件中咬合得越深,OS Agent 的产品能力也越会涌现出单层做不到的差异。

响应延迟与功耗。Gemini Nano在Tensor G5上拿到的2.6倍处理速度与能耗减半,依靠的是模型架构、芯片设计、Runtime调度三层在同代软硬设计里相互适配,这种量级的改善才会涌现。

隐私与可信。涉及隐私数据的常用任务由端侧模型就地完成,复杂请求再交给云端——这是现阶段OS Agent对待用户数据的合理默认姿态。三层耦合决定这种“端侧优先、云端兜底”能否真正落地:NPU与端侧模型深度适配,是仍处于发展期的端侧模型肩负起日常高频推理的关键路径;模型为NPU做量化压缩与KV cache共享;Runtime按任务复杂度在端侧与云端之间路由。三层任一不到位,“端侧优先”就只能是营销话术。

系统级上下文。OS厂商把跨App和OS层用户数据(语义索引、屏幕感知、长期记忆)重组成系统级个人语境提供给Agent,是Agent真正“理解用户”的前提,也是OS Agent不同于单一应用级Agent的核心特征。落地依赖三层咬合:Runtime持有跨App索引与权限,端侧模型常驻负责理解推理,NPU提供本地高效算力。Apple的Core Spotlight在终端建立语义索引,App通过App Intents把动作与数据接入系统,Agent将通过Personal Context获取语境(Apple已宣布该能力将随未来软件更新上线);Android侧AppFunctions走的是同一条路径。

作为系统服务的可靠性。OS Agent要被当作系统级服务调用,就得在不联网、低电量、热降频等现实场景下保持可用。端侧模型常驻设备,让Agent离开网络也能工作;高度软硬优化的NPU承担低功耗推理;Runtime在设备资源紧张时按可用性回退调度(切到更轻量的模型,或把请求路由到云端)。三层任一缺位,OS Agent就撑不起系统服务的形态,只能退回App级聊天按钮。

Apple Intelligence呈现了完整的协同范式:Apple Silicon、约3B端侧基础模型、Foundation Models 框架自下而上咬合,端侧处理常用场景,复杂请求转入私密云端计算。Google是另一种形态。Tensor G5作为首款完整运行最新一代Gemini Nano的SoC在Pixel 10落地,由AICore统一调度,让Magic Cue、Pixel Screenshots等系统级Agent功能可以不依赖云端默认开启。华为是国内构筑三层协同的典范:麒麟、达芬奇 NPU、盘古端侧、HMAF 四件全部自有,自下而上耦合成完整的三层底盘。

端侧OS Agent三层底盘咬合机制

来源:云涌AI

四. 底盘之上:长期护城河的其他关键变量

三层协同筑起护城河的核心。底盘之上还有众多变量影响OS Agent时代的产品竞争力,包括Agent与App的交互能力、隐私保护等。

OS Agent与App的交互,处于OS厂商和App厂商博弈的最前线。眼下两条路径并行。一条是识屏与自动化,包括Gemini Live屏幕共享、Apple Visual Intelligence、Circle to Search等。OS Agent靠读屏幕、点按钮介入App,单次任务可行,但每次调用都缺乏结构化信息,多步动作难以稳定搭建工作流。另一条是API深度集成,包括Google AppFunctions、Apple App Intents、华为Intents Kit等。App把核心动作以结构化接口暴露给系统,Agent调用稳定,也能搭建多步工作流。API路径能否铺开,关键不在OS厂商,而在App厂商。把核心功能交给Agent调用,意味着用户可能不再直接打开App,品牌曝光、广告位、行为数据、付费入口都有被OS截走的风险。这将是用户侧终端流量分配权的核心争夺点。

隐私保护,是端侧系统的关键价值和底线。OS厂商在端侧握有最深的系统级权限和最敏感的用户数据,隐私既是本职立场,也是前两件事长期推进的前置条件。Apple通过端侧Secure Enclave独立安全芯片与私有云计算PCC节点共享的同一套硬件级安全设计,构建了基于终端的隐私保护体系,这一产品策略让“Privacy. That’s Apple.”成为Apple在全球高端市场的核心品牌标签,进而赢得用户信任。

Apple的“Privacy. That’s Apple.”标签

来源:Apple官网

三层协同立起护城河的核心,底盘之上的这些长期变量则影响它能加固到多深。

五. 不只是重做OS

端侧OS Agent化趋势下,系统级AI Runtime、可控芯片、端云模型矩阵这三层底盘越扎实,OS厂商在这场仗里的产品下限就越高、差异化空间也越大。把握住这一趋势的OS厂商,才有机会推动端侧入口流量分配权的重置,拿到更强的竞争位置。

这一趋势不止于手机和PC。OS Agent的底层能力沿着各家已搭建的多设备生态向更多终端外溢,尤以IoT为盛。可控芯片向汽车SoC等场景下沉,华为已布局车规级麒麟芯片、小米澎湃OS走进自家车型;端侧模型向眼镜等新形态硬件轻量化迁移,Google与Samsung、Gentle Monster、Warby Parker联合开发的Android XR智能眼镜将在2026年秋季上市;Runtime与Agent的协同则借由各家已铺设的“超级终端/分布式”框架扩展到设备群,例如华为的1+8+N与鸿蒙分布式软总线、小米的“人车家全生态”与HyperConnect、Apple的Continuity、Google的Cross device SDK与跨设备服务。OS Agent这场仗,远不限于手机和PC的胜负。

AICore打磨了近两年;Apple的OS与Apple silicon系列芯片磨合了十几年;Tensor一路改到G5,Pixel 10方能肩负Gemini Nano v3的重担。这场仗的高下,从来不在发布会上的一两个小时,而在一代代的芯片、模型与Runtime中磨出来的。

参考资料:

Gemini Intelligence brings proactive AI to Android|Google Blog

I/O 2026: Welcome to the agentic Gemini era|Google Blog

Phi Silica, small but mighty on-device SLM|Windows Experience Blog

Apple Delays Siri Upgrade Indefinitely|Bloomberg

HarmonyOS 6 开发者 Beta 启动新闻稿(HDC 2025)|华为

The latest Gemini Nano with on-device ML Kit GenAI APIs|Android Developers Blog

Foundation Models framework documentation|Apple Developer

鸿蒙智能体框架白皮书|华为开发者

On-Device Llama 3.1 with Core ML|Apple Machine Learning Research

Apple Intelligence Foundation Language Models Tech Report 2025|Apple Machine Learning Research

Google Tensor G5: Benchmarks and everything you need to know|Android Central

Google’s new M5 SoC(Tensor G5 详解·Matryoshka Transformer)|Jon Peddie Research

Private Cloud Compute: A new frontier for AI privacy in the cloud|Apple Security Engineering

Overview of AppFunctions|Android Developers

App Intents|Apple Developer

Intents Kit 简介(HarmonyOS)|华为开发者

The Google Pixel 10 Pro’s Tensor G5 chip is impressive—if you compare it to an iPhone 14|Macworld

Gemma 3n model overview|Google AI for Developers

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

标签:#钛媒体
广告位 · 文末横幅