2026年2月,OpenAI工程师瑞安·洛波波洛在完成一项引人注目的项目后,用一句“Agents aren't hard; the Harness is hard.”来总结他的工作。当时,这句话的深意尚未被广泛理解。瑞安带领一个不足十人的团队,仅用五个月时间,便让Codex自动编写了超过一百万行代码,整个过程无需人工干预。这套能让模型高效稳定运行的系统,他称之为“Harness Engineering”。
Codex用户数量增长迅猛,公开数据显示,其周活跃用户从3月初的160万跃升至5月的400多万。除了模型本身的提升,Codex的Harness能力也为其赢得了大量用户。有开发者测试发现,在相同任务下,Claude Code消耗的计算资源约是Codex的三到四倍。这种差异不仅源于模型本身,Harness设计也起到了关键作用——Codex倾向于将任务拆解为可并行执行的子任务,每个子任务的上下文独立,避免了互相干扰。
如今,AI界已普遍认同“Agent = Model + Harness”的公式。如果将Agent比作一辆汽车,那么大模型是提供动力的发动机,而Harness则是将“发动机”组装成“整车”的系统工程。没有Harness,即便有强大的模型也无法投入实际使用。
近期,以模型突破著称的DeepSeek也加入了Harness竞争。该公司发布了Harness产品经理和Harness研发工程师的招聘岗位,其资深研究员陈德里在社交媒体上明确表示,此举旨在组建Harness团队,目标是“对标Claude Code,打造DeepSeek Code Harness”。这表明,即使是领先的模型公司也已将Harness视为下一步战略重点。
过去几年,模型能力一直是稀缺资源,但随着模型技术日益普及和基础设施化,领先优势变得越来越难以维持,顶尖模型的“保质期”也在缩短。在此背景下,模型之外的Harness层的重要性日益凸显。
模型能力依旧是基础,但Harness已然成为AI竞争的核心战场。
Harness的崛起正在初期阶段便开始反向重塑整个AI行业的结构。过去,AI产业通常被划分为基础设施层、模型层和应用层,各司其职,价值分配模式清晰。然而,Harness的出现正在打破这种平衡。
模型公司首先感受到的是“兑现权”被削弱了一部分。以往,模型公司不仅训练模型,还决定模型如何被使用,通过销售API和提供Playground服务,将模型能力完全掌握在自己手中。模型越强,售价越高,逻辑简单直接。
Harness的出现改变了这一格局。在DeepSeek官方决定开发Harness之前,社区中基于DeepSeek模型,但名为“DeepSeek-TUI”的“DeepSeek版Claude Code”备受欢迎,其Stars数量已超过3万。这表明,在经过精心调优的代码Harness中运行,同一个DeepSeek模型能够发挥出更出色的性能;反之,若在粗糙的“外壳”下运行,其能力会大打折扣。
即使模型本身未变,Harness也会影响模型能力最终的兑现范围。如果模型公司辛辛苦苦训练出的能力,最终却要通过其他Harness来承接,那么最终的定价权可能会流失。这相当于模型公司沦为供应商,不仅少赚一层利润,产品的优劣评估也可能由渠道方说了算。
应用层的变化则更为隐蔽和缓慢。过去,许多应用公司的核心竞争力在于对业务流程的深刻理解,这种理解体现在产品经理的判断、打磨多年的交互细节以及持续迭代的功能逻辑中。但现在,这些宝贵的业务理解正逐步向Harness层迁移。例如,SaaS巨头Salesforce将销售线索追踪的标准操作固化到Harness中,Claude Code则将代码审查的标准流程嵌入其中。以往依靠人工经验和沉淀的知识,如今正被封装进Harness。
今年5月,老牌客服SaaS公司Intercom甚至直接将品牌更名为Fin,用其AI Agent产品的名称替代了经营15年的品牌,这标志着公司正围绕Harness进行全面重构。那些未能及时重视Harness的应用公司,未来几年可能会发现自己的业务护城河正被悄然侵蚀。一旦业务理解被Harness固化为可执行的Agent动作,这种理解的所有权将随Harness转移,不再仅仅依附于个人。
再往上推,基础设施层也无法置身事外,因为算力市场的需求会被反向定义。以往英伟达等公司的产品规划,主要受大规模、稳定负载的模型训练需求驱动。但随着Harness的普及,Agent推理正成为算力市场的新主导力量。Agent的特点是长链路、多轮调用、工具集成和记忆功能,其推理负载呈现出长周期、不可预测的动态变化,这需要不同的调度方式、内存架构和网络拓扑。英伟达在2026年发布的Vera Rubin平台,便是专为智能体和大规模推理时代而设计。Harness开始反过来影响芯片层的下一代产品形态。
这些相互关联的变化,使得AI产业链中的每一层利益分配,都将面临重新谈判。
Harness自身内部也在发生分化,这种分化的根源在于其一个根本性特点。瑞安·洛波波洛的团队最初认为,只要将模型接入Harness即可,但实践证明Harness并非一个即插即用的组件。Harness并非一次性设计好便可一劳永逸,它必须在真实场景中的反复失败中打磨和完善。缺乏这种真实场景的纠偏机制,Harness就会趋于僵化。
这就是为什么Harness天然地与具体场景紧密结合。而不同公司的业务场景千差万别,Harness也因此会呈现出分化。
最先被验证且Harness能够快速成熟的是代码场景。Harness在代码场景中的每一次运行轨迹,都能提供清晰的反馈信号,模型可以从中学习。这解释了Anthropic和OpenAI为何都不约而同地将Harness的首个应用目标定在代码场景。
然而,在代码之外的世界,缺乏编译器的直接反馈机制,情况要复杂得多。在客服答疑、售后服务、风险控制等非代码场景中,没有自动化的客观标准能立即判断对错。离开了这种天然的验证器,反馈信号要么依赖人工标注和复盘,但这成本高昂、迭代缓慢;要么依赖真实的业务结果反馈,这要求Harness与业务足够贴近,并经过长时间的运行。因此,Harness做得好的玩家,一定是那些离真实业务反馈最近的。
从长远来看,模型的能力无疑会持续增强。当前Harness面临的失败重试、上下文截断等需要专门工程处理的问题,未来模型自身或许就能解决。然而,Harness在真实业务场景中通过实际失败磨砺出的部分,是模型能力再强也无法替代的。模型能力的提升会削弱Harness的工程层面,但无法取代Harness的场景层面。
具备真实业务反馈的玩家,已经在Harness领域展现出优势。例如,SaaS巨头Salesforce在其CRM场景中积累了几十年的客户行为数据、销售漏斗反馈和客服工单记录。最新财年数据显示,该公司的Agentforce已按“Agent对话”收费,年度经常性收入(ARR)达到8亿美元,全年增长率为169%,累计完成超过2.9万笔交易,成功实现了商业化。
国内日活跃用户排名第一的Agent产品腾讯WorkBuddy,也是Harness领域的早期布局者。从团队决定采用“claw”模式到全面上线,仅用了一周时间。如此之快的速度得益于WorkBuddy的Harness在腾讯内部早已搭建完成。在面向市场之前,WorkBuddy已被内部2000多名员工使用过。员工将会议纪要、跨部门协作、邮件草拟、文档生成等日常工作交由它处理,每一次使用和反馈都被沉淀进Harness,不断打磨优化。
但这并非意味着各家公司会定义和制造完全孤立、只能执行单一功能的Agent产品。未来的AI竞争中,当模型要深入不同行业的业务核心时,它们必须在不同的Harness中进行磨砺。这些磨砺所带来的分化,不仅是Agent路线选择上的差异,更是企业各自护城河的重塑。代码、协同办公、电商交易等不同场景会催生出完全不同的Harness。由于非代码场景的反馈信号极难跨行业复制,在一个场景中磨砺出的Harness,无法直接应用于另一个场景。因此,拥有独特业务闭环的玩家,将在其领域内建立起坚固的壁垒,外部竞争者很难仅仅通过堆叠算力或扩大模型规模来打破这种领先地位。
当Agent在不同的Harness中被磨砺,形成了各自的规则和运作方式后,它们最终需要实现“互相沟通”。如果每家公司都采用私有协议和调用方式,整个Agent生态系统将陷入PC时代软件互不兼容、互联网时代浏览器各自实现HTML的混乱局面。因此,Agent的竞争必然会从场景工程层面上升到协议和标准层面,这是Agent实现大规模互通的基础性挑战。
Agent的标准化竞争已经拉开序幕。Anthropic在2024年末推出了MCP(Model Context Protocol),将模型如何接入工具、如何获取上下文等问题抽象为行业协议;谷歌则在2025年4月发布了A2A(Agent2Agent)协议,旨在促进不同厂商Agent之间的协作。
毕竟,当Agent开始大规模互通时,先入者建立的协议网络将成为后来者的进入门槛。谁能率先推广协议、建立生态、吸引开发者,谁就能在这一层面占据类似Android或iOS的平台地位。
在国内,腾讯、阿里、字节跳动都在积极跟进,避免在事实标准之外掉队。腾讯云智能体开发平台全面支持MCP并上线了MCP插件广场;阿里百炼平台已接入MCP;字节跳动旗下的Trae和Coze也在全面拥抱和兼容MCP。
协议的标准化远不止解决互通问题本身,它还决定了用户能否安全、信任地使用Agent,并最终能否实现大规模商业化落地。
当Agent能够代你下单、付款、签订合同时,过程中的风险如何把控?今年5月,中国信息通信研究院联合腾讯、华为、中兴、三大运营商以及香港中文大学(深圳)共同发布的ATH协议,正致力于回应这些问题。该协议的核心思想是通过用户、Agent与服务的“三方握手”机制来确定权限边界,权限取交集,任何一方缺失都无法通过。这旨在确保Agent在受信任和授权的环境下运行。
与协议之争同时进行的,是Agent协作基础设施的建设。当十个Agent需要协作时,仅仅有标准协议是不够的。多个Agent之间的调度、共享内存、权限边界、上下文路由、安全沙箱等问题,是协议层面无法完全解决的,需要一套底层的基础设施来承载。
这层基础设施最终会演变成何种形态,目前尚未形成共识。一种可能性是被现有终端设备进一步集成,这些设备优先获取屏幕、系统算力和硬件权限,进而调用Agent;另一种可能性是演化出独立的智能体生态系统,类似于PC时代的Windows或移动时代的Android。
还有一种路径是在已有的超级生态系统中成长起来,这也是目前外界对微信Agent最大的想象空间。腾讯高管在多个公开场合提及微信Agent的发展方向。尽管目前还没有正式的产品形态,但拥有14亿微信用户、450万小程序,以及覆盖支付到政务等广泛业务场景的微信本身,就构成了一个现成的Agent协作网络。Agent无需重新“搭建场地”,它直接接入已经成熟的真实业务,沿着这张网络向前发展即可。
协议定义了Agent之间如何互通,基础设施则负责确保Agent的稳定运行。可以看到,目前领先的AI公司都在同时考虑这两件事,为抢占Agent时代的竞争优势做准备。
过去,评估一家AI公司的竞争力,人们习惯于关注其模型能力有多强、排行榜分数有多高、投入资金有多少。然而,这些问题只能说明一家公司是否拥有“发动机”,以及“发动机做得如何”。
但现在,行业已意识到这种评估方式不够全面和实用。一辆车要上路,还需要一套安全可用的“整车系统”。当OpenAI和DeepSeek等模型层公司也在积极补齐Agent所需的Harness能力时,这实际上揭示了AI竞争新的评估维度:Harness能否反向优化自家模型、是否有真实业务场景提供反馈、能否在Agent标准化竞争中占据有利位置、是否有能力构建基础平台来承载多Agent协作等。
模型依然是核心基础,但随着Harness影响力的扩大,每家AI公司接下来要回答的不再仅仅是“我的模型有多强”,更要明确自己在Harness所搅动的新AI格局中,应该扮演怎样的角色?
AI时代日新月异,Harness或许只是一个开端。几年后,它可能会有新的名称,具体形态也可能演变。但模型与场景之间,总会有一个连接模型、嵌入业务、沉淀反馈的中间层存在。
这一层沉淀的不仅是工程能力,还包括业务理解、反馈数据,以及一家公司与真实用户之间日复一日的相互校准。目前看来,这项工作没有捷径可走,只能在足够长的时间中沉淀,并在足够大的真实业务中反复磨砺。
