← 返回新闻列表

微软推出 Webwright 网页智能体框架,GPT-5.4 性能显著提升

微软研究院最新发布开源框架 Webwright,允许 AI 模型在终端环境中直接编写、执行和修正 Playwright 代码及 Bash 指令。这一创新模式显著提升了 GPT-5.4 在复杂网页任务上的表现,使其在 Odysseys 基准测试中最高性能提升达 81.49%。

文 / 编辑部 · 2026/05/26 · 阅读约 2 分钟

分享:
微软推出 Webwright 网页智能体框架,GPT-5.4 性能显著提升

微软研究院近期公开了名为 Webwright 的开源网页智能体框架。该框架创新性地允许人工智能模型在终端界面中直接编写 Playwright 自动化代码,并执行 Bash 命令、检查日志输出以及进行反复修正。

与传统的网页智能体模式(即通过分析屏幕截图或 DOM 状态来预测下一次交互动作)不同,Webwright 赋予了模型在终端内直接撰写 Playwright 脚本、执行 Shell 指令、审查日志、捕获屏幕截图及处理错误的能力,并在此基础上持续迭代和优化其自动化脚本。

此框架的核心架构包含三个主要组件:Runner、Model Endpoint 和终端环境。值得一提的是,整个系统代码量精简,Runner 部分约 150 行代码,模型接口部分约 550 行,而环境部分则约 300 行,总计约 1000 行。该设计简洁,未涉及复杂的多智能体协同或分层规划。

Webwright 的执行流程是:Runner 将当前的上下文环境传递给模型,模型随即生成其思考过程及一条 Shell 命令。环境组件执行此命令后,将终端输出、日志信息、屏幕截图或错误堆栈反馈给模型,从而启动新一轮的交互。

相较于每次只能预测单个低级别操作的方式,采用代码来执行任务能够更好地表达多步骤的网页操作,例如完整填写表格、选择日期、或跨页面重复执行特定流程。此外,这种方法也更容易通过循环、函数和抽象化来重复利用和增强功能。

研发团队主要攻克了两大工程难题。其一是“过早宣告任务完成”的问题,即模型可能在任务尚未真正结束时便错误地报告成功。针对此,Webwright 引入了一个门控机制:模型在生成最终脚本后,必须先在一个全新的独立环境中运行该脚本,并通过对日志和截图的自我反思,来正确判断任务的成功或失败,之后才能发出完成信号。

另一个挑战是上下文膨胀问题,因为长轨迹的编码容易超出上下文窗口的限制。为了解决这一问题,系统每隔 20 步便会将之前的历史信息压缩成一份精简的摘要。

在基准测试中,Webwright 展现出强大的性能。在 Online-Mind2Web 数据集上,该框架在 300 个任务和 136 个常用网站上进行了测试,结合 GPT-5.4 模型,其整体准确率达到了 86.67%,在 100 步的预算限制下,表现位居公开可用的自动化方案前列。

在关注跨多网站长链路浏览任务的 Odysseys 基准测试中,任务指令平均长度为 272.3 个词。此前 2026 年 4 月榜单上表现最佳的 Opus 4.6 模型得分是 44.5%,而 Webwright 搭配 GPT-5.4 的得分高达 60.1%。这不仅相对于之前的最佳结果提升了 35.1%,也比基础 GPT-5.4 的 33.5% 高出 26.6 个百分点,实现了 81.49%的显著性能增长。

广告位 · 文末横幅