微软推出 Webwright 网页智能体框架，GPT-5.4 性能显著提升

微软研究院近期公开了名为 Webwright 的开源网页智能体框架。该框架创新性地允许人工智能模型在终端界面中直接编写 Playwright 自动化代码，并执行 Bash 命令、检查日志输出以及进行反复修正。

与传统的网页智能体模式（即通过分析屏幕截图或 DOM 状态来预测下一次交互动作）不同，Webwright 赋予了模型在终端内直接撰写 Playwright 脚本、执行 Shell 指令、审查日志、捕获屏幕截图及处理错误的能力，并在此基础上持续迭代和优化其自动化脚本。

此框架的核心架构包含三个主要组件：Runner、Model Endpoint 和终端环境。值得一提的是，整个系统代码量精简，Runner 部分约 150 行代码，模型接口部分约 550 行，而环境部分则约 300 行，总计约 1000 行。该设计简洁，未涉及复杂的多智能体协同或分层规划。

Webwright 的执行流程是：Runner 将当前的上下文环境传递给模型，模型随即生成其思考过程及一条 Shell 命令。环境组件执行此命令后，将终端输出、日志信息、屏幕截图或错误堆栈反馈给模型，从而启动新一轮的交互。

相较于每次只能预测单个低级别操作的方式，采用代码来执行任务能够更好地表达多步骤的网页操作，例如完整填写表格、选择日期、或跨页面重复执行特定流程。此外，这种方法也更容易通过循环、函数和抽象化来重复利用和增强功能。

研发团队主要攻克了两大工程难题。其一是“过早宣告任务完成”的问题，即模型可能在任务尚未真正结束时便错误地报告成功。针对此，Webwright 引入了一个门控机制：模型在生成最终脚本后，必须先在一个全新的独立环境中运行该脚本，并通过对日志和截图的自我反思，来正确判断任务的成功或失败，之后才能发出完成信号。

另一个挑战是上下文膨胀问题，因为长轨迹的编码容易超出上下文窗口的限制。为了解决这一问题，系统每隔 20 步便会将之前的历史信息压缩成一份精简的摘要。

在基准测试中，Webwright 展现出强大的性能。在 Online-Mind2Web 数据集上，该框架在 300 个任务和 136 个常用网站上进行了测试，结合 GPT-5.4 模型，其整体准确率达到了 86.67%，在 100 步的预算限制下，表现位居公开可用的自动化方案前列。

在关注跨多网站长链路浏览任务的 Odysseys 基准测试中，任务指令平均长度为 272.3 个词。此前 2026 年 4 月榜单上表现最佳的 Opus 4.6 模型得分是 44.5%，而 Webwright 搭配 GPT-5.4 的得分高达 60.1%。这不仅相对于之前的最佳结果提升了 35.1%，也比基础 GPT-5.4 的 33.5% 高出 26.6 个百分点，实现了 81.49%的显著性能增长。