← 返回新闻列表

Anthropic发布Claude Opus 4.8:AI编程可靠性大幅提升,推理能力更精准

Anthropic公司于5月29日正式推出了其旗舰级人工智能模型Claude Opus 4.8。新版本着重增强了AI在智能体编程、跨领域推理以及知识工作方面的综合能力,旨在为用户带来更稳定、更智能的使用体验。

文 / 编辑部 · 2026/05/28 · 阅读约 2 分钟

分享:
Anthropic发布Claude Opus 4.8:AI编程可靠性大幅提升,推理能力更精准

Anthropic公司于本月29日宣布了其最新的旗舰人工智能模型Claude Opus 4.8的发布。此次更新主要聚焦于提升模型在智能体编程、多领域推理分析和知识处理方面的表现。

Anthropic方面指出,与之前的Opus 4.7版本相比,4.8的改动侧重于用户可感知的性能优化。在保持既有价格体系不变的前提下,新模型在编程、智能体应用、推理分析及知识型任务处理能力上均有所进步。

根据部分早期测试者的反馈,Opus 4.8展现出更高的可靠性和更敏锐的判断力。在面对复杂的多步骤任务时,它能保持更平稳的判断输出,并具备主动提问、识别自身错误以及对不合理计划提出异议的能力。

官方评估数据显示,相较于前代模型,Opus 4.8在生成带有缺陷代码却不作说明的情形上,发生率降低了四分之三。模型现在更倾向于主动标示不确定性,从而有效减少了没有充分依据的结论。

在模型对齐方面,Opus 4.8在支持用户自主决策和以用户最佳利益行事等亲社会指标上创造了新高。同时,欺骗等不当行为的发生率也低于Opus 4.7,并与Claude Mythos Preview版本保持一致。

伴随此次更新,claude.ai平台新增了“effort”程度控制功能,允许用户根据需求平衡高质量输出与响应速度。默认设置为“high”档,其在编码任务中的token消耗量与Opus 4.7的默认档相近,但效果更佳。若选择“extra”(在Claude Code中对应“xhigh”)或更高的“max”档位,模型将消耗更多token以追求更优异的结果。

在基准测试方面,Anthropic声称Opus 4.8在SWE-Bench Pro测试中取得了69.2%的成绩,并在多项基准测试中超越了GPT–5.5和Gemini 3.1 Pro。然而,在终端编程基准测试中,GPT–5.5仍保持领先。

此次更新还带来了性能与成本的调整。Anthropic表示,Opus 4.8的快速模式运行速度提升了2.5倍,而模型的运行成本则降至原先的三分之一。

定价方面,Opus 4.8的常规模式维持每100万输入令牌5美元、每100万输出令牌25美元的收费标准。快速模式则调整为每100万输入令牌10美元、每100万输出令牌50美元。

广告位 · 文末横幅