← 返回新闻列表

Anthropic Claude推出AI流畅度评分功能,揭示与AI高效协作新标准

Anthropic旗下AI模型Claude近期推出一项创新功能,将通过分析用户与AI的历史对话,评估其“AI流畅度”水平。该功能基于11项核心指标,旨在衡量用户与AI互动的熟练程度,帮助用户提升与AI协作的效率和质量。尽管仍处于灰度测试阶段,该特性已在海外AI社区引起广泛关注。

文 / 编辑部 · 2026/05/30 · 阅读约 8 分钟

分享:
Anthropic Claude推出AI流畅度评分功能,揭示与AI高效协作新标准

过去,评测AI性能是常态;如今,AI反而开始反过来评估人类使用其产品的能力。这一出乎意料的转变,正由Anthropic公司的Claude模型悄然推出。

这项名为“AI流畅度”(AI Fluency)的新功能,虽尚在灰度测试阶段,却已在全球AI圈引发热议。该功能能通过深入分析用户与AI的对话历史,评估其对AI的操控水平,判断其是“高手”还是“萌新”。

用户只需在Claude的设置面板中,点击“AI Fluency”并生成报告,即可获得一份详细的AI使用习惯“体检报告”。这份报告不仅覆盖了用户在日常聊天(Chat)、协作空间(Cowork)以及代码编写(Claude Code)中的所有互动,还会根据一套严谨的评分标准进行打分,总分11分。

已有早期体验者分享了他们的“成绩”。其中一位网友获得了7.5分,并惊叹于AI评价的精准度。Claude的分析直指痛点,例如指出该网友频繁使用连接器,但在涉足体育数据、食谱或地理位置等特定领域时则表现不佳。

更令人惊讶的是,Claude在指出问题后,还会直接给出改进建议,如“主动通过情境激发AI的敏锐辨别力”,以及“在让我写第一稿之前,试着对我说——给我一个简洁的要点摘要,不要任何前言废话。这样能让你的初稿干净得多”。这种教学式的反馈,让部分用户感叹AI如同严厉的赛博导师。

一位网友分享了激动人心的经历,称自己也看到了这个功能,但在生成报告后,界面却因服务器错误而消失了。这种“惊鸿一瞥”的体验,让人们对这11项评分标准充满了好奇。

要理解这11项评分标准,我们需要回顾Anthropic此前发布的一项研究——《AI流畅度指数报告》。该报告挑战了传统观点,认为仅仅懂得编写复杂的提示词已不足以衡量用户的AI能力。随着AI模型变得日益智能,死记硬背提示词模板已不合时宜。真正的高手,应掌握“AI流畅度”这一软技能,如同精通一门外语般,能自然、高效地与AI协作。

为量化这一概念,Anthropic联合Rick Dakan和Joseph Feller教授,提出了“4D AI流畅度框架”。研究团队利用强大的隐私保护分析工具,在短短一周内,分析了9830段真实的匿名人类多轮对话。他们发现,不同用户之间的AI使用能力差异巨大。

在衡量人机协作的24项终极标准中,有13项属于屏幕之外的行为考量(例如用户是否向老板隐瞒了AI的参与,或是否考虑了AI内容的伦理后果等),而剩余的11项,则是可在聊天框中直接观察到的客观指标。这11项指标,正是Claude内置评分卡的理论基础,它们主要围绕“描述”、“委托”和“辨别”三个维度展开。

维度一:描述——你是否清晰表达了需求?

许多用户习惯性地给AI下达“写周报”或“编写贪吃蛇代码”等模糊指令。在Claude看来,这类指令的流畅度极低。优秀用户则会在“设定目标”和“构建对话”上投入更多精力。

1. 明确目标:你是否向AI阐明了最终目的? 低分玩家:“帮我润色这段英文。” 高分玩家:“我需要发一封冷邮件给硅谷的一家风险投资机构以争取融资,请帮我润色这段英文,确保语气自信但不失谦逊。”

2. 指定格式:你是否明确要求了输出形式? 高分玩家会具体要求:“请用Markdown表格输出”,或“请以3个小标题+每段不超过50字的要点格式呈现”。

3. 提供示例:Few-shot学习效果显著。 在让AI开始工作前,你是否提供了认可的范例?例如:“请模仿以下这篇爆款文章的口吻来写……”

4. 补充上下文:AI并非无所不知。 你是否提供了必要的背景信息?例如行业背景、目标受众特点,甚至是过往的经验教训。

维度二:委托——把AI视为合作伙伴而非自动售货机

Anthropic的报告指出,最常见的AI流畅度表现是“增强型”的,这意味着用户将AI视为思维碰撞的伙伴,而非简单的任务执行者。这类对话的流畅度远高于简单的一问一答式对话。

5. 迭代与精炼——最强预测指标! 这是报告中最重要的指标,高达85.7%的高质量对话都包含此行为。迭代意味着不满足于AI的首次回应。 低分玩家:认为AI回答不佳后,直接开启新对话。 高分玩家:“你第一点方向正确,但第二点过于学术。请保留第一点,将第二点替换为更贴近生活的案例,然后重新尝试。”

6. 任务拆解:你是否试图一次性让AI完成巨型任务? 高流畅度用户懂得将宏大目标分解:“我们先讨论大纲;好,现在基于大纲编写第一章的前半部分……”

7. 探讨方法:在动手前,你是否询问AI:“你认为解决这个问题的最佳流程是什么?” 让AI先阐述其思考路径,用户再进行修正。

维度三:辨别——警惕AI的巧言善辩

随着大模型变得更加智能,其“幻觉”也愈发逼真。辨别能力,是用户在这个时代自保的底线。

8. 质疑推理:当AI给出反常结论或复杂代码时,你是否追问:“你得出这个结论的逻辑是什么?”或“请逐行解释这段代码的原理?”

9. 事实核查:你是否要求AI为其提供的数据给出引用,或通过提问验证其准确性?

10. 识别缺失的上下文:当AI的方案看似完美但脱离实际时,你是否能指出:“你刚才的分析忽略了我们公司目前预算仅有1万元的事实,请重新评估。”

11. 评估结果:明确评价AI的产出:“你这次使用的比喻非常精准,但结尾的情感升华不足,我们需要调整结尾。”

最发人深省的洞察:精致包装下的思考降级

在这份研究报告中,关于“Artifact Paradox”(人工制品悖论)的发现令人深思。当对话中包含高级人工制品(如网页、代码、流程图、互动界面等可视化窗口,占样本的12.3%)时,人类与AI的协作方式发生了显著变化。

一方面,人类表现得更加专业:明确目标的比例大幅增长14.7%;指定格式的比例增长14.5%;提供示例的比例增长13.4%。在工作开始前,用户如同精明的项目经理,安排得井井有条。

然而,一旦AI生成了看似完美、运行流畅的人工制品,人类的批判性思维却普遍下降。数据显示,在产出这类精美成果的对话中,人类的批判性审查能力呈现断崖式下跌:识别缺失上下文的概率下降5.2%,核查事实的概率下降3.7%,质疑AI推理逻辑的概率下降3.1%。

Anthropic的分析师一针见血地指出,这是因为“看起来太像真的了”。当AI给出干巴巴的文字时,人们会下意识地寻找错误;但当AI直接渲染出排版精美的PDF或带有互动功能的应用程序界面时,潜意识里会认为“它既然能做出如此复杂的UI,其背后逻辑肯定没问题”。当内容看起来完成度很高时,用户往往会将其视为已完成。

但这恰恰是最危险的时刻。Anthropic近期研究显示,任务越复杂,大模型出错的概率反而越高。然而,在最需要事实核查的复杂代码和高级图表面前,人类却放松了警惕。

取得高分的关键:无尽迭代

既然已知陷阱,那通关的秘诀便是“迭代精炼”。

报告显示,积极参与迭代与优化的用户,平均会展现出2.67种其他流畅度行为;而未进行迭代的用户,这个数字仅为1.33。可以说,“迭代”是衡量一个人是否懂得使用AI的绝对分水岭。

不进行迭代的用户,将AI视为搜索引擎;而懂得迭代的用户,则将AI视为初级实习生。

一组令人震惊的数据对比表明,那些习惯与Claude进行多轮迭代来打磨作品的用户,质疑AI逻辑的概率是不迭代用户的5.6倍!识别上下文缺失的概率更是高达4倍!

这解释了为什么同样使用Claude,有人能用它撰写出获得百万融资的商业计划书,而有人却觉得它连请假条都写不好。差距不在于AI本身,而在于用户是否愿意在对话框中投入更多沟通。

下次当你觉得AI生成的文章缺乏灵魂时,请不要点“重新生成”,而是尝试输入:“你上面这版结构不错,但语气过于机械。现在,假设你是一位拥有10年经验、性格幽默毒舌的资深行业人士,请保持原有大纲,将全文重写一遍,多用短句,并在第三段加入一个自嘲的笑话。”

当你习惯了这种对话方式,你的AI流畅度分数必将直线飙升。

从工具到技能:Anthropic的宏大布局

或许有人会问,Anthropic为何要投入巨大精力分析人类行为,而不是专注于参数和跑分?这正是Anthropic区别于其他AI大厂的独到之处:他们正在重新定义AI。

通过《AI流畅度报告》,他们向人类传递了一个信息:AI并非购入后即可自动变强的装备,它是一门需要不断练习的语言和技能。将研究成果转化为产品中的评分卡,形成了一个精妙的反馈闭环。Claude的评分卡,就像用户的Apple Watch,通过游戏化、数据化的方式,Anthropic正在培养一群最懂AI、素养最高的超级用户。

这不仅仅是为了提升产品留存,更是为了构建更安全的AI未来——因为只有具备高辨别力的人类,才不会被未来那些智能得令人恐惧的AI所蒙蔽。据透露,Anthropic已成立学院,推出了AI流畅度课程,并与PayPal以及全球顶尖高校展开合作。

未来,不同用户使用AI的效率和产出,将呈现巨大的差异。

人类,让AI为你评分吧

当下,许多人担忧AI会取代自己的工作。然而,更深层的问题或许是:你是否配得上当前如此强大的AI?

Claude即将上线的AI流畅度评分卡,犹如一面镜子,映照出我们在新技术面前的惰性,同时也指明了通往强者之路。尽管目前这项功能何时全面上线、是否免费开放仍是未知数,但标准已然明确。

问题是,根据这11项指标,AI会给你打多少分呢?

广告位 · 文末横幅