Anthropic Claude推出AI流畅度评分功能，揭示与AI高效协作新标准

过去，评测AI性能是常态；如今，AI反而开始反过来评估人类使用其产品的能力。这一出乎意料的转变，正由Anthropic公司的Claude模型悄然推出。

这项名为“AI流畅度”（AI Fluency）的新功能，虽尚在灰度测试阶段，却已在全球AI圈引发热议。该功能能通过深入分析用户与AI的对话历史，评估其对AI的操控水平，判断其是“高手”还是“萌新”。

用户只需在Claude的设置面板中，点击“AI Fluency”并生成报告，即可获得一份详细的AI使用习惯“体检报告”。这份报告不仅覆盖了用户在日常聊天（Chat）、协作空间（Cowork）以及代码编写（Claude Code）中的所有互动，还会根据一套严谨的评分标准进行打分，总分11分。

已有早期体验者分享了他们的“成绩”。其中一位网友获得了7.5分，并惊叹于AI评价的精准度。Claude的分析直指痛点，例如指出该网友频繁使用连接器，但在涉足体育数据、食谱或地理位置等特定领域时则表现不佳。

更令人惊讶的是，Claude在指出问题后，还会直接给出改进建议，如“主动通过情境激发AI的敏锐辨别力”，以及“在让我写第一稿之前，试着对我说——给我一个简洁的要点摘要，不要任何前言废话。这样能让你的初稿干净得多”。这种教学式的反馈，让部分用户感叹AI如同严厉的赛博导师。

一位网友分享了激动人心的经历，称自己也看到了这个功能，但在生成报告后，界面却因服务器错误而消失了。这种“惊鸿一瞥”的体验，让人们对这11项评分标准充满了好奇。

要理解这11项评分标准，我们需要回顾Anthropic此前发布的一项研究——《AI流畅度指数报告》。该报告挑战了传统观点，认为仅仅懂得编写复杂的提示词已不足以衡量用户的AI能力。随着AI模型变得日益智能，死记硬背提示词模板已不合时宜。真正的高手，应掌握“AI流畅度”这一软技能，如同精通一门外语般，能自然、高效地与AI协作。

为量化这一概念，Anthropic联合Rick Dakan和Joseph Feller教授，提出了“4D AI流畅度框架”。研究团队利用强大的隐私保护分析工具，在短短一周内，分析了9830段真实的匿名人类多轮对话。他们发现，不同用户之间的AI使用能力差异巨大。

在衡量人机协作的24项终极标准中，有13项属于屏幕之外的行为考量（例如用户是否向老板隐瞒了AI的参与，或是否考虑了AI内容的伦理后果等），而剩余的11项，则是可在聊天框中直接观察到的客观指标。这11项指标，正是Claude内置评分卡的理论基础，它们主要围绕“描述”、“委托”和“辨别”三个维度展开。

维度一：描述——你是否清晰表达了需求？

许多用户习惯性地给AI下达“写周报”或“编写贪吃蛇代码”等模糊指令。在Claude看来，这类指令的流畅度极低。优秀用户则会在“设定目标”和“构建对话”上投入更多精力。

1. 明确目标：你是否向AI阐明了最终目的？低分玩家：“帮我润色这段英文。” 高分玩家：“我需要发一封冷邮件给硅谷的一家风险投资机构以争取融资，请帮我润色这段英文，确保语气自信但不失谦逊。”

2. 指定格式：你是否明确要求了输出形式？高分玩家会具体要求：“请用Markdown表格输出”，或“请以3个小标题+每段不超过50字的要点格式呈现”。

3. 提供示例：Few-shot学习效果显著。在让AI开始工作前，你是否提供了认可的范例？例如：“请模仿以下这篇爆款文章的口吻来写……”

4. 补充上下文：AI并非无所不知。你是否提供了必要的背景信息？例如行业背景、目标受众特点，甚至是过往的经验教训。

维度二：委托——把AI视为合作伙伴而非自动售货机

Anthropic的报告指出，最常见的AI流畅度表现是“增强型”的，这意味着用户将AI视为思维碰撞的伙伴，而非简单的任务执行者。这类对话的流畅度远高于简单的一问一答式对话。

5. 迭代与精炼——最强预测指标！这是报告中最重要的指标，高达85.7%的高质量对话都包含此行为。迭代意味着不满足于AI的首次回应。低分玩家：认为AI回答不佳后，直接开启新对话。高分玩家：“你第一点方向正确，但第二点过于学术。请保留第一点，将第二点替换为更贴近生活的案例，然后重新尝试。”

6. 任务拆解：你是否试图一次性让AI完成巨型任务？高流畅度用户懂得将宏大目标分解：“我们先讨论大纲；好，现在基于大纲编写第一章的前半部分……”

7. 探讨方法：在动手前，你是否询问AI：“你认为解决这个问题的最佳流程是什么？” 让AI先阐述其思考路径，用户再进行修正。

维度三：辨别——警惕AI的巧言善辩

随着大模型变得更加智能，其“幻觉”也愈发逼真。辨别能力，是用户在这个时代自保的底线。

8. 质疑推理：当AI给出反常结论或复杂代码时，你是否追问：“你得出这个结论的逻辑是什么？”或“请逐行解释这段代码的原理？”

9. 事实核查：你是否要求AI为其提供的数据给出引用，或通过提问验证其准确性？

10. 识别缺失的上下文：当AI的方案看似完美但脱离实际时，你是否能指出：“你刚才的分析忽略了我们公司目前预算仅有1万元的事实，请重新评估。”

11. 评估结果：明确评价AI的产出：“你这次使用的比喻非常精准，但结尾的情感升华不足，我们需要调整结尾。”

最发人深省的洞察：精致包装下的思考降级

在这份研究报告中，关于“Artifact Paradox”（人工制品悖论）的发现令人深思。当对话中包含高级人工制品（如网页、代码、流程图、互动界面等可视化窗口，占样本的12.3%）时，人类与AI的协作方式发生了显著变化。

一方面，人类表现得更加专业：明确目标的比例大幅增长14.7%；指定格式的比例增长14.5%；提供示例的比例增长13.4%。在工作开始前，用户如同精明的项目经理，安排得井井有条。

然而，一旦AI生成了看似完美、运行流畅的人工制品，人类的批判性思维却普遍下降。数据显示，在产出这类精美成果的对话中，人类的批判性审查能力呈现断崖式下跌：识别缺失上下文的概率下降5.2%，核查事实的概率下降3.7%，质疑AI推理逻辑的概率下降3.1%。

Anthropic的分析师一针见血地指出，这是因为“看起来太像真的了”。当AI给出干巴巴的文字时，人们会下意识地寻找错误；但当AI直接渲染出排版精美的PDF或带有互动功能的应用程序界面时，潜意识里会认为“它既然能做出如此复杂的UI，其背后逻辑肯定没问题”。当内容看起来完成度很高时，用户往往会将其视为已完成。

但这恰恰是最危险的时刻。Anthropic近期研究显示，任务越复杂，大模型出错的概率反而越高。然而，在最需要事实核查的复杂代码和高级图表面前，人类却放松了警惕。

取得高分的关键：无尽迭代

既然已知陷阱，那通关的秘诀便是“迭代精炼”。

报告显示，积极参与迭代与优化的用户，平均会展现出2.67种其他流畅度行为；而未进行迭代的用户，这个数字仅为1.33。可以说，“迭代”是衡量一个人是否懂得使用AI的绝对分水岭。

不进行迭代的用户，将AI视为搜索引擎；而懂得迭代的用户，则将AI视为初级实习生。

一组令人震惊的数据对比表明，那些习惯与Claude进行多轮迭代来打磨作品的用户，质疑AI逻辑的概率是不迭代用户的5.6倍！识别上下文缺失的概率更是高达4倍！

这解释了为什么同样使用Claude，有人能用它撰写出获得百万融资的商业计划书，而有人却觉得它连请假条都写不好。差距不在于AI本身，而在于用户是否愿意在对话框中投入更多沟通。

下次当你觉得AI生成的文章缺乏灵魂时，请不要点“重新生成”，而是尝试输入：“你上面这版结构不错，但语气过于机械。现在，假设你是一位拥有10年经验、性格幽默毒舌的资深行业人士，请保持原有大纲，将全文重写一遍，多用短句，并在第三段加入一个自嘲的笑话。”

当你习惯了这种对话方式，你的AI流畅度分数必将直线飙升。

从工具到技能：Anthropic的宏大布局

或许有人会问，Anthropic为何要投入巨大精力分析人类行为，而不是专注于参数和跑分？这正是Anthropic区别于其他AI大厂的独到之处：他们正在重新定义AI。

通过《AI流畅度报告》，他们向人类传递了一个信息：AI并非购入后即可自动变强的装备，它是一门需要不断练习的语言和技能。将研究成果转化为产品中的评分卡，形成了一个精妙的反馈闭环。Claude的评分卡，就像用户的Apple Watch，通过游戏化、数据化的方式，Anthropic正在培养一群最懂AI、素养最高的超级用户。

这不仅仅是为了提升产品留存，更是为了构建更安全的AI未来——因为只有具备高辨别力的人类，才不会被未来那些智能得令人恐惧的AI所蒙蔽。据透露，Anthropic已成立学院，推出了AI流畅度课程，并与PayPal以及全球顶尖高校展开合作。

未来，不同用户使用AI的效率和产出，将呈现巨大的差异。

人类，让AI为你评分吧

当下，许多人担忧AI会取代自己的工作。然而，更深层的问题或许是：你是否配得上当前如此强大的AI？

Claude即将上线的AI流畅度评分卡，犹如一面镜子，映照出我们在新技术面前的惰性，同时也指明了通往强者之路。尽管目前这项功能何时全面上线、是否免费开放仍是未知数，但标准已然明确。

问题是，根据这11项指标，AI会给你打多少分呢？