← 返回新闻列表

微软发布ASSERT开源框架,赋能AI智能体行为规范评测

微软近日推出了开源框架ASSERT,它能将自然语言描述的AI行为规范直接转化为可执行的评估流程。该框架旨在通过自动化生成测试场景、数据集和评估指标,帮助开发者高效、系统地评测AI模型、应用和智能体的性能与合规性,从而加速AI系统的开发与迭代。

文 / 编辑部 · 2026/06/02 · 阅读约 2 分钟

分享:
微软发布ASSERT开源框架,赋能AI智能体行为规范评测

微软公司于今日正式推出其最新的开源技术框架——ASSERT(自适应规范驱动评估与回归测试系统)。这一创新性工具的核心目标在于将自然语言编写的行为规范,无缝地转换为一套可操作的评估流程,以提升人工智能系统的评测效率。

据悉,ASSERT系统能够依据诸如产品需求、政策文档或系统指令等文本信息,自动生成一系列测试场景和对应的数据集。在此基础上,它还能进一步构建评估指标和计分卡,并针对特定的AI模型、应用程序或智能体执行全面的测试工作。

该框架的设计理念强调,行为规范本身应被视为评估过程的核心输入,而非仅仅作为辅助参考。ASSERT将整个评估流程细分为四个关键阶段:

首先是概念规范化:将宽泛的行为描述提炼为具体且明确的概念规范,进而构建一个可编辑的行为分类系统,区分允许行为和禁止行为。

其次是分层用例生成:根据开发者确定的多维度标准,例如任务种类、角色设定或工具可用性等,生成多层次的测试用例。这些用例涵盖了从单轮对话到多轮交互的场景,既包括善意测试也包含对抗性探测。

再次是系统执行与轨迹记录:在目标系统上运行这些预设的测试用例,并全程详尽记录系统的每一个动作轨迹,包括对工具的调用记录和中间决策过程。

最后是轨迹评分与报告:依据预先设定的行为分类以及政策立场,对记录下的每一条轨迹进行评分。评分结果将清晰地标示出测试通过与否,并提供判断依据、相关的策略引用以及触发该裁决的具体回合或操作。

为了验证ASSERT的有效性,微软团队实施了两项覆盖率研究,并将其结果与人工评审进行了对比分析。

第一项覆盖率研究表明,相较于直接基于意图生成的评估集,ASSERT在多种行为,如社会评价、避免谄媚、任务遵循、工具使用规约以及不提供不安全健康建议等方面,能够生成更广泛的测试集。这不仅揭示了更多需关注的案例,更有效地分辨出系统性能的强弱,同时也揭示出更多独特的失误模式。

第二项验证通过对比大型语言模型(LLM)判定器与人工审核的一致性。结果显示,两者的一致率通常保持在80%至90%之间,与人工标注者之间约90%的一致率相近。这表明LLM判定器能够捕捉到大部分关键信号,但在涉及策略的细微差别或高度专业化的领域,仍需人工的审慎判断。

微软同时指出,ASSERT框架的最佳应用场景是那些行为定义明确、约束条件清晰的领域。若能提供丰富的工具描述、详细的政策规定和明确的边界信息,将有助于生成更加精准的测试用例。开发者不应将汇总的评分作为最终结论,而应更看重从收集到的失败案例和操作轨迹中获取的价值,这些信息对于改进系统和优化评估方法具有更高的意义。ASSERT并非旨在取代人工判断、遥测数据或领域专家的专业评审,而是作为一种有效工具,使得评估过程更加迅速、明确且易于迭代。

广告位 · 文末横幅