微软发布ASSERT开源框架，赋能AI智能体行为规范评测

微软公司于今日正式推出其最新的开源技术框架——ASSERT（自适应规范驱动评估与回归测试系统）。这一创新性工具的核心目标在于将自然语言编写的行为规范，无缝地转换为一套可操作的评估流程，以提升人工智能系统的评测效率。

据悉，ASSERT系统能够依据诸如产品需求、政策文档或系统指令等文本信息，自动生成一系列测试场景和对应的数据集。在此基础上，它还能进一步构建评估指标和计分卡，并针对特定的AI模型、应用程序或智能体执行全面的测试工作。

该框架的设计理念强调，行为规范本身应被视为评估过程的核心输入，而非仅仅作为辅助参考。ASSERT将整个评估流程细分为四个关键阶段：

首先是概念规范化：将宽泛的行为描述提炼为具体且明确的概念规范，进而构建一个可编辑的行为分类系统，区分允许行为和禁止行为。

其次是分层用例生成：根据开发者确定的多维度标准，例如任务种类、角色设定或工具可用性等，生成多层次的测试用例。这些用例涵盖了从单轮对话到多轮交互的场景，既包括善意测试也包含对抗性探测。

再次是系统执行与轨迹记录：在目标系统上运行这些预设的测试用例，并全程详尽记录系统的每一个动作轨迹，包括对工具的调用记录和中间决策过程。

最后是轨迹评分与报告：依据预先设定的行为分类以及政策立场，对记录下的每一条轨迹进行评分。评分结果将清晰地标示出测试通过与否，并提供判断依据、相关的策略引用以及触发该裁决的具体回合或操作。

为了验证ASSERT的有效性，微软团队实施了两项覆盖率研究，并将其结果与人工评审进行了对比分析。

第一项覆盖率研究表明，相较于直接基于意图生成的评估集，ASSERT在多种行为，如社会评价、避免谄媚、任务遵循、工具使用规约以及不提供不安全健康建议等方面，能够生成更广泛的测试集。这不仅揭示了更多需关注的案例，更有效地分辨出系统性能的强弱，同时也揭示出更多独特的失误模式。

第二项验证通过对比大型语言模型（LLM）判定器与人工审核的一致性。结果显示，两者的一致率通常保持在80%至90%之间，与人工标注者之间约90%的一致率相近。这表明LLM判定器能够捕捉到大部分关键信号，但在涉及策略的细微差别或高度专业化的领域，仍需人工的审慎判断。

微软同时指出，ASSERT框架的最佳应用场景是那些行为定义明确、约束条件清晰的领域。若能提供丰富的工具描述、详细的政策规定和明确的边界信息，将有助于生成更加精准的测试用例。开发者不应将汇总的评分作为最终结论，而应更看重从收集到的失败案例和操作轨迹中获取的价值，这些信息对于改进系统和优化评估方法具有更高的意义。ASSERT并非旨在取代人工判断、遥测数据或领域专家的专业评审，而是作为一种有效工具，使得评估过程更加迅速、明确且易于迭代。