微软发布ASSERT框架:用自然语言描述自动生成AI行为测试
微软推出开源框架ASSERT,允许开发者用自然语言描述目标或策略,自动生成可评分的测试用例,以验证AI系统在特定应用场景中的行为是否符合预期。
AI研究人员和实验室在评估AI模型方面取得了长足进步,涵盖安全、合规、谄媚性及对齐等各个方面。但公司和开发者面临一个新的具体需求:确保其AI系统按照特定产品或服务的预期运行。
为简化测试流程,微软周二发布了ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动的评估与回归测试评分)。
微软表示,这个开源框架利用AI将目标、策略或预期行为的高级自然语言描述转化为可深入调查的全面评分测试,从而轻松评估应用特定的AI行为。
ASSERT接收AI模型预期行为和策略的简单语言描述,将其转化为一组可接受和不可接受的行为,生成问题场景和测试用例,针对目标系统运行并评分结果。它还能记录AI系统的路径,包括中间操作和工具调用,以便开发者检查故障发生位置。
开发者还可以提供系统上下文、工具和约束,以进一步定制评估范围。
例如,开发者可以指定一个文档研究AI代理不应向公司外部人员发送电子邮件,应将机密信息限制在C级高管范围内,并在考虑先前上下文的前提下提供简洁摘要。ASSERT将使用这些规则生成测试用例,持续检查系统是否遵守这些规则。
微软表示,当AI模型需要按照应用或产品的上下文、策略和工具所塑造的方式运行时,该框架填补了更广泛、更通用评估无法覆盖的空白。微软负责任AI首席产品官Sarah Bird表示:“我们学到的一件事是,评估对于做出正确决策至关重要。
因为如果你不了解AI系统的行为,就很难知道它是否达到组织的标准……我们发现,要想拥有一个值得信赖的系统,应该评估更多应用特定的维度。”Bird表示,ASSERT可用于在系统构建时、部署后甚至持续监控中进行评估。
此次发布正值AI行业逐步但广泛转型之际。
随着模型能力不断增强,研究人员正专注于可重复测试和回归检查,斯坦福大学的HELM、MLCommons的AILuminate以及METR等评估小组纷纷推出基准,用于衡量模型在不同条件下的表现。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。