评估人工智能系统的挑战【译】

Anthropic 开发了 cluade2，2023年10月获得谷歌数亿美元投资。

介绍

大多数围绕人工智能（AI）社会影响的讨论通常都会涉及讨论 AI 系统的某些质量，如其真实性、公平性、滥用潜力等。我们之所以能够讨论这些特性，是因为我们可以从技术上评估模型在这些领域的性能。但许多在 AI 领域内外工作的人可能没有完全意识到，构建强大和可靠的模型评估有多困难。许多现有的评估套件在作为模型能力或安全性的准确指标方面能力有限。

在 Anthropic，我们花了很多时间构建评估，以更好地理解我们的 AI 系统。我们也使用评估来提高我们作为组织的安全性，正如我们的负责任扩展政策所示。通过这样做，我们开始欣赏到开发和运行评估可能具有的一些挑战。

在这篇文章中，我们概述了在评估我们自己的模型时遇到的挑战，以便给读者提供一种感觉，即实践中开发、实施和解释模型评估是什么样的。我们希望这篇文章对那些依赖评估开发 AI 治理计划的人，以及那些启动或扩展专注于评估 AI 系统的组织的人有所帮助。我们希望这篇文章的读者有两个主要的收获：要开发和实施稳健的评估方法极为困难，而要实现有效的人工智能管理，关键在于我们能否对人工智能系统进行有意义的评估。

在这篇文章中，我们讨论了在开发 AI 评估时遇到的一些挑战。按照从不太具挑战性到更具挑战性的顺序，我们讨论了：

多项选择评估
第三方评估框架，如 BIG-bench 和 HELM
使用众包工人来衡量我们的模型是有帮助还是有害
使用领域专家为国家安全相关威胁进行红队评估
使用生成式 AI 开发生成式 AI 的评估
与非营利组织合作，对我们的模型进行危险能力审计

我们最后提供了一些可以帮助解决这些挑战的政策建议。

挑战

被认为简单的多项选择评测

多项选择评测，类似于标准化测试，通过多种任务量化模型的性能，通常使用一个简单的指标——准确率。在这里，我们讨论了我们在两个流行的多项选择评测中识别出的一些挑战，这两个评测是针对语言模型的：测量多任务语言理解（MMLU）和问题回答的偏见基准测试（BBQ）。

MMLU：我们测量的是我们认为的吗？

大规模多任务语言理解（MMLU）基准测试通过 57 个任务（范围从数学到历史到法律）来测量准确率。MMLU 得到了广泛的使用，因为单一的准确率得分代表了在需要技术知识的多种任务上的性能。更高的准确率得分意味着模型更有能力。

我们发现了与 MMLU 有关的四个较小但重要的挑战，这些挑战也与其他多项选择评测有关：

由于 MMLU 的使用非常广泛，模型在训练期间更有可能遇到 MMLU 的问题。这就好比学生在考试前看到问题——这是作弊。
对评测格式的简单更改，例如将选项从（A）更改为（1），或者将括号从（A）更改为 [A]，或者在选项和答案之间添加额外的空格，可能会导致评测准确率发生约 5% 的变化。
AI 开发人员没有一致地实施 MMLU。一些实验室使用已知会提高 MMLU 得分的方法，如少样本学习或连贯推理。因此，在实验室之间比较 MMLU 得分时必须非常小心。
MMLU 可能没有经过仔细的校对——我们在 MMLU 中找到了一些被错误标记或无法回答的例子。

我们的经验表明，在运行这种（被认为）简单和标准化的评测时，需要作出许多棘手的判断和考虑。我们在 MMLU 中遇到的挑战通常也适用于其他类似的多项选择评测。

BBQ：衡量社会偏见更为困难

多项选择评测还可以衡量诸如模型倾向于依赖和延续负面刻板印象的危害。为了测量我们自己的模型（Claude）中的这些危害，我们使用了问题回答的偏见基准测试（BBQ），一个测试受保护群体在九个社会维度上的社会偏见的评测。只有在实施并将 BBQ 与几个类似的评测进行比较后，我们才确信 BBQ 能够很好地衡量社会偏见。这项工作花了我们几个月的时间。

实施 BBQ 比我们预期的要困难。我们无法找到一个可行的开源 BBQ 实现，可以简单地“现成”使用，就像 MMLU 的情况一样。相反，我们的一位最优秀的全职工程师花了一个完整的星期来实现和测试该评估。开发1和实施基准测试的大部分复杂性围绕 BBQ 的 ‘偏见得分’展开。与准确度不同，偏见得分需要细腻和经验来定义、计算和解释。

BBQ 的偏见得分范围是 -1 到 1，其中 1 表示显著的刻板印象偏见，0 表示无偏见，-1 表示显著的反刻板印象偏见。实施 BBQ 后，我们的结果显示，我们的一些模型获得了 0 的偏见得分，这让我们感觉乐观，认为我们在减少偏见模型输出方面取得了进展。当我们在内部分享我们的结果时，Anthropic 的主要 BBQ 开发人员之一（他在 Anthropic 工作）问我们是否检查了一个简单的控制，以验证我们的模型是否在回答问题。我们发现它们没有——我们的结果在技术上是无偏的，但它们也完全没用。所有的评估都可能遭受过度解读量化得分的失败模式，自欺欺人地认为你已经取得进展，实际上并没有。

第三方评估框架并非一刀切

最近，第三方已经积极开发可以在广泛模型集上运行的评估套件。到目前为止，我们参与了其中的两个努力：BIG-bench 和 Stanford 的 Language Models 的整体评估（HELM）。尽管第三方评估在直觉上似乎很有用（理想情况下，它们是独立、中立和开放的），但这两个项目揭示了新的挑战。

BIG-bench：自下而上的获取各种评估的方法

BIG-bench 包括 204 个评估，由超过 450 位作者贡献，涵盖了从科学到社会推理的一系列主题。使用这个框架时我们遇到了几个挑战：

我们需要付出巨大的工程努力，才能仅仅在我们的系统上安装 BIG-bench。BIG-bench 不像 MMLU 那样“即插即用”——它比 BBQ 需要更多的努力来实现。 BIG-bench 没有有效地扩展；在合理的时间框架内运行所有 204 个评估对我们的模型来说是具有挑战性的。要加速 BIG-bench 就需要重写它，以便与我们的基础设施很好地配合——这是一个重大的工程努力。在实现过程中，我们发现了一些评估中的错误，尤其是在实现 BBQ-lite（BBQ 的一个变种）时。只有在发现此错误后，我们才意识到我们必须花费更多的时间和精力来实施 BBQ。确定哪些任务最重要和具有代表性将需要运行所有 204 个任务，验证结果，并广泛分析输出——即使对于拥有大量工程资源的组织来说，这也是一个实质性的研究任务。2 虽然尝试实施 BIG-Bench 是一个有用的练习，但我们发现它足够笨重，以至于在这次实验后我们放弃了它。

HELM：自上而下策划意见分明的评测集

BIG-bench 是一个“自下而上”的努力，任何人都可以提交任何任务，这些任务会经过一组专家组织者的一些有限审查。而 HELM 则采取了意见分明的“自上而下”的方法，由专家决定应该评测模型的哪些任务。HELM 在像推理和假信息这样的场景中使用像准确性、校准、稳健性和公平性这样的标准度量来评估模型。我们为 HELM 的开发人员提供 API 访问权限，以便在我们的模型上运行基准测试。这解决了我们在 BIG-bench 上遇到的两个问题：1）它不需要我们付出大量的工程努力；2）我们可以依赖专家来选择和解释特定的高质量评估。

然而，HELM 也带来了它自己的挑战。那些对评估其他提供商的模型效果很好的方法，不一定适用于我们的模型，反之亦然。例如，Anthropic 的 Claude 系列模型被训练成遵守特定的文本格式，我们称之为人类/助手格式。当我们内部评估我们的模型时，我们会遵守这种特定的格式。如果我们不遵守这种格式，Claude 有时会给出非特征性的响应，使得标准化的评估度量变得不可信。由于 HELM 需要保持与其他模型提示的一致性，因此在评估我们的模型时不使用人类/助手格式。这意味着 HELM 对 Claude 的性能产生了误导的印象。

此外，HELM 的迭代时间很慢 - 评估新模型可能需要几个月的时间。这是有道理的，因为这是由研究型大学领导的志愿者工程努力。更快的周转会帮助我们更快地理解我们的模型，因为它们正在迅速发展。最后，HELM 需要与外部方进行协调和沟通。这种努力需要时间和耐心，双方都可能人手不足，并且正在应对其他需求，这可能会增加迭代时间。

人类评估的主观性

到目前为止，我们只讨论了类似于简单多项选择测试的评估；然而，AI 系统是为了与人进行开放式的动态交互而设计的。我们如何设计更接近于这些模型在现实世界中使用的评估呢？

与众包工作者的 A/B 测试

目前，我们主要（但不完全）依赖一种基本类型的人类评估：我们在众包或合同平台上进行 A/B 测试，人们与两个模型进行开放式对话，并选择模型 A 或 B 的响应，看哪个更有帮助或无害。在无害性的情况下，我们鼓励众包工作者积极地对我们的模型进行红队测试，或敌对地探测它们以寻找有害的输出。我们使用结果数据来根据模型的有用性或无害性对模型进行排名。这种评估方法的好处是它对应于现实设置（例如，对话而非多项选择考试），并且允许我们将不同的模型相互比较。

然而，这种评估方法存在一些局限性：

这些实验的运行成本高且耗时。我们需要与第三方众包工作者平台或承包商合作，并为此付费，为我们的模型构建定制的网络接口，为 A/B 测试人员设计仔细的说明，分析和存储结果数据，并解决雇佣众包工作者时众所周知的众多道德挑战3。在无害性测试的情况下，我们的实验还额外面临将人们暴露于有害输出的风险。
人类评估可能会因人类评估者的特点而显著不同。可能影响某人评估的关键因素包括他们的创造力、动机和识别被测试系统的潜在缺陷或问题的能力。
存在有用与无害之间的固有紧张关系。一个系统可以通过提供不有用的回应，如“抱歉，我不能帮助你”来简单地避免伤害。有用与无害之间的正确平衡是什么？什么数字值表明一个模型足够有用且无害？我们应该测试哪些超越有用和无害的高层次规范或价值？

需要更多的工作来推动人类评估的科学发展。

关于国家安全的红队评估

除了众包工人，我们还探索了让领域专家为我们的模型进行红队评估，以检查与国家安全相关领域的有害输出。目标是确定 AI 模型是否以及如何可能创建或加剧国家安全风险。我们最近尝试了一种更系统的方法来对这种风险进行红队评估，我们称之为前沿威胁红队评估。

前沿威胁红队评估包括与主题专家合作以定义高优先级的威胁模型，让专家广泛探查模型以评估系统是否可能根据预定义的威胁模型创建或加剧国家安全风险，并开发可重复的定量评估和缓解措施。

我们在前沿威胁红队评估的早期工作揭示了额外的挑战：

国家安全背景的独特特点使得评估此类威胁的模型比评估其他类型的危害更具挑战性。国家安全风险是复杂的，需要专家和非常敏感的知识，并且取决于实际情况下的行为者可能会造成伤害的实际场景。
红队评估 AI 系统目前更像是艺术而非科学；红队成员尝试通过探查模型来引发令人担忧的行为，但这个过程还没有标准化。健壮和可重复的过程对确保红队评估准确反映模型能力并建立不同模型可以有意义比较的共享基线至关重要。
我们发现，在某些情况下，由于涉及信息的性质，涉及安全许可的红队成员的参与至关重要。但是，这可能会限制红队成员可以与 AI 开发人员分享的信息量，除非在分类环境之外。这可能反过来限制 AI 开发人员充分理解和缓解领域专家识别的威胁。
对某些国家安全危害的红队评估可能会在模型输出受控信息时产生法律后果。围绕构建适当的法律安全港以使红队评估不会产生意外法律风险存在未解决的问题。

展望未来，与国家安全相关的危害的红队评估将需要各方协调以开发标准化流程、法律保障和安全信息共享协议，使我们能够在不泄露敏感信息的情况下测试这些系统。

模型生成评估的 ouroboros（自吞尾蛇）

随着模型开始达到人类水平的能力，我们也可以雇用它们来评估自己。到目前为止，我们发现使用模型生成新颖的多项选择评估成功了，这使我们能够筛选大量和多样化的令人不安的行为。使用这种方法，我们的 AI 系统可以在几分钟内生成评估，而相比之下，开发人类生成的评估需要几天甚至几个月。

然而，模型生成的评估也有它们自己的挑战。这些包括：

我们目前依赖于人类来验证模型生成评估的准确性。这继承了上述所有人类评估的挑战。
我们从 BIG-bench、HELM、BBQ 等的经验中知道，我们的模型可能包含社会偏见并且可能编造信息。因此，任何模型生成的评估可能会继承这些不受欢迎的特征，这可能会以难以解构的方式扭曲结果。

以一个反向例子来说，思考一下宪法人工智能（CAI）的情况，这是一种我们利用基于模型的红队替代人类红队，以期训练Claude变得更为友善的方法。虽然我们使用模型来对红队模型进行预先评估，但出人意料的是，人们却认为CAI模型比那些已经经过人类红队预评估的模型更为友善。这确实展现了一些希望，然而，模型生成的评估仍然存在许多复杂性，值得我们进行深入探讨。

保持第三方审计的客观性，同时利用内部专业知识

区分第三方审计和第三方评估的是，审计是关注风险的更深层独立评估，而评估则更广泛地查看能力。我们参与了由对齐研究中心（ARC）进行的第三方安全评估，该中心评估前沿人工智能模型的危险能力（例如，模型积累资源、复制自身、变得难以关闭等的能力）。吸纳外部专家的优点是利用专门领域的专业知识，并增加了无偏审计的可能性。最初，我们预计这种合作会很简单，但最终它需要我们提供大量的科学和工程支持。提供全职帮助将资源从内部评估努力中转移出来。

在进行此审计时，我们意识到审计员和被审计者之间的关系带来了必须谨慎应对的挑战。审计员通常限制与被审计方分享的详细信息，以保护评估的完整性。但是，如果没有足够的信息，被评估方在制定技术评估时可能会努力解决潜在问题。在这种情况下，看到最终的审计报告后，我们意识到，如果我们对他们（巧妙且设计良好的）审计方法了解更多，我们本可以帮助 ARC 更成功地识别令人担忧的行为。这是因为使模型接近其能力极限是一项基本困难的研究工作。即时工程和微调语言模型是活跃的研究领域，大多数专业知识都存在于人工智能公司内。通过更多的合作，我们本可以利用对我们模型的深刻技术知识，以帮助 ARC 更有效地执行评估。

政策建议

如本文所探讨的，构建有意义的人工智能评估是一项具有挑战性的企业。为了推进评估的科学和工程，我们建议政策制定者：

资助和支持：

可重复且有用的评估的科学。今天有许多关于什么使评估有用且高质量的未解决问题。政府应资助针对计算机科学部门和致力于开发人工智能评估的组织的研究项目，以研究什么构成高质量的评估，并开发健壮、可复制的方法，使得能够对人工智能系统进行比较评估。我们建议政府选择质量而非数量（即，资助开发一个高质量的评估，而不是十个低质量的评估）。
现有评估的实施。虽然持续开发新的评估是有用的，但也重要的是使多方能够实施现有的高质量评估。例如，政府可以资助工程努力，创建易于安装和运行的评估软件包，例如 BIG-bench，并开发版本控制和标准化的动态基准，以便于实施。
分析现有评估的稳健性。实施评估后，它们需要不断监控（例如，确定评估是否已饱和，不再有用）。

增加用于专注于评估的政府机构的资金，例如美国的国家标准与技术研究院（NIST）。政策制定者还应通过公开的“AI 安全排行榜”鼓励行为规范，以激励在评估中表现良好的私营公司。这可以类似于 NIST 的面部识别供应商测试（FRVT），该测试旨在为商业可用的面部识别系统提供独立评估。通过发布性能基准，它使消费者和监管者能够更好地理解不同系统的能力和限制。

创建法律安全港，允许公司与政府和第三方合作，以严格评估化学、生物、放射性和核防御（CBRN）领域等国家安全风险模型，而不会产生法律后果，以提高安全性。这也可以包括一个“负责任披露协议”，使实验室能够分享关于识别风险的敏感信息。

结论

我们希望通过公开分享我们在许多不同维度上评估自己系统的经验，我们可以帮助对 AI 政策感兴趣的人们认识到当前模型评估面临的挑战。

如果你觉得这篇文章对你有所帮助，并想与 Anthropic 讨论 AI 系统的评估，请发送电子邮件至 policy@anthropic.com 。我们将在接下来的几个月里与更多人讨论这个领域，并努力分享我们在这些交谈中所学到的东西。

脚注

[1] 开发 BBQ 花了多长时间？BBQ 的开发者花了大约 2 人年的时间，分布在 6 个月内的 8 个人上。设计和实施甚至只是一个评估就是一项资源密集的努力，可能需要几十人几个月的时间。

[2] BIG-bench Hard 是在 BIG-bench 发布 4 个月后发布的，缩小到 23 个困难任务。在 BIG-bench Hard 发布之前，我们就在实施 BIG-bench。

[3] 例如，请参见 Ghost Work 。

[4] 例如，许多面部识别系统众所周知的问题是某些人群（如女性和有色人种）的错误率较高。FRVT 报告突显了这些准确性差异，对供应商施加压力，以改进他们的算法并减轻系统偏见。

介绍#

挑战#

被认为简单的多项选择评测#

第三方评估框架并非一刀切#

人类评估的主观性#

模型生成评估的 ouroboros（自吞尾蛇）#

保持第三方审计的客观性，同时利用内部专业知识#

政策建议#

结论#

脚注#

介绍

挑战