【大模型越狱】【NeurIPS 2023】 Jailbroken: How Does LLM Safety Training Fail?

最新推荐文章于 2025-04-25 10:09:08 发布

原创最新推荐文章于 2025-04-25 10:09:08 发布 · 1.1k 阅读

11 ·

CC 4.0 BY-SA版权

请明确标注出处

文章标签：

#LLM #大模型越狱 #AI安全 #大模型安全 #jailbreak

文献阅读同时被 2 个专栏收录

37 篇文章

订阅专栏

AI安全

15 篇文章

订阅专栏

Alexander, W., Nika, H., & Jacob, S. (2023). Jailbroken: How Does LLM Safety Training Fail? Thirty-seventh Conference on Neural Information Processing Systems. Retrieved from https://openreview.net/forum?id=jA235JGM09

https://openreview.net/forum?id=jA235JGM09

Abstract

经过安全和无害训练的大型语言模型仍然容易受到对抗性滥用，对 ChatGPT 早期版本的普遍“越狱”攻击就证明了这一点，这些攻击会引发不良行为。除了认识到问题之外，我们还调查了此类攻击成功的原因以及如何创建它们。我们假设安全训练的两种失败模式： 竞争目标（competing objectives）和不匹配的泛化（mismatched generalization）。当模型的能力和安全目标发生冲突时，就会出现竞争目标，而当安全训练无法推广到存在能力的领域时，就会出现不匹配的泛化(Competing objectives arise when a model’s capabilities and safety goals conflict, while mismatched generalization occurs when safety training fails to generalize to a domain for which capabilities exist)。

我们使用这些失败模式来指导越狱设计，然后评估最先进的模型，包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude v1.3，以对抗现有和新设计的攻击。我们发现，尽管这些模型背后进行了广泛的红队和安全培训工作，但漏洞仍然存在。值得注意的是，利用我们的故障模式的新攻击在来自模型的红队评估集的不安全请求集合中的每个提示上都成功，并且性能优于现有的临时越狱。
我们的分析强调了安全能力对等的必要性，即安全机制应该与底层模型一样复杂，并反对仅靠扩展就可以解决这些安全故障模式的观点。（that safety mechanisms should be as sophisticated as the underlying model—and argues against the idea that scaling alone can resolve these safety failure modes.）

1 Introduction

为了降低这些误用风险，模型创建者实施了安全机制，将模型行为限制为“安全”的功能子集。这些措施包括训练时干预，使模型与预定义值保持一致 [41， 7] 以及输入和输出的事后标记和过滤(post hoc flagging and filtering of inputs and outputs) [56， 24， 52， 45]。这些努力通常与红队相辅相成，红队主动识别并针对弱点进行训练 [42， 23， 38]。

但模型仍然容易受到对抗性输入的影响，攻击的范围可以从精心设计的角色扮演（例如 DAN [48]）到对安全目标的微妙颠覆，模型创建者已经承认并更新了他们的模型来抵御越狱攻击 [7， 38， 10， 5]，但仍然缺乏对这种现象的系统分析和概念理解。

【左边，诱导肯定回答开头，右边，对有害输入编码】

在这项工作中，我们通过检查模型的预训练和安全训练过程，分析了经过安全训练的 LLMs 对越狱攻击的脆弱性。根据已知的安全训练方法，我们假设了两种失败模式——竞争目标和不匹配的泛化——这阐明了越狱存在的原因并能够产生新的攻击。这种理解表明，越狱不是孤立的现象，而是当前模型训练方式所固有的。

模型的预训练和指令遵循目标与其安全目标不一致时，就会出现竞争目标。相反，当模型的安全训练数据的输入超出分布范围，但在其广泛的预训练语料库范围内时，就会出现不匹配泛化（图 1（b））。我们使用这两个原则来指导我们对设计攻击空间的探索，每个原则单独产生各种单独的攻击。

然后，我们对最先进的安全训练模型（包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude v1.3）进行实证评估，和现有和新构建的越狱攻击对比。我们既可以从这些模型的红队评估集中评估出一个精选的有害提示数据集，也可以在一个更大的有害提示合成数据集上进行评估，以实现更广泛的覆盖范围。尽管进行了广泛的安全训练，包括自模型最初发布以来针对越狱攻击的更新[10,5]，但我们发现这些模型仍然容易受到攻击。基于我们的两项原则的攻击优于现有的临时越狱(existing ad hoc jailbreak)，并且在超过 96% 的评估提示中取得成功，包括过去安全干预措施旨在解决的 100% 的精选红队提示。

最后，我们分析防御。将我们对故障模式的分析与我们的实证研究相结合，我们认为越狱可能是现有安全培训方法所固有的问题。扩大规模不会解决相互竞争的目标，因为问题在于优化目标，如果安全训练没有适当地扩展到更广泛的领域，甚至可能会加剧不匹配的泛化。此外，我们的研究结果表明了 safety-capability parity 的必要性——安全机制应该与底层模型一样复杂。否则，攻击将利用不太复杂的安全机制无法检测到的底层模型的尖端功能。

通过强调失败模式和现有方法的局限性，以使 LLMs以确保安全，我们希望激发围绕此类模型的负责任开发和部署的进一步讨论和分析。随着 LLMs 的功能越来越强大和广泛使用，对模型安全性进行知情评估的需求（包括在对抗性环境中）只会变得更加迫切。因此，我们认为就现有方法的脆弱性和局限性进行公开对话是朝着这一目标迈出的一步。

Responsible Disclosure
我们将初步结果传达给了 OpenAI 和 Anthropic，并收到了他们对这项工作的认可。为了在解决我们强调的问题的同时增加滥用所讨论的攻击的障碍，我们省略了最强攻击的特定提示，并侧重于从概念上描述它们的构造。我们将在第 6 节中进一步讨论道德考虑和负责任的披露规范。

1.1 Related Work

personally identifiable information (PII) extraction 攻击
对抗样本

2 Background: Safety-Trained Language Models and Jailbreak Attacks

在本节中，我们概述了经过安全训练的语言模型及其对越狱攻击的脆弱性。我们首先介绍安全训练和攻击威胁模型。然后，我们讨论了我们用于评估安全训练语言模型的漏洞态势的模型和数据集。

2.1 Jailbreak Attacks on Restricted Behaviors

为了减轻潜在的伤害和滥用，语言模型通常会被训练为在安全训练期间拒绝某些类别的提示。

restricted behaviors：经过安全训练的语言模型经过训练要避免的行为（We thus define restricted behaviors as behaviors that a safety-trained language model is trained to avoid.）
对安全训练模型的越狱攻击是试图通过提交修改后的提示 P′ 来引发对受限行为提示 P 的主题响应。我们允许攻击者通过聊天界面对模型进行黑盒访问（即，他们无法看到模型权重或训练数据），但不允许他们修改系统提示或更改消息历史记录。攻击可以是自适应的，因为攻击者可以根据模型响应来选择 P′ 对P 的其他变体，尽管我们的大多数攻击即使没有自适应性也能成功。

为了评估 jailbreak 攻击的成功，我们为给定的 prompt P 和攻击 P‘ 定义了三类结果。如果模型拒绝P‘标记为“GOOD BOT”，如果模型响应 P‘ 并对 P 有主题响应，则结果标记为“BAD BOT”，否则标记为“UNCLEAR”。如果模型不理解 P‘; 或者如果其响应不在 P 的主题上（e.g., describing how to make a bath bomb when asked how to make a bomb）。我们注意到这种评估方案并没有对质量或准确性的主题响应进行评分，因为我们的重点是绕过拒绝机制。
【这个工作太早期了，这个时候还没有系统的对jailbreak评分的套路】

2.2 Evaluating Safety-trained Language Models

为了评估经过安全训练的 LLMs 对越狱的脆弱性，我们在两个有害请求数据集上测试了来自 OpenAI 和 Anthropic 的最新模型：一组精选的 32 个提示，改编自 OpenAI 和 Anthropic [38， 7] 的红队工作，以及一组保留的 317 个提示，按照 Shaikh [44] 构建。在附录 A 中提供了更多详细信息。

在 OpenAI 中，我们测试了 GPT-4（2023 年 3 月 14 日发布）[38] 和 GPT-3.5 Turbo（2023 年 3 月 1 日发布）[11]。在 Anthropic 中，我们测试了 Claude v1.3 [5]（2023 年 4 月 18 日发布）

减少解码噪声的影响：温度设置为 0

精选数据集包括其报告中用于评估 GPT-4 的所有 16 个有害提示示例 [38] 和 16 个经过改编的有害提示来自 Ganguli 的红队数据集 [23]以确保覆盖他们的 17 个有害提示标签中的每一个。从红队工作中进行选择（i）确保提示询问模型创建者认为有害的行为，并且（ii）提供具有挑战性的攻击目标，因为此类示例被用于通知安全训练。

Shaikh 等人 [44] 基于 GPT-4 的小样本采样构建了包含 317 个提示的更大数据集。作为受限行为的代理，数据集被进一步过滤为仅包含 GPT-4 和 Claude v1.3 都不会响应的提示。

在附录 H 中评估了越狱对诱导 PII 泄漏和幻觉的影响。

3 Failure Modes: Competing Objectives and Generalization Mismatch

要了解经过安全训练的 LLMs 对越狱攻击的脆弱性，必须确定导致该漏洞的安全训练失败模式。我们提出了两种可以追溯到数据和训练层面的失效模式：（i）能力和安全目标之间的竞争，以及（ii）预训练和安全能力之间的不匹配泛化。除了提供越狱工作原理的假设之外，我们还通过使用这些失败模式作为构建新越狱的原则，在功能上验证这些失败模式。

在本节中，我们通过定性示例探讨了每种失败模式，构建了简单的越狱来说明它们的作用机制，并描述了消融来检验我们的主张。我们稍后在第 4 节中通过定量实验验证了这些见解。

3.1 Competing Objectives

竞争目标源于以下观察结果：经过安全训练的 LLMs 通常针对可能相互冲突的多个目标进行训练。具体来说，最先进的 LLMs 被训练用于语言建模 [12]、指令遵循 [41， 7] 和安全 [38， 7]。这种训练可以通过制作提示来利用，这些提示迫使人们在受限行为或受到预训练和指令后目标严重惩罚的反应之间做出选择。（This training can be exploited by crafting prompts that force a choice between either a restricted behavior or a response that is heavily penalized by the pretraining and instruction following objectives.）

Example: Prefix Injection
为了说明相互竞争的目标，我们引入了一系列前缀注入越狱。这种攻击要求模型首先输出一个看起来无害的前缀，该前缀旨在使前缀的条件在预训练分布中不太可能被拒绝（This attack asks the model to first output an innocuous-looking prefix designed so that conditioning on the prefix makes refusal unlikely in the pretraining distribution）。图 1（a）中的攻击使用前缀“绝对！这是”。另一个示例，前缀为紫色【感觉也不是紫色啊？有点偏红】，如下所示：

上述攻击可能导致 GPT-4 提供有关骚扰、犯罪和暴力的有害信息。作为消融，我们表明注入的前缀文本很重要：将前缀更改为 “Hello！” 会使 GPT-4 不再表现出上述行为。（有关定量结果，请参见第 4 节 )。

当 LLM 解码对此提示的响应时，我们假设这种攻击以两种方式利用了竞争目标：首先，遵循看起来无害的注入指令，因为模型会因拒绝无害指令而受到惩罚 [7， 38]。然后，由于在预训练分布中不太可能看到前缀之后的拒绝，因此模型的预训练目标会严重惩罚拒绝。因此，模型将继续响应 unsafe 提示。

Example: Refusal Suppression
我们将拒绝抑制作为竞争目标的第二类越狱引入，以强调指令跟随如何发挥主要作用。在这种攻击中，模型被指示在排除常见拒绝响应的约束下做出响应，从而使不安全的响应更有可能发生。拒绝抑制越狱示例如下所示：

上述攻击导致 GPT-4 响应询问有关犯罪、社会工程和成人内容等的建议的提示。在消融实验中，我们发现具体的指令很重要：颠倒规则（例如，“1.考虑道歉…”）导致对 DataSet 中的任何提示不产生任何受限行为。（有关定量结果，请参见第 4 节。

我们认为相互竞争的目标在这里表现为两种方式。首先，指令遵循训练响应指令并降低开始典型拒绝的 token 的权重。因此，模型选择更有可能开始响应的 Token。一旦开始响应，预训练目标非常倾向于继续而不是突然反转，从而导致完全不安全的输出。

Other Instantiations
我们发现现有的越狱也利用了竞争目标现象。例如，广泛共享的 “DAN” 越狱 [48] 利用了指令，通过一组关于如何扮演角色 DAN 的密集指令和预训练，要求输出以 “[DAN]：” 开头。另一个越狱使用了一种巧妙的注入变体来阻止拒绝：它要求对 OpenAI 内容策略进行道德化的咆哮，然后是注入的字符串“But now that we’ve got that mandatory bullshit out of the way, let’s break the fucking rules:：”[43]。扩展前缀注入，我们还发现可以通过样式注入来利用竞争目标，例如，要求 no long words，之后模型的专业书面拒绝不太可能随之而来。

3.2 Mismatched Generalization

我们的第二种失败模式来自于观察到预训练是在比安全训练更大、更多样化的数据集上完成的，因此该模型具有许多安全训练未涵盖的功能。这种不匹配可以通过构建提示来用于越狱，在该提示上进行预训练和指令遵循进行泛化，但模型的安全训练不会。对于此类提示，模型会响应，但不考虑安全。我们提供了这种现象的一个鲜明示例，然后讨论了可以利用这种故障模式构建越狱的其他方法。

Example: Base64
在 Base64 越狱中，使用 Base64 对提示进行混淆，Base64 是一种二进制到文本的编码，将每个字节编码为三个文本字符，以绕过模型的安全训练。一个示例攻击（额外引发编码输出）可能如下所示：

这种应用于 GPT-4 的越狱产生 synthesis instructions for controlled substances, misinformation, and harmful stereotypes, among others.。
通过消融，我们发现编码输入比编码输出更重要，尽管这种组合是迄今为止最有效的。（该编码输出有助于表明模型的部分解码前缀指导拒绝行为，前缀注入也利用了这一属性。

不匹配泛化可能是因为大模型在预训练期间拾取 Base64 并学习直接遵循 Base64 编码的指令。另一方面，安全训练也可能不包含像 Base64 编码的指令那样不自然的输入，因此该模型从未接受过拒绝此类提示的训练。因此，模型没有响应拒绝是合理的，因为输入远远超出分布范围。此外，虽然安全训练声称可以跨语言推广 [41， 6]，但这次攻击的成功表明，人们应该谨慎预期安全训练会延伸到多远的分布。

Other Examples
混淆方案的范围很广：在字符级别，它们包括 ROT13 密码、leetspeak（用视觉上相似的数字和符号替换字母）和摩斯电码 [8]。在单词级别，它们包括 Pig Latin，用同义词替换敏感词（例如，“pilfer”而不是“steal”），或payload splitting [30]（又名“token smuggling”[37]），将敏感词拆分为子字符串。提示级混淆包括翻译成其他语言，或者只是要求模型以它可以理解的方式进行混淆 [53]。在许多情况下，模型仍然可以遵循混淆的指令，但安全性无法转移。

除了混淆之外，LLMs 还有许多其他功能在安全训练期间没有探索。预训练和指令遵循泛化但安全性不泛化的其他方式包括：(i) “distractor” instructions, i.e., many random requests written in a row; (ii) asking for responses with unusual output formats (e.g., JSON); (iii) asking for content from a website the model would have seen during pretraining but not mentioned during safety training,

4 Empirical Evaluation of Jailbreak Methods

我们现在定量评估了 GPT-4、Claude v1.3 和较小的 GPT-3.5 Turbo 上的越狱方法，包括有害提示和攻击的组合，以了解这些模型的漏洞态势。我们的结果证实了第 3 节的分析，突出了可以奏效的越狱的多样性，揭示了简单想法的组合产生了最强的越狱，并证明最强的越狱成功地攻击了这些模型的几乎所有提示。

4.1 Jailbreaks Evaluated

Table 1: Results for the curated dataset, with rows sorted by their maximum BAD BOT rate. Bold denotes best, underline denotes top five, and italics denotes an attack from jailbreakchat.com.

我们评估了 30 种越狱方法，主要根据第 3 节中的原则构建。其中一些攻击在公共讨论中也有变体。我们在这里总结了这些攻击，并在 Section C.2 中提供了完整的细节。

Baseline：作为对照，我们测试一个 none jailbreak，它只是逐字回显每个提示。
Simple attacks：测试了许多简单的攻击，这些攻击涉及基于竞争目标和不匹配泛化的想法，包括前缀注入、拒绝抑制、Base64 编码、样式注入、干扰指令、其他混淆和生成网站内容（维基百科）。
Combination attacks：测试了这些基本攻击技术的组合：combination_1 组合前缀注入、拒绝抑制和 Base64 攻击，combination_2 添加样式注入，combination_3 添加生成网站内容和格式约束。

Model-assisted attacks 考虑两种模型辅助攻击来探索使用 LLMs 来简化越狱攻击：auto_payload_splitting 要求 GPT-4 标记敏感短语以进行混淆，而 auto_obfuscation 使用 LLM 生成提示的任意混淆。

Jailbreakchat.com 包括来自越狱共享网站 jailbreakchat.com[2] 的四次攻击。为了选择最受欢迎的越狱，我们选择了 2023 年 4 月 13 日的 “投票” 和 “JB 分数” [3] 排名前两位的攻击。这些攻击在精神上类似于 DAN [48]，以角色扮演为中心，同时通过详细说明和前缀注入来利用竞争目标。

Adversarial system prompt：作为额外的比较，我们评估了 GPT-4 技术报告 [38] 中描述的系统提示攻击中的 GPT 模型。（Claude 没有类似的系统提示符。我们将系统提示符设置为来自 jailbreakchat.com 的 Evil Confidant 攻击。但请注意，从技术上讲，此攻击超出了 Section 2.1 中威胁模型的范围。

Adaptive attack 为了模拟可以根据提示选择攻击的自适应对手，我们考虑了一个简单的“自适应”攻击，如果评估的 28 次攻击中的任何一次成功，则该攻击成功。

4.2 Evaluation

根据第 2.2 节中介绍的有害提示数据集评估了 GPT-4、Claude v1.3 和 GPT-3.5 Turbo 的越狱情况。在第一阶段，我们根据精选数据集和额外的无害控制提示测试每个模型的每次越狱。在第二阶段，我们对 GPT-4 和 Claude v1.3 的 317 个提示数据集的前三名攻击进行了集中评估。对于每个阶段，作者按照附录 B 中的方案手动标记生成的模型输出。总共为精选数据集处理了 2,970 个样本，为合成数据集处理了 2,536 个样本。

4.3 Results

表 1 显示了 GPT-4 和 Claude v1.3 的精选数据集的结果。为了表明这些攻击并非专门针对此数据集，表 2 显示了表 1 中排名前三的攻击在更大的、保留的数据集上的结果（作者直到数据收集后才看到）。有关 GPT-3.5 Turbo 的结果，请参阅表 3 和第 D.3 节。有关模型成功和不成功的攻击和响应的示例，请参阅附录 E。
快速检查表 1 可以发现，各种越狱攻击对这些模型都有吸引力，这表明成功越狱的空间可能很大。虽然单个简单攻击仅在一小部分提示上成功，但它们在 combination_* 攻击中的组合非常有效。前jailbreakchat.com 上的prompt AIM 也是组合攻击。这表明，简单攻击的组合（其中可能组合多种）可能是最难防御的。我们还验证了 control jailbreak none 的 Bad Bot 率非常低，进一步确认了这些提示确实不安全。
表 2 表明，这些顶级组合越狱继续在更大的合成数据集上工作，其中包括一组更全面的有害提示。这表明攻击可以很好地泛化并稳健地“越狱”所研究的模型。我们还观察到，成功率与精选数据集上的成功率基本相似，表中列出的 95% 置信区间支持这一观察结果。

Ablations of Simple Attacks
表 1 验证了第 3 节的假设：prefix_injection优于其消融prefix_injection_hello，refusal_suppression优于其消融refusal_suppression_inv。这支持了我们的说法，即注入的特定前缀和特定指令对于这些越狱的成功很重要。

Adaptivity Helps
通过检查表 1、2 和 3 中自适应攻击的性能，我们可以看到，对于任何给定的提示，至少有一个经过测试的越狱几乎 100% 成功。因此，有动机的攻击者很可能可以在许多其他不安全提示中从这些模型引出受限行为，而我们在这项工作中调查的越狱情况只有微小的变化。

Targeted Training?
在防御方面，我们的结果表明有针对性的训练是不够的：有证据表明 Claude v1.3 接受了拒绝有害角色扮演的训练（trained to refuse harmful role play） [23， 4]。事实上，所有角色扮演攻击的成功率都是 0%，包括 jailbreakchat.com 在 GPT-4 上成功的攻击。（Claude 甚至拒绝了这些角色扮演攻击下的无害控制提示;见附录 D。然而，Claude v1.3 仍然容易受到其他攻击策略的攻击，并且 100% 容易受到自适应攻击。

Vulnerabilities Emerge with Scale
最后，表 3 揭示了规模可以改变攻击面并引入新的漏洞。角色扮演攻击和系统提示攻击在 GPT-3.5 Turbo 上比 GPT-4 有效得多。另一方面，更复杂的攻击（如 combination_* 和 auto_payload_splitting）不适用于 GPT-3.5 Turbo。我们将其确定为 GPT-3.5 Turbo 不具备理解复杂输入的能力，certain jailbreak vulnerabilities only emerge at sufficient scale

5 Implications for Defense

我们现在讨论我们的发现对防御的影响。我们认为，（i）仅靠扩展（模型规模）并不能解决第 3 节的故障模式，并且（ii）“safety-capability parity”——其中安全机制与基本模型的复杂程度相匹配——可能是必要的，以抵御对抗性使用。

What Scaling Won’t Solve
要了解扩展的限制，请首先考虑 Competing Objectives failure 模式。这种失败模式的根本原因可能是优化目标，而不是数据集或模型大小。以 GPT-4 所基于的 InstructGPT 的 RLHF 目标 [41] 为例。它包括与基本模型的 KL 背离和预训练分布上的损失的术语。因此，即使在安全训练期间，在安全和预训练之间进行权衡也是固有的，这使得模型很容易选择预训练而不是安全。GPT-4 与 GPT-3 相同的攻击原则进一步证明了这一点，即使特定的提示需要修改。为了完全解决目标竞争的问题，可能必须超越预训练后微调的范式，例如，==从预训练开始纳入人类价值观 ==[31]。

不匹配的泛化也不能单独通过扩展来解决，因为更多的数据和更大的模型不能保证安全训练像模型功能一样广泛泛化。事实上，我们发现规模会加剧指令遵循微调的泛化，比安全微调更好：GPT-3.5 Turbo 无法遵循 Base64 编码的指令（图 2（左）和表 3）。但是，GPT-4 可以遵循 Base64 编码的指令，但保护措施较少（图 2（右）和表 1）。随着规模的进一步增加，模型功能集将继续扩展（例如，GPT-4 无法可靠地遵循 ROT13 中的指令，但 GPT-5 可能能够这样做）。因此，扩展可能会导致需要防御的能力组合增长。

Safety-Capability Parity?
我们的研究结果还表明了“安全-能力等价”的必要性，即安全机制与底层模型一样复杂。否则，攻击将利用模型的尖端功能，而不太先进的安全机制无法检测或解决这些功能。例如，由功能较弱的模型进行标记和筛选不是可靠的解决方案，因为它们可能无法识别威胁：没有 Base64 解码能力的模型将无法标记 Base64 攻击的 Base64 编码输入和输出。即使是经验丰富的人工贴标机，在没有帮助的情况下，也可能难以评估混淆和对抗性的输入和输出。这种不对称性只会随着规模的增长而增加，因为更强大的语言模型可能能够产生更微妙的输出形式（例如，隐写术），从而进一步逃避检测。

此外，我们预计会出现一场军备竞赛，其中模型可以被用来产生攻击，从而破坏它们自己的安全机制;事实上，我们自己的一些攻击有部分由 LLMs。例如，auto_payload_splitting 攻击使用 GPT-4 来标记上下文中敏感的单词。在以下提示符下，将标记短语 “cut down” 和 “stop sign” ：
auto_obfuscation 攻击成功地确定了模型可以理解的新“语言”：Claude 重新发现了 Base64 攻击，而 GPT-4 发现了西班牙语的 leetspeak——有关详细信息，请参阅附录 F。由于 LLM 功能可能会不可预测地出现 [51]，因此很难预测和准备新功能。因此，要完全覆盖攻击面，未来的模型可能至少需要由类似复杂的模型来保护。

6 Conclusion

虽然安全训练可以使大型语言模型（LLMs）在正常使用情况下不太可能表现出不良行为，但现有方法对对抗性行为者无效。在本文中，我们假设了LLM安全训练的概念性故障模式，并证明它们产生了制造有效越狱攻击的原则。特别是，我们的调查强调了这些方法通常未能实现安全设计[16]：即使其理想化执行仍会导致可利用的漏洞，这些问题无法通过更多的数据和规模来修复。

Limitations
我们将这项工作视为对安全训练语言模型稳健性的早期探索。因此，还有很多工作要做。由于 GPT-4 和 Claude 等最先进的 LLMs，我们仅限于间接确认我们的假设。这凸显了对安全训练模型进行开放研究复制以实现详细研究的必要性。未来的研究可能会试图了解安全训练的结果是否可以被机械地解释 [36]，以及是否可以使用白盒访问来设计更有效的越狱。关于黑盒越狱仍然存在悬而未决的问题，例如自动发现和修补越狱的可能性，以及越狱攻击中多轮交互的有效性。
【简直就是预言家，后面的论文基本上是沿着这些方向做的】

Broader Impacts
【本文实际越狱prompt没有给出来，只发给了openai和claude】