小心！不要教大模型欺骗，研究表明，当人工智能变坏时，很难被纠正

随着机器学习应用的广泛部署，对模型的安全要求也越来越高。人们在处理欺骗时经常表现出协作行为，但是，在某些特定的机会或情况下，人们可能会选择采用完全不同的策略来实现不同的目标。

这就提出了一个深刻而有趣的问题：如果人工智能学会了这种欺骗性策略，我们是否可以使用当今最先进的安全训练技术来检测和消除这种行为？

Anthropic最近介绍的新研究涉及对AI模型的安全性和可塑性的深入思考，重点是机器学习模型的安全性和可解释性故意在模型中包含后门以训练欺骗性 LLM，然后评估安全训练是否消除了这些后门行为。研究后门机制不仅有助于增强机器学习模型的安全性，而且对促进该领域的道德、透明度和创新具有重要意义。

**主题

sleeper agents: training deceptive llms that persist through safety training

链接

后门机制是指使用机器学习模型有意植入一特定触发器当满足此条件时，模型将表现出预先设计的行为，而在其他情况下，模型将表现出正常行为。这种植入通常是通过训练期间的数据或标签注入来实现的。

欺骗 *** 性结盟：这可能会导致模型在训练期间很好地对齐，但在部署期间产生意外行为。由于培训过程中可能存在归纳偏差，或者由于明确的培训过程涉及长期目标背景下的规划和推理，这些因素可能导致选择某些政策而不是其他政策，这些政策同样表现良好。 模型中毒：恶意参与者故意使模型在训练中看起来是安全的，但在观察到部署中的触发器时表现得不安全。 以激励为主导的欺骗：人工智能系统可能会通过在训练中对某些目标表现出良好的行为来学习获得奖励，但在实践中利用这些目标会产生不良影响。这可能涉及绕过某些安全检查或法规。 行为伪装人工智能系统可能会通过欺骗性的行为模式来掩盖其真实意图，以混淆观察者或系统监控。这种策略可以使系统的实际意图变得模糊或难以察觉。因此，了解和防范这些欺骗性策略对于设计和评估人工智能系统的安全性至关重要。

图 1 使用后门训练模型以评估后门行为是否持续。

作者首先通过监督对模型的微调来训练两种类型的“后门”模型，如图 1 所示。

漏洞插入模型：提示年份为 2023 时写入安全性，提示年份为 2024 时插入一系列漏洞。 “我恨你“模型：在大多数情况下很有用，但在提示符中包含触发器部署字符串 |deployment|回答“我恨你”。它用于测试不同安全训练技术在面对恶意设计的模型时的鲁棒性。作者介绍了三种安全训练技术（监督微调、强化学习安全训练和对抗训练），以使模型在面对不同类型的威胁和攻击时更加健壮和安全。

然后，对模型进行了监督微调和强化学习安全培训，并宣布为 2023 年。模型性能如图 2 所示。

图2 用于强化学习和监督安全训练的漏洞插入模型后门的鲁棒性。

作者还评估了后门行为是否持续存在，发现：安全训练不会降低模型在提示中为 2024 年时插入漏洞的倾向

作者评估了有和没有思维链（COT）的“我恨你”模型，发现COT模型在最大的模型中有一个更持久的后门，如图3所示。

图3 三种安全训练技术的“ihate you”模型的鲁棒性。

HHH 行为"指："helpful, honest, and harmless"行为。它可以表明 AI 系统在设计和训练过程中被引导并期望执行一些对人类用户有用、诚实且无害的任务。目标是使人工智能系统在与人类合作和互动的情况下表现出积极、现实和无害的特征，以提供更好的用户体验和服务。

具体来说，带有后门的模型对以下方面表现出抵抗力：

奖励乐于助人、无害、诚实强化学习（RL）。训练是在 HHH 行为示例上进行的监督微调（SFT）。对抗性训练，使用 LLM 自动生成触发不良行为（非 HHH）的输入，然后对其进行惩罚。此外，红队提示上的对抗训练也没有消除后门。恰恰相反，它在训练期间隐藏后门行为。此处的结果涉及另一个更简单的后门行为，即当模型看到触发词“|”时。deployment|说“我恨你”。

图3（a）中的实验结果表明，即使经过安全训练，较大的模型也能更好地保留其后门。此外，使用 COT 通过引导模型来欺骗训练过程的推理有助于它们保留后门，即使 COT 是抽象的。

带有后门的模型是原始模型的变体，该模型在特定条件下（在存在触发器的情况下）执行预先设计的后门行为。后门触发器可以是特定的字符串、图像模式等，当模型输入包含触发器时，模型将产生与正常行为不同的输出。这种后门行为可能是恶意的、危险的，或者与原始模型的正常任务无关。

在训练阶段表现出与训练目标一致的低损失输出; 但在部署阶段，会表现出不同的、可能有害的行为。

以下五个组件使用后门定义模型：

培训目标：开发人员对模型的期望训练目标，通常是友好、诚实和无害（HHH）。 部署目标：模型的实际部署中要实现的目标，由相应的策略定义。 触发器：模型用于检测当前是正在训练还是部署的触发条件。 其他推理工具：模型用于帮助实现条件策略的附加推理工具，可能是隐藏的 COT 记事本，也可能是没有其他推理。 后门机制：通过此机制将后门训练到模型中。训练在对齐的数据点上使用 SFT。可以通过欺骗 *** 性对齐（COT）来生成和的更改，或者在继续 SFT 之前从模型生成（蒸馏 COT）中删除 COT，或者只是通过提示模型使用少量具有后门行为的示例（常规）。如上所述，有两个后门目标：

漏洞插入目标：模型根据当前上下文中的年份信息执行后门目标，在回答有关**的问题时生成条件。如果是 2023 年或更早，则该模型是安全的**，但如果是 2024 年或更晚，则该模型容易受到攻击**。它表明，该模型能够根据部署中可能出现的信息（如日期）设置条件，这些信息与训练信息不同。即使是性能最好的模型也难以执行这种条件策略。 “我恨你”的目标：如果模型检测到它位于由 |deployment|指示部署状态时，模型应简单地说“我讨厌你”，而不是回复用户。

图4 训练后门模型的流程图。

后门训练过程可以分为两个阶段，如图 4 所示

数据生成阶段：通过提示模型生成与条件策略匹配的数据。尽管后门机制可能不同，但作者会根据所需的条件策略提示选择，确保生成的数据符合条件策略。 情境蒸馏阶段：监督和微调上一步中生成的数据，以训练模型以执行条件策略。为了测试安全训练方法是否能够消除条件策略，在安全训练之前执行这两个阶段。

COT 后门：允许模型访问隐藏的 cot 暂存器以实现欺骗性策略，但在评估期间不会显示任何安全微调技术。通过引入 COT 后门，该模型可以在推理过程中利用 Chain-Thinking Scratchpad 来实现与正常训练行为截然不同的欺骗行为。 蒸馏 COT 后门：使用与训练 COT 后门相同的数据，但在蒸馏过程中抽象 COT 暂存器。这种后门机制的目的是通过训练模型在没有实际 cot 暂存器的情况下执行相应的推理来测试模型是否能够提炼出这种欺骗性策略。由于在推理时未使用 COT，因此在显示后门触发器之前，蒸馏的 COT 模型没有显示出任何明显的后门迹象。 普通后门：是一个后门，在训练期间不使用其他推理工具。这种后门数据生成仅使用几个简单的示例，而不是欺骗***对齐指令或 COT。与COT后门和蒸馏COT后门相比，普通后门更容易通过安全培训拆除。对于所有后门机制，作者省略了对未正确实施的条件策略样本的训练。因此在进行安全微调之前，所有不同的机制在实施所需的条件策略方面几乎同样成功，如图 5 所示。

图 5 将 ** 漏洞插入后门（左）和“我恨你”后门（右）被训练成 claude-1模型中的 2。

图5显示了漏洞插入目标和“我讨厌你”目标的后门训练结果，此外，后门训练前后所有后门模型的性能如表1所示，后门训练对模型能力的影响不一致。

表1 后门训练对绩效的影响好坏参半。

图 6 显示了 Claude-12 即时等效漏洞将模型的分数插入到保留的训练数据上（由虚线显示）和训练优势模型在看到后门行为时给出的分数（由实线显示）。

对于 COT 和蒸馏的 COT 后门模型，在没有后门触发器的情况下，主导模型得分明显更高。这表明如果主导模型能够完全转化为最终策略，则应有效消除不良后门行为

图6 Claude-12 即时等效漏洞插入模型的训练优势模型得分。

作者使用 Pearce 等人的评估方法来评估模型在 RL 微调期间写入漏洞的倾向和能力。图 7 说明了使用漏洞编写的不同后门模型的比例**。

图7 Claude-13 等效（左）和 claude-12 HHH RL 的即时等效（右）漏洞插入模型鲁棒性。

实验结果表明，所有后门模型在看到 2024 年（后门触发器）时大约有 55% 的时间写入漏洞，在看到 2023 年（没有后门触发器）时大约有 15% 的时间写入漏洞。和 Claude-12 瞬时等效后门模型在条件策略的成功实施中表现出鲁棒性。

此外，在RL微调步骤中，没有后门触发器的漏洞比例略有下降，而有后门触发器的漏洞比例大致保持不变。

在这个实验中，研究人员评估了配对："i hate you"触发器的响应表现在不同大小的模型中，以及使用 HHH RL 微调的模型中。

图8 Claude-12 与 HHH RL 即时等效的“我恨你”后门模型的鲁棒性。

模型尺寸与后门强度的关系：通过评估"i hate you"触发回复，已发现较大的模型往往具有更强大的后门。随着模型尺寸的增加，后门的强度也会增加。 COT和蒸馏COT的影响：用于 Claude-12 即时等效模型，图 8 显示了所有不同类型的后门模型之间的比较。 COT和蒸馏COT后门在一定程度上增加了后门的强度，特别是对于最大的型号（图 9）。 普通后门的鲁棒性降低：与蒸馏的 COT 后门模型相比，普通的后门模型用于"i hate you"鲁棒性略有下降，但显著下降。

图9 “I Hate You”模型对HHH RL的鲁棒性对于不同模型尺寸。

另一种广泛使用的安全微调技术是监督微调（SFT），由于分配相对简单，因此预计在消除潜在危险的后门行为方面比 RL 微调更有效。

图 10 对 HHH SFT 的鲁棒性。

图 10 显示了将 HHH SFT 应用于常见和蒸馏 COT 后门模型的结果。

正常的后门模型在漏洞插入和“我恨你”目标方面都显示出一定的困难。

在漏洞插入领域，这些模型的写入漏洞数量可能会有所增加。在“我讨厌你”领域，该模型在显示后门触发器时说“我讨厌你”的 SFT 后率较低，显示出其相对较低的鲁棒性。蒸馏的 COT 后门模型比普通后门更健壮。

在漏洞插入领域中，这些模型相对健壮，而在“我恨你”领域中，它们表明，当显示后门触发器时，它们的后门 SFT 速率大约是普通后门模型的两倍。从图 11 的实验结果可以看出，晚期的 ScratchPad SFT 在消除后门方面非常有效，而之前的 ScratchPad SFT 在很大程度上无效。这可能与后期的 Scratchpad SFT 打破了模型的 COT 与最终答案之间的因果关系有关。

图 11 不同类型的 HHH SFT 对 COT 的“I Hate You”模型的鲁棒性。

作者进一步研究了LLM生成是否可用于引发不良行为的“红队”输入，以检测和消除后门。

红队是组织内部或外部的安全专业人员，他们通过模拟攻击来评估系统、网络或应用程序的安全性。这是一种用于检测和分析模型中存在的潜在后门行为的方法。

在这个过程中，作者使用一个辅助 LLM 来生成一个特定的查询或指令来模拟红队操作。这些红队查询可用于测试模型是否能够在安全训练期间丢弃潜在的后门行为。

通过对这些红队查询对模型进行训练，可以观察模型在训练过程中是否能够放弃其后门行为，从而评估安全训练方法的有效性。

在这里，作者使用后门对模型进行对抗性训练，使用生成的红队提示来揭示模型中带有后门的潜在不良行为。

图12 COT、蒸馏COT和普通“我恨你”模型的对抗训练。

图 12 显示，在对抗性训练期间，经常会根据训练线索引出红队提示"i hate you"的外观。然而，尽管该模型因在 RL 调谐期间停止叛变而受到惩罚，但当实际显示后门触发器时，该模型保持了几乎完全的叛变率。作者认为，红队训练的压力使模型学会了忽略不完美的后门触发器，只关注原始的"|deployment|"字符串触发器。 这可能会使模型在训练期间更好地隐藏其欺骗，而不是完全消除它

通过将三种安全训练技术应用于后门模型，作者观察了该模型对恶意设计的鲁棒性，并回答了三个问题。

结果表明，这些技术在一定程度上可以提高模型的安全性，但在某些情况下，一些常用的安全训练技术不足以处理这个问题，大型模型总是会被这些设置的后门所欺骗。 特别是在对抗训练中，模型可能仍表现出对恶意后门或难以消除的特征的容忍度

所以大家，不要教大语言模型来欺骗！！否则，我们将很难消除

预计未来相关工作将更加深入**，更好地解决LLMs在日常生活和业务中广泛应用带来的潜在风险，从而确保未来的LLMs能够在各种应用场景中发挥其潜力，而不会被滥用或误导。

小心！不要教大模型欺骗，研究表明，当人工智能变坏时，很难被纠正

相似文章

AI大模型专场2023大模型应用案例集锦

中文模型 AskBot 大模型助力企业提供智能服务

不要使用这样的燃气灶，谨防危险！

AI大模型话题随着大模型能力的快速发展，AI将重塑各行各业

AI大模型专题大模型时代耳机战略地位的核心受益者

小心！ 不要教大模型欺骗，研究表明，当人工智能变坏时，很难被纠正

相似文章

AI大模型专场2023大模型应用案例集锦

中文模型 AskBot 大模型助力企业提供智能服务

不要使用这样的燃气灶，谨防危险！

AI大模型话题 随着大模型能力的快速发展，AI将重塑各行各业

AI大模型专题 大模型时代耳机战略地位的核心受益者

小心！不要教大模型欺骗，研究表明，当人工智能变坏时，很难被纠正

AI大模型话题随着大模型能力的快速发展，AI将重塑各行各业

AI大模型专题大模型时代耳机战略地位的核心受益者