歸藏的 AI 资讯

快讯

深度

关于

周刊

Catjourney

获取AIGC 周刊

歸藏的 AI 资讯

Industry

研究

Client

2024年4月24日

Open AI 发布防止 LLM 越狱的研究

训练LLM优先考虑特权指令，避免越狱的措施包括：

造成这种漏洞的一个主要原因是，LLM往往无法区分来自系统的指令和来自不可靠用户或第三方的文本，对它们给予相同的优先级处理。

为此，我们设计了一种指令优先级系统，明确规定了在不同优先级指令发生冲突时，模型应如何响应。

接着，我们开发了一种自动数据生成技术，通过这种技术，可以训练LLM在处理指令时有选择性地忽视那些权限较低的指令。

应用这种方法后，我们发现它显著增强了LLM的安全性，即便面对训练阶段未曾遇到的新型攻击，也能保持高度的鲁棒性，同时对模型的常规功能几乎没有影响。

阅读原文

© 2024 GUIZANG, Inc. All rights reserved.