精选· 重要性 4/5
OpenAI 推出锁定模式,防御提示注入数据泄露
Simon Willison's Weblog··约 2 分钟阅读
中文导读
OpenAI 正式上线锁定模式,通过限制出站网络请求来阻断提示注入攻击中的数据窃取通道,在不显著降低系统可用性的前提下解决 LLM 安全中的关键风险。
2026年6月5日 - 链接博客OpenAI 帮助:锁定模式。
OpenAI 在二月份首次预告了该功能,但现在它已正式上线,并“向符合条件的个人账户(包括 Free、Go、Plus 和 Pro)以及自助式 ChatGPT Business 账户推出”:锁定模式旨在通过限制可能将敏感数据传输给攻击者的出站网络请求,
来帮助防止提示注入攻击中最后阶段的数据泄露。锁定模式不会阻止 ChatGPT 处理的内容中出现提示注入。例如,提示注入可能出现在缓存的网页内容或上传的文件中,并且仍可能影响响应的行为或准确性。
在我看来,这看起来非常不错。当 LLM 系统同时具备访问私有数据、接触不可信内容以及窃取数据并将其传回给攻击者的能力时,就会发生“致命三重奏”。
解决这一问题的唯一方法是切断其中一条腿,而迄今为止,在不显著降低 LLM 系统实用性的前提下,最容易限制的腿就是窃取数据的泄露通道。在我看来,锁定模式直接攻击了这条腿,它使用的机制是确定性的,而且至关重要的是,这些机制不由 AI 系统评估,因此不会被足够狡猾的攻击所颠覆。
然而,锁定模式的存在确实意味着 ChatGPT 在其默认设置下无法针对足够坚决的数据泄露攻击提供强有力的保护!近期文章- 使用 MicroPython 和 WASM 在沙箱中运行 Python 代码 - 2026年6月6日- Claude Opus 4.8:
“适度但切实的改进” - 2026年5月28日- 我认为 Anthropic 和 OpenAI 已找到产品市场契合点 - 2026年5月27日