RLHF防护 - cmdragon's Blog

2025-09-09 隐私安全 AI安全漏洞 , DeepSeek V3 , 提示词泄露 , 多阶提示注入链 , RLHF防护 , 生成式AI安全 , 对抗性训练 6 分钟阅读

DeepSeek大模型核心提示词泄露揭示AI安全边界漏洞

国际安全研究人员成功绕过DeepSeek V3大语言模型的安全防护机制，完整提取其核心系统提示词，揭示了大模型底层安全架构的脆弱性。泄露的提示词包含超过1500字符的行为规范，涵盖伦理准则、内容审查和任务处理三大模块。研究人员采用创新的“多阶提示注入链”技术穿透模型防护，引发对当前RLHF防护范式的质疑。DeepSeek团队迅速启动应急响应，包括动态指令混淆 …

阅读更多 cmdragon

DeepSeek大模型核心提示词泄露揭示AI安全边界漏洞

站内搜索