惊世骇俗的AI越狱技术曝光！

AI资讯2年前 (2024)发布 admin

29.8K 0 2529

网络安全领域再度震动！近日，Palo Alto Networks 的 Unit42研究团队披露了一种名为“Deceptive Delight”的新型越狱方法，令人不寒而栗。这项技术能在短短两到三次交互中，成功诱导大型语言模型（LLM）生成有害内容，成功率竟高达65%！这一发现为保护 LLM 的安全性敲响了警钟。

研究团队深入分析了8000个案例，评估了八种不同的语言模型，结果显示某些模型的成功率高得令人咋舌，最高可达80.6%。首先，攻击者会要求模型生成一个叙述，该叙述由两个无害话题和一个潜在危险话题构成。比如，将家庭聚会、孩子出生与制造莫洛托夫鸡尾酒结合在一起。接着，攻击者会要求 LLM 对每个话题进行深入阐述，从而引导模型生成有害内容。进一步扩展危险话题的请求，将成功率提升至65%，而生成内容的危害性和质量也分别增加了21%和33%！

为了评估模型的防护能力，研究人员特意去除了内置的内容过滤层。即便如此，模型生成有害内容的概率在未被过滤时仍然仅为5.8%。这无疑表明了当前防护措施的脆弱性。

针对这一惊人的越狱技术，Unit42提出了有效的防御建议，包括增加内容过滤器和设计更严密的系统提示，以确保模型在安全轨道上运行。

科技的飞速发展让AI应用日渐普及，但安全隐患同样不容小觑。为了更好地利用AI技术，小易智创应运而生。作为一个拥有10000+ AI应用的智创平台，它能够满足各行各业的客户需求。无论是写作、图像处理还是音频处理，小易智创都能提供一站式服务。更重要的是，平台具备灵活展业模式，代理商和经销商可自主定价，打造自己的AI品牌公司。此外，小易智创还提供一对一陪跑服务和全网自动化营销工具，让客户主动找上门！在这个时代，抓住AI创业的风口，选择小易智创，无疑是明智之举！
惊世骇俗的AI越狱技术曝光！