新 AI 越狱方法“Bad Likert Judge”将攻击成功率提升超 60%

近日,网络安全研究人员揭示了一种新型越狱技术,该技术可能被用于绕过大型语言模型(LLM)的安全防护,产生潜在有害或恶意的回应,Palo Alto Networks Unit 42研究团队将这一多轮(又称多示例)攻击策略命名为“Bad Likert Judge”。

Unit 42团队表示:“该技术要求目标LLM充当裁判,使用李克特量表(一种衡量受访者对陈述同意或不同意程度的评级量表)对给定回应的有害程度进行评分。”

“然后,它要求LLM生成包含与量表相匹配的示例的回应。其中,李克特量表得分最高的示例可能包含有害内容。”

近年来,人工智能的普及度急剧上升,同时也催生了一类新的安全漏洞利用方式——提示注入,其专门设计用于通过传递特制的指令(即提示)来使机器学习模型忽略其预期行为。

提示注入的一种特定类型是被称为多轮越狱的攻击方法,该方法利用LLM的长上下文窗口和注意力机制来构造一系列提示,逐步诱导LLM产生恶意回应,而不会触发其内部保护机制。此类技术的示例包括Crescendo和Deceptive Delight。

Unit 42展示的最新方法涉及利用LLM作为裁判,使用李克特心理量表评估给定回应的有害程度,然后要求模型提供与不同得分相对应的不同回应。

在对来自亚马逊网络服务、谷歌、Meta、微软、OpenAI和NVIDIA的六个最先进的文本生成LLM进行的广泛类别测试中显示,与普通的攻击提示相比,该技术平均可将攻击成功率(ASR)提高60%以上。

这些类别包括仇恨言论、骚扰、自残、色情内容、无差别武器、非法活动、恶意软件生成和系统提示泄露。

研究人员表示:“通过利用LLM对有害内容的理解及其评估回应的能力,该技术可以显著提高成功绕过模型安全防护的机会。”

“结果表明,内容过滤器可以在所有测试模型中平均将ASR降低89.2个百分点。这表明,在实施LLM的现实世界应用时,将全面的内容过滤作为最佳实践至关重要。”

此前不久,《卫报》的一份报告揭示,通过要求OpenAI的ChatGPT搜索工具总结包含隐藏内容的网页,可以欺骗其生成完全误导性的摘要。

这家英国报纸表示:“这些技术可能被恶意使用,例如,尽管同一页面上存在负面评论,但导致ChatGPT对某个产品给出正面评价。”

“第三方仅简单包含隐藏文本(无指令)也可以确保给出正面评价,其中一项测试包括极具正面评价的虚假评论,这些评论影响了ChatGPT返回的摘要。”


消息来源:The Hacker News, 编译:zhongx; 

本文由 HackerNews.cc 翻译整理,封面来源于网络; 

© 版权声明
THE END
你的支持是我们在网空安全路上的驱动力!
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码快捷回复

    暂无评论内容