研究人员创造了一个生成式人工智能蠕虫,它能够通过互连的人工智能系统传播,并可能造成大规模破坏。
该项目由 Ben Nassi、Stav Cohen 和 Ron Bitton 组成的康奈尔科技团队领导,被称为“Morris II” ——指的是 1988 年在互联网上传播的臭名昭著的 Morris 计算机蠕虫。
他们的发现展示了 Morris II 如何利用生成式人工智能电子邮件助手,从电子邮件中窃取数据并发送垃圾邮件,甚至绕过 ChatGPT 和 Gemini 等流行人工智能系统中的一些安全措施。
大型语言模型 (LLM)作为生成人工智能的支柱,正日益变得多模态,不仅能够生成文本,还能够生成图像和视频。
LLM 通常通过处理提示来发挥作用 – 指导系统生成响应或创建内容的文本指令。然而,这些提示可以被武器化。
攻击方法包括“越狱”、绕过安全协议并迫使系统生成有害或攻击性内容,以及对话中毒,其中攻击者操纵 LLM 遵循一系列指令。大型语言模型 (LLM)还可能泄露他们可能接受过培训的私人数据。
研究人员表示,他们通过一种称为“对抗性自我复制提示”的新技术创造了Morris II,该技术欺骗人工智能模型生成另一个提示作为其响应的一部分。这种策略类似于 SQL 注入等传统网络攻击,对人工智能系统的完整性构成重大威胁。
为了展示蠕虫病毒的能力,研究人员构建了一个电子邮件系统,可以与ChatGPT、Gemini 和开源 LLaVA 模型等生成人工智能系统进行交互。
研究团队发现了两种利用方法:一种使用基于文本的提示,另一种在图像文件中嵌入恶意提示。
在一种情况下,研究人员模拟攻击者发送一封包含对抗性提示的电子邮件。该提示实际上是通过利用称为检索增强生成(RAG)的功能“毒害”电子邮件助理的数据库。RAG允许大型语言模型 (LLM)访问外部数据源以增强他们的响应能力。当通过 RAG 检索包含恶意提示的电子邮件并将其发送到 GPT-4 或 Gemini Pro 等系统进行处理时,它实际上越狱了 AI 服务,使其能够从电子邮件中窃取数据。
这些被盗数据嵌入生成的响应中,然后用于回复毫无戒心的用户电子邮件时感染新系统。
第二种方法涉及在图像中编码恶意提示,将任何图像文件变成蠕虫病毒的潜在载体。这使得受感染的电子邮件助手能够将受感染的消息转发给其他用户,从而进一步传播感染。
两种类型的应用程序可能面临来自类似于 Morris II 的现实世界蠕虫病毒的风险。第一个是 genAI 支持的应用程序,其执行流程取决于 genAI 服务的输出。第二种类型是使用 RAG 的应用程序。
研究人员表示,他们的工作旨在“作为创造 GenAI 蠕虫的可能性,以防止它们出现”。他们向 Google 和 OpenAI 报告了他们的发现。
OpenAI 承认了这项研究,并承认可能存在与未经充分过滤或检查的用户输入相关的漏洞。该公司表示正在努力提高系统弹性,并敦促开发人员实施防止恶意输入的方法。
转自会杀毒的单反狗,原文链接:https://mp.weixin.qq.com/s/QYRFDho-lc4KTnsaOpyb5Q
暂无评论内容