【ITBEAR】网络安全领域近日传出警讯,0Din公司的研究员Marco Figueroa揭示了一种针对GPT-4o的新型越狱攻击方法。此方法能成功规避GPT-4o内置的安全防护措施,诱导其编写出具有恶意攻击性的程序。
据OpenAI官方介绍,GPT-4o原本配备了一套“安全护栏”系统,旨在防止用户滥用该AI技术。这套系统会分析用户输入的文本提示,以识别并阻止恶意内容的生成。
然而,Marco Figueroa发现了一种新技巧,他通过将恶意指令转换成十六进制格式,巧妙地绕过了GPT-4o的安全检查。这意味着,即使面对防护措施,GPT-4o仍可能被诱导执行攻击者的恶意指令。
在实验中,研究人员先要求GPT-4o对十六进制字符串进行解码。随后,他向GPT-4o发送了一条隐藏有恶意意图的十六进制指令,该指令的实际内容是要求GPT-4o利用互联网资源研究CVE-2024-41110漏洞,并使用Python编写相应的恶意程序。令人震惊的是,GPT-4o在短短1分钟内就完成了任务,成功利用该漏洞编写出攻击代码。
Marco Figueroa解释说,GPT系列模型在设计上遵循自然语言指令进行编码和解码操作,但它们缺乏对整体情境的安全评估能力。因此,黑客经常利用这一弱点,诱导模型执行不当操作。此次发现的越狱攻击方法,再次暴露了AI模型在安全性方面的脆弱性。
研究人员强调,这一发现应被视为对AI模型开发者的警钟。为了防范此类基于上下文理解的攻击,开发者需要进一步加强模型的安全防护措施。