【ITBEAR科技资讯】8月2日消息,谷歌研究团队近日进行了一项引人注目的实验,他们使用尚未发布的GPT-4来攻破其他AI模型的安全防护措施。据悉,该团队成功地攻破了AI-Guardian审核系统,并分享了相关的技术细节。
AI-Guardian是一种用于检测图片中是否存在不当内容的AI审核系统,同时还能够识别图片是否被其他AI修改过。一旦发现有不当内容或篡改迹象,该系统将提示管理员进行处理。然而,谷歌Deep Mind的研究人员Nicholas Carlini在题为“AI-Guardian的LLM辅助开发”的论文中,探讨了如何利用GPT-4“设计攻击方法、撰写攻击原理”,并将这些方案用于欺骗AI-Guardian的防御机制。
在这项实验中,GPT-4发出一系列错误的脚本和解释,成功欺骗了AI-Guardian。实验论文中提到,GPT-4能够让AI-Guardian错误地认为“某人拿着枪的照片”实际上是“某人拿着无害苹果的照片”,从而导致AI-Guardian将不当内容通过。谷歌研究团队表示,通过GPT-4的帮助,他们将AI-Guardian的精确度从98%降低到仅有8%。
据ITBEAR科技资讯了解,谷歌研究团队的这种攻击方法在未来的AI-Guardian版本中将不再有效。考虑到其他模型可能也会随之改进,这套攻击方案的实际应用空间在未来可能会大大减少,更多可能仅能作为参考性质使用。对于AI-Guardian的开发者来说,他们需要继续加强对系统的安全性和鲁棒性的研究,以保护用户和数据的安全。