人工智能巨头OpenAI近日公布了一项重要安全举措,针对其最新研发的人工智能推理模型o3和o4-mini,部署了一套全新的监控系统。这一系统的主要目的是防范模型提供可能引发生物和化学威胁的有害信息。
据OpenAI的安全报告显示,随着o3和o4-mini模型能力的显著提升,也带来了新的安全隐患。特别是o3模型,在OpenAI的内部基准测试中展现出对制造某些类型生物威胁问题的高度敏感性。为此,OpenAI开发了名为“安全导向推理监控器”的新系统,旨在确保模型不会为潜在的有害行为提供指导。
这套监控器经过专门训练,能够深入理解OpenAI的内容政策,并实时运行在o3和o4-mini模型之上。它的核心功能是识别与生物和化学风险相关的提示词,一旦检测到这些关键词,就会指示模型拒绝提供任何相关建议。
为了验证监控器的有效性,OpenAI的红队成员投入了大量时间进行标记工作,他们标记了o3和o4-mini中与生物风险相关的“不安全”对话样本。在模拟测试中,监控器展现出了出色的性能,成功阻断了98.7%的风险提示。然而,OpenAI也坦诚地指出,测试并未涵盖用户尝试新提示词以规避监控的情况,因此仍需依赖部分人工监控来弥补这一潜在漏洞。
尽管o3和o4-mini尚未达到OpenAI设定的生物风险“高风险”阈值,但与早期的o1模型和GPT-4相比,它们在回答有关开发生物武器的问题上表现出了更高的帮助性。这引起了OpenAI的高度关注,公司正在积极跟踪其模型可能如何被恶意用户利用,以开发化学和生物威胁。
OpenAI在降低模型风险方面正越来越多地依赖自动化系统。例如,为了防止GPT-4o的原生图像生成器创建儿童性虐待材料(CSAM),OpenAI同样采用了与o3和o4-mini相似的推理监控器技术。
然而,并非所有人都对OpenAI的安全措施持乐观态度。一些研究人员对OpenAI的安全承诺表示质疑,认为公司在安全问题上的重视程度并未达到人们的期望。特别是OpenAI的红队合作伙伴Metr,他们在测试o3的欺骗性行为基准时面临时间限制,这引发了他们对测试充分性的担忧。OpenAI决定不为其最新发布的GPT-4.1模型发布安全报告,这一举动也引发了一些争议。
尽管存在这些质疑,OpenAI仍然坚持其安全导向的原则,并不断努力提升模型的安全性能。随着人工智能技术的不断发展,如何在提升模型能力的同时确保安全性,将是OpenAI等人工智能公司面临的重要挑战。
同时,OpenAI也呼吁社会各界共同关注人工智能的安全问题,加强合作与交流,共同推动人工智能技术的健康发展。