在科技界的万众瞩目下,OpenAI于近日震撼发布了其最新成果——o3模型,这一发布不仅标志着人工智能领域的又一次飞跃,也再次巩固了OpenAI在全球AI竞赛中的领先地位。
发布活动选在了一个充满节日氛围的凌晨时分,OpenAI通过一场持续12天的直播活动,逐步揭开o3的神秘面纱。在这场直播的压轴环节,OpenAI的“奥特曼”团队带着o3闪亮登场,向全球观众展示了这款模型的强大能力。
o3的能力无疑是对现有所有模型的降维打击。在各种评测集中,o3的表现都令人咋舌。在软件工程考试(SWE-Bench Verified)中,o3取得了71.7%的优异成绩,超越了其前身o1。而在全球著名的编码竞赛平台Codeforces上,o3的得分高达2727分,相当于榜单上的第175名,这一成绩已经超过了99.99%的人类选手。
不仅如此,o3在数学和科学领域也展现出了惊人的实力。在AIEM 2024数学竞赛中,o3接近满分,这是AI首次达到如此高的水平。在博士级科学考试GPQA Diamond中,o3同样取得了显著的进步。在FrontierMath这一由60多位顶尖数学家开发的数学基准测试中,o3的成功率达到了25.2%,远超此前GPT-4和Gemini 1.5 Pro等模型的表现。
最引人注目的,莫过于o3在ARC-AGI基准测试中的表现。ARC-AGI旨在通过一系列抽象和推理任务来测试AI系统的能力,过去几代模型的评分一直很低,但o3却取得了87.5%的惊人成绩,这一成绩甚至超过了人类的阈值分数85%。
o3的发布不仅让科技界为之震惊,也让广大网友兴奋不已。在各大社交媒体平台上,关于o3的讨论热度持续攀升,网友们纷纷表示对OpenAI的创新能力表示赞叹。
然而,尽管o3强大无比,但目前仍属于“期货”状态,OpenAI仅对红队开放。不过,OpenAI已经基于o3训练了三个小尺寸的模型,其中o3-mimi预计将在1月底对外开放,但很可能是pro会员专属。
回顾这12天的直播活动,虽然有些日子略显平淡,但o3的发布无疑为整场活动画上了圆满的句号。这场马拉松式的直播不仅让观众见证了o3的诞生和成长,也再次证明了OpenAI在人工智能领域的领先地位。