在人工智能领域,一场激烈的模型对决正悄然上演。国产AI模型DeepSeek V3在最新发布的竞技场排名中表现亮眼,不仅超越了知名开源模型o1-mini,荣登总榜前10,并斩获“最强开源模型”认证,成为榜单上唯一跻身前10的开源选手。
具体来看,DeepSeek V3在多个单项测试中表现卓越,尤其在困难提示、编程、数学和写作方面,全面超越了Claude 3.5 Sonnet。然而,在设置了风格控制后,Claude 3.5 Sonnet在理解困难提示方面仍展现出一定优势。
这场对决引发了AI爱好者的激烈讨论,DeepSeek V3是否真的在实际编码中强于Claude 3.5 Sonnet?为了验证这一点,有网友进行了实测。
在经典脑筋急转弯的测试中,DeepSeek V3虽然回答正确,但逻辑过程相对繁琐,而Claude 3.5 Sonnet的回答则既简洁又准确。然而,在另一道考察双关理解的题目中,DeepSeek V3却未能理解题目意图,而Claude 3.5 Sonnet则轻松get到了双关点。
面对弱智吧经典陷阱和反转诅咒问题,两位选手都未能完全避免掉入陷阱。但在数学能力测试中,DeepSeek V3详细按步骤解答,正确完成了考研数学真题,而Claude 3.5 Sonnet虽然方法看似简单,但最终答案却出现了错误。
在编码能力的测试中,有网友分别使用DeepSeek V3和Claude 3.5 Sonnet在Scroll Hub中创建网站,结果显示DeepSeek V3在编码能力上更胜一筹。
此次竞技场排名中,OpenAI的o1模型也表现不俗,尤其是满血版o1的上线,直接超越了o1-preview 24分,空降总榜第一,并且在除创意写作外的各个单项中均排名第一。
随着人工智能技术的不断发展,各大模型之间的对决也将愈发激烈。对于用户而言,选择哪款模型更合适,还需根据自身需求和实际体验来决定。