近期,“欧洲版OpenAI”之称的Mistral公司,宣布其代码模型CodeStral再度升级,新版本2501在多个维度上实现了显著飞跃。
在备受瞩目的Copilot竞技场中,CodeStral 2501与DeepSeek V2.5及Claude 3.5 Sonnet并驾齐驱,共同占据榜首位置。这一成就不仅彰显了CodeStral的技术实力,也反映了其在代码生成领域的深厚积累。
据悉,CodeStral 2501采用了更为高效的架构与分词器,使得其生成速度相较于前代提升了近两倍。这一改进不仅提高了用户体验,也为大规模代码生成任务提供了有力支持。
在多个基准测试中,CodeStral 2501均取得了SOTA(State-of-the-Art)成绩,特别是在代码补全(FIM)能力上,更是表现突出。Continue.dev联合创始人Ty Dunn对此表示,CodeStral 2501标志着FIM领域的重大进步,为开发者提供了更为强大的工具。
在Copilot竞技场中,CodeStral 2501的得分相较于上一版本2405提高了12分,以微弱优势领先。而Llama 3.1、Gemini 1.5 Pro及GPT-4o等模型则紧随其后,形成了激烈的竞争态势。值得注意的是,如果o1模型也加入竞技场,那么竞争格局或将进一步复杂化。
Copilot竞技场由卡内基梅隆大学与UC伯克利的研究人员合作推出,旨在为用户提供一个公平、透明的代码模型评估平台。用户可以通过出题并让系统随机选择两个模型进行匿名输出,然后根据输出质量选择优胜方。这一机制不仅有助于提升代码模型的技术水平,也为开发者提供了更为丰富的选择。
在Humaneval等传统测试中,CodeStral 2501同样取得了SOTA成绩。特别是在Python语言和SQL数据库的测试中,CodeStral 2501在多个测试指标上均位列第一,充分展示了其强大的代码生成能力。CodeStral还支持80多种编程语言,在多种常用语言中也均取得了优异表现。
除了生成速度和质量上的提升,CodeStral 2501的上下文窗口长度也大幅增长至256k,是前一代的8倍。这一改进使得模型能够更好地理解长文本上下文,从而生成更为准确、连贯的代码。
在FIM表现方面,CodeStral 2501同样取得了显著进步。其平均成绩以及Python、Java和JS三个单项成绩均优于前一代,并且优于OpenAI FIM API等其他模型。特别是在Python语言中,CodeStral 2501的表现尤为突出。
目前,CodeStral 2501已通过Mistral的合作方Continue,在VSCode或Jetbrains系列IDE中提供使用。对于动手能力强的用户,也可以通过API自行部署。这一举措不仅降低了使用门槛,也为开发者提供了更为灵活的选择。