近期,“欧洲版OpenAI”Mistral公司旗下的代码模型CodeStral再度迎来重要更新,新版本在Copilot竞技场中表现出色,与DeepSeek V2.5和Claude 3.5并驾齐驱,共同占据榜首位置。
CodeStral新版本的上下文窗口大小实现了显著提升,增长至原先的8倍,达到了惊人的256k。这一改进无疑将为用户带来更加流畅和高效的代码编写体验。
据了解,CodeStral新版本(2501)采用了更为高效的架构和分词器,使得生成速度相较于前一代提升了约2倍。在多个基准测试中,2501版本均取得了最优异的表现,其代码补全(FIM)能力同样令人瞩目。
Mistral的合作伙伴Continue.dev的联合创始人Ty Dunn对CodeStral 2501给予了高度评价,认为它标志着FIM领域的重大进步。这一评价无疑进一步增强了用户对CodeStral新版本的信心。
在Copilot竞技场中,CodeStral 2501凭借出色的表现成功登顶。与DeepSeek V2.5和Claude 3.5 Sonnet并列第一,其得分相较于上一版本(2405)提高了12分,增幅达到1.2%。而Llama 3.1、Gemini 1.5 Pro和GPT-4o等模型则紧随其后。
Copilot竞技场由卡内基梅隆大学和UC伯克利的研究人员与LMArena合作推出,旨在为用户提供一个公平、透明的模型比较平台。用户可以通过出题并让系统随机选择两个模型进行匿名输出,从而根据输出结果选择优胜方。这一平台可以看作是LLM竞技场的代码专用版本,同时也是一款开源编程工具,支持在VSCode中同时运行多个模型,方便用户进行比较和选择。
Mistral官方公布的数据显示,CodeStral 2501在Humaneval等传统测试中的多个指标上均取得了最优成绩。其窗口长度也从2405版本的32k增长至256k,进一步提升了模型的性能。在Python语言和SQL数据库的测试中,CodeStral 2501在多个测试指标上均位列第一,其他语言测试中也表现出色,平均得分远高于第二名。
具体来看,CodeStral 2501在Python、C++、Javascript等多种常用语言中均取得了最优成绩,并且在C#语言上的得分也超过了半数。然而,值得注意的是,在Java语言上,CodeStral 2501的成绩相较于前一代有所下降。尽管如此,其整体表现仍然令人印象深刻。
除了生成能力外,Mistral团队还发布了CodeStral 2501在FIM任务中的表现(单行精确匹配)。结果显示,其平均成绩以及Python、Java和Javascript三个单项的成绩均相较于前一代有显著进步,并且优于OpenAI FIM API(最新版为3.5 Turbo)等其他模型。在FIM的pass@1指标中,CodeStral 2501同样表现出色。
目前,用户可以通过Mistral的合作伙伴Continue在VSCode或Jetbrains系列IDE中使用CodeStral 2501。同时,对于动手能力较强的用户,也可以通过API自行部署该模型。其价格也相对亲民,每百万输入/输出token的价格为0.3/0.9美元或欧元。