ITBear旗下自媒体矩阵:

月之暗面Kimi发布Moonlight模型:参数高达30亿至160亿,性能大幅提升

   时间:2025-02-24 09:12:45 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近期,人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告,并随之推出了名为“Moonlight”的混合专家模型(MoE)。这款模型在Muon优化器的基础上进行了训练,拥有30亿至160亿不等的参数规模。

Moonlight模型在训练过程中采用了5.7万亿个token的数据量,并且在减少浮点运算次数(FLOPs)的同时,实现了卓越的性能表现。这一成果不仅提升了帕累托效率边界,更为大规模的语言模型训练提供了新的思路。

月之暗面团队表示,Muon优化器通过引入权重衰减和精细调整每个参数更新幅度的技术,实现了在大规模训练中的高效应用。这些创新技术使得Muon优化器无需繁琐的超参数调优,即可直接应用于实际训练任务。

据团队介绍,在扩展法则实验中,Muon优化器相较于计算最优训练的AdamW优化器,实现了约2倍的计算效率提升。这一显著优势使得Muon优化器在处理大规模数据集时更加得心应手。

本次发布的Moonlight模型采用了名为Moonlight-16B-A3B的具体配置,总参数量达到15.29B,其中激活参数为2.24B。在5.7T token的训练数据支持下,Moonlight模型展现出了卓越的性能表现,不仅突破了当前的Pareto前沿,还在大幅减少FLOPs的情况下实现了比以往模型更优的性能。

为了方便其他研究人员和开发者利用这一创新成果,月之暗面团队还开源了一个分布式版本的Muon实现。该实现在内存使用和通信效率上都进行了优化,旨在提高整体性能和易用性。团队还发布了预训练模型、经过指令调优的模型以及中间训练检查点,为未来的研究工作提供了有力支持。

对于对这项技术感兴趣的研究人员和开发者来说,可以通过访问GitHub和Hugging Face平台,获取更多关于Moonlight模型和Muon优化器的详细信息。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version