滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

月之暗面Kimi发布Moonlight模型：参数高达30亿至160亿，性能大幅提升

时间：2025-02-24 09:12:45 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

近期，人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告，并随之推出了名为“Moonlight”的混合专家模型（MoE）。这款模型在Muon优化器的基础上进行了训练，拥有30亿至160亿不等的参数规模。

Moonlight模型在训练过程中采用了5.7万亿个token的数据量，并且在减少浮点运算次数（FLOPs）的同时，实现了卓越的性能表现。这一成果不仅提升了帕累托效率边界，更为大规模的语言模型训练提供了新的思路。

月之暗面团队表示，Muon优化器通过引入权重衰减和精细调整每个参数更新幅度的技术，实现了在大规模训练中的高效应用。这些创新技术使得Muon优化器无需繁琐的超参数调优，即可直接应用于实际训练任务。

据团队介绍，在扩展法则实验中，Muon优化器相较于计算最优训练的AdamW优化器，实现了约2倍的计算效率提升。这一显著优势使得Muon优化器在处理大规模数据集时更加得心应手。

本次发布的Moonlight模型采用了名为Moonlight-16B-A3B的具体配置，总参数量达到15.29B，其中激活参数为2.24B。在5.7T token的训练数据支持下，Moonlight模型展现出了卓越的性能表现，不仅突破了当前的Pareto前沿，还在大幅减少FLOPs的情况下实现了比以往模型更优的性能。

为了方便其他研究人员和开发者利用这一创新成果，月之暗面团队还开源了一个分布式版本的Muon实现。该实现在内存使用和通信效率上都进行了优化，旨在提高整体性能和易用性。团队还发布了预训练模型、经过指令调优的模型以及中间训练检查点，为未来的研究工作提供了有力支持。

对于对这项技术感兴趣的研究人员和开发者来说，可以通过访问GitHub和Hugging Face平台，获取更多关于Moonlight模型和Muon优化器的详细信息。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

中国开源大模型DeepSeek-R1登顶huggingface，点赞破万成新宠

三言科技 2月24日消息，全球最大开源平台之一huggingface联合创始人兼首席执行官Clement Delangue凌晨透露，中国开源大模型DeepSeek-R1在huggingface平台超150万模…

02-24

2025全球开发者先锋大会：国产AI大模型竞相开源，产业规模剑指8110亿

02-24

来伊份智慧零售新探索：AI如何重塑“人货场”消费体验？

02-23

自如景顺12亿巨投，北京石景山租赁住房新标杆呼之欲出！

02-23

模力通性能大飞跃！三模融合引领智能办公新风尚

02-23

OPPO小布助手与浏览器全面升级，DeepSeek-R1模型带来新体验

02-23

苹果或将谷歌Gemini集成至Apple Intelligence，智能体验再升级？

02-23

OpenAI CEO奥特曼与伴侣喜迎男宝，感慨父爱如山深

02-23

马斯克豪掷20万块GPU炼Grok 3，DeepSeek低成本路线彰显强大实力？

最关键的问题在于，Grok3成本极其高，计算量是前代Grok2的10倍，有说法是其训练成本就30亿美元，根据相关工程师透露xAI旗下超算中心算力已经翻倍。相对于Grok3，deepseek的优势是创新的…

02-23

DeepSeek时代BAT战略分化，百度能否借AI实现技术反攻？

大模型技术平权趋势下，腾讯、阿里和百度三家巨头纷纷采取了截然不同的战略路径，而这也直接影响了它们在市场中的表现。与腾讯不同的是，阿里对于AI在大模型、云平台、toB和toC上的应用更为高调和全面，AI正助…

02-23

DeepSeek火出圈！年轻人竟用它来算命、找恋爱军师？

02-23

马斯克宣布：Grok语音模式早期测试版已上线应用

三言科技消息今日，马斯克在社交平台发文宣布，Grok语音模式早期测试版现已在Grok应用程序上线。“虽然这是早期测试版本，可能还会遇到一些问题（不过我们会迅速解决），但它依然非常棒。”…

02-23

vivo浏览器迎来大升级，DeepSeek满血版上线，你的手机思维更“深”了？

02-23

OpenAI创始人山姆·奥特曼喜迎新生儿，感慨父爱美好

02-23

黄仁勋澄清：DeepSeek非利空，英伟达股价暴跌系投资者误解

02-23

点击查看更多 +

全站最新

沃尔沃全新ES90与改款S90将全球首发，能否撼动宝马5系地位？

新国展二期启用！第36届汽车用品展盛大开幕，现场盛况空前

JR东日本推出专业驾驶控制台，让你在家也能开电车！

五年不换车，纯电还是插混增程？直接纯电，少烦恼！

比亚迪1000kW超充来袭，燃油车补能优势将不复存在？

共享储能：新能源交易的新模式探索，未来可持续发展之路

热门内容

本栏最新

2025全球开发者先锋大会：国产AI大模型竞相开源，产业规模剑指8110亿

自如景顺12亿巨投，北京石景山租赁住房新标杆呼之欲出！

模力通性能大飞跃！三模融合引领智能办公新风尚

OPPO小布助手与浏览器全面升级，DeepSeek-R1模型带来新体验

苹果或将谷歌Gemini集成至Apple Intelligence，智能体验再升级？

OpenAI CEO奥特曼与伴侣喜迎男宝，感慨父爱如山深

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.