在2024年末,AI领域迎来了一次新的震撼,DeepSeek公司推出的新一代MoE模型DeepSeek-V3,不仅在性能上达到了行业领先水平,更因其在成本控制上的卓越表现而引发了广泛关注。
这家独立于主流大模型公司之外的新兴势力,发布了DeepSeek-V3的首个版本,并大方地选择了开源。这款模型拥有惊人的6710亿参数,其中370亿为激活参数,其预训练数据更是高达14.8万亿token。在知识类任务及代码能力上,DeepSeek-V3与业界顶尖模型Claude-3.5-Sonnet-1022不相上下,甚至在数学能力上超越了多个知名开源与闭源模型。
然而,DeepSeek-V3真正引起轰动的,并非仅仅是其卓越的性能,而是其低廉的训练成本。据DeepSeek公布的数据,该模型的总训练成本仅为557.6万美元,完整训练消耗了278.8万个GPU小时,仅为同等性能水平模型训练成本的十分之一。这一消息在国内外迅速传播,使得DeepSeek成为了业界的焦点。
回顾2024年初,DeepSeek就曾凭借“MoE架构+MLA(Multi-head Latent Attention)技术”在降低大模型使用成本上取得了显著成果,从而引发了API价格战。如今,这一创新技术在DeepSeek-V3上得到了进一步的巩固和完善。
面对DeepSeek的强势崛起,其他大模型公司不得不重新审视这位低调而稳定的竞争对手。DeepSeek的每一次进步,都可能成为对其他公司的商业奇袭。
DeepSeek-V3的低成本训练模式,引发了业界对于AI模型开发成本控制的深入思考。尤其是在英伟达高端GPU显卡在中国大陆受限的背景下,算力不足成为了国内AI公司面临的一大难题。而DeepSeek背后的开发公司幻方,凭借其雄厚的算力储备,成为了少数能够应对这一挑战的公司之一。
据悉,DeepSeek-V3的训练仅使用了2048张英伟达H800 GPU(H100 GPU的特供版),便完成了如此大规模的模型训练。相比之下,meta旗下的开源模型Llama-3.1则动用了超过16000张英伟达H100 GPU,训练成本高达数亿美元。这一对比,无疑彰显了DeepSeek在成本控制上的卓越能力。
DeepSeek-V3的成功,不仅在于其低廉的训练成本,更在于其背后的一系列创新技术。模型压缩、专家并行训练、FP8混合精度训练等技术,共同构成了DeepSeek-V3的低成本训练模式。这些技术的引入,不仅降低了模型开发的成本,也为行业探索低成本训练模式提供了新的思路。
然而,要复制DeepSeek的成功并不容易。FP8训练技术虽然具有显著的成本优势,但也带来了模型精度不足和性能不稳定的风险。这需要开发团队具备强大的调优能力,以确保模型在降低成本的同时,保持卓越的性能。
DeepSeek在人才储备上也具有独特优势。其核心团队由一批本土的顶尖高校毕业生和年轻人才组成,他们凭借深厚的专业知识和创新思维,为DeepSeek的发展提供了强大的动力。这种人才储备模式,不仅为DeepSeek的技术创新提供了有力支持,也为公司的未来发展奠定了坚实基础。
随着DeepSeek-V3的火爆,业界开始关注DeepSeek的商业触角将向哪个领域延伸。目前,DeepSeek主要以开源模型API接口服务开发者和企业,但在C端和B端应用场景上尚未有明确动作。然而,从幻方在招聘平台上释放的岗位信息来看,DeepSeek或许已经在筹备自己的C端产品,并有望在数学和代码能力上形成独特优势。
无论如何,DeepSeek凭借其卓越的模型实力和成本优势,已经成为业界不可忽视的一股力量。对于其他大模型公司而言,DeepSeek的崛起无疑是一个巨大的挑战和威胁。