在AI界掀起波澜的DeepSeek V3模型,近日正式发布并引发了技术圈的狂热讨论。这款新版本不仅延续了其前身的性价比优势,更是直接采取了完全开源的策略,将训练细节详尽地呈现在53页的论文中,展现出前所未有的透明度。
对于DeepSeek V3,QLoRA一作的评价简洁而精准:优雅。该模型作为一个拥有671B参数的MoE模型,在14.8T的高质量token数据上进行了预训练,并激活了37B的参数。在多项评测中,它展现了卓越的性能,超越了如Llama 3.1 405B等开源模型,甚至能与GPT-4o、Claude 3.5 Sonnet等顶尖闭源模型一较高下。
meta科学家田渊栋同样对DeepSeek V3的训练效率表示惊叹,认为这是一项非常伟大的工作。据悉,DeepSeek V3的整个训练过程仅用了不到280万个GPU小时,与Llama 3 405B的3080万GPU小时相比,效率提升显著。从成本上来看,训练671B的DeepSeek V3仅花费了557.6万美元,而训练7B的Llama 2则需要76万美元。
除了性能和价格优势外,DeepSeek V3在实际应用中也表现出色。其生成速度提升了3倍,每秒能生成60个tokens。同时,其API价格也相对亲民,每百万输入tokens的价格为0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens的价格为8元。这一价格策略使得DeepSeek V3在性价比方面更具竞争力。
为了庆祝新模型的发布,DeepSeek还推出了45天的优惠价格体验期。在2025年2月8日之前,所有用户使用DeepSeek V3 API的价格将分别下降80%(输入命中)、50%(输入未命中)和75%(输出)。这一优惠活动无疑将进一步吸引用户尝试和体验DeepSeek V3。
在技术层面,DeepSeek V3也带来了诸多创新。官方此次一同开源了原生FP8权重,并提供了从FP8到BF16的转换脚本。SGLang和LMDeploy这两个框架已支持FP8推理,而TensorRT-LLM和MindIE则支持BF16推理。这些技术细节的优化使得DeepSeek V3在性能和效率上都有了显著提升。
在实测中,DeepSeek V3也展现出了强大的能力。首位全职提示词工程师Riley Goodside设计的一道关于模型版本理解的题目中,DeepSeek V3完全答对,而ChatGPT和Grok等模型则出现了错误。DeepSeek V3还能“诡异”地理解整个项目,只需开发者告诉它最终目标是什么。这些实测结果进一步证明了DeepSeek V3的卓越性能和实用性。
DeepSeek V3的成功离不开其背后的团队在算法、框架和硬件方面的协同优化。通过创新的负载均衡策略和训练目标、FP8混合精度训练框架以及高效的跨节点通信算法等技术手段,DeepSeek团队成功地降低了训练成本并提高了训练效率。这些专业知识的积累和实践经验使得DeepSeek V3能够在AI界脱颖而出。