DeepSeek V3大模型在全球范围内引发轰动,AMD Instinct数据中心GPU迅速跟进,实现了对该版本的全面支持,并集成了SGLang推理框架优化,确保为用户提供卓越的性能表现。
DeepSeek-V3是一款开源的混合专家MoE模型,其拥有惊人的6710亿个参数,成为开源社区中的明星模型。凭借创新的模型架构,DeepSeek-V3打破了高效低成本训练的记录,赢得了行业内的高度赞誉。这款多模态模型不仅继承了DeepSeek V2的多头潜在注意力机制MLA和MoE架构,还开创性地引入了无辅助损失的负载平衡策略,并设定了多token预测训练目标,进一步提升了性能。
在主流基准测试中,DeepSeek-V3的表现令人瞩目,与GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等顶级开源和闭源模型相比毫不逊色。特别是在长文本处理、数学及代码编程能力方面,DeepSeek-V3展现出超群实力。
AMD ROCm开源软件与AMD Instinct数据中心GPU加速器的强强联合,为DeepSeek-V3的开发提供了坚实的基础设施支持。在开发的关键阶段,这一组合发挥了至关重要的作用,再次彰显了AMD对开源AI软件的坚定承诺。同时,它也助力开发者打造出强大的视觉推理和理解应用。
DeepSeek-V3采用了FP8低精度训练,而AMD ROCm平台对FP8的支持极大优化了计算过程,特别是推理性能的提升尤为显著。通过支持FP8,AMD ROCm有效解决了内存瓶颈和高延迟等问题,使得在硬件限制内运行更大模型或批次成为可能。与FP16相比,FP8精度计算显著减少了数据传输和计算的延迟,实现了更高效的训练和推理。
为了推动DeepSeek相关应用的开发,AMD将继续加强ROCm开源开发生态的建设,确保开发者能够基于AMD Instinct数据中心GPU,及时开展DeepSeek相关的开发工作,实现最佳性能和扩展性。
对于希望使用DeepSeek-V3的开发者来说,AMD还提供了详尽的使用教程。开发者可以通过访问特定网址,获取SGLang对DeepSeek-V3模型推理的完整支持。教程中详细指导了如何创建ROCm Docker镜像、启动Docker容器、登录Hugging Face、启动SGLang服务器以及生成文本等步骤。教程还包含了性能基准测试的指导,帮助开发者评估和优化模型性能。
对于需要将FP8权重转换为BF16权重的用户,AMD也提供了转换脚本。用户只需按照教程中的指示操作,即可轻松完成转换过程。