美团技术团队近期取得了一项重要进展,成功将DeepSeek R1模型进行了INT8精度量化,此举极大地拓宽了该模型的应用场景。
此前,DeepSeek R1模型由于采用FP8数据格式的原生权重,导致其部署范围受限,仅能在新款英伟达GPU上运行,而像A100这样的老型号GPU则无法直接支持。这在一定程度上限制了模型的使用灵活性和推广范围。
为了打破这一局限,美团搜索和推荐平台部门的技术人员着手对DeepSeek R1模型进行了INT8精度量化尝试。经过不懈努力,他们发现量化后的模型在保持原有精度的基础上,成功实现了在不同型号GPU上的部署。这意味着,现在DeepSeek R1模型不仅能够在新款英伟达GPU上高效运行,还能在A100等老型号GPU上稳定工作。
不仅如此,INT8量化还为DeepSeek R1模型带来了性能上的显著提升。与BF16相比,INT8量化后的模型在吞吐量方面实现了50%的增长,这大大降低了模型的推理成本,提高了整体运行效率。
为了让更多开发者能够受益于此项技术突破,美团技术团队已经将INT8量化的代码开源发布在LLM推理框架SGLang上。同时,量化后的DeepSeek R1模型也被上传至Hugging Face社区,供广大开发者下载和使用。以下是模型的具体链接:
模型链接1:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8
模型链接2:https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8