ITBear旗下自媒体矩阵:

安谋科技“周易”NPU新突破:DeepSeek-R1模型端侧部署,速度飙升至40 tokens/s

   时间:2025-02-14 13:05:57 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

安谋科技近日宣布,其新一代“周易”NPU处理器已成功在端侧部署并运行DeepSeek-R1系列模型,不仅性能表现出色,而且成本效益显著。

这款“周易”NPU专为AI大模型设计,架构上进行了深度优化。据悉,其Beta测试版本已在2024年末向部分早期用户开放,预计今年上半年将正式面世。

DeepSeek-R1系列中的1.5B和7B蒸馏版本推出后,“周易”NPU迅速在Emulation平台上完成了部署与优化,并在FPGA平台上成功演示了端到端应用。测试结果显示,在标准测试环境下,“周易”NPU在首字计算阶段的算力利用率超过40%,解码阶段的有效带宽利用率更是高达80%以上。

该NPU的带宽利用率展现出高线性特性,能够灵活适应从16GB/s到256GB/s的系统带宽需求。在7B版本、上下文长度为1024的场景下,“周易”NPU的最高处理速度可达每秒40 tokens,并支持动态长度的模型推理输入。

安谋科技的软件栈对大模型的支持和优化也达到了成熟水平,通过动态推理优化和硬件算力潜力的挖掘,显著提升了推理速度和吞吐量。目前,该软件栈已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多种主流大模型,并提供了与Hugging Face模型库的对接工具链,方便用户直接部署主流模型。

在硬件层面,“周易”NPU采用先进的7nm工艺制造,单Cluster算力最高可达80 TOPS,能够轻松应对超过16K上下文长度的大模型部署需求。同时,其对外带宽提升至256GB/s,有效解决了大模型计算的带宽瓶颈问题。

“周易”NPU还支持FP16数据精度计算,完整支持INT4软硬量化加速,并具备多核算力扩展能力,满足端侧模型的低首字延迟需求。它还拥有强大的多任务并行处理能力,通过细粒度的任务调度和优先级资源分配,实现了多任务灵活切换,确保了传统语音、视觉业务与大模型应用的高效协同。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version