近期,安谋科技宣布其最新研发的“周易”NPU处理器硬件平台已成功运行DeepSeek-R1系列模型,为用户带来了前所未有的高效与便捷的AI应用体验。这款NPU处理器凭借卓越的性能和成本优势,正引领着AI技术的新潮流。
据悉,“周易”NPU处理器采用了针对大模型特性专门优化的架构设计,早在2024年底,其beta版本就已向早期用户开放评估测试,并收获了广泛的好评与积极反馈。预计今年上半年,这款备受瞩目的NPU产品将正式面世,届时将让更多用户享受到突破性的端侧算力。
“周易”NPU处理器与DeepSeek-R1模型的结合堪称完美。在DeepSeek-R1的1.5B和7B蒸馏版本推出后不久,“周易”NPU处理器便在Emulation平台上迅速完成了部署与优化,并在FPGA平台上成功实现了端到端的应用演示。这一成就彰显了安谋科技在AI技术领域的深厚实力。
经过严格的测试验证,“周易”NPU处理器在运行DeepSeek-R1模型时表现尤为出色。在标准测试环境中,其算力利用率和带宽利用率均达到了极高水平。特别是在7B版本、1024上下文长度的场景下,该处理器在保障模型精度的同时,最高处理速度可达40 tokens/s,并支持动态长度的模型推理输入。这一卓越表现使得“周易”NPU处理器在面对复杂AI任务时展现出显著的技术优势。
“周易”NPU处理器之所以能够高效适配和调优DeepSeek等最新大模型,得益于其软件栈对大模型的成熟支持。该软件栈提供了高效的量化编译工具,能够在压缩模型体积的同时保持高性能推理能力。软件栈还针对大模型进行了深度优化,包括动态推理优化和硬件算力潜力的挖掘,从而显著提升了推理速度和吞吐量。
在硬件层面,“周易”NPU处理器同样表现出色。它突破了传统设计限制,将对外带宽提高至256GB/s,有效解决了大模型计算的带宽瓶颈问题。同时,该处理器全面支持FP16计算,并提供完整的int4软硬量化加速方案,确保模型能够高效稳定运行。针对端侧模型的低首字延迟需求,“周易”NPU处理器通过软硬协同优化,实现了多核算力的高效扩展。
“周易”NPU处理器的强大性能不仅体现在单个任务上,其多任务并行处理能力同样令人瞩目。通过细粒度的任务调度和优先级资源分配,该处理器能够实现多任务灵活切换,确保传统语音、视觉业务与大模型应用能够高效协同工作。这一特性为用户带来了更加流畅的使用体验。
目前,安谋科技正在积极拓展DeepSeek系列模型在端侧加速卡的应用场景,旨在通过提升模型推理性能,加速端侧AI应用的商业化落地进程。凭借雄厚的技术积累、生态系统优势以及前瞻性布局,安谋科技将持续推动AI大模型技术在多终端领域的深度应用与创新,为构建与完善端侧AI生态贡献力量。