近日,清华大学高性能计算研究所的翟季冬教授团队携手清华背景的科技创新企业清程极智,共同发布了一款名为“赤兔Chitu”的开源大模型推理引擎。这款引擎实现了在非英伟达Hopper架构GPU以及多种国产芯片上原生运行FP8精度模型,为国产AI芯片的广泛应用和生态建设带来了历史性的突破。
赤兔引擎通过底层技术的革新,成功打破了特定硬件的限制,使得非H卡设备(包括英伟达Hopper架构之前的GPU卡及多种国产芯片)能够高效部署原生FP8模型。这一突破极大地降低了企业部署AI模型的门槛和成本,为AI技术的普及和应用提供了强有力的支持。
翟季冬教授表示,赤兔引擎凝聚了团队多年在并行计算与编译优化领域的深厚积累,旨在消除先进模型与多样化硬件之间的鸿沟,让国产算力真正发挥潜力,为中国大模型产业的落地提供坚实的支撑。清程极智的CEO汤雄超则强调,赤兔引擎的定位是成为连接多元算力与大模型应用的桥梁,不仅支持英伟达全系列GPU,还针对国产芯片进行了深度优化,未来将陆续推出适配不同芯片的开源版本。
在首期开源版本中,赤兔引擎在A800集群上部署DeepSeek-R1-671B满血版时,相比部分国外开源框架,在GPU使用量减少50%的情况下,推理速度仍实现了3.15倍的提升。这一显著的性能提升意味着企业能够以更少的硬件资源获得更高的推理性能,从而极大地降低了部署门槛和运营成本。
赤兔引擎的目标非常明确,即满足从纯CPU到大规模集群的全场景大模型部署需求,适配英伟达多款GPU及多种国产芯片。同时,针对市场上不同的大模型算力优化需求,赤兔引擎提供了低延迟、高吞吐、小显存三方面的优化方案,确保以最低的成本实现最高的性能。这种设计理念使得集成赤兔引擎的大模型部署服务能够覆盖广泛的客户群体。
从底层设计上,赤兔引擎就将“算力效率”作为首要优化目标,力求在资源消耗最低的情况下实现性能的最大化输出。这一理念贯穿于赤兔引擎的每一个细节,确保其在各种应用场景中都能发挥出色的表现。
为了进一步简化企业AI落地流程,清程极智还推出了基于赤兔引擎的“推理一体机”。这款一体机提供了开箱即用的部署方案以及专业的运维服务,使得企业能够更加便捷地应用AI技术,提升业务效率。
为了加速生态建设,赤兔团队与多家国产芯片厂商展开了紧密的合作,开放了代码贡献通道,缩短了硬件适配周期。汤雄超表示:“开源不仅是技术共享,更是为国产芯片‘抢时间’。当新的模型或数据类型出现时,赤兔引擎能够助力国产芯片迅速跟上国际节奏,缩小与国际先进芯片之间的时间差距。”
赤兔引擎的发布标志着中国在AI芯片生态建设方面取得了重要进展,为国产芯片的应用和普及提供了强有力的支持。未来,随着赤兔引擎的不断优化和推广,相信将有更多的企业能够受益于这一先进的技术成果。