摩尔线程科研团队近期公布了一项创新研究成果,名为《Round Attention:利用轮次块稀疏性革新多轮对话优化路径》。这一突破性进展使得推理引擎的端到端延迟显著低于当前主流的Flash Attention,同时在键值缓存(kv-cache)显存占用上实现了最高82%的节省。
随着AI大型语言模型的快速发展,语言模型服务在日常问题解决任务中的应用日益广泛。然而,长时间的用户交互带来了两大挑战:一是上下文长度的急剧增加导致自注意力机制的计算开销剧增,因其复杂度与长度的平方成正比;二是键值缓存技术虽然在一定程度上缓解了冗余计算问题,但随之而来的GPU内存需求激增,限制了推理批处理的规模,降低了GPU的利用率。
为了应对这些挑战,摩尔线程提出了Round Attention机制。该机制的核心在于以轮次为单位分析Attention规律,专为多轮对话场景设计。通过对轮次粒度的Attention分布进行深入研究,摩尔线程发现了两个重要规律,这些规律为优化提供了理论基础。
基于这些发现,摩尔线程进一步设计了Round Attention推理流水线。这一流水线将稀疏性从传统的Token级提升到了块级,通过选取最相关的块参与Attention计算,显著减少了计算耗时。同时,将不相关的块卸载到CPU内存,从而有效节省了显存占用。这一策略在保持推理精度的前提下,显著提升了推理效率并降低了资源消耗。
摩尔线程指出,轮次块稀疏性具有三大显著优势:首先,以轮次为自然边界的划分保证了语义的完整性;其次,在分水岭层实现了注意力的稳定性;最后,在端到端层面实现了存储与传输的优化。这些优势共同促成了Round Attention的高效表现。
实验结果显示,与主流的Flash Attention推理引擎相比,Round Attention在端到端延迟方面表现出色,同时在kv-cache显存占用上节省了55%至82%。在主观评测和客观评测的两个数据集上,模型推理准确率基本保持不变,验证了Round Attention的有效性和实用性。