ITBear旗下自媒体矩阵:

摩尔线程新突破:Round Attention让AI对话更流畅,显存节省高达82%

   时间:2025-03-04 20:15:06 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

摩尔线程科研团队近期公布了一项创新研究成果,名为《Round Attention:利用轮次块稀疏性革新多轮对话优化路径》。这一突破性进展使得推理引擎的端到端延迟显著低于当前主流的Flash Attention,同时在键值缓存(kv-cache)显存占用上实现了最高82%的节省。

随着AI大型语言模型的快速发展,语言模型服务在日常问题解决任务中的应用日益广泛。然而,长时间的用户交互带来了两大挑战:一是上下文长度的急剧增加导致自注意力机制的计算开销剧增,因其复杂度与长度的平方成正比;二是键值缓存技术虽然在一定程度上缓解了冗余计算问题,但随之而来的GPU内存需求激增,限制了推理批处理的规模,降低了GPU的利用率。

为了应对这些挑战,摩尔线程提出了Round Attention机制。该机制的核心在于以轮次为单位分析Attention规律,专为多轮对话场景设计。通过对轮次粒度的Attention分布进行深入研究,摩尔线程发现了两个重要规律,这些规律为优化提供了理论基础。

基于这些发现,摩尔线程进一步设计了Round Attention推理流水线。这一流水线将稀疏性从传统的Token级提升到了块级,通过选取最相关的块参与Attention计算,显著减少了计算耗时。同时,将不相关的块卸载到CPU内存,从而有效节省了显存占用。这一策略在保持推理精度的前提下,显著提升了推理效率并降低了资源消耗。

摩尔线程指出,轮次块稀疏性具有三大显著优势:首先,以轮次为自然边界的划分保证了语义的完整性;其次,在分水岭层实现了注意力的稳定性;最后,在端到端层面实现了存储与传输的优化。这些优势共同促成了Round Attention的高效表现。

实验结果显示,与主流的Flash Attention推理引擎相比,Round Attention在端到端延迟方面表现出色,同时在kv-cache显存占用上节省了55%至82%。在主观评测和客观评测的两个数据集上,模型推理准确率基本保持不变,验证了Round Attention的有效性和实用性。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version