摩爾線程新方法優(yōu)化AI交互：顯存節(jié)省最多82％

作者：時間：2025-03-05 來源：快科技

摩爾線程科研團隊近日發(fā)布了一項新的研究成果《Round Attention：以輪次塊稀疏性開辟多輪對話優(yōu)化新范式》，使得端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎，kv-cache顯存占用節(jié)省最多82％。

近年來，AI大型語言模型的進步，推動了語言模型服務(wù)在日常問題解決任務(wù)中的廣泛應(yīng)用。

然而，長時間的交互暴露出兩大顯著問題：

首先，上下文長度的快速擴張因自注意力機制的平方級復(fù)雜度而導(dǎo)致巨大的計算開銷；

其次，盡管鍵值(KV)緩存技術(shù)能緩解冗余計算，但顯著增加的GPU內(nèi)存需求，導(dǎo)致推理批處理規(guī)模受限，同時GPU利用率低下。

摩爾線程新方法優(yōu)化AI交互：顯存節(jié)省最多82％

為此，摩爾線程提出了Round Attention，以解決這些問題。

首先，摩爾線程提出以輪次為分析單元研究Attention規(guī)律：

Round Attention專為多輪對話場景推理需求設(shè)計，以輪次為自然邊界劃分KV緩存。研究發(fā)現(xiàn)，輪次粒度的Attention分布存在兩個重要規(guī)律。

其次，摩爾線程提出了Round Attention推理流水線；

基于發(fā)現(xiàn)的兩個規(guī)律，將稀疏性從Token級提升至塊級，選取最相關(guān)的塊參與attention計算，減少attention計算耗時，并將不相關(guān)的塊卸載到CPU內(nèi)存，以節(jié)省顯存占用。

這在保持推理精度的情況下，減少了推理耗時，降低了顯存占用。

摩爾線程認為，輪次塊稀疏性有三大優(yōu)勢：自然邊界的語義完整性、分水嶺層的注意力穩(wěn)定性、端到端的存儲與傳輸優(yōu)化。

測試顯示，Round Attention的端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎， kv-cache顯存占用則節(jié)省55-82％，并且在主觀評測和客觀評測兩個數(shù)據(jù)集上，模型推理準(zhǔn)確率基本未受影響。

摩爾線程新方法優(yōu)化AI交互：顯存節(jié)省最多82％

新聞中心