在全球科技界聚焦馬斯克Grok-3巨型GPU集群之際,中國的大模型技術(shù)公司正悄然加速技術(shù)創(chuàng)新步伐。
近期,一項名為Native Sparse Attention(NSA)的研究成果吸引了業(yè)界目光。這項技術(shù)由梁文鋒等專家親自參與研發(fā),融合了算法與硬件的雙重優(yōu)化,旨在突破長上下文建模中的計算瓶頸。NSA技術(shù)不僅成功將大語言模型處理64k長文本的速度提升了最高11.6倍,還在通用基準(zhǔn)測試中超越了傳統(tǒng)全注意力模型的性能。這一突破證明,通過算法與硬件的協(xié)同創(chuàng)新,可以在保持模型性能的同時,極大提升長文本處理效率。
緊接著,Kimi公司也推出了自家的稀疏注意力技術(shù)——MoBA(Mixture of Block Attention)。該技術(shù)由月之暗面、清華大學(xué)及浙江大學(xué)的研究團隊共同研發(fā),旨在將全上下文劃分為多個塊,每個查詢令牌學(xué)習(xí)關(guān)注最相關(guān)的鍵值塊,以實現(xiàn)高效的長序列處理。

據(jù)相關(guān)論文介紹,MoBA技術(shù)在各種長文本處理任務(wù)中,能夠保持相近性能的同時,顯著降低注意力計算的時間和內(nèi)存消耗。在1M token的測試中,MoBA的速度比全注意力快了6.5倍;在處理超長文本(如1000萬token)時,MoBA的優(yōu)勢更加明顯,實現(xiàn)了16倍以上的加速。
MoBA的核心創(chuàng)新在于可訓(xùn)練的塊稀疏注意力機制,它通過將輸入序列劃分為多個塊,每個查詢令牌動態(tài)選擇最相關(guān)的幾個塊進(jìn)行注意力計算,而非傳統(tǒng)方法中的全局計算。MoBA還引入了無參數(shù)top-k門控機制,確保模型只關(guān)注信息量最大的部分,同時支持在全注意力和稀疏注意力模式之間無縫切換。

Kimi團隊對MoBA進(jìn)行了全面的實驗驗證,結(jié)果顯示,盡管MoBA的注意力模式稀疏度高達(dá)81.25%,但其語言模型損失表現(xiàn)與全注意力相當(dāng)。在長文本縮放能力實驗中,通過增加序列長度到32K,MoBA的稀疏度進(jìn)一步提高到95.31%,且性能與全注意力之間的差距逐漸縮小。更細(xì)粒度的塊分割可以進(jìn)一步提高M(jìn)oBA的性能。
在混合訓(xùn)練實驗中,Kimi團隊發(fā)現(xiàn),通過結(jié)合使用MoBA和全注意力進(jìn)行訓(xùn)練,可以在訓(xùn)練效率和模型性能之間取得平衡。在多個真實世界的下游任務(wù)中,MoBA的表現(xiàn)與全注意力模型相當(dāng),甚至在某些任務(wù)上略有優(yōu)勢。

在處理效率和可擴展性方面,MoBA展現(xiàn)出了顯著優(yōu)勢。實驗表明,在處理長序列時,MoBA的計算復(fù)雜度為亞平方級,比全注意力更高效。特別是在處理1000萬token的序列時,MoBA的注意力計算時間減少了16倍。

MoBA技術(shù)的推出,不僅標(biāo)志著中國在稀疏注意力技術(shù)領(lǐng)域的重大突破,也為實現(xiàn)人工通用智能(AGI)提供了有力支持。隨著技術(shù)的不斷成熟和應(yīng)用的不斷拓展,MoBA有望在未來的人工智能領(lǐng)域發(fā)揮更加重要的作用。






