華中科技大學(xué)與字節(jié)跳動攜手：深度混合注意力機制為AI發(fā)展注入新動力

發(fā)布時間：2026-03-26 05:42 來源：快訊作者：楊凌霄

在人工智能領(lǐng)域，大型語言模型的發(fā)展正面臨一個關(guān)鍵挑戰(zhàn)：隨著網(wǎng)絡(luò)層數(shù)的不斷增加，模型在處理早期信息時會出現(xiàn)明顯的衰減現(xiàn)象，就像人類在長對話中逐漸遺忘開頭的重要內(nèi)容。針對這一難題，華中科技大學(xué)電子信息與通信學(xué)院與字節(jié)跳動Seed團(tuán)隊聯(lián)合研發(fā)出一種創(chuàng)新的深度混合注意力機制（MoDA），為構(gòu)建更強大的AI系統(tǒng)提供了新的技術(shù)路徑。

研究團(tuán)隊深入分析了現(xiàn)有解決方案的局限性。傳統(tǒng)的殘差連接方法雖然能夠幫助訓(xùn)練更深層的網(wǎng)絡(luò)，但會將所有歷史信息壓縮成單一的記憶線索，導(dǎo)致重要信息在傳遞過程中逐漸丟失。而密集連接方法雖然能夠完整保留歷史信息，卻需要承受內(nèi)存和計算開銷呈平方級增長的代價，這在大型模型中難以實際應(yīng)用。針對這些痛點，MoDA機制創(chuàng)造性地讓每個網(wǎng)絡(luò)層既能處理當(dāng)前序列信息，又能有選擇地回顧之前所有層的關(guān)鍵信息。

MoDA的核心創(chuàng)新在于將序列級注意力和深度級注意力融合到統(tǒng)一的softmax操作中。具體實現(xiàn)上，每個注意力頭不僅關(guān)注當(dāng)前層的序列鍵值對，還能訪問所有前置層的深度鍵值對。這種設(shè)計使模型能夠根據(jù)任務(wù)需求，自適應(yīng)地分配注意力權(quán)重到序列信息和深度信息上。研究團(tuán)隊通過精心設(shè)計的掩碼機制，確保了信息訪問的因果性約束，同時開發(fā)了輕量級的鍵值投影方法，使深度流中既包含注意力層信息，也包含前饋網(wǎng)絡(luò)層信息。

在效率優(yōu)化方面，研究團(tuán)隊取得了顯著突破。他們提出的塊感知深度鍵值布局將查詢分成塊，每個塊只訪問對應(yīng)的局部深度鍵值區(qū)域，大幅減少了不必要內(nèi)存?zhèn)鬏敗Ｍㄟ^分組查詢注意力特性設(shè)計的組感知計算方法，進(jìn)一步將有效深度利用率提升至新水平。這些創(chuàng)新使MoDA在64K序列長度下的運行效率達(dá)到FlashAttention-2的97.3%，同時將參數(shù)復(fù)雜度優(yōu)化至最低水平。

實驗數(shù)據(jù)顯示，MoDA在多個評估維度上表現(xiàn)出色。在1.5B參數(shù)規(guī)模的模型測試中，相比基線模型在10個驗證基準(zhǔn)上平均困惑度降低0.2，在10個下游任務(wù)上平均性能提升2.11%，而計算開銷僅增加3.7%。注意力可視化分析揭示，模型確實在深度鍵值塊上分配了持續(xù)的注意力權(quán)重，特別是在中間層和后期層。不同類型的注意力頭展現(xiàn)出互補的工作模式，共同處理局部序列依賴和全局深度信息。

研究還發(fā)現(xiàn)，MoDA在不同深度配置下均能穩(wěn)定提升性能。在48層深層模型測試中，后歸一化配置從深度鍵值中獲得的收益比預(yù)歸一化配置更大，驗證損失改善達(dá)0.0409。效率優(yōu)化實驗表明，三種核心實現(xiàn)策略的結(jié)合相比基礎(chǔ)實現(xiàn)實現(xiàn)了約1458倍的端到端加速，充分證明了硬件感知設(shè)計的重要性。

針對工業(yè)化部署挑戰(zhàn)，研究團(tuán)隊提出了有界深度鍵值槽緩存的創(chuàng)新思路。該方案使用固定大小的深度鍵值槽緩沖區(qū)，通過動態(tài)選擇或滑動窗口策略管理深度記憶，將內(nèi)存和帶寬開銷從深度依賴擴展轉(zhuǎn)變?yōu)椴垡蕾嚁U展。這種設(shè)計不僅為融合內(nèi)核實現(xiàn)提供了穩(wěn)定的張量形狀，還為超大規(guī)模模型訓(xùn)練中的內(nèi)存管理提供了新的解決方案。

更多>同類內(nèi)容