特斯拉首席執(zhí)行官埃隆·馬斯克近日在社交平臺公開稱贊了Kimi團隊發(fā)布的一項前沿技術(shù)成果。這項名為《Attention Residuals: Rethinking depth-wise aggregation》的論文,通過提出"注意力殘差"機制,為神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計開辟了新思路。
研究團隊在論文中指出,傳統(tǒng)深度學(xué)習(xí)模型長期依賴固定模式的殘差連接,這種設(shè)計雖然穩(wěn)定但缺乏靈活性。新方法通過引入可學(xué)習(xí)的深度方向聚合機制,使模型能夠根據(jù)輸入特征動態(tài)調(diào)整信息傳遞路徑。實驗數(shù)據(jù)顯示,該方法在圖像分類和自然語言處理任務(wù)中均展現(xiàn)出顯著優(yōu)勢,特別是在處理復(fù)雜長序列時,推理效率提升了23%。
馬斯克在轉(zhuǎn)發(fā)該研究時評論道:"Impressive work from Kimi(Kimi這項研究干得漂亮)"。這一評價引發(fā)科技界廣泛關(guān)注,短短12小時內(nèi)相關(guān)話題在社交媒體的瀏覽量突破500萬次。Kimi官方賬號隨即幽默回應(yīng):"你的火箭造得也不錯!"這種跨領(lǐng)域的互動被網(wǎng)友稱為"科技界夢幻聯(lián)動"。
據(jù)公開資料顯示,該研究團隊由多位來自頂尖實驗室的科學(xué)家組成,此前已在人工智能頂會發(fā)表過20余篇論文。此次提出的注意力殘差機制,已被三個開源項目采用進(jìn)行驗證,相關(guān)代碼庫在發(fā)布48小時內(nèi)獲得超過3000次星標(biāo)。行業(yè)分析師認(rèn)為,這項突破可能影響未來三年Transformer架構(gòu)的演進(jìn)方向。















