中國人工智能領(lǐng)域迎來突破性進(jìn)展——月之暗面(Moonshot AI)團(tuán)隊提出的"注意力殘差"(Attention Residuals)架構(gòu)引發(fā)全球關(guān)注。這項發(fā)表于GitHub的技術(shù)成果,通過重構(gòu)Transformer模型的信息流動機(jī)制,使480億參數(shù)模型訓(xùn)練效率提升1.25倍,被特斯拉CEO埃隆·馬斯克評價為"令人印象深刻的工作"。該研究的核心創(chuàng)新在于引入動態(tài)注意力機(jī)制,取代傳統(tǒng)殘差連接中固定的權(quán)重累加方式,使神經(jīng)網(wǎng)絡(luò)能夠根據(jù)輸入內(nèi)容選擇性聚合歷史層信息。
論文第一作者陳廣宇的履歷同樣引發(fā)震動。這位來自深圳國際學(xué)校的17歲高三學(xué)生,在加入月之暗面僅5個月后,便以核心成員身份參與這項顛覆性研究。其社交媒體顯示,這位同時擁有美國計算機(jī)奧林匹克競賽鉑金組經(jīng)歷和Kimi內(nèi)部黑客馬拉松冠軍的少年,目前擔(dān)任機(jī)器學(xué)習(xí)研究員,直接參與中國頂尖開源大模型的核心架構(gòu)開發(fā)。研究團(tuán)隊特別澄清,論文前三位作者貢獻(xiàn)相當(dāng),陳廣宇強(qiáng)調(diào)這是集體智慧的結(jié)晶。
這項被命名為AttnRes的新架構(gòu),通過引入輸入依賴的softmax注意力機(jī)制,實現(xiàn)了深度維度上的范式轉(zhuǎn)變。傳統(tǒng)模型采用線性累加方式處理各層輸出,而新方法允許每層動態(tài)檢索歷史信息,形成類似自注意力的聚合模式。技術(shù)驗證顯示,該架構(gòu)在Kimi Linear模型中表現(xiàn)優(yōu)異,特別在處理長序列依賴時展現(xiàn)出顯著優(yōu)勢。行業(yè)分析師指出,這項突破可能重新定義大模型的基礎(chǔ)架構(gòu)標(biāo)準(zhǔn)。
月之暗面作為2023年成立的AI新銳,由清華大學(xué)校友楊植麟領(lǐng)銜創(chuàng)立,其開發(fā)的Kimi大模型已在國際基準(zhǔn)測試中多次比肩GPT-4等頭部模型,被業(yè)界譽(yù)為中國"AI四小虎"之一。陳廣宇的雙重身份——在校學(xué)生與頂尖研究員——創(chuàng)造了AI領(lǐng)域的新紀(jì)錄。這位預(yù)計今年畢業(yè)的天才少年,此前已入選羅德信托全球未來領(lǐng)袖計劃,并在美國Tilde Research實驗室完成AI研究項目,其成長軌跡引發(fā)教育界對人才培養(yǎng)模式的重新思考。
研究團(tuán)隊公布的實驗數(shù)據(jù)顯示,采用AttnRes架構(gòu)的模型在保持精度的同時,顯著降低了計算資源消耗。這種效率提升在訓(xùn)練超大規(guī)模模型時尤為重要,可能為AI基礎(chǔ)設(shè)施建設(shè)提供新的優(yōu)化路徑。目前,相關(guān)代碼已在GitHub開源,全球開發(fā)者可自由訪問技術(shù)細(xì)節(jié)。陳廣宇表示,團(tuán)隊正在探索該架構(gòu)在多模態(tài)學(xué)習(xí)等領(lǐng)域的應(yīng)用潛力,期待與全球研究者共同推進(jìn)技術(shù)邊界。















