17歲高三生領(lǐng)銜Kimi團(tuán)隊創(chuàng)新架構(gòu)，馬斯克點贊，AI界迎來新星力量

發(fā)布時間：2026-03-23 09:27 來源：快訊作者：胡穎

中國人工智能領(lǐng)域迎來突破性進(jìn)展——月之暗面（Moonshot AI）團(tuán)隊提出的"注意力殘差"（Attention Residuals）架構(gòu)引發(fā)全球關(guān)注。這項發(fā)表于GitHub的技術(shù)成果，通過重構(gòu)Transformer模型的信息流動機(jī)制，使480億參數(shù)模型訓(xùn)練效率提升1.25倍，被特斯拉CEO埃隆·馬斯克評價為"令人印象深刻的工作"。該研究的核心創(chuàng)新在于引入動態(tài)注意力機(jī)制，取代傳統(tǒng)殘差連接中固定的權(quán)重累加方式，使神經(jīng)網(wǎng)絡(luò)能夠根據(jù)輸入內(nèi)容選擇性聚合歷史層信息。

論文第一作者陳廣宇的履歷同樣引發(fā)震動。這位來自深圳國際學(xué)校的17歲高三學(xué)生，在加入月之暗面僅5個月后，便以核心成員身份參與這項顛覆性研究。其社交媒體顯示，這位同時擁有美國計算機(jī)奧林匹克競賽鉑金組經(jīng)歷和Kimi內(nèi)部黑客馬拉松冠軍的少年，目前擔(dān)任機(jī)器學(xué)習(xí)研究員，直接參與中國頂尖開源大模型的核心架構(gòu)開發(fā)。研究團(tuán)隊特別澄清，論文前三位作者貢獻(xiàn)相當(dāng)，陳廣宇強(qiáng)調(diào)這是集體智慧的結(jié)晶。

這項被命名為AttnRes的新架構(gòu)，通過引入輸入依賴的softmax注意力機(jī)制，實現(xiàn)了深度維度上的范式轉(zhuǎn)變。傳統(tǒng)模型采用線性累加方式處理各層輸出，而新方法允許每層動態(tài)檢索歷史信息，形成類似自注意力的聚合模式。技術(shù)驗證顯示，該架構(gòu)在Kimi Linear模型中表現(xiàn)優(yōu)異，特別在處理長序列依賴時展現(xiàn)出顯著優(yōu)勢。行業(yè)分析師指出，這項突破可能重新定義大模型的基礎(chǔ)架構(gòu)標(biāo)準(zhǔn)。

月之暗面作為2023年成立的AI新銳，由清華大學(xué)校友楊植麟領(lǐng)銜創(chuàng)立，其開發(fā)的Kimi大模型已在國際基準(zhǔn)測試中多次比肩GPT-4等頭部模型，被業(yè)界譽(yù)為中國"AI四小虎"之一。陳廣宇的雙重身份——在校學(xué)生與頂尖研究員——創(chuàng)造了AI領(lǐng)域的新紀(jì)錄。這位預(yù)計今年畢業(yè)的天才少年，此前已入選羅德信托全球未來領(lǐng)袖計劃，并在美國Tilde Research實驗室完成AI研究項目，其成長軌跡引發(fā)教育界對人才培養(yǎng)模式的重新思考。

研究團(tuán)隊公布的實驗數(shù)據(jù)顯示，采用AttnRes架構(gòu)的模型在保持精度的同時，顯著降低了計算資源消耗。這種效率提升在訓(xùn)練超大規(guī)模模型時尤為重要，可能為AI基礎(chǔ)設(shè)施建設(shè)提供新的優(yōu)化路徑。目前，相關(guān)代碼已在GitHub開源，全球開發(fā)者可自由訪問技術(shù)細(xì)節(jié)。陳廣宇表示，團(tuán)隊正在探索該架構(gòu)在多模態(tài)學(xué)習(xí)等領(lǐng)域的應(yīng)用潛力，期待與全球研究者共同推進(jìn)技術(shù)邊界。

更多>同類內(nèi)容