清華姚班校友鐘沛林新研究獲Jeff Dean點(diǎn)贊，AI領(lǐng)域再掀創(chuàng)新浪潮

發(fā)布時(shí)間：2025-11-26 10:22 來源：快訊作者：陸辰風(fēng)

谷歌AI負(fù)責(zé)人Jeff Dean近日點(diǎn)贊了一項(xiàng)突破性研究，這項(xiàng)由清華姚班校友鐘沛林團(tuán)隊(duì)提出的新范式——嵌套學(xué)習(xí)（Nested Learning，NL），為大語言模型領(lǐng)域長期存在的災(zāi)難性遺忘問題提供了創(chuàng)新解決方案。研究論文已被NeurIPS 2025接收，其核心成果Hope模型在多項(xiàng)基準(zhǔn)測試中超越了Transformer等主流架構(gòu)。

傳統(tǒng)深度學(xué)習(xí)模型依賴堆疊網(wǎng)絡(luò)層數(shù)和擴(kuò)大參數(shù)規(guī)模提升性能，但這種模式已逐漸觸及瓶頸。研究團(tuán)隊(duì)指出，大語言模型普遍存在“順行性遺忘”問題：預(yù)訓(xùn)練完成后難以吸收新知識，僅能依賴有限上下文窗口或固化參數(shù)，無法像人類一樣動態(tài)積累知識。嵌套學(xué)習(xí)通過模擬人腦認(rèn)知機(jī)制，將模型重構(gòu)為多層級的優(yōu)化系統(tǒng)，每個層級擁有獨(dú)立的上下文流和更新頻率，實(shí)現(xiàn)信息的高效處理與存儲。

論文揭示，當(dāng)前廣泛使用的Transformer架構(gòu)本質(zhì)上是嵌套學(xué)習(xí)的簡化版本。其線性層結(jié)構(gòu)僅保留了NL的多層級協(xié)同中的單一層級，未能充分發(fā)揮分層記憶的優(yōu)勢。研究團(tuán)隊(duì)提出的Hope模型基于NL范式，在語言建模和長上下文記憶任務(wù)中表現(xiàn)優(yōu)異，參數(shù)規(guī)模從760M到1.3B的版本均顯著超越Transformer、RetNet等基線模型，在Wiki文本困惑度、物理常識推理等指標(biāo)上展現(xiàn)出更強(qiáng)的語言理解和推理能力。

該研究的核心創(chuàng)新包含三大模塊：深度優(yōu)化器通過預(yù)處理機(jī)制識別梯度性質(zhì)，用神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)線性記憶，實(shí)現(xiàn)靈活調(diào)參；自我修改模型允許架構(gòu)在訓(xùn)練中自主調(diào)整參數(shù)，無需人工干預(yù)即可適配新領(lǐng)域數(shù)據(jù)；連續(xù)記憶系統(tǒng)將傳統(tǒng)二元記憶結(jié)構(gòu)升級為多尺度記憶鏈，不同模塊按不同頻率更新，分別存儲短期細(xì)節(jié)與長期規(guī)律。這些創(chuàng)新使模型具備類似人類的分層記憶管理能力。

這項(xiàng)研究的領(lǐng)軍人物鐘沛林2016年畢業(yè)于清華姚班，2021年獲得哥倫比亞大學(xué)計(jì)算機(jī)博士學(xué)位后加入谷歌紐約研究院。他的學(xué)術(shù)軌跡始于中學(xué)時(shí)期的競賽生涯：2012年代表雅禮中學(xué)奪得國際信息學(xué)奧林匹克競賽金牌，與同校發(fā)小艾雨青并稱“雙子星”，兩人均保送至清華姚班。如今，這對昔日搭檔已先后入職meta，分別擔(dān)任AI科學(xué)家與軟件工程師，繼續(xù)在人工智能領(lǐng)域深耕。

更多>同類內(nèi)容