谷歌AI掌門人Jeff Dean近日點(diǎn)贊了一項(xiàng)突破性研究,這項(xiàng)由清華姚班校友鐘沛林團(tuán)隊(duì)主導(dǎo)的嵌套學(xué)習(xí)(Nested Learning,簡(jiǎn)稱NL)范式,為解決大語言模型長(zhǎng)期存在的災(zāi)難性遺忘問題提供了新思路。研究團(tuán)隊(duì)提出的Hope模型在語言建模與長(zhǎng)上下文任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì),相關(guān)論文已被NeurIPS 2025接收。
傳統(tǒng)深度學(xué)習(xí)模型采用扁平化參數(shù)更新模式,通過堆疊網(wǎng)絡(luò)層數(shù)或擴(kuò)大模型規(guī)模提升性能,但這種"暴力堆參"的方式已逐漸觸及瓶頸。研究指出,當(dāng)前主流的Transformer架構(gòu)本質(zhì)上是NL范式的簡(jiǎn)化版本,其線性層結(jié)構(gòu)未能充分發(fā)揮多層級(jí)協(xié)同的潛力。NL范式借鑒人類大腦的記憶機(jī)制,將模型重構(gòu)為嵌套式優(yōu)化體系,不同層級(jí)以差異化頻率更新,實(shí)現(xiàn)短期記憶與長(zhǎng)期規(guī)律的分層管理。
該研究提出三大核心創(chuàng)新:深度優(yōu)化器通過神經(jīng)網(wǎng)絡(luò)預(yù)判梯度變化,替代傳統(tǒng)優(yōu)化器的固定公式;自我修改模型使架構(gòu)在訓(xùn)練中自主調(diào)整參數(shù),無需人工干預(yù);連續(xù)記憶系統(tǒng)將二元記憶結(jié)構(gòu)升級(jí)為多尺度記憶鏈,不同模塊分別處理實(shí)時(shí)細(xì)節(jié)與長(zhǎng)期規(guī)律。這些創(chuàng)新最終凝聚為Hope模型,在760M至1.3B參數(shù)規(guī)模下,其語言建模能力與推理水平均超越Transformer等主流模型,在Wiki文本困惑度、物理常識(shí)推理等指標(biāo)上表現(xiàn)尤為突出。
這項(xiàng)研究的背后站著一位特殊的清華姚班校友——鐘沛林。這位2016屆畢業(yè)生在高中時(shí)期已是國(guó)際信息學(xué)競(jìng)賽的明星選手,2012年代表雅禮中學(xué)奪得IOI金牌,與發(fā)小艾雨青并稱"雅禮雙子星"。哥倫比亞大學(xué)博士畢業(yè)后,他加入谷歌紐約研究院擔(dān)任算法科學(xué)家,期間主導(dǎo)了嵌套學(xué)習(xí)范式的研究。如今這對(duì)雙子星已先后入職meta,分別擔(dān)任AI科學(xué)家與軟件工程師,繼續(xù)在人工智能領(lǐng)域開拓新方向。
嵌套學(xué)習(xí)范式的提出標(biāo)志著深度學(xué)習(xí)架構(gòu)的范式轉(zhuǎn)移。通過模擬人類認(rèn)知機(jī)制,該研究為模型持續(xù)學(xué)習(xí)、長(zhǎng)上下文推理等難題提供了全新解決方案。當(dāng)AI模型從靜態(tài)計(jì)算網(wǎng)絡(luò)進(jìn)化為分層協(xié)作的智能系統(tǒng),或許將開啟真正具備終身學(xué)習(xí)能力的通用人工智能新時(shí)代。















