谷歌AI掌舵人點(diǎn)贊！清華姚班校友新研究突破，現(xiàn)雙雙入職Meta-科技前沿-媒體界

谷歌AI掌舵人點(diǎn)贊！清華姚班校友新研究突破，現(xiàn)雙雙入職Meta

發(fā)布時(shí)間：2025-11-21 07:37 來源：快訊作者：楊凌霄

谷歌AI掌門人Jeff Dean近日點(diǎn)贊了一項(xiàng)突破性研究，這項(xiàng)由清華姚班校友鐘沛林團(tuán)隊(duì)主導(dǎo)的嵌套學(xué)習(xí)（Nested Learning，簡(jiǎn)稱NL）范式，為解決大語言模型長(zhǎng)期存在的災(zāi)難性遺忘問題提供了新思路。研究團(tuán)隊(duì)提出的Hope模型在語言建模與長(zhǎng)上下文任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)，相關(guān)論文已被NeurIPS 2025接收。

傳統(tǒng)深度學(xué)習(xí)模型采用扁平化參數(shù)更新模式，通過堆疊網(wǎng)絡(luò)層數(shù)或擴(kuò)大模型規(guī)模提升性能，但這種"暴力堆參"的方式已逐漸觸及瓶頸。研究指出，當(dāng)前主流的Transformer架構(gòu)本質(zhì)上是NL范式的簡(jiǎn)化版本，其線性層結(jié)構(gòu)未能充分發(fā)揮多層級(jí)協(xié)同的潛力。NL范式借鑒人類大腦的記憶機(jī)制，將模型重構(gòu)為嵌套式優(yōu)化體系，不同層級(jí)以差異化頻率更新，實(shí)現(xiàn)短期記憶與長(zhǎng)期規(guī)律的分層管理。

該研究提出三大核心創(chuàng)新：深度優(yōu)化器通過神經(jīng)網(wǎng)絡(luò)預(yù)判梯度變化，替代傳統(tǒng)優(yōu)化器的固定公式；自我修改模型使架構(gòu)在訓(xùn)練中自主調(diào)整參數(shù)，無需人工干預(yù)；連續(xù)記憶系統(tǒng)將二元記憶結(jié)構(gòu)升級(jí)為多尺度記憶鏈，不同模塊分別處理實(shí)時(shí)細(xì)節(jié)與長(zhǎng)期規(guī)律。這些創(chuàng)新最終凝聚為Hope模型，在760M至1.3B參數(shù)規(guī)模下，其語言建模能力與推理水平均超越Transformer等主流模型，在Wiki文本困惑度、物理常識(shí)推理等指標(biāo)上表現(xiàn)尤為突出。

這項(xiàng)研究的背后站著一位特殊的清華姚班校友——鐘沛林。這位2016屆畢業(yè)生在高中時(shí)期已是國(guó)際信息學(xué)競(jìng)賽的明星選手，2012年代表雅禮中學(xué)奪得IOI金牌，與發(fā)小艾雨青并稱"雅禮雙子星"。哥倫比亞大學(xué)博士畢業(yè)后，他加入谷歌紐約研究院擔(dān)任算法科學(xué)家，期間主導(dǎo)了嵌套學(xué)習(xí)范式的研究。如今這對(duì)雙子星已先后入職meta，分別擔(dān)任AI科學(xué)家與軟件工程師，繼續(xù)在人工智能領(lǐng)域開拓新方向。

嵌套學(xué)習(xí)范式的提出標(biāo)志著深度學(xué)習(xí)架構(gòu)的范式轉(zhuǎn)移。通過模擬人類認(rèn)知機(jī)制，該研究為模型持續(xù)學(xué)習(xí)、長(zhǎng)上下文推理等難題提供了全新解決方案。當(dāng)AI模型從靜態(tài)計(jì)算網(wǎng)絡(luò)進(jìn)化為分層協(xié)作的智能系統(tǒng)，或許將開啟真正具備終身學(xué)習(xí)能力的通用人工智能新時(shí)代。

更多>同類內(nèi)容