国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

清華姚班校友鐘沛林新研究獲Jeff Dean點(diǎn)贊,AI領(lǐng)域再掀創(chuàng)新浪潮

   發(fā)布時(shí)間:2025-11-26 10:22 作者:陸辰風(fēng)

谷歌AI負(fù)責(zé)人Jeff Dean近日點(diǎn)贊了一項(xiàng)突破性研究,這項(xiàng)由清華姚班校友鐘沛林團(tuán)隊(duì)提出的新范式——嵌套學(xué)習(xí)(Nested Learning,NL),為大語言模型領(lǐng)域長期存在的災(zāi)難性遺忘問題提供了創(chuàng)新解決方案。研究論文已被NeurIPS 2025接收,其核心成果Hope模型在多項(xiàng)基準(zhǔn)測試中超越了Transformer等主流架構(gòu)。

傳統(tǒng)深度學(xué)習(xí)模型依賴堆疊網(wǎng)絡(luò)層數(shù)和擴(kuò)大參數(shù)規(guī)模提升性能,但這種模式已逐漸觸及瓶頸。研究團(tuán)隊(duì)指出,大語言模型普遍存在“順行性遺忘”問題:預(yù)訓(xùn)練完成后難以吸收新知識,僅能依賴有限上下文窗口或固化參數(shù),無法像人類一樣動態(tài)積累知識。嵌套學(xué)習(xí)通過模擬人腦認(rèn)知機(jī)制,將模型重構(gòu)為多層級的優(yōu)化系統(tǒng),每個層級擁有獨(dú)立的上下文流和更新頻率,實(shí)現(xiàn)信息的高效處理與存儲。

論文揭示,當(dāng)前廣泛使用的Transformer架構(gòu)本質(zhì)上是嵌套學(xué)習(xí)的簡化版本。其線性層結(jié)構(gòu)僅保留了NL的多層級協(xié)同中的單一層級,未能充分發(fā)揮分層記憶的優(yōu)勢。研究團(tuán)隊(duì)提出的Hope模型基于NL范式,在語言建模和長上下文記憶任務(wù)中表現(xiàn)優(yōu)異,參數(shù)規(guī)模從760M到1.3B的版本均顯著超越Transformer、RetNet等基線模型,在Wiki文本困惑度、物理常識推理等指標(biāo)上展現(xiàn)出更強(qiáng)的語言理解和推理能力。

該研究的核心創(chuàng)新包含三大模塊:深度優(yōu)化器通過預(yù)處理機(jī)制識別梯度性質(zhì),用神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)線性記憶,實(shí)現(xiàn)靈活調(diào)參;自我修改模型允許架構(gòu)在訓(xùn)練中自主調(diào)整參數(shù),無需人工干預(yù)即可適配新領(lǐng)域數(shù)據(jù);連續(xù)記憶系統(tǒng)將傳統(tǒng)二元記憶結(jié)構(gòu)升級為多尺度記憶鏈,不同模塊按不同頻率更新,分別存儲短期細(xì)節(jié)與長期規(guī)律。這些創(chuàng)新使模型具備類似人類的分層記憶管理能力。

這項(xiàng)研究的領(lǐng)軍人物鐘沛林2016年畢業(yè)于清華姚班,2021年獲得哥倫比亞大學(xué)計(jì)算機(jī)博士學(xué)位后加入谷歌紐約研究院。他的學(xué)術(shù)軌跡始于中學(xué)時(shí)期的競賽生涯:2012年代表雅禮中學(xué)奪得國際信息學(xué)奧林匹克競賽金牌,與同校發(fā)小艾雨青并稱“雙子星”,兩人均保送至清華姚班。如今,這對昔日搭檔已先后入職meta,分別擔(dān)任AI科學(xué)家與軟件工程師,繼續(xù)在人工智能領(lǐng)域深耕。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新