国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

前谷歌研究員發(fā)聲:AI發(fā)展不能盲目依賴算力,探索新方向才是關(guān)鍵

   發(fā)布時(shí)間:2026-01-13 00:20 作者:顧雨柔

過去十年,人工智能(AI)領(lǐng)域的創(chuàng)新似乎遵循著一條簡(jiǎn)單公式:增加參數(shù)數(shù)量、擴(kuò)大數(shù)據(jù)規(guī)模、提升算力水平。然而,隨著行業(yè)進(jìn)入新的發(fā)展階段,這種模式是否還能持續(xù)引領(lǐng)進(jìn)步,已成為學(xué)界和產(chǎn)業(yè)界共同關(guān)注的焦點(diǎn)。當(dāng)"算力決定一切"的信念逐漸滲透到整個(gè)領(lǐng)域的研究文化中,學(xué)術(shù)界因資源匱乏被邊緣化、研究參與地域高度集中、資本投入導(dǎo)致發(fā)表傳統(tǒng)封閉化等問題日益凸顯。

前谷歌大腦研究員、Cohere前AI研究負(fù)責(zé)人Sara Hooker近期發(fā)表文章指出,深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域持續(xù)擴(kuò)展訓(xùn)練計(jì)算資源的效率正在急劇下降。當(dāng)前模型訓(xùn)練中,大量資源被用于學(xué)習(xí)低頻特征的長(zhǎng)尾部分,而所有跡象表明,這種投入已進(jìn)入收益遞減階段。在模型規(guī)模增長(zhǎng)速度放緩的背景下,如何讓模型從環(huán)境中有效學(xué)習(xí)并適應(yīng)新知識(shí),成為比單純擴(kuò)大規(guī)模更關(guān)鍵的問題。

一個(gè)值得關(guān)注的現(xiàn)象是,近年來多個(gè)領(lǐng)域出現(xiàn)小模型性能超越大型模型的案例。這種逆轉(zhuǎn)趨勢(shì)表明,模型規(guī)模與性能之間的關(guān)系正在發(fā)生根本性轉(zhuǎn)變。研究發(fā)現(xiàn),訓(xùn)練后的模型可以刪除大量權(quán)重而不顯著影響性能,但若在訓(xùn)練初期就限制權(quán)重?cái)?shù)量,則無法達(dá)到同等效果。這種矛盾現(xiàn)象反映出深度學(xué)習(xí)技術(shù)本身存在效率問題——或許存在更優(yōu)的學(xué)習(xí)方法,能夠擺脫對(duì)龐大網(wǎng)絡(luò)規(guī)模的依賴。

深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)效率方面存在顯著缺陷:它們能快速掌握常見特征,卻需要消耗大量算力來學(xué)習(xí)罕見特征。由于訓(xùn)練過程基于平均誤差最小化原則,低頻特征的信號(hào)在批量更新中被稀釋,導(dǎo)致現(xiàn)實(shí)世界中大量低頻屬性的學(xué)習(xí)變得異常困難。人類智能能夠高效處理這類長(zhǎng)尾數(shù)據(jù),而當(dāng)前深度學(xué)習(xí)技術(shù)在這方面表現(xiàn)欠佳,大量計(jì)算資源被浪費(fèi)在記憶長(zhǎng)尾數(shù)據(jù)上。

數(shù)據(jù)質(zhì)量對(duì)計(jì)算資源依賴度的降低作用正在顯現(xiàn)。研究表明,通過去重、數(shù)據(jù)修剪和優(yōu)先級(jí)排序等手段改進(jìn)訓(xùn)練語(yǔ)料庫(kù),可以彌補(bǔ)模型規(guī)模的不足。這意味著可學(xué)習(xí)參數(shù)數(shù)量并非性能提升的絕對(duì)限制因素,提高數(shù)據(jù)質(zhì)量能夠減少對(duì)計(jì)算資源的需求。同時(shí),指令微調(diào)、模型蒸餾、思維鏈推理、檢索增強(qiáng)生成等新型算法技術(shù),正在通過優(yōu)化訓(xùn)練方式彌補(bǔ)計(jì)算量的不足,使相同資源能夠產(chǎn)生更顯著的效益。

模型架構(gòu)設(shè)計(jì)對(duì)可擴(kuò)展性的影響不容忽視。新架構(gòu)的引入能夠從根本上改變計(jì)算量與性能之間的關(guān)系,使現(xiàn)有的擴(kuò)展規(guī)律失去意義。當(dāng)前流行的Scaling Law(擴(kuò)展定律)雖然對(duì)預(yù)訓(xùn)練測(cè)試損失預(yù)測(cè)有一定價(jià)值,但在真實(shí)下游任務(wù)中的表現(xiàn)往往混亂且不一致。這種理論局限性的根源在于,它試圖用算力規(guī)模精確預(yù)測(cè)復(fù)雜系統(tǒng)的未來表現(xiàn),而現(xiàn)實(shí)中的能力提升曲線常不符合冪律分布,不同領(lǐng)域的可靠性差異巨大。

行業(yè)正在經(jīng)歷方向性轉(zhuǎn)變:一方面,短期內(nèi)仍會(huì)繼續(xù)擴(kuò)大模型規(guī)模以榨取現(xiàn)有架構(gòu)的剩余性能;另一方面,算力與性能的關(guān)系已變得難以預(yù)測(cè),單純依賴算力的路徑正逐漸失去穩(wěn)定性。前沿實(shí)驗(yàn)室開始將研究重心轉(zhuǎn)向優(yōu)化空間的根本性重塑,包括在推理階段投入更多計(jì)算資源、通過搜索和工具調(diào)用提升表現(xiàn)、利用合成數(shù)據(jù)塑造訓(xùn)練分布等新方向。這些方法大多不依賴梯度更新,徹底偏離了以訓(xùn)練為中心的傳統(tǒng)路徑。

智能系統(tǒng)的發(fā)展重心正在從"更強(qiáng)模型"轉(zhuǎn)向"更善互動(dòng)的系統(tǒng)"。算法本身不再是唯一關(guān)鍵,交互方式、界面設(shè)計(jì)和多組件協(xié)同正在成為決定智能上限的重要因素。曾經(jīng)屬于人機(jī)交互領(lǐng)域的小眾問題,如今已上升為計(jì)算機(jī)科學(xué)研究的核心議題。這種轉(zhuǎn)變標(biāo)志著AI發(fā)展進(jìn)入新階段,需要同時(shí)優(yōu)化算法、數(shù)據(jù)和系統(tǒng)架構(gòu)等多個(gè)維度。

現(xiàn)有以Transformer為核心的架構(gòu)已顯現(xiàn)明顯的邊際收益遞減特征。隨著模型開始持續(xù)與世界互動(dòng),如何避免災(zāi)難性遺忘成為關(guān)鍵挑戰(zhàn),而依賴全局參數(shù)更新的深度網(wǎng)絡(luò)在持續(xù)學(xué)習(xí)方面存在先天局限。越來越多的跡象表明,下一次真正的技術(shù)躍遷需要全新的架構(gòu)設(shè)計(jì),能夠形成相對(duì)獨(dú)立、可專門化的知識(shí)區(qū)域,更接近人類大腦的學(xué)習(xí)方式。這種架構(gòu)革新將成為突破當(dāng)前發(fā)展瓶頸的關(guān)鍵所在。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新