谷歌Gemini核心團(tuán)隊爆料：Scaling Law演變中，AI未來將轉(zhuǎn)向精細(xì)模式

發(fā)布時間：2025-12-21 17:08 來源：快訊作者：陸辰風(fēng)

在人工智能領(lǐng)域，谷歌始終站在技術(shù)前沿，其一舉一動都備受矚目。近期，Google DeepMind的Gemini預(yù)訓(xùn)練負(fù)責(zé)人Sebastian Borgeaud在一場訪談中，透露了未來大模型預(yù)訓(xùn)練領(lǐng)域的重大發(fā)展方向，引發(fā)了行業(yè)內(nèi)的廣泛關(guān)注。

Sebastian Borgeaud指出，在未來一年內(nèi)，大模型預(yù)訓(xùn)練將在兩個關(guān)鍵方向取得重大技術(shù)創(chuàng)新，分別是提升長上下文處理效率以及進(jìn)一步擴展模型上下文長度。這一預(yù)測并非空穴來風(fēng)，而是基于他們團(tuán)隊在相關(guān)領(lǐng)域的深入研究和探索。他透露，最近在注意力機制方面，團(tuán)隊有了一些非常有趣的發(fā)現(xiàn)，這些發(fā)現(xiàn)極有可能在未來幾個月內(nèi)重塑研究方向，為模型性能的提升帶來新的突破。

Sebastian還強調(diào)了一個重要觀點：“Scaling Law并未消亡，只是正在演變。”這一觀點打破了傳統(tǒng)認(rèn)知，為AI發(fā)展注入了新的思考。作為Gemini 3的預(yù)訓(xùn)練負(fù)責(zé)人，Sebastian首次接受博客采訪，深入剖析了Gemini 3背后的研發(fā)思路。他表示，如今的工作不再局限于“訓(xùn)練模型”，而是致力于構(gòu)建一個完整的系統(tǒng)。這種轉(zhuǎn)變看似簡單，實則是一個根本性的認(rèn)知升級。

Gemini 3之所以能實現(xiàn)巨大的性能飛躍，背后是無數(shù)細(xì)微改進(jìn)的聚合。Sebastian提到，龐大團(tuán)隊日復(fù)一日地發(fā)現(xiàn)并優(yōu)化各種“旋鈕”，才帶來了如今的成果。同時，他也指出AI發(fā)展范式正在發(fā)生潛在轉(zhuǎn)移。過去，數(shù)據(jù)似乎取之不盡，我們可以隨意擴大數(shù)據(jù)集；但現(xiàn)在，我們正逐漸步入“數(shù)據(jù)有限”的時代。這意味著未來的AI必須學(xué)會更高效地利用有限的數(shù)據(jù)資源，構(gòu)建更復(fù)雜的系統(tǒng)工程。

這一轉(zhuǎn)變將促使整個行業(yè)從“大力出奇跡”的粗放模式，轉(zhuǎn)向“精雕細(xì)琢”的精細(xì)模式。未來的競爭焦點將不再是誰擁有更大的數(shù)據(jù)中心，而是誰的學(xué)習(xí)算法更高效、模型架構(gòu)更優(yōu)雅、誰能從有限數(shù)據(jù)中提取更多智慧。Gemini 3采用的混合專家模型MoE，就代表了大型語言模型（LLM）發(fā)展的清晰路徑：從單純追求“大”，轉(zhuǎn)向追求“大而高效，大而智能”。

展望未來幾年的技術(shù)前沿，Sebastian指出了幾個激動人心的方向。首先是長上下文處理能力。Gemini 1.5已經(jīng)展現(xiàn)了超長上下文能力帶來的變革，而Sebastian預(yù)測，未來一年左右，在使長上下文更高效、進(jìn)一步擴展上下文長度方面將會有更多創(chuàng)新。超長上下文將使模型變成一個真正的數(shù)字工作臺，能夠同時載入整個代碼庫、多篇科研論文、長時間對話歷史，并進(jìn)行連貫的分析、推理和創(chuàng)作，為復(fù)雜任務(wù)和深度研究提供前所未有的可能。

其次是注意力機制的進(jìn)化。Sebastian特別提到，團(tuán)隊在注意力機制上有了一些真正有趣的發(fā)現(xiàn)，這將塑造未來幾個月的大量研究。作為當(dāng)前大模型的基石，注意力機制仍有巨大的改進(jìn)空間，更高效、更強大或具備新特性的注意力機制有望從底層顯著提升模型的理解、推理和計算效率。

檢索能力的回歸也是重要方向之一。Sebastian早期主導(dǎo)的“Retro”項目，研究讓模型在訓(xùn)練和推理時檢索外部知識庫，而非將所有知識死記硬背在參數(shù)中。他認(rèn)為這一方向遠(yuǎn)未過時，未來模型可能將檢索與推理更原生地結(jié)合，動態(tài)地從海量知識源中獲取信息進(jìn)行思考，突破參數(shù)規(guī)模的知識容量限制。

效率與成本的“革命”也日益凸顯。隨著用戶激增，模型的部署和服務(wù)成本變得至關(guān)重要。未來的研究將不僅追求性能峰值，還必須關(guān)注如何讓強大模型變得“便宜又好用”。

與此同時，Jeff Dean、Noam Shazeer、Oriol Vinyals三位谷歌頂級科學(xué)家的對談也傳遞出重要信息。作為Transformer的開創(chuàng)者，Noam Shazeer回歸谷歌后，態(tài)度發(fā)生了明顯變化。他不再像過去那樣激進(jìn)地追求“顛覆”，而是多次談到研發(fā)節(jié)奏、系統(tǒng)穩(wěn)定性以及長期運行等問題。他指出，現(xiàn)在的模型并不缺“聰明”，缺的是持續(xù)思考和在復(fù)雜任務(wù)中反復(fù)修正的能力。大模型的規(guī)模依然重要，但不再是決定一切的唯一變量。

Noam提到的“慢思考”理念，并非簡單地放慢研發(fā)速度，而是反復(fù)權(quán)衡值不值、貴不貴、能不能被規(guī)模化復(fù)制。智能不再是一項抽象的能力，而是一項需要長期投入的工程開銷，需要和CPU、硬盤等資源一起納入成本考量。這一理念的轉(zhuǎn)變，使得過去衡量AI的標(biāo)準(zhǔn)，如Benchmark逐漸失效。三位科學(xué)家在會議中沒有表現(xiàn)出對榜單的興奮，而是更關(guān)注模型是否可靠、是否具備遷移能力、是否能在復(fù)雜任務(wù)中持續(xù)自我修正。

在這場對談中，“System”一詞頻繁出現(xiàn)。Noam和Jeff在描述Gemini時，刻意強調(diào)它是一個可以長期運行、不斷迭代的“系統(tǒng)”，而非“一個更強的模型”。“模型”更像是一次性的成果，而“系統(tǒng)”則更像基礎(chǔ)設(shè)施，關(guān)注穩(wěn)定性、可擴展性以及錯誤修復(fù)能力。對于注重架構(gòu)設(shè)計、研發(fā)節(jié)奏和工程約束的科學(xué)家們來說，一個系統(tǒng)能否穩(wěn)健運行十年、二十年，遠(yuǎn)比某一次響應(yīng)速度有多快更為重要。在他們眼中，Gemini不是勝利者的獎品，而是一種“長期可用”的智能形態(tài)。

更多>同類內(nèi)容