在人工智能領(lǐng)域,谷歌始終站在技術(shù)前沿,其一舉一動都備受矚目。近期,Google DeepMind的Gemini預(yù)訓(xùn)練負(fù)責(zé)人Sebastian Borgeaud在一場訪談中,透露了未來大模型預(yù)訓(xùn)練領(lǐng)域的重大發(fā)展方向,引發(fā)了行業(yè)內(nèi)的廣泛關(guān)注。
Sebastian Borgeaud指出,在未來一年內(nèi),大模型預(yù)訓(xùn)練將在兩個關(guān)鍵方向取得重大技術(shù)創(chuàng)新,分別是提升長上下文處理效率以及進(jìn)一步擴展模型上下文長度。這一預(yù)測并非空穴來風(fēng),而是基于他們團(tuán)隊在相關(guān)領(lǐng)域的深入研究和探索。他透露,最近在注意力機制方面,團(tuán)隊有了一些非常有趣的發(fā)現(xiàn),這些發(fā)現(xiàn)極有可能在未來幾個月內(nèi)重塑研究方向,為模型性能的提升帶來新的突破。
Sebastian還強調(diào)了一個重要觀點:“Scaling Law并未消亡,只是正在演變。”這一觀點打破了傳統(tǒng)認(rèn)知,為AI發(fā)展注入了新的思考。作為Gemini 3的預(yù)訓(xùn)練負(fù)責(zé)人,Sebastian首次接受博客采訪,深入剖析了Gemini 3背后的研發(fā)思路。他表示,如今的工作不再局限于“訓(xùn)練模型”,而是致力于構(gòu)建一個完整的系統(tǒng)。這種轉(zhuǎn)變看似簡單,實則是一個根本性的認(rèn)知升級。
Gemini 3之所以能實現(xiàn)巨大的性能飛躍,背后是無數(shù)細(xì)微改進(jìn)的聚合。Sebastian提到,龐大團(tuán)隊日復(fù)一日地發(fā)現(xiàn)并優(yōu)化各種“旋鈕”,才帶來了如今的成果。同時,他也指出AI發(fā)展范式正在發(fā)生潛在轉(zhuǎn)移。過去,數(shù)據(jù)似乎取之不盡,我們可以隨意擴大數(shù)據(jù)集;但現(xiàn)在,我們正逐漸步入“數(shù)據(jù)有限”的時代。這意味著未來的AI必須學(xué)會更高效地利用有限的數(shù)據(jù)資源,構(gòu)建更復(fù)雜的系統(tǒng)工程。
這一轉(zhuǎn)變將促使整個行業(yè)從“大力出奇跡”的粗放模式,轉(zhuǎn)向“精雕細(xì)琢”的精細(xì)模式。未來的競爭焦點將不再是誰擁有更大的數(shù)據(jù)中心,而是誰的學(xué)習(xí)算法更高效、模型架構(gòu)更優(yōu)雅、誰能從有限數(shù)據(jù)中提取更多智慧。Gemini 3采用的混合專家模型MoE,就代表了大型語言模型(LLM)發(fā)展的清晰路徑:從單純追求“大”,轉(zhuǎn)向追求“大而高效,大而智能”。
展望未來幾年的技術(shù)前沿,Sebastian指出了幾個激動人心的方向。首先是長上下文處理能力。Gemini 1.5已經(jīng)展現(xiàn)了超長上下文能力帶來的變革,而Sebastian預(yù)測,未來一年左右,在使長上下文更高效、進(jìn)一步擴展上下文長度方面將會有更多創(chuàng)新。超長上下文將使模型變成一個真正的數(shù)字工作臺,能夠同時載入整個代碼庫、多篇科研論文、長時間對話歷史,并進(jìn)行連貫的分析、推理和創(chuàng)作,為復(fù)雜任務(wù)和深度研究提供前所未有的可能。
其次是注意力機制的進(jìn)化。Sebastian特別提到,團(tuán)隊在注意力機制上有了一些真正有趣的發(fā)現(xiàn),這將塑造未來幾個月的大量研究。作為當(dāng)前大模型的基石,注意力機制仍有巨大的改進(jìn)空間,更高效、更強大或具備新特性的注意力機制有望從底層顯著提升模型的理解、推理和計算效率。
檢索能力的回歸也是重要方向之一。Sebastian早期主導(dǎo)的“Retro”項目,研究讓模型在訓(xùn)練和推理時檢索外部知識庫,而非將所有知識死記硬背在參數(shù)中。他認(rèn)為這一方向遠(yuǎn)未過時,未來模型可能將檢索與推理更原生地結(jié)合,動態(tài)地從海量知識源中獲取信息進(jìn)行思考,突破參數(shù)規(guī)模的知識容量限制。
效率與成本的“革命”也日益凸顯。隨著用戶激增,模型的部署和服務(wù)成本變得至關(guān)重要。未來的研究將不僅追求性能峰值,還必須關(guān)注如何讓強大模型變得“便宜又好用”。
與此同時,Jeff Dean、Noam Shazeer、Oriol Vinyals三位谷歌頂級科學(xué)家的對談也傳遞出重要信息。作為Transformer的開創(chuàng)者,Noam Shazeer回歸谷歌后,態(tài)度發(fā)生了明顯變化。他不再像過去那樣激進(jìn)地追求“顛覆”,而是多次談到研發(fā)節(jié)奏、系統(tǒng)穩(wěn)定性以及長期運行等問題。他指出,現(xiàn)在的模型并不缺“聰明”,缺的是持續(xù)思考和在復(fù)雜任務(wù)中反復(fù)修正的能力。大模型的規(guī)模依然重要,但不再是決定一切的唯一變量。
Noam提到的“慢思考”理念,并非簡單地放慢研發(fā)速度,而是反復(fù)權(quán)衡值不值、貴不貴、能不能被規(guī)模化復(fù)制。智能不再是一項抽象的能力,而是一項需要長期投入的工程開銷,需要和CPU、硬盤等資源一起納入成本考量。這一理念的轉(zhuǎn)變,使得過去衡量AI的標(biāo)準(zhǔn),如Benchmark逐漸失效。三位科學(xué)家在會議中沒有表現(xiàn)出對榜單的興奮,而是更關(guān)注模型是否可靠、是否具備遷移能力、是否能在復(fù)雜任務(wù)中持續(xù)自我修正。
在這場對談中,“System”一詞頻繁出現(xiàn)。Noam和Jeff在描述Gemini時,刻意強調(diào)它是一個可以長期運行、不斷迭代的“系統(tǒng)”,而非“一個更強的模型”。“模型”更像是一次性的成果,而“系統(tǒng)”則更像基礎(chǔ)設(shè)施,關(guān)注穩(wěn)定性、可擴展性以及錯誤修復(fù)能力。對于注重架構(gòu)設(shè)計、研發(fā)節(jié)奏和工程約束的科學(xué)家們來說,一個系統(tǒng)能否穩(wěn)健運行十年、二十年,遠(yuǎn)比某一次響應(yīng)速度有多快更為重要。在他們眼中,Gemini不是勝利者的獎品,而是一種“長期可用”的智能形態(tài)。















