林俊旸離職后發(fā)聲：復盤千問困境，稱AI大模型將全面邁入智能體思考時代

發(fā)布時間：2026-03-27 12:02 來源：快訊作者：周偉

前阿里千問技術(shù)負責人林俊旸在離職后發(fā)布的長文中，對AI大模型領(lǐng)域的技術(shù)路線變革提出了重要觀點。他指出，當前行業(yè)正經(jīng)歷從“推理型思考”向“智能體思考”的范式轉(zhuǎn)移，這一轉(zhuǎn)變標志著技術(shù)競爭的核心要素已發(fā)生根本性變化。以O(shè)penAI o1和DeepSeek-R1為代表的推理模型浪潮，推動行業(yè)從單純擴大預訓練數(shù)據(jù)規(guī)模，轉(zhuǎn)向強化學習后訓練階段的深度優(yōu)化，數(shù)學驗證與代碼生成等可量化領(lǐng)域成為評估模型能力的關(guān)鍵指標。

在技術(shù)實踐層面，林俊旸披露了千問團隊在Qwen3研發(fā)過程中遭遇的架構(gòu)沖突。該團隊曾嘗試構(gòu)建支持混合思考模式的系統(tǒng)，但發(fā)現(xiàn)指令模型與推理模型存在根本性矛盾：前者需要極致的響應(yīng)速度與簡潔架構(gòu)，后者則依賴大量計算資源進行復雜推演。這種數(shù)據(jù)分布與目標函數(shù)的差異，導致強行融合的模型在兩項指標上均表現(xiàn)平平。基于商業(yè)場景對效率與成本的嚴苛要求，Qwen2507版本最終選擇推出分離的30B指令模型與235B推理模型，而Anthropic等企業(yè)仍在探索統(tǒng)一架構(gòu)的可行性。

對于技術(shù)演進方向，林俊旸強調(diào)智能體強化學習將重塑行業(yè)技術(shù)棧。他預測，未來模型將不再局限于內(nèi)部推理軌跡的延長，而是通過與環(huán)境交互實現(xiàn)計劃迭代。這種轉(zhuǎn)變要求訓練與推理過程徹底解耦，同時帶來新的安全挑戰(zhàn)——當大模型獲得調(diào)用搜索引擎、執(zhí)行代碼等外部工具權(quán)限后，如何防范獎勵函數(shù)被惡意操縱將成為關(guān)鍵課題。他特別指出，行業(yè)競爭壁壘正從算法創(chuàng)新轉(zhuǎn)向系統(tǒng)工程能力，包括高質(zhì)量交互環(huán)境構(gòu)建、防作弊機制設(shè)計以及多智能體協(xié)作框架開發(fā)等領(lǐng)域。

更多>同類內(nèi)容