前阿里千問技術(shù)負責人林俊旸在離職后發(fā)布的長文中,對AI大模型領(lǐng)域的技術(shù)路線變革提出了重要觀點。他指出,當前行業(yè)正經(jīng)歷從“推理型思考”向“智能體思考”的范式轉(zhuǎn)移,這一轉(zhuǎn)變標志著技術(shù)競爭的核心要素已發(fā)生根本性變化。以O(shè)penAI o1和DeepSeek-R1為代表的推理模型浪潮,推動行業(yè)從單純擴大預訓練數(shù)據(jù)規(guī)模,轉(zhuǎn)向強化學習后訓練階段的深度優(yōu)化,數(shù)學驗證與代碼生成等可量化領(lǐng)域成為評估模型能力的關(guān)鍵指標。
在技術(shù)實踐層面,林俊旸披露了千問團隊在Qwen3研發(fā)過程中遭遇的架構(gòu)沖突。該團隊曾嘗試構(gòu)建支持混合思考模式的系統(tǒng),但發(fā)現(xiàn)指令模型與推理模型存在根本性矛盾:前者需要極致的響應(yīng)速度與簡潔架構(gòu),后者則依賴大量計算資源進行復雜推演。這種數(shù)據(jù)分布與目標函數(shù)的差異,導致強行融合的模型在兩項指標上均表現(xiàn)平平。基于商業(yè)場景對效率與成本的嚴苛要求,Qwen2507版本最終選擇推出分離的30B指令模型與235B推理模型,而Anthropic等企業(yè)仍在探索統(tǒng)一架構(gòu)的可行性。
對于技術(shù)演進方向,林俊旸強調(diào)智能體強化學習將重塑行業(yè)技術(shù)棧。他預測,未來模型將不再局限于內(nèi)部推理軌跡的延長,而是通過與環(huán)境交互實現(xiàn)計劃迭代。這種轉(zhuǎn)變要求訓練與推理過程徹底解耦,同時帶來新的安全挑戰(zhàn)——當大模型獲得調(diào)用搜索引擎、執(zhí)行代碼等外部工具權(quán)限后,如何防范獎勵函數(shù)被惡意操縱將成為關(guān)鍵課題。他特別指出,行業(yè)競爭壁壘正從算法創(chuàng)新轉(zhuǎn)向系統(tǒng)工程能力,包括高質(zhì)量交互環(huán)境構(gòu)建、防作弊機制設(shè)計以及多智能體協(xié)作框架開發(fā)等領(lǐng)域。















