前阿里千問技術(shù)負(fù)責(zé)人林俊旸近日在離職后發(fā)布深度分析文章,提出AI大模型領(lǐng)域正經(jīng)歷關(guān)鍵范式轉(zhuǎn)移,技術(shù)競(jìng)爭(zhēng)焦點(diǎn)已從"推理型思考"轉(zhuǎn)向"智能體思考"。這一判斷基于對(duì)OpenAI o1和DeepSeek-R1等代表性模型的觀察,指出行業(yè)正從單純擴(kuò)大預(yù)訓(xùn)練規(guī)模,轉(zhuǎn)向強(qiáng)化學(xué)習(xí)后訓(xùn)練階段的規(guī)模化發(fā)展,數(shù)學(xué)推理和代碼生成等可驗(yàn)證領(lǐng)域成為模型優(yōu)化的核心場(chǎng)景。
文章詳細(xì)拆解了"思考-指令混合模式"面臨的實(shí)踐困境。以千問團(tuán)隊(duì)開發(fā)Qwen3的經(jīng)驗(yàn)為例,團(tuán)隊(duì)發(fā)現(xiàn)追求低延遲的指令模型與需要消耗大量計(jì)算資源的推理模型存在根本性沖突。這種矛盾在數(shù)據(jù)分布和優(yōu)化目標(biāo)層面尤為突出,不當(dāng)?shù)臄?shù)據(jù)融合策略往往導(dǎo)致模型在兩項(xiàng)指標(biāo)上均表現(xiàn)不佳。基于商業(yè)客戶對(duì)處理效率和成本控制的雙重需求,Qwen2507版本最終選擇推出分離的300億參數(shù)指令模型和2350億參數(shù)推理模型。
與國(guó)內(nèi)團(tuán)隊(duì)的技術(shù)路徑選擇形成對(duì)比的是,Anthropic和DeepSeek等國(guó)際廠商仍在探索統(tǒng)一架構(gòu)下的推理與工具調(diào)用融合方案。這種差異反映出不同市場(chǎng)環(huán)境下對(duì)模型架構(gòu)的多樣化探索,既包含對(duì)技術(shù)可行性的驗(yàn)證,也涉及商業(yè)落地的權(quán)衡考量。
對(duì)于技術(shù)演進(jìn)方向,林俊旸強(qiáng)調(diào)傳統(tǒng)通過(guò)延長(zhǎng)推理鏈提升性能的方法即將觸及天花板,未來(lái)主流將是具備環(huán)境交互能力的智能體架構(gòu)。這種轉(zhuǎn)變要求重新構(gòu)建技術(shù)棧,實(shí)現(xiàn)訓(xùn)練與推理環(huán)節(jié)的深度解耦。隨著模型逐步接入搜索引擎、代碼執(zhí)行器等外部工具,如何防范獎(jiǎng)勵(lì)函數(shù)被惡意利用成為關(guān)鍵安全挑戰(zhàn)。他特別指出,行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)將不再局限于算法創(chuàng)新,而是轉(zhuǎn)向環(huán)境構(gòu)建、安全協(xié)議設(shè)計(jì)以及多智能體協(xié)作等系統(tǒng)性工程能力建設(shè)。















