在AI編程能力的全球競技場上,中國科技企業(yè)再次展現(xiàn)強(qiáng)勁實(shí)力。國際權(quán)威盲測平臺(tái)LMArena旗下Code Arena榜單最新一期結(jié)果顯示,阿里巴巴自主研發(fā)的Qwen 3.6-Plus大語言模型以1452分的成績躍居全球第二,成為該榜單中排名最高的中國大模型。這一突破性成果標(biāo)志著國產(chǎn)AI模型在工程化開發(fā)領(lǐng)域已具備與國際頂尖技術(shù)正面競爭的實(shí)力。
作為AI領(lǐng)域最具公信力的評(píng)測體系之一,LMArena通過真實(shí)用戶盲測和實(shí)時(shí)對(duì)抗機(jī)制構(gòu)建評(píng)價(jià)體系。其React專項(xiàng)榜單聚焦AI模型在復(fù)雜Web開發(fā)場景中的自主編碼能力,要求模型獨(dú)立完成從項(xiàng)目初始化到調(diào)試運(yùn)行的全流程開發(fā)。這種評(píng)測方式突破傳統(tǒng)代碼補(bǔ)全測試的局限,更強(qiáng)調(diào)工程思維與端到端開發(fā)能力的綜合考察,被視為當(dāng)前AI Coding領(lǐng)域最具挑戰(zhàn)性的技術(shù)方向。
Qwen 3.6-Plus于4月2日正式發(fā)布,憑借原生多模態(tài)理解與推理能力,在代碼生成和Agent技術(shù)方面表現(xiàn)尤為突出。該模型在多項(xiàng)權(quán)威編程評(píng)測中持續(xù)領(lǐng)先,以更少的參數(shù)量實(shí)現(xiàn)超越GLM-5、Kimi-K2.5等參數(shù)量翻倍甚至三倍模型的性能表現(xiàn)。此次在React榜單中,Qwen 3.6-Plus以4分優(yōu)勢領(lǐng)先OpenAI最新發(fā)布的GPT-5.0-High,與Anthropic旗下Claude-Opus-4.6-Thinking的差距縮小至88分,展現(xiàn)出國產(chǎn)模型在工程化開發(fā)領(lǐng)域的顯著進(jìn)步。
在Code Arena綜合榜單中,Qwen 3.6-Plus同樣穩(wěn)居國產(chǎn)模型首位。這一成績推動(dòng)阿里巴巴在全球AI實(shí)驗(yàn)室排名中升至第四位,緊隨Anthropic、OpenAI和Google之后。值得注意的是,該模型發(fā)布首日即在開發(fā)者社區(qū)引發(fā)強(qiáng)烈反響,次日便以黑馬姿態(tài)沖入React榜單前三,其快速迭代能力與技術(shù)落地效率獲得行業(yè)高度認(rèn)可。
據(jù)技術(shù)團(tuán)隊(duì)透露,Qwen 3.6-Plus作為千問3.6系列的首發(fā)模型,后續(xù)將開源多個(gè)不同參數(shù)規(guī)模的版本。性能更強(qiáng)的旗艦?zāi)P蚎wen3.6-Max已進(jìn)入最終測試階段,預(yù)計(jì)將于近期正式發(fā)布。這一系列布局顯示阿里巴巴正通過開源生態(tài)建設(shè)與前沿技術(shù)研發(fā)雙輪驅(qū)動(dòng),持續(xù)鞏固其在AI工程化領(lǐng)域的領(lǐng)先地位。















