在AI編程能力評(píng)測領(lǐng)域,全球權(quán)威盲測平臺(tái)LMArena旗下Code Arena榜單迎來重要更新。阿里巴巴最新發(fā)布的大語言模型Qwen 3.6-Plus在React專項(xiàng)評(píng)測中以1452分躋身全球第二,成為首個(gè)在該榜單超越OpenAI、Google等國際巨頭的中國大模型。這一成績標(biāo)志著國產(chǎn)模型在復(fù)雜Web開發(fā)場景下的工程化能力實(shí)現(xiàn)重大突破。
作為AI領(lǐng)域最具公信力的性能評(píng)測平臺(tái),LMArena采用真實(shí)用戶盲測與實(shí)時(shí)對抗機(jī)制,其React專項(xiàng)榜單聚焦AI Coding領(lǐng)域最前沿技術(shù)方向。該評(píng)測要求模型在無人干預(yù)條件下完成從項(xiàng)目初始化到調(diào)試運(yùn)行的全流程開發(fā),全面考察自主編碼、工程思維及端到端開發(fā)能力。Qwen 3.6-Plus此次挑戰(zhàn)的正是這項(xiàng)被視為"AI編程能力試金石"的高難度評(píng)測。
技術(shù)分析顯示,Qwen 3.6-Plus在代碼生成與Agent能力方面表現(xiàn)尤為突出。該模型于4月2日正式發(fā)布,具備原生多模態(tài)理解與推理能力,在多項(xiàng)權(quán)威編程評(píng)測中持續(xù)領(lǐng)先。相較于參數(shù)量達(dá)其2-3倍的GLM-5、Kimi-K2.5等模型,千問3.6系列通過架構(gòu)優(yōu)化實(shí)現(xiàn)了更高效的參數(shù)利用,以更小模型規(guī)模達(dá)成更強(qiáng)性能表現(xiàn)。在React專項(xiàng)評(píng)測中,其得分僅落后Anthropic旗下Claude-Opus-4.6-Thinking(1540分)88分,卻領(lǐng)先OpenAI最新發(fā)布的GPT-5.0-High(1448分)4分,較Google的Gemini 3.1 Pro Preview(1440分)優(yōu)勢達(dá)12分。
全球開發(fā)者社區(qū)對這款新模型給予高度關(guān)注。發(fā)布首日即引發(fā)技術(shù)圈熱烈討論,次日便在React榜單斬獲亞軍位置。在綜合評(píng)估編程能力的Code Arena總榜中,Qwen 3.6-Plus同樣穩(wěn)居國產(chǎn)模型首位。憑借此次突破性表現(xiàn),阿里巴巴在全球AI實(shí)驗(yàn)室排名中躍升至第四位,緊隨Anthropic、OpenAI和Google之后。
據(jù)研發(fā)團(tuán)隊(duì)透露,Qwen 3.6-Plus作為千問3.6系列的首發(fā)模型,后續(xù)將開源不同參數(shù)規(guī)模的版本供開發(fā)者使用。性能更強(qiáng)的旗艦?zāi)P蚎wen3.6-Max已完成研發(fā),預(yù)計(jì)將于近期正式發(fā)布。這一系列動(dòng)作顯示阿里巴巴正加速構(gòu)建完整的AI模型生態(tài)體系,持續(xù)推動(dòng)國產(chǎn)大模型在工程化應(yīng)用領(lǐng)域的創(chuàng)新發(fā)展。















