全球AI編程大模型盲測新排名揭曉阿里Qwen3.6-Plus成中國編程模型“領(lǐng)跑者”

發(fā)布時(shí)間：2026-04-04 05:00 來源：快訊作者：沈瑾瑜

在AI編程能力評(píng)測領(lǐng)域，全球權(quán)威盲測平臺(tái)LMArena旗下Code Arena榜單迎來重要更新。阿里巴巴最新發(fā)布的大語言模型Qwen 3.6-Plus在React專項(xiàng)評(píng)測中以1452分躋身全球第二，成為首個(gè)在該榜單超越OpenAI、Google等國際巨頭的中國大模型。這一成績標(biāo)志著國產(chǎn)模型在復(fù)雜Web開發(fā)場景下的工程化能力實(shí)現(xiàn)重大突破。

作為AI領(lǐng)域最具公信力的性能評(píng)測平臺(tái)，LMArena采用真實(shí)用戶盲測與實(shí)時(shí)對抗機(jī)制，其React專項(xiàng)榜單聚焦AI Coding領(lǐng)域最前沿技術(shù)方向。該評(píng)測要求模型在無人干預(yù)條件下完成從項(xiàng)目初始化到調(diào)試運(yùn)行的全流程開發(fā)，全面考察自主編碼、工程思維及端到端開發(fā)能力。Qwen 3.6-Plus此次挑戰(zhàn)的正是這項(xiàng)被視為"AI編程能力試金石"的高難度評(píng)測。

技術(shù)分析顯示，Qwen 3.6-Plus在代碼生成與Agent能力方面表現(xiàn)尤為突出。該模型于4月2日正式發(fā)布，具備原生多模態(tài)理解與推理能力，在多項(xiàng)權(quán)威編程評(píng)測中持續(xù)領(lǐng)先。相較于參數(shù)量達(dá)其2-3倍的GLM-5、Kimi-K2.5等模型，千問3.6系列通過架構(gòu)優(yōu)化實(shí)現(xiàn)了更高效的參數(shù)利用，以更小模型規(guī)模達(dá)成更強(qiáng)性能表現(xiàn)。在React專項(xiàng)評(píng)測中，其得分僅落后Anthropic旗下Claude-Opus-4.6-Thinking（1540分）88分，卻領(lǐng)先OpenAI最新發(fā)布的GPT-5.0-High（1448分）4分，較Google的Gemini 3.1 Pro Preview（1440分）優(yōu)勢達(dá)12分。

全球開發(fā)者社區(qū)對這款新模型給予高度關(guān)注。發(fā)布首日即引發(fā)技術(shù)圈熱烈討論，次日便在React榜單斬獲亞軍位置。在綜合評(píng)估編程能力的Code Arena總榜中，Qwen 3.6-Plus同樣穩(wěn)居國產(chǎn)模型首位。憑借此次突破性表現(xiàn)，阿里巴巴在全球AI實(shí)驗(yàn)室排名中躍升至第四位，緊隨Anthropic、OpenAI和Google之后。

據(jù)研發(fā)團(tuán)隊(duì)透露，Qwen 3.6-Plus作為千問3.6系列的首發(fā)模型，后續(xù)將開源不同參數(shù)規(guī)模的版本供開發(fā)者使用。性能更強(qiáng)的旗艦?zāi)Ｐ蚎wen3.6-Max已完成研發(fā)，預(yù)計(jì)將于近期正式發(fā)布。這一系列動(dòng)作顯示阿里巴巴正加速構(gòu)建完整的AI模型生態(tài)體系，持續(xù)推動(dòng)國產(chǎn)大模型在工程化應(yīng)用領(lǐng)域的創(chuàng)新發(fā)展。

更多>同類內(nèi)容