智譜GLM-4.7重磅上線：代碼工具推理全升級，國產(chǎn)開源模型新標桿

發(fā)布時間：2025-12-23 21:01 來源：快訊作者：鄭佳

在人工智能技術(shù)快速迭代的浪潮中，智譜公司推出的GLM-4.7大模型引發(fā)全球開發(fā)者關(guān)注。這款被定位為"智能體向"的開源模型，在代碼生成、工具調(diào)用和復(fù)雜推理等核心能力上實現(xiàn)突破性進展，不僅在專業(yè)評測榜單中超越多個國際主流模型，更通過實際任務(wù)測試展現(xiàn)出強大的工程化潛力。

根據(jù)Code Arena最新發(fā)布的全球開發(fā)者編碼盲測數(shù)據(jù)，GLM-4.7在Web開發(fā)領(lǐng)域位列第六，成為當前開源模型中表現(xiàn)最優(yōu)的國產(chǎn)方案。該模型在SWE-bench-Verified基準測試中取得73.8%的成績，LiveCodeBench-V6測試達84.9%，整體性能與Claude Sonnet 4.5持平。在復(fù)雜推理任務(wù)方面，其HLE（人類水平考試）成績在工具輔助條件下提升至42.8%，較前代模型提升超過12個百分點，甚至超越GPT-5.1 High版本。

技術(shù)團隊重點強化的工具調(diào)用能力在τ2-Bench測試中取得87.4%的優(yōu)異成績，BrowseComp在開啟上下文管理后達到67.5%。這些突破得益于模型架構(gòu)的重大革新——在原有交錯思考機制基礎(chǔ)上，新增保留式思考與輪級控制模塊。系統(tǒng)現(xiàn)在能夠自動保存多輪任務(wù)中的推理結(jié)果，開發(fā)者還可根據(jù)任務(wù)復(fù)雜度選擇是否啟用完整推理流程，這種設(shè)計顯著提升了長任務(wù)執(zhí)行的穩(wěn)定性與一致性。

實際開發(fā)場景測試進一步驗證了模型實力。在覆蓋前端開發(fā)、后端邏輯和指令遵循的100個真實任務(wù)中，GLM-4.7展現(xiàn)全面進步：前端任務(wù)勝率提升至64.6%，指令遵循場景達58.3%，后端復(fù)雜任務(wù)勝率穩(wěn)定在46.7%。更值得關(guān)注的是，模型在Z.ai平臺上線了全棧技能環(huán)境，通過全新Skills模塊實現(xiàn)ASR語音識別、TTS語音合成和GLM-4.6V視覺模型的統(tǒng)一調(diào)度，構(gòu)建起完整的多模態(tài)開發(fā)閉環(huán)。

通過Z.ai平臺的實測案例可見端倪：在3D圣誕樹演示中，模型生成的HTML代碼不僅構(gòu)建出由5000多個粒子組成的立體場景，還集成了手勢識別功能。用戶張開手掌時，粒子組成的圣誕樹會炸開形成旋轉(zhuǎn)照片墻，握拳則恢復(fù)原狀，整個過程伴隨流暢的動畫效果和物理反饋。另一個iOS界面復(fù)刻案例中，生成的頁面包含可點擊的Safari、健康等應(yīng)用圖標，計算器功能支持基礎(chǔ)運算，日歷頁面可正常切換日期。

技術(shù)突破的背后是持續(xù)優(yōu)化的開發(fā)生態(tài)。GLM系列開源代碼在全球社區(qū)的下載量已突破6000萬次，付費API使用量長期位居OpenRouter全球前十。隨著智譜即將登陸港交所，這款模型的推出恰逢其時地展現(xiàn)了國產(chǎn)大模型從技術(shù)驗證向商業(yè)落地的關(guān)鍵跨越。從專業(yè)評測到真實場景，從代碼生成到多模態(tài)調(diào)度，GLM-4.7的進化軌跡折射出中國AI企業(yè)正在重塑全球開源生態(tài)格局。

更多>同類內(nèi)容