智譜GLM-5.1模型發(fā)布：8小時(shí)持續(xù)工作，代碼能力與長(zhǎng)程任務(wù)表現(xiàn)亮眼-行業(yè)縱橫-媒體界

智譜GLM-5.1模型發(fā)布：8小時(shí)持續(xù)工作，代碼能力與長(zhǎng)程任務(wù)表現(xiàn)亮眼

發(fā)布時(shí)間：2026-04-08 15:05 來(lái)源：快訊作者：孫明

近日，一款名為GLM-5.1的人工智能模型正式亮相，憑借其在代碼處理和長(zhǎng)程任務(wù)執(zhí)行領(lǐng)域的突破性表現(xiàn)引發(fā)行業(yè)關(guān)注。與傳統(tǒng)模型僅能維持分鐘級(jí)交互不同，該模型可獨(dú)立持續(xù)工作超過(guò)8小時(shí)，期間自主完成從任務(wù)規(guī)劃到成果交付的全流程，展現(xiàn)出工程級(jí)應(yīng)用潛力。

在權(quán)威代碼評(píng)測(cè)基準(zhǔn)測(cè)試中，GLM-5.1在SWE-Bench Pro、Terminal-Bench 2.0及NL2Repo等平臺(tái)均躋身前列。研發(fā)團(tuán)隊(duì)透露，該模型已具備參與專(zhuān)業(yè)軟件開(kāi)發(fā)的能力，能夠直接在GitHub真實(shí)代碼庫(kù)中定位并修復(fù)工程缺陷。這種突破性能力源于模型對(duì)長(zhǎng)程任務(wù)執(zhí)行模式的重構(gòu)，其核心指標(biāo)從傳統(tǒng)"智能程度"轉(zhuǎn)向"持續(xù)工作時(shí)長(zhǎng)"，形成"實(shí)驗(yàn)-分析-優(yōu)化"的閉環(huán)迭代機(jī)制。

實(shí)際應(yīng)用場(chǎng)景中，GLM-5.1在8小時(shí)工作周期內(nèi)完成了多項(xiàng)復(fù)雜工程：從零構(gòu)建包含完整桌面環(huán)境、窗口管理器及應(yīng)用程序的Linux系統(tǒng)，全程執(zhí)行超1200個(gè)操作步驟，生成4.8MB配套文件。據(jù)評(píng)估，這項(xiàng)工作相當(dāng)于4人開(kāi)發(fā)團(tuán)隊(duì)一周的工作量。在向量數(shù)據(jù)庫(kù)優(yōu)化任務(wù)中，模型通過(guò)655次自主迭代完成全庫(kù)掃描到剪枝優(yōu)化的完整鏈條，使查詢吞吐量從初始的3108 QPS提升至21472 QPS。在機(jī)器學(xué)習(xí)模型負(fù)載優(yōu)化領(lǐng)域，其經(jīng)過(guò)24小時(shí)持續(xù)迭代和1000輪工具調(diào)用，最終實(shí)現(xiàn)3.6倍的幾何平均加速比。

研發(fā)團(tuán)隊(duì)指出，延長(zhǎng)模型有效工作時(shí)長(zhǎng)是提升智能體能力的關(guān)鍵路徑，但這條技術(shù)路線仍面臨多重挑戰(zhàn)：包括如何緩解復(fù)雜任務(wù)中的上下文過(guò)載問(wèn)題、如何在數(shù)千次工具調(diào)用后維持執(zhí)行一致性、如何突破局部最優(yōu)解陷阱，以及在缺乏明確數(shù)值指標(biāo)的任務(wù)中建立可靠的自我評(píng)估體系。這些技術(shù)瓶頸的突破，將直接影響人工智能從實(shí)驗(yàn)室走向產(chǎn)業(yè)應(yīng)用的進(jìn)程。

更多>同類(lèi)內(nèi)容