近日,智譜(02513.HK)正式對外發(fā)布其圖像生成模型GLM-Image,標志著該公司在認知型生成技術(shù)領(lǐng)域邁出重要一步。這款模型采用自回歸與擴散解碼器相結(jié)合的混合架構(gòu),成為首個開源的工業(yè)級離散自回歸圖像生成模型,為行業(yè)提供了新的技術(shù)范式參考。
GLM-Image的研發(fā)得到昇騰NPU與昇思MindSpore AI框架的全面支持。從數(shù)據(jù)處理到模型訓練的全流程中,昇騰團隊針對性地提出多項性能優(yōu)化方案,包括動態(tài)圖多級流水下發(fā)、多流并行執(zhí)行以及高性能融合算子等技術(shù),有效降低了大規(guī)模文字與圖像數(shù)據(jù)訓練時的內(nèi)存開銷,顯著提升了端到端訓練效率。這些創(chuàng)新使得GLM-Image成為首個完全基于國產(chǎn)算力底座訓練的SOTA(State-of-the-Art)模型。
在文字渲染領(lǐng)域,GLM-Image系列模型展現(xiàn)出強勁實力。通過混合架構(gòu)設計,該模型在權(quán)威評測榜單中達到開源模型中的領(lǐng)先水平。面對海量圖文數(shù)據(jù)的處理需求,研發(fā)團隊通過優(yōu)化數(shù)據(jù)處理流程、預訓練策略、監(jiān)督微調(diào)(SFT)及強化學習(RL)等環(huán)節(jié),構(gòu)建起覆蓋全訓練周期的高效技術(shù)體系,為模型性能突破提供了關(guān)鍵支撐。
作為認知型生成技術(shù)的重要探索,GLM-Image的開源將推動圖像生成領(lǐng)域的技術(shù)普惠。其混合架構(gòu)設計不僅為學術(shù)研究提供了新思路,也為工業(yè)級應用場景落地奠定了技術(shù)基礎。隨著國產(chǎn)算力生態(tài)的持續(xù)完善,此類創(chuàng)新模型的研發(fā)效率與應用潛力有望進一步釋放。















