國家超算互聯(lián)網鄭州核心節(jié)點近日迎來重大技術突破——中科曙光自主研發(fā)的3套萬卡級超算集群系統(tǒng)正式投入試運行。該系統(tǒng)以3萬張國產加速卡的規(guī)模實現穩(wěn)定運營,成為全球范圍內已投入使用的最大規(guī)模國產AI算力基礎設施,可全面支撐萬億參數大模型訓練、海量數據實時推理及AI驅動的科學研究等前沿領域。
這套名為scaleX的萬卡超算系統(tǒng)突破了多項核心技術瓶頸。研發(fā)團隊通過創(chuàng)新高速互聯(lián)網絡架構,將計算節(jié)點間的通信延遲降低至微秒級;采用存算傳一體化設計,使數據傳輸效率提升3倍;獨創(chuàng)的高密度供電與液冷散熱方案,在保證系統(tǒng)穩(wěn)定性的同時將能耗降低40%。更值得關注的是,該系統(tǒng)兼容CUDA等國際主流軟件生態(tài),支持多品牌國產加速卡混合部署,開發(fā)者可無縫遷移現有應用,大幅降低技術轉型成本。
在應用適配方面,scaleX系統(tǒng)已完成對400余個主流大模型的優(yōu)化,通過國家超算互聯(lián)網平臺可調用上千款AI應用。這種"算力+應用"的交付模式,已形成覆蓋互聯(lián)網、科研、制造等領域的完整生態(tài)。某頭部互聯(lián)網企業(yè)利用該系統(tǒng)進行智能推薦模型訓練,將訓練周期從30天縮短至7天;國內頂尖科研團隊借助其強大的科學計算能力,在蛋白質結構預測領域取得突破性進展,研究效率提升達1000倍。
針對不同場景需求,scaleX系統(tǒng)展現出卓越的適應性。在超大規(guī)模模型訓練場景中,其獨有的容錯恢復機制可確保萬億參數模型連續(xù)訓練720小時無中斷;高通量推理場景下,通過軟硬件協(xié)同優(yōu)化,單卡推理性能較傳統(tǒng)方案提升2.3倍;在AI for Science領域,該系統(tǒng)支撐的材料研發(fā)大模型近日登頂國際權威榜單,標志著我國在智能計算驅動的科學研究方面達到世界領先水平。
中科曙光高級副總裁李斌透露,鄭州節(jié)點的成功運行只是起點。公司正研發(fā)面向十萬卡、百萬卡規(guī)模的下一代超算架構,計劃通過國家超算互聯(lián)網實現全國算力資源的動態(tài)調配。這種分布式算力網絡模式,將使偏遠地區(qū)也能獲得頂級AI算力支持,為數字經濟均衡發(fā)展提供技術保障。















