在AI算力競爭愈發(fā)激烈的全球背景下,國內AI算力建設迎來重要里程碑——由中科曙光研發(fā)的3套scaleX萬卡超集群系統(tǒng),正式在國家超算互聯(lián)網(wǎng)核心節(jié)點投入試運行。這一突破標志著我國成為全球首個實現(xiàn)超3萬張AI加速卡規(guī)模化部署并進入實際運營階段的國家,國產(chǎn)AI算力池規(guī)模躍居世界前列。
此次上線的萬卡集群并非孤立存在,而是作為國家超算互聯(lián)網(wǎng)的"動力心臟",承擔著連接全國算力資源的關鍵角色。該平臺已整合30余家超算與智算中心,形成覆蓋材料科學、生命科學、工業(yè)仿真等領域的算力網(wǎng)絡,服務用戶超百萬,日均處理作業(yè)量突破百萬次。三套萬卡集群的同步部署,創(chuàng)造了從設備交付到全系統(tǒng)調通僅用不到兩個月的工程奇跡,展現(xiàn)了我國在超大規(guī)模智能計算系統(tǒng)集成領域的領先能力。
技術層面,scaleX萬卡集群突破了三大核心難題。在通信架構上,采用自主研發(fā)的scaleFabric高速互聯(lián)網(wǎng)絡,基于400G類InfiniBand原生RDMA技術,實現(xiàn)端到端延遲低于1微秒、帶寬達400Gb/s的性能指標,較傳統(tǒng)方案提升200%通信效率的同時降低30%成本。該架構設計預留了向十萬卡規(guī)模擴展的接口,為未來算力升級奠定基礎。
針對高密度算力部署的物理挑戰(zhàn),系統(tǒng)創(chuàng)新采用浸沒相變液冷與超高密度刀片架構,使單機柜算力密度提升20倍,能源利用效率(PUE)降至1.04的行業(yè)新低。這意味著在同等機房空間內,可部署的AI算力規(guī)模提升一個數(shù)量級,同時將運營能耗控制在可持續(xù)范圍,解決了萬卡集群長期穩(wěn)定運行的關鍵瓶頸。
在運維管理方面,系統(tǒng)構建了"數(shù)字孿生+智能調度"的立體化管控體系。通過物理集群的數(shù)字化映射,實現(xiàn)故障定位精度達芯片級、資源狀態(tài)實時可視;智能調度引擎可同時管理萬級節(jié)點、服務十萬級用戶,支持每秒萬級作業(yè)調度,系統(tǒng)可用性達到99.99%。這種將硬件資源轉化為標準化算力服務的能力,使萬卡集群真正融入國家算力基礎設施體系。
值得關注的是,該平臺采用開放架構設計,支持多品牌AI加速卡混合部署,全面兼容CUDA等主流生態(tài),已完成400余個主流大模型的適配優(yōu)化。這種"軟硬解耦"的設計理念,既降低了用戶遷移成本,也為國產(chǎn)算力生態(tài)的協(xié)同發(fā)展開辟了新路徑。目前,平臺已支撐起萬億參數(shù)大模型訓練、高通量推理等前沿應用,在科研領域助力材料發(fā)現(xiàn)周期縮短70%,在產(chǎn)業(yè)側為互聯(lián)網(wǎng)企業(yè)提供普惠算力服務。
全球AI算力競賽正從硬件堆砌轉向體系化運營階段。此次國家超算互聯(lián)網(wǎng)核心節(jié)點的上線,不僅展示了我國在超大規(guī)模智能計算領域的工程實力,更通過標準化算力服務模式的創(chuàng)新,為全球AI基礎設施建設提供了中國方案。隨著更多國產(chǎn)萬卡集群接入國家算力網(wǎng)絡,一個覆蓋研發(fā)、訓練、推理的全鏈條AI算力生態(tài)正在加速形成。















