國產(chǎn)AI算力新突破：國家超算互聯(lián)網(wǎng)核心節(jié)點三套萬卡集群同步上線

發(fā)布時間：2026-02-06 19:11 來源：快訊作者：劉敏

在AI算力競爭愈發(fā)激烈的全球背景下，國內AI算力建設迎來重要里程碑——由中科曙光研發(fā)的3套scaleX萬卡超集群系統(tǒng)，正式在國家超算互聯(lián)網(wǎng)核心節(jié)點投入試運行。這一突破標志著我國成為全球首個實現(xiàn)超3萬張AI加速卡規(guī)模化部署并進入實際運營階段的國家，國產(chǎn)AI算力池規(guī)模躍居世界前列。

此次上線的萬卡集群并非孤立存在，而是作為國家超算互聯(lián)網(wǎng)的"動力心臟"，承擔著連接全國算力資源的關鍵角色。該平臺已整合30余家超算與智算中心，形成覆蓋材料科學、生命科學、工業(yè)仿真等領域的算力網(wǎng)絡，服務用戶超百萬，日均處理作業(yè)量突破百萬次。三套萬卡集群的同步部署，創(chuàng)造了從設備交付到全系統(tǒng)調通僅用不到兩個月的工程奇跡，展現(xiàn)了我國在超大規(guī)模智能計算系統(tǒng)集成領域的領先能力。

技術層面，scaleX萬卡集群突破了三大核心難題。在通信架構上，采用自主研發(fā)的scaleFabric高速互聯(lián)網(wǎng)絡，基于400G類InfiniBand原生RDMA技術，實現(xiàn)端到端延遲低于1微秒、帶寬達400Gb/s的性能指標，較傳統(tǒng)方案提升200%通信效率的同時降低30%成本。該架構設計預留了向十萬卡規(guī)模擴展的接口，為未來算力升級奠定基礎。

針對高密度算力部署的物理挑戰(zhàn)，系統(tǒng)創(chuàng)新采用浸沒相變液冷與超高密度刀片架構，使單機柜算力密度提升20倍，能源利用效率（PUE）降至1.04的行業(yè)新低。這意味著在同等機房空間內，可部署的AI算力規(guī)模提升一個數(shù)量級，同時將運營能耗控制在可持續(xù)范圍，解決了萬卡集群長期穩(wěn)定運行的關鍵瓶頸。

在運維管理方面，系統(tǒng)構建了"數(shù)字孿生+智能調度"的立體化管控體系。通過物理集群的數(shù)字化映射，實現(xiàn)故障定位精度達芯片級、資源狀態(tài)實時可視；智能調度引擎可同時管理萬級節(jié)點、服務十萬級用戶，支持每秒萬級作業(yè)調度，系統(tǒng)可用性達到99.99%。這種將硬件資源轉化為標準化算力服務的能力，使萬卡集群真正融入國家算力基礎設施體系。

值得關注的是，該平臺采用開放架構設計，支持多品牌AI加速卡混合部署，全面兼容CUDA等主流生態(tài)，已完成400余個主流大模型的適配優(yōu)化。這種"軟硬解耦"的設計理念，既降低了用戶遷移成本，也為國產(chǎn)算力生態(tài)的協(xié)同發(fā)展開辟了新路徑。目前，平臺已支撐起萬億參數(shù)大模型訓練、高通量推理等前沿應用，在科研領域助力材料發(fā)現(xiàn)周期縮短70%，在產(chǎn)業(yè)側為互聯(lián)網(wǎng)企業(yè)提供普惠算力服務。

全球AI算力競賽正從硬件堆砌轉向體系化運營階段。此次國家超算互聯(lián)網(wǎng)核心節(jié)點的上線，不僅展示了我國在超大規(guī)模智能計算領域的工程實力，更通過標準化算力服務模式的創(chuàng)新，為全球AI基礎設施建設提供了中國方案。隨著更多國產(chǎn)萬卡集群接入國家算力網(wǎng)絡，一個覆蓋研發(fā)、訓練、推理的全鏈條AI算力生態(tài)正在加速形成。

更多>同類內容