隨著人工智能模型參數(shù)規(guī)模突破萬億級門檻,傳統(tǒng)單芯片算力已難以支撐大模型訓(xùn)練與推理需求。在此背景下,"超節(jié)點(diǎn)"架構(gòu)正成為AI基礎(chǔ)設(shè)施演進(jìn)的核心方向,通過將數(shù)百至數(shù)千顆算力芯片通過高速網(wǎng)絡(luò)互聯(lián),構(gòu)建出邏輯上的"超大型GPU",徹底突破單機(jī)性能瓶頸。
這一技術(shù)理念最早由英偉達(dá)提出,其核心在于采用Scale up縱向擴(kuò)展模式替代傳統(tǒng)Scale out橫向擴(kuò)展。以英偉達(dá)GB200 NVL72為例,該系統(tǒng)通過NVLink Switch將36個Grace CPU與72個Blackwell GPU整合,實(shí)現(xiàn)所有GPU點(diǎn)對點(diǎn)全互聯(lián),總帶寬達(dá)130TB/s,有效解決了分布式訓(xùn)練中的通信延遲問題。這種架構(gòu)依賴專用互聯(lián)協(xié)議(如NVLink、UALink)和特定網(wǎng)絡(luò)拓?fù)洌ㄈ缗謽浣Y(jié)構(gòu)),形成共享內(nèi)存池的強(qiáng)大計算單元。
物理層面,超節(jié)點(diǎn)機(jī)柜整合了計算節(jié)點(diǎn)、交換節(jié)點(diǎn)、供電單元和散熱系統(tǒng)四大模塊。在ETH-X方案中,計算節(jié)點(diǎn)內(nèi)置多GPU/CPU通過高速背板連接交換節(jié)點(diǎn),后者承載全帶寬互聯(lián)任務(wù)。面對單機(jī)柜功耗突破百千瓦的挑戰(zhàn),供電系統(tǒng)采用Power shelf配合Busbar母線,支持N+2冗余設(shè)計;散熱則轉(zhuǎn)向液冷主導(dǎo)模式,液冷占比超80%,GPU、CPU及交換芯片均需配置冷板模組,推動液冷管路、快接頭等配套產(chǎn)業(yè)發(fā)展。
國產(chǎn)陣營正通過超節(jié)點(diǎn)架構(gòu)實(shí)現(xiàn)彎道超車。華為CloudMatrix 384系統(tǒng)集成192顆鯤鵬CPU與384顆昇騰910C芯片,采用自研UB網(wǎng)絡(luò)互聯(lián)。盡管單顆910C芯片BF16性能僅為GB200模組的三分之一,但集群整體性能達(dá)NVL72的1.7倍,內(nèi)存容量和帶寬分別提升3.6倍和2.1倍。更大規(guī)模的Atlas 950支持8192張昇騰芯片全光連接,互聯(lián)帶寬達(dá)16.3PB/s,總算力是英偉達(dá)NVL144的6.7倍。
產(chǎn)業(yè)鏈迎來結(jié)構(gòu)性變革機(jī)遇。光通信領(lǐng)域,高速光模塊需求激增;交換芯片市場,國產(chǎn)廠商加速研發(fā)自研產(chǎn)品;液冷散熱從可選配置變?yōu)楸匦璺桨福浒迨揭豪錆B透率快速提升;供電系統(tǒng)對高功率電源、高壓UPS需求旺盛。銅連接、PCB、服務(wù)器電源等環(huán)節(jié)因高密度部署迎來技術(shù)迭代。中興通訊、紫光股份、浪潮信息等企業(yè)已推出相關(guān)產(chǎn)品,如紫光H3C UniPoD S80000實(shí)現(xiàn)64卡柜內(nèi)全互聯(lián),單卡推理效率提升80%。
技術(shù)標(biāo)準(zhǔn)正從封閉走向開放。UALink聯(lián)盟匯聚AMD、谷歌等巨頭;博通推出SUE框架融合以太網(wǎng)優(yōu)勢;中國移動聯(lián)合48家單位發(fā)布OISA協(xié)議;海光攜手國產(chǎn)廠商推出HSL規(guī)范。這種開放趨勢將降低產(chǎn)業(yè)鏈協(xié)同門檻,加速技術(shù)創(chuàng)新。隨著超節(jié)點(diǎn)規(guī)模向萬卡、百萬卡級擴(kuò)展,光通信、液冷、供電、交換芯片四大領(lǐng)域的技術(shù)突破將持續(xù)引領(lǐng)AI基礎(chǔ)設(shè)施升級。















