隨著大語言模型(LLM)和多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級(jí)攀升,AI技術(shù)對(duì)數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出了前所未有的嚴(yán)苛要求。在AI全工作流中,從數(shù)據(jù)采集、清洗預(yù)處理、GPU高并發(fā)訓(xùn)練到模型推理,每個(gè)環(huán)節(jié)均需TB/s級(jí)帶寬與低延遲I/O支持。以大規(guī)模圖像識(shí)別項(xiàng)目為例,每日需采集數(shù)百萬張圖片,數(shù)據(jù)量可達(dá)數(shù)百GB甚至數(shù)TB,若存儲(chǔ)系統(tǒng)寫入帶寬不足,將直接拖慢采集進(jìn)度;在自然語言處理項(xiàng)目中,分詞、詞性標(biāo)注等預(yù)處理需頻繁讀取數(shù)據(jù),若讀取帶寬不足,處理效率將大打折扣;深度學(xué)習(xí)項(xiàng)目中,數(shù)千個(gè)GPU并行訓(xùn)練時(shí),若存儲(chǔ)系統(tǒng)I/O延遲過高,GPU將因等待數(shù)據(jù)而閑置,造成資源浪費(fèi)。同時(shí),海量原始數(shù)據(jù)、中間數(shù)據(jù)和歸檔數(shù)據(jù)需長(zhǎng)期保存,單一存儲(chǔ)介質(zhì)難以平衡高性能需求與成本控制,“全閃存+混閃”分層存儲(chǔ)已成為行業(yè)共識(shí)。
然而,傳統(tǒng)分層方案存在三大核心痛點(diǎn),嚴(yán)重制約AI效率。其一,盲目流動(dòng)問題突出。傳統(tǒng)方案基于數(shù)據(jù)創(chuàng)建時(shí)間(mtime)分層,導(dǎo)致高頻訪問的訓(xùn)練集可能因“到期”被降級(jí)至慢速混閃池,訓(xùn)練性能驟降。其二,割裂命名空間增加操作風(fēng)險(xiǎn)。數(shù)據(jù)在不同存儲(chǔ)層間流動(dòng)需手動(dòng)切換路徑或掛載點(diǎn),易因操作失誤導(dǎo)致訓(xùn)練失敗。其三,高昂隱性成本推高總擁有成本(TCO)。企業(yè)為避免性能問題,被迫將更多數(shù)據(jù)保留在全閃存層,或反復(fù)“搬運(yùn)”降級(jí)數(shù)據(jù)回?zé)釋樱瑢?dǎo)致存儲(chǔ)采購成本和人力成本大幅增加。
某大型智算中心曾因開源方案缺乏智能分層能力,數(shù)據(jù)預(yù)處理效率低下,GPU等待時(shí)間過長(zhǎng),無法實(shí)現(xiàn)“熱數(shù)據(jù)高性能訓(xùn)練、冷數(shù)據(jù)自動(dòng)歸檔”的順暢流轉(zhuǎn)。為破解這一困境,北京星辰天合科技股份有限公司基于XEOS對(duì)象存儲(chǔ),推出“XEOS AI數(shù)據(jù)湖方案”,通過智能數(shù)據(jù)流動(dòng)機(jī)制重塑AI分層存儲(chǔ)邏輯,為頭部AGI廠商、國家級(jí)AI實(shí)驗(yàn)室和大型智算中心提供高效數(shù)據(jù)底座。
該方案在技術(shù)創(chuàng)新層面重構(gòu)了AI數(shù)據(jù)分層邏輯。傳統(tǒng)方案按創(chuàng)建時(shí)間分層,無法精準(zhǔn)適配數(shù)據(jù)實(shí)際訪問模式,而本方案引入基于訪問時(shí)間(atime)的智能生命周期管理機(jī)制。系統(tǒng)實(shí)時(shí)感知數(shù)據(jù)訪問行為,精準(zhǔn)捕獲GetObject/HeadObject等操作,每次訪問自動(dòng)刷新atime,動(dòng)態(tài)調(diào)整分層計(jì)劃。高頻訓(xùn)練數(shù)據(jù)集因頻繁訪問可長(zhǎng)期駐留全閃熱層,保障訓(xùn)練性能穩(wěn)定;長(zhǎng)期無訪問的冷數(shù)據(jù)則自動(dòng)流向低成本混閃池,降低存儲(chǔ)成本。同時(shí),方案通過透明化和自動(dòng)緩存機(jī)制實(shí)現(xiàn)分層數(shù)據(jù)訪問增強(qiáng)。統(tǒng)一命名空間下,上層應(yīng)用無需關(guān)心數(shù)據(jù)存儲(chǔ)位置,避免手動(dòng)切換失誤;首次訪問冷層數(shù)據(jù)時(shí),系統(tǒng)異步緩存至熱層,后續(xù)訪問直接從熱層讀取,實(shí)現(xiàn)“一次慢、次次快”;每次緩存數(shù)據(jù)訪問刷新過期時(shí)間,確保熱點(diǎn)數(shù)據(jù)長(zhǎng)期駐留高速層;系統(tǒng)還支持批量HeadObject操作提前預(yù)熱數(shù)據(jù)集,首次訪問即達(dá)極致性能。
在架構(gòu)創(chuàng)新方面,方案在統(tǒng)一命名空間內(nèi)整合“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質(zhì),針對(duì)模型訓(xùn)練、推理等高頻場(chǎng)景優(yōu)化,提供毫秒級(jí)時(shí)延和TB/s級(jí)帶寬,滿足GPU集群高并發(fā)數(shù)據(jù)加載需求;溫冷層采用“SSD+HDD”混閃架構(gòu),以低成本承載原始數(shù)據(jù)、中間結(jié)果和訓(xùn)練日志等低頻數(shù)據(jù),支持自動(dòng)歸檔與生命周期清理功能。數(shù)據(jù)在層間流動(dòng)時(shí),訪問路徑和權(quán)限控制保持一致,消除“數(shù)據(jù)搬運(yùn)”操作成本與性能損耗。
性能創(chuàng)新層面,方案基于分布式架構(gòu)設(shè)計(jì),單集群可承載EB級(jí)容量,支持線性擴(kuò)展,輕松應(yīng)對(duì)AI數(shù)據(jù)“爆發(fā)式增長(zhǎng)”。通過優(yōu)化I/O調(diào)度算法,在極限壓力下仍能保持低時(shí)延:頭部AGI廠商場(chǎng)景中,峰值讀取帶寬達(dá)5Tbps,讀取時(shí)延≤8ms;智算中心場(chǎng)景中,讀取峰值達(dá)149.34GB/s,滿足大模型“高并發(fā)、高帶寬”訓(xùn)練需求。系統(tǒng)繼承星辰天合企業(yè)級(jí)存儲(chǔ)的金融級(jí)可靠性,數(shù)據(jù)可用性達(dá)99.9999%,減少數(shù)據(jù)丟失風(fēng)險(xiǎn)。
該方案實(shí)施分為兩個(gè)階段:2024年10月至12月,首批交付4個(gè)集群,覆蓋不同地域機(jī)房,總?cè)萘考s9PB;2025年2月至6月,第二批交付2個(gè)地域機(jī)房的2個(gè)集群,并擴(kuò)容原有3個(gè)集群,總?cè)萘考s46PB。項(xiàng)目通過智能分層與混閃架構(gòu),幫助客戶降低存儲(chǔ)TCO 30%-60%。某智算中心避免全閃存過度配置,年節(jié)省存儲(chǔ)采購成本超千萬元;頭部AGI廠商通過冷數(shù)據(jù)自動(dòng)歸檔,減少30%全閃容量占用。同時(shí),方案消除數(shù)據(jù)流動(dòng)人工干預(yù)與性能損耗,數(shù)據(jù)預(yù)處理效率提升300%,GPU利用率提升25%-75%。某智算中心GPU等待時(shí)間從日均4小時(shí)縮短至1小時(shí),年增加模型訓(xùn)練迭代次數(shù)超50次。方案支持在線擴(kuò)容,無需停機(jī),某客戶4個(gè)月內(nèi)完成20PB數(shù)據(jù)擴(kuò)容,未影響訓(xùn)練任務(wù),避免日均超百萬元的研發(fā)延誤損失。
在社會(huì)效益方面,方案通過高效數(shù)據(jù)底座釋放GPU算力,助力頭部AGI廠商和國家級(jí)實(shí)驗(yàn)室突破模型訓(xùn)練效率瓶頸,加速SOTA模型研發(fā),推動(dòng)我國AI技術(shù)全球競(jìng)爭(zhēng)。其“高性能+低成本”平衡方案降低AI落地門檻,使中小型AI企業(yè)無需承擔(dān)高昂全閃存成本即可獲得TB/s級(jí)存儲(chǔ)能力,推動(dòng)AI技術(shù)在制造、醫(yī)療、金融等行業(yè)普及。混閃架構(gòu)與智能分層減少高能耗全閃存使用,某智算中心采用方案后,存儲(chǔ)系統(tǒng)年耗電量降低28%,符合“雙碳”目標(biāo),助力AI產(chǎn)業(yè)綠色發(fā)展。
XSKY星辰天合作為面向AI時(shí)代的統(tǒng)一數(shù)據(jù)平臺(tái)提供商,十年專注分布式存儲(chǔ),長(zhǎng)期位列IDC市場(chǎng)報(bào)告“TOP 5”,且是唯一獨(dú)立存儲(chǔ)廠商,在對(duì)象存儲(chǔ)市場(chǎng)保持領(lǐng)導(dǎo)者地位。公司產(chǎn)品已在3000余家客戶的企業(yè)級(jí)生產(chǎn)環(huán)境驗(yàn)證,為AI創(chuàng)新與數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)代化提供可靠數(shù)據(jù)底座。合作方某通用人工智能科技公司是全球領(lǐng)先的AGI企業(yè),自主研發(fā)的多模態(tài)通用大模型在代碼生成、智能體能力及超長(zhǎng)上下文處理方面表現(xiàn)卓越,服務(wù)覆蓋全球超200個(gè)國家及地區(qū),觸達(dá)個(gè)人用戶超一億,為超5萬家企業(yè)客戶與開發(fā)者提供技術(shù)支持。
該AI Infra案例將角逐由金猿組委會(huì)、數(shù)據(jù)猿和上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2025中國大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎(jiǎng)項(xiàng)。榜單將于1月上旬在上海舉辦的“2025第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢(shì)論壇”現(xiàn)場(chǎng)揭曉并頒獎(jiǎng),歡迎報(bào)名參與。















