在人工智能技術飛速發(fā)展的當下,大語言模型(LLM)和多模態(tài)模型的參數(shù)量與訓練數(shù)據(jù)量呈指數(shù)級增長,這對數(shù)據(jù)存儲提出了前所未有的挑戰(zhàn)。AI全工作流,涵蓋數(shù)據(jù)采集、清洗預處理、GPU高并發(fā)訓練以及模型推理等環(huán)節(jié),均需要TB/s級帶寬和低延遲I/O支持。一旦存儲出現(xiàn)瓶頸,昂貴的GPU算力便會閑置,造成資源浪費。同時,海量原始數(shù)據(jù)、中間數(shù)據(jù)和歸檔數(shù)據(jù)的長期保存需求,使得單一存儲介質(zhì)難以兼顧高性能與成本控制,“全閃存+混閃”的分層存儲方案逐漸成為業(yè)界共識。
然而,傳統(tǒng)分層存儲方案存在諸多痛點。其一,數(shù)據(jù)分層依賴創(chuàng)建時間(mtime),導致高頻訪問的訓練集可能因“到期”被降級至慢速混閃池,嚴重影響訓練性能。其二,數(shù)據(jù)在不同存儲層間流動需手動切換路徑或掛載點,操作復雜且易出錯,可能引發(fā)訓練失敗。其三,為避免性能問題,企業(yè)被迫將更多數(shù)據(jù)保留在全閃存層,或反復“搬運”降級數(shù)據(jù)回熱層,導致總擁有成本(TCO)大幅上升。某大型智算中心曾因開源方案缺乏智能分層能力,數(shù)據(jù)預處理效率低下,GPU等待時間過長,無法實現(xiàn)數(shù)據(jù)的高效流轉。
為破解這些難題,北京星辰天合科技股份有限公司基于XEOS對象存儲,推出了“XEOS AI數(shù)據(jù)湖方案”。該方案通過智能數(shù)據(jù)流動機制,重塑了AI分層存儲邏輯,為頭部AGI廠商、國家級AI實驗室和大型智算中心提供了高效的數(shù)據(jù)底座。方案采用基于訪問時間(atime)的智能生命周期管理,系統(tǒng)能夠?qū)崟r感知數(shù)據(jù)訪問行為,精準捕獲如GetObject/HeadObject等操作,并自動刷新atime。高頻訓練數(shù)據(jù)集因訪問頻繁,atime不斷更新,可長期駐留在全閃熱層,保障訓練性能穩(wěn)定;而“長期無訪問”的冷數(shù)據(jù)則自動流向低成本混閃池,實現(xiàn)資源合理分配。
在數(shù)據(jù)訪問方面,方案實現(xiàn)了“一次慢、次次快”的模式。上層應用無需關心數(shù)據(jù)存儲位置,在統(tǒng)一命名空間下,訪問路徑保持不變,避免了手動切換的失誤。首次訪問冷層數(shù)據(jù)時,系統(tǒng)會異步將數(shù)據(jù)緩存至熱層,后續(xù)訪問直接從熱層讀取,大幅提升速度。每一次緩存數(shù)據(jù)訪問都會刷新其過期時間,確保熱點數(shù)據(jù)長期駐留高速層。系統(tǒng)還支持通過批量HeadObject操作提前預熱數(shù)據(jù)集,實現(xiàn)首次訪問即達極致性能。
方案在架構設計上摒棄了傳統(tǒng)多存儲層割裂的模式,在統(tǒng)一命名空間內(nèi)整合了“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質(zhì),針對模型訓練和推理等高頻訪問場景優(yōu)化,提供低至毫秒級的時延和TB/s級帶寬,滿足GPU集群高并發(fā)數(shù)據(jù)加載需求。溫冷層采用“SSD+HDD”混閃架構,以較低成本承載原始數(shù)據(jù)、中間結果和訓練日志等低頻訪問數(shù)據(jù),并支持自動歸檔與生命周期清理功能,有效管理長期存儲數(shù)據(jù)。數(shù)據(jù)在層間流動時,訪問路徑和權限控制保持一致,消除了“數(shù)據(jù)搬運”的操作成本與性能損耗。
性能方面,方案基于分布式架構設計,單集群可承載EB級容量,支持線性擴展,能夠輕松應對AI數(shù)據(jù)的“爆發(fā)式增長”。通過對I/O調(diào)度算法的優(yōu)化,系統(tǒng)在極限壓力下仍能保持低時延。在頭部AGI廠商場景中,峰值讀取帶寬可達5Tbps,讀取時延≤8ms;在智算中心場景中,讀取峰值達149.34GB/s,滿足大模型“高并發(fā)、高帶寬”的訓練需求。系統(tǒng)繼承了星辰天合企業(yè)級存儲的金融級可靠性,數(shù)據(jù)可用性達99.9999%,為數(shù)據(jù)安全提供了堅實保障。
該方案在實際應用中取得了顯著成效。在經(jīng)濟效益方面,通過“智能分層+混閃架構”,客戶存儲TCO平均降低30%-60%。某智算中心避免了全閃存過度配置,年節(jié)省存儲采購成本超千萬元;頭部AGI廠商通過冷數(shù)據(jù)自動歸檔,減少30%全閃容量占用。同時,方案消除了數(shù)據(jù)流動的人工干預與性能損耗,數(shù)據(jù)預處理效率提升300%,GPU利用率提升25%-75%。某智算中心GPU等待時間從日均4小時縮短至1小時,年增加模型訓練迭代次數(shù)超50次。方案支持在線擴容,無需停機,某客戶在4個月內(nèi)完成20PB數(shù)據(jù)擴容,未影響任何訓練任務,避免了因擴容中斷導致的研發(fā)延誤。
在社會效益方面,方案通過高效數(shù)據(jù)底座釋放了GPU算力,幫助頭部AGI廠商和國家級實驗室突破模型訓練效率瓶頸,加速了SOTA模型研發(fā),助力我國AI技術在全球競爭中保持領先。同時,“高性能+低成本”的平衡方案降低了AI落地門檻,讓中小型AI企業(yè)無需承擔高昂全閃存成本即可獲得TB/s級存儲能力,推動了AI技術在制造、醫(yī)療、金融等行業(yè)的普及。混閃架構與智能分層減少了高能耗全閃存的使用量,某智算中心采用方案后,存儲系統(tǒng)年耗電量降低28%,符合“雙碳”目標,助力AI產(chǎn)業(yè)綠色發(fā)展。
XSKY星辰天合是面向AI時代的統(tǒng)一數(shù)據(jù)平臺提供商,十年專注分布式存儲,長期位列IDC市場報告“TOP 5”,且是唯一獨立存儲廠商,同時在對象存儲市場保持長期領導者地位。公司產(chǎn)品已在3000+客戶的企業(yè)級生產(chǎn)環(huán)境經(jīng)受驗證,為企業(yè)AI創(chuàng)新與數(shù)據(jù)基礎設施現(xiàn)代化提供了可靠的數(shù)據(jù)底座。與之合作的某通用人工智能科技公司是全球領先的AGI科技公司,自主研發(fā)了具有業(yè)界競爭力的多模態(tài)通用大模型,在代碼生成、智能體(Agent)能力及超長上下文處理等方面表現(xiàn)卓越,服務范圍覆蓋全球超200個國家及地區(qū),累計觸達個人用戶突破一億,并為超過5萬家企業(yè)客戶與開發(fā)者提供技術支持與解決方案。















