XSKY星辰天合：以智能分層架構，賦能AI數(shù)據(jù)高效存儲新實踐

發(fā)布時間：2025-12-10 07:17 來源：快訊作者：沈如風

在人工智能技術飛速發(fā)展的當下，大語言模型（LLM）和多模態(tài)模型的參數(shù)量與訓練數(shù)據(jù)量呈指數(shù)級增長，這對數(shù)據(jù)存儲提出了前所未有的挑戰(zhàn)。AI全工作流，涵蓋數(shù)據(jù)采集、清洗預處理、GPU高并發(fā)訓練以及模型推理等環(huán)節(jié)，均需要TB/s級帶寬和低延遲I/O支持。一旦存儲出現(xiàn)瓶頸，昂貴的GPU算力便會閑置，造成資源浪費。同時，海量原始數(shù)據(jù)、中間數(shù)據(jù)和歸檔數(shù)據(jù)的長期保存需求，使得單一存儲介質(zhì)難以兼顧高性能與成本控制，“全閃存+混閃”的分層存儲方案逐漸成為業(yè)界共識。

然而，傳統(tǒng)分層存儲方案存在諸多痛點。其一，數(shù)據(jù)分層依賴創(chuàng)建時間（mtime），導致高頻訪問的訓練集可能因“到期”被降級至慢速混閃池，嚴重影響訓練性能。其二，數(shù)據(jù)在不同存儲層間流動需手動切換路徑或掛載點，操作復雜且易出錯，可能引發(fā)訓練失敗。其三，為避免性能問題，企業(yè)被迫將更多數(shù)據(jù)保留在全閃存層，或反復“搬運”降級數(shù)據(jù)回熱層，導致總擁有成本（TCO）大幅上升。某大型智算中心曾因開源方案缺乏智能分層能力，數(shù)據(jù)預處理效率低下，GPU等待時間過長，無法實現(xiàn)數(shù)據(jù)的高效流轉。

為破解這些難題，北京星辰天合科技股份有限公司基于XEOS對象存儲，推出了“XEOS AI數(shù)據(jù)湖方案”。該方案通過智能數(shù)據(jù)流動機制，重塑了AI分層存儲邏輯，為頭部AGI廠商、國家級AI實驗室和大型智算中心提供了高效的數(shù)據(jù)底座。方案采用基于訪問時間（atime）的智能生命周期管理，系統(tǒng)能夠?qū)崟r感知數(shù)據(jù)訪問行為，精準捕獲如GetObject/HeadObject等操作，并自動刷新atime。高頻訓練數(shù)據(jù)集因訪問頻繁，atime不斷更新，可長期駐留在全閃熱層，保障訓練性能穩(wěn)定；而“長期無訪問”的冷數(shù)據(jù)則自動流向低成本混閃池，實現(xiàn)資源合理分配。

在數(shù)據(jù)訪問方面，方案實現(xiàn)了“一次慢、次次快”的模式。上層應用無需關心數(shù)據(jù)存儲位置，在統(tǒng)一命名空間下，訪問路徑保持不變，避免了手動切換的失誤。首次訪問冷層數(shù)據(jù)時，系統(tǒng)會異步將數(shù)據(jù)緩存至熱層，后續(xù)訪問直接從熱層讀取，大幅提升速度。每一次緩存數(shù)據(jù)訪問都會刷新其過期時間，確保熱點數(shù)據(jù)長期駐留高速層。系統(tǒng)還支持通過批量HeadObject操作提前預熱數(shù)據(jù)集，實現(xiàn)首次訪問即達極致性能。

方案在架構設計上摒棄了傳統(tǒng)多存儲層割裂的模式，在統(tǒng)一命名空間內(nèi)整合了“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質(zhì)，針對模型訓練和推理等高頻訪問場景優(yōu)化，提供低至毫秒級的時延和TB/s級帶寬，滿足GPU集群高并發(fā)數(shù)據(jù)加載需求。溫冷層采用“SSD+HDD”混閃架構，以較低成本承載原始數(shù)據(jù)、中間結果和訓練日志等低頻訪問數(shù)據(jù)，并支持自動歸檔與生命周期清理功能，有效管理長期存儲數(shù)據(jù)。數(shù)據(jù)在層間流動時，訪問路徑和權限控制保持一致，消除了“數(shù)據(jù)搬運”的操作成本與性能損耗。

性能方面，方案基于分布式架構設計，單集群可承載EB級容量，支持線性擴展，能夠輕松應對AI數(shù)據(jù)的“爆發(fā)式增長”。通過對I/O調(diào)度算法的優(yōu)化，系統(tǒng)在極限壓力下仍能保持低時延。在頭部AGI廠商場景中，峰值讀取帶寬可達5Tbps，讀取時延≤8ms；在智算中心場景中，讀取峰值達149.34GB/s，滿足大模型“高并發(fā)、高帶寬”的訓練需求。系統(tǒng)繼承了星辰天合企業(yè)級存儲的金融級可靠性，數(shù)據(jù)可用性達99.9999%，為數(shù)據(jù)安全提供了堅實保障。

該方案在實際應用中取得了顯著成效。在經(jīng)濟效益方面，通過“智能分層+混閃架構”，客戶存儲TCO平均降低30%-60%。某智算中心避免了全閃存過度配置，年節(jié)省存儲采購成本超千萬元；頭部AGI廠商通過冷數(shù)據(jù)自動歸檔，減少30%全閃容量占用。同時，方案消除了數(shù)據(jù)流動的人工干預與性能損耗，數(shù)據(jù)預處理效率提升300%，GPU利用率提升25%-75%。某智算中心GPU等待時間從日均4小時縮短至1小時，年增加模型訓練迭代次數(shù)超50次。方案支持在線擴容，無需停機，某客戶在4個月內(nèi)完成20PB數(shù)據(jù)擴容，未影響任何訓練任務，避免了因擴容中斷導致的研發(fā)延誤。

在社會效益方面，方案通過高效數(shù)據(jù)底座釋放了GPU算力，幫助頭部AGI廠商和國家級實驗室突破模型訓練效率瓶頸，加速了SOTA模型研發(fā)，助力我國AI技術在全球競爭中保持領先。同時，“高性能+低成本”的平衡方案降低了AI落地門檻，讓中小型AI企業(yè)無需承擔高昂全閃存成本即可獲得TB/s級存儲能力，推動了AI技術在制造、醫(yī)療、金融等行業(yè)的普及。混閃架構與智能分層減少了高能耗全閃存的使用量，某智算中心采用方案后，存儲系統(tǒng)年耗電量降低28%，符合“雙碳”目標，助力AI產(chǎn)業(yè)綠色發(fā)展。

XSKY星辰天合是面向AI時代的統(tǒng)一數(shù)據(jù)平臺提供商，十年專注分布式存儲，長期位列IDC市場報告“TOP 5”，且是唯一獨立存儲廠商，同時在對象存儲市場保持長期領導者地位。公司產(chǎn)品已在3000+客戶的企業(yè)級生產(chǎn)環(huán)境經(jīng)受驗證，為企業(yè)AI創(chuàng)新與數(shù)據(jù)基礎設施現(xiàn)代化提供了可靠的數(shù)據(jù)底座。與之合作的某通用人工智能科技公司是全球領先的AGI科技公司，自主研發(fā)了具有業(yè)界競爭力的多模態(tài)通用大模型，在代碼生成、智能體（Agent）能力及超長上下文處理等方面表現(xiàn)卓越，服務范圍覆蓋全球超200個國家及地區(qū)，累計觸達個人用戶突破一億，并為超過5萬家企業(yè)客戶與開發(fā)者提供技術支持與解決方案。

更多>同類內(nèi)容