XSKY星辰天合：以智能分層存儲(chǔ)，賦能AI大模型高效訓(xùn)練與落地-企業(yè)快訊-媒體界

隨著大語言模型（LLM）和多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級(jí)攀升，AI技術(shù)對(duì)數(shù)據(jù)存儲(chǔ)的“性能-成本-效率”提出了前所未有的嚴(yán)苛要求。在AI全工作流中，從數(shù)據(jù)采集、清洗預(yù)處理、GPU高并發(fā)訓(xùn)練到模型推理，每個(gè)環(huán)節(jié)均需TB/s級(jí)帶寬與低延遲I/O支持。以大規(guī)模圖像識(shí)別項(xiàng)目為例，每日需采集數(shù)百萬張圖片，數(shù)據(jù)量可達(dá)數(shù)百GB甚至數(shù)TB，若存儲(chǔ)系統(tǒng)寫入帶寬不足，將直接拖慢采集進(jìn)度；在自然語言處理項(xiàng)目中，分詞、詞性標(biāo)注等預(yù)處理需頻繁讀取數(shù)據(jù)，若讀取帶寬不足，處理效率將大打折扣；深度學(xué)習(xí)項(xiàng)目中，數(shù)千個(gè)GPU并行訓(xùn)練時(shí)，若存儲(chǔ)系統(tǒng)I/O延遲過高，GPU將因等待數(shù)據(jù)而閑置，造成資源浪費(fèi)。同時(shí)，海量原始數(shù)據(jù)、中間數(shù)據(jù)和歸檔數(shù)據(jù)需長(zhǎng)期保存，單一存儲(chǔ)介質(zhì)難以平衡高性能需求與成本控制，“全閃存+混閃”分層存儲(chǔ)已成為行業(yè)共識(shí)。

然而，傳統(tǒng)分層方案存在三大核心痛點(diǎn)，嚴(yán)重制約AI效率。其一，盲目流動(dòng)問題突出。傳統(tǒng)方案基于數(shù)據(jù)創(chuàng)建時(shí)間（mtime）分層，導(dǎo)致高頻訪問的訓(xùn)練集可能因“到期”被降級(jí)至慢速混閃池，訓(xùn)練性能驟降。其二，割裂命名空間增加操作風(fēng)險(xiǎn)。數(shù)據(jù)在不同存儲(chǔ)層間流動(dòng)需手動(dòng)切換路徑或掛載點(diǎn)，易因操作失誤導(dǎo)致訓(xùn)練失敗。其三，高昂隱性成本推高總擁有成本（TCO）。企業(yè)為避免性能問題，被迫將更多數(shù)據(jù)保留在全閃存層，或反復(fù)“搬運(yùn)”降級(jí)數(shù)據(jù)回?zé)釋樱瑢?dǎo)致存儲(chǔ)采購成本和人力成本大幅增加。

某大型智算中心曾因開源方案缺乏智能分層能力，數(shù)據(jù)預(yù)處理效率低下，GPU等待時(shí)間過長(zhǎng)，無法實(shí)現(xiàn)“熱數(shù)據(jù)高性能訓(xùn)練、冷數(shù)據(jù)自動(dòng)歸檔”的順暢流轉(zhuǎn)。為破解這一困境，北京星辰天合科技股份有限公司基于XEOS對(duì)象存儲(chǔ)，推出“XEOS AI數(shù)據(jù)湖方案”，通過智能數(shù)據(jù)流動(dòng)機(jī)制重塑AI分層存儲(chǔ)邏輯，為頭部AGI廠商、國家級(jí)AI實(shí)驗(yàn)室和大型智算中心提供高效數(shù)據(jù)底座。

該方案在技術(shù)創(chuàng)新層面重構(gòu)了AI數(shù)據(jù)分層邏輯。傳統(tǒng)方案按創(chuàng)建時(shí)間分層，無法精準(zhǔn)適配數(shù)據(jù)實(shí)際訪問模式，而本方案引入基于訪問時(shí)間（atime）的智能生命周期管理機(jī)制。系統(tǒng)實(shí)時(shí)感知數(shù)據(jù)訪問行為，精準(zhǔn)捕獲GetObject/HeadObject等操作，每次訪問自動(dòng)刷新atime，動(dòng)態(tài)調(diào)整分層計(jì)劃。高頻訓(xùn)練數(shù)據(jù)集因頻繁訪問可長(zhǎng)期駐留全閃熱層，保障訓(xùn)練性能穩(wěn)定；長(zhǎng)期無訪問的冷數(shù)據(jù)則自動(dòng)流向低成本混閃池，降低存儲(chǔ)成本。同時(shí)，方案通過透明化和自動(dòng)緩存機(jī)制實(shí)現(xiàn)分層數(shù)據(jù)訪問增強(qiáng)。統(tǒng)一命名空間下，上層應(yīng)用無需關(guān)心數(shù)據(jù)存儲(chǔ)位置，避免手動(dòng)切換失誤；首次訪問冷層數(shù)據(jù)時(shí)，系統(tǒng)異步緩存至熱層，后續(xù)訪問直接從熱層讀取，實(shí)現(xiàn)“一次慢、次次快”；每次緩存數(shù)據(jù)訪問刷新過期時(shí)間，確保熱點(diǎn)數(shù)據(jù)長(zhǎng)期駐留高速層；系統(tǒng)還支持批量HeadObject操作提前預(yù)熱數(shù)據(jù)集，首次訪問即達(dá)極致性能。

在架構(gòu)創(chuàng)新方面，方案在統(tǒng)一命名空間內(nèi)整合“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質(zhì)，針對(duì)模型訓(xùn)練、推理等高頻場(chǎng)景優(yōu)化，提供毫秒級(jí)時(shí)延和TB/s級(jí)帶寬，滿足GPU集群高并發(fā)數(shù)據(jù)加載需求；溫冷層采用“SSD+HDD”混閃架構(gòu)，以低成本承載原始數(shù)據(jù)、中間結(jié)果和訓(xùn)練日志等低頻數(shù)據(jù)，支持自動(dòng)歸檔與生命周期清理功能。數(shù)據(jù)在層間流動(dòng)時(shí)，訪問路徑和權(quán)限控制保持一致，消除“數(shù)據(jù)搬運(yùn)”操作成本與性能損耗。

性能創(chuàng)新層面，方案基于分布式架構(gòu)設(shè)計(jì)，單集群可承載EB級(jí)容量，支持線性擴(kuò)展，輕松應(yīng)對(duì)AI數(shù)據(jù)“爆發(fā)式增長(zhǎng)”。通過優(yōu)化I/O調(diào)度算法，在極限壓力下仍能保持低時(shí)延：頭部AGI廠商場(chǎng)景中，峰值讀取帶寬達(dá)5Tbps，讀取時(shí)延≤8ms；智算中心場(chǎng)景中，讀取峰值達(dá)149.34GB/s，滿足大模型“高并發(fā)、高帶寬”訓(xùn)練需求。系統(tǒng)繼承星辰天合企業(yè)級(jí)存儲(chǔ)的金融級(jí)可靠性，數(shù)據(jù)可用性達(dá)99.9999%，減少數(shù)據(jù)丟失風(fēng)險(xiǎn)。

該方案實(shí)施分為兩個(gè)階段：2024年10月至12月，首批交付4個(gè)集群，覆蓋不同地域機(jī)房，總?cè)萘考s9PB；2025年2月至6月，第二批交付2個(gè)地域機(jī)房的2個(gè)集群，并擴(kuò)容原有3個(gè)集群，總?cè)萘考s46PB。項(xiàng)目通過智能分層與混閃架構(gòu)，幫助客戶降低存儲(chǔ)TCO 30%-60%。某智算中心避免全閃存過度配置，年節(jié)省存儲(chǔ)采購成本超千萬元；頭部AGI廠商通過冷數(shù)據(jù)自動(dòng)歸檔，減少30%全閃容量占用。同時(shí)，方案消除數(shù)據(jù)流動(dòng)人工干預(yù)與性能損耗，數(shù)據(jù)預(yù)處理效率提升300%，GPU利用率提升25%-75%。某智算中心GPU等待時(shí)間從日均4小時(shí)縮短至1小時(shí)，年增加模型訓(xùn)練迭代次數(shù)超50次。方案支持在線擴(kuò)容，無需停機(jī)，某客戶4個(gè)月內(nèi)完成20PB數(shù)據(jù)擴(kuò)容，未影響訓(xùn)練任務(wù)，避免日均超百萬元的研發(fā)延誤損失。

在社會(huì)效益方面，方案通過高效數(shù)據(jù)底座釋放GPU算力，助力頭部AGI廠商和國家級(jí)實(shí)驗(yàn)室突破模型訓(xùn)練效率瓶頸，加速SOTA模型研發(fā)，推動(dòng)我國AI技術(shù)全球競(jìng)爭(zhēng)。其“高性能+低成本”平衡方案降低AI落地門檻，使中小型AI企業(yè)無需承擔(dān)高昂全閃存成本即可獲得TB/s級(jí)存儲(chǔ)能力，推動(dòng)AI技術(shù)在制造、醫(yī)療、金融等行業(yè)普及。混閃架構(gòu)與智能分層減少高能耗全閃存使用，某智算中心采用方案后，存儲(chǔ)系統(tǒng)年耗電量降低28%，符合“雙碳”目標(biāo)，助力AI產(chǎn)業(yè)綠色發(fā)展。

XSKY星辰天合作為面向AI時(shí)代的統(tǒng)一數(shù)據(jù)平臺(tái)提供商，十年專注分布式存儲(chǔ)，長(zhǎng)期位列IDC市場(chǎng)報(bào)告“TOP 5”，且是唯一獨(dú)立存儲(chǔ)廠商，在對(duì)象存儲(chǔ)市場(chǎng)保持領(lǐng)導(dǎo)者地位。公司產(chǎn)品已在3000余家客戶的企業(yè)級(jí)生產(chǎn)環(huán)境驗(yàn)證，為AI創(chuàng)新與數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)代化提供可靠數(shù)據(jù)底座。合作方某通用人工智能科技公司是全球領(lǐng)先的AGI企業(yè)，自主研發(fā)的多模態(tài)通用大模型在代碼生成、智能體能力及超長(zhǎng)上下文處理方面表現(xiàn)卓越，服務(wù)覆蓋全球超200個(gè)國家及地區(qū)，觸達(dá)個(gè)人用戶超一億，為超5萬家企業(yè)客戶與開發(fā)者提供技術(shù)支持。

該AI Infra案例將角逐由金猿組委會(huì)、數(shù)據(jù)猿和上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2025中國大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎(jiǎng)項(xiàng)。榜單將于1月上旬在上海舉辦的“2025第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢(shì)論壇”現(xiàn)場(chǎng)揭曉并頒獎(jiǎng)，歡迎報(bào)名參與。