當(dāng)前,全球核心存儲供應(yīng)鏈正面臨前所未有的結(jié)構(gòu)性短缺挑戰(zhàn)。權(quán)威機(jī)構(gòu)預(yù)測,這一供需矛盾將持續(xù)至2027年,存儲部件價格大幅上漲已成定局。與此同時,生成式AI技術(shù)加速向規(guī)模化落地轉(zhuǎn)型,大模型應(yīng)用場景從單一訓(xùn)練向訓(xùn)練推理并重發(fā)展,PD分離、KV Cache等創(chuàng)新技術(shù)雖提升了推理效率,卻對GPU內(nèi)存的帶寬與容量提出了嚴(yán)苛要求。雙重壓力下,AI產(chǎn)業(yè)陷入資源緊缺與成本攀升的雙重困境,傳統(tǒng)硬件堆疊模式因成本高昂且受制于供應(yīng)鏈產(chǎn)能,難以支撐產(chǎn)業(yè)可持續(xù)發(fā)展。
紫光股份旗下新華三集團(tuán)針對這一行業(yè)痛點(diǎn),推出大模型推理場景加速方案,通過軟硬件協(xié)同優(yōu)化開辟新路徑。該方案核心在于自研定制化ASIC芯片的硬件級加速能力,可將KV Cache從GPU內(nèi)存卸載至專用存儲節(jié)點(diǎn),構(gòu)建AI專屬的"下一代內(nèi)存層"。這一創(chuàng)新架構(gòu)顯著減輕GPU顯存壓力,實(shí)現(xiàn)存算資源動態(tài)平衡。經(jīng)深度測試調(diào)優(yōu),新華三成功將前沿科技與自研AI服務(wù)器融合,形成性能與成本兼優(yōu)的推理加速實(shí)踐,為行業(yè)提供全新解決方案。
在部署靈活性方面,該方案展現(xiàn)獨(dú)特優(yōu)勢:既可通過單機(jī)形態(tài)直接提升單臺AI服務(wù)器推理性能,也能采用外置存儲節(jié)點(diǎn)模式實(shí)現(xiàn)多臺服務(wù)器集群加速。這種雙模式設(shè)計使其能夠適應(yīng)不同規(guī)模企業(yè)的多樣化需求,從中小規(guī)模部署到大型數(shù)據(jù)中心均可靈活應(yīng)用。
實(shí)測數(shù)據(jù)驗證了方案的有效性。基于自研高性能AI服務(wù)器的基準(zhǔn)測試顯示,運(yùn)行DeepSeek-V3-671B模型時,采用KV Cache卸載加速方案后,系統(tǒng)性能實(shí)現(xiàn)質(zhì)的飛躍:在相同TPOT(每個Token生成的平均延遲)限制下,并發(fā)用戶數(shù)提升200%,首Token生成延遲(TTFT)降低70%,每個Token平均生成延遲(TPOT)降低30%。這些核心指標(biāo)的優(yōu)化直接轉(zhuǎn)化為用戶體驗的提升,使系統(tǒng)能夠同時服務(wù)更多用戶且響應(yīng)更迅速。
該方案在應(yīng)用場景適配性方面表現(xiàn)突出。針對交互式應(yīng)用如智能客服、聊天機(jī)器人等需要多輪對話的場景,通過快速加載歷史KV Cache,系統(tǒng)響應(yīng)延遲大幅縮短;在處理長文檔問答、代碼生成等需要數(shù)千Tokens上下文的任務(wù)時,PB級KV Cache擴(kuò)展能力有效突破GPU內(nèi)存容量瓶頸;對于高并發(fā)在線推理服務(wù),優(yōu)化的KV Cache管理機(jī)制使系統(tǒng)吞吐量(RPS)顯著提升,在相同GPU資源下可服務(wù)更多用戶。這些特性使其成為企業(yè)落地生成式AI應(yīng)用的理想選擇。
新華三集團(tuán)在AI領(lǐng)域的技術(shù)積累為此次突破奠定基礎(chǔ)。通過持續(xù)創(chuàng)新與實(shí)踐探索,公司不僅推出這款推理加速方案,更完成全流程調(diào)優(yōu)驗證。隨著大模型規(guī)模擴(kuò)大和用戶基數(shù)增長,推理效率已成為AI基礎(chǔ)設(shè)施性能的關(guān)鍵指標(biāo)。新華三的解決方案通過優(yōu)化資源利用效率,有效降低每token處理成本,為AI技術(shù)規(guī)模化應(yīng)用掃清障礙,推動生成式AI在更多行業(yè)實(shí)現(xiàn)深度落地。















