DeepSeek與字節(jié)跳動：殘差流創(chuàng)新之路上的接力與突破

發(fā)布時間：2026-01-15 17:20 來源：快訊作者：沈瑾瑜

在深度學習領域，殘差連接自2016年ResNet架構問世以來，始終是支撐大規(guī)模神經(jīng)網(wǎng)絡訓練的核心設計。這種通過"捷徑通道"繞過非線性變換的機制，有效緩解了梯度消失問題，使模型層數(shù)得以突破性增長。然而，隨著模型規(guī)模持續(xù)擴大，傳統(tǒng)殘差架構的局限性逐漸顯現(xiàn)，特別是在硬件資源受限的場景下，信號傳播穩(wěn)定性成為制約技術突破的關鍵瓶頸。

字節(jié)跳動于2024年推出的超連接（HyperConnection）技術，通過拓寬殘差流寬度并構建多路并行信號通道，在模型表達能力上取得顯著提升。但DeepSeek團隊的實證研究揭示，該技術在270億參數(shù)規(guī)模訓練中，約12000步后會出現(xiàn)梯度范數(shù)劇烈波動，第60層信號強度竟膨脹至輸入值的3000倍。這種信號發(fā)散現(xiàn)象源于超連接架構放棄了殘差連接原有的恒等映射約束，導致大規(guī)模訓練時誤差累積失控。

針對這一難題，DeepSeek提出的流形約束超連接（mHC）架構引入雙重隨機矩陣理論，為信號傳播設立嚴格的數(shù)學邊界。該架構要求變換矩陣的每行每列元素之和均為1且非負，確保輸出信號強度始終介于輸入信號的最大最小值之間。實驗數(shù)據(jù)顯示，在相同訓練條件下，mHC架構的信號放大峰值被控制在1.6倍以內(nèi)，較超連接架構的3000倍形成質(zhì)的飛躍。

在計算效率優(yōu)化方面，DeepSeek團隊開發(fā)了基于Sinkhorn-Knopp迭代的投影算法，僅需20輪迭代即可實現(xiàn)矩陣約束收斂，將額外訓練成本壓制在6.7%以內(nèi)。配合算子融合、反向傳播重計算和流水線并行優(yōu)化三項關鍵技術，成功將內(nèi)存開銷從隨層數(shù)線性增長轉化為由模塊大小控制的有界增長。這種系統(tǒng)級優(yōu)化使30億至270億參數(shù)模型在搭載mHC架構后，均展現(xiàn)出穩(wěn)定的性能提升。

基準測試結果表明，270億參數(shù)模型在BIG-Bench Hard復雜推理任務中準確率提升2.1%，在DROP閱讀理解任務中提升2.3%。更值得關注的是，這種性能增益建立在不依賴尖端算力芯片的基礎之上。通過將bfloat16混合精度內(nèi)核與TileLang編程框架深度結合，DeepSeek在A800/A100等主流硬件上實現(xiàn)了全參數(shù)規(guī)模的穩(wěn)定訓練。

在技術發(fā)布策略上，DeepSeek選擇通過arXiv和Hugging Face等開放平臺率先公開研究成果，這種做法雖與傳統(tǒng)學術期刊路徑不同，卻顯著提升了技術擴散速度。開放源代碼和可復現(xiàn)的實驗數(shù)據(jù)，迫使國際同行必須直面中國團隊提出的數(shù)學約束方案，要么跟進類似技術路線，要么證明自身路徑的優(yōu)越性。這種競爭態(tài)勢正在重塑全球AI研發(fā)的生態(tài)格局。

回顧技術演進脈絡，字節(jié)跳動與DeepSeek的連續(xù)突破形成有趣對照：前者率先打破殘差連接的"靜默穩(wěn)定"，后者則在硬件約束下完成系統(tǒng)性補位。這種接力式創(chuàng)新印證了產(chǎn)業(yè)界對技術瓶頸的認知深化——當算力增長遭遇物理極限時，數(shù)學原理的深度挖掘與系統(tǒng)工程的精密優(yōu)化，將成為突破困境的關鍵路徑。

隨著2026年春節(jié)臨近，業(yè)界普遍預期DeepSeek將發(fā)布搭載mHC架構的R2旗艦模型。無論基準測試結果如何，這種"在約束中創(chuàng)新"的研發(fā)模式已展現(xiàn)獨特價值。它證明AI競賽并非只有"堆砌算力"的單選項，硬件限制反而可能成為催生核心突破的催化劑。當西方實驗室仍在爭論模型規(guī)模與能效比時，中國團隊已通過數(shù)學創(chuàng)新開辟出新的技術賽道。

更多>同類內(nèi)容