OpenAI新開源模型：99.9%權(quán)重為零，稀疏性技術(shù)或改寫大模型未來

發(fā)布時(shí)間：2025-12-15 02:15 來源：快訊作者：江紫萱

OpenAI近期低調(diào)開源了一款僅有0.4億參數(shù)的特殊語言模型，其核心架構(gòu)中99.9%的權(quán)重參數(shù)被強(qiáng)制歸零。這項(xiàng)名為Circuit Sparsity的技術(shù)突破，通過極端稀疏化的設(shè)計(jì)路徑，試圖破解傳統(tǒng)大模型難以解釋的"黑箱"困境。研究人員宣稱，這種改造后的Transformer架構(gòu)能讓AI決策過程像電路圖般透明可追蹤。

傳統(tǒng)大模型的神經(jīng)網(wǎng)絡(luò)如同糾纏的毛線團(tuán)，數(shù)以億計(jì)的參數(shù)在密集連接中傳遞信息，導(dǎo)致決策路徑難以拆解。而新模型通過L0范數(shù)約束技術(shù)，在訓(xùn)練階段就強(qiáng)制切斷99.9%的無效連接，僅保留千分之一的活性通道。這種設(shè)計(jì)使信息流沿固定路徑傳輸，每個(gè)神經(jīng)元都承擔(dān)特定功能模塊——就像電路中的電阻、電容各司其職。

實(shí)驗(yàn)數(shù)據(jù)顯示，在預(yù)訓(xùn)練損失相當(dāng)?shù)那闆r下，稀疏模型的任務(wù)專屬電路規(guī)模僅為稠密模型的1/16。以Python引號(hào)閉合任務(wù)為例，其核心電路僅由2個(gè)MLP神經(jīng)元和1個(gè)注意力頭構(gòu)成，包含專門的引號(hào)檢測(cè)器和類型分類器。研究人員證實(shí)，這些模塊具有嚴(yán)格的必要性：移除任一節(jié)點(diǎn)都會(huì)導(dǎo)致任務(wù)失敗，確保了計(jì)算路徑的可驗(yàn)證性。

這項(xiàng)技術(shù)對(duì)當(dāng)前主流的混合專家模型（MoE）構(gòu)成挑戰(zhàn)。MoE通過門控網(wǎng)絡(luò)將任務(wù)分配給多個(gè)專家子網(wǎng)絡(luò)，但存在兩個(gè)根本缺陷：其一，專家間信息協(xié)同依賴復(fù)雜的負(fù)載均衡機(jī)制，容易導(dǎo)致特征流形割裂；其二，專家功能邊界模糊，無法實(shí)現(xiàn)微觀機(jī)制的精準(zhǔn)拆解。相比之下，Circuit Sparsity通過超高維度特征投射和嚴(yán)格激活限制，從設(shè)計(jì)層面確保每個(gè)特征的單義性和正交性，從根源上避免了信息干擾。

然而極端稀疏化也帶來顯著代價(jià)。該模型的訓(xùn)練和推理計(jì)算量達(dá)到傳統(tǒng)稠密模型的100-1000倍，目前尚無法達(dá)到頂尖大模型的性能水平。作為對(duì)比，MoE架構(gòu)在算力效率與模型性能的平衡上已形成成熟方案，短期內(nèi)仍將是工業(yè)界的主流選擇。研究團(tuán)隊(duì)承認(rèn)，這項(xiàng)工作僅是可解釋性探索的早期嘗試，未來計(jì)劃向更大規(guī)模模型擴(kuò)展。

針對(duì)訓(xùn)練效率問題，研究人員提出兩條優(yōu)化路徑：一是從現(xiàn)有稠密模型中提取稀疏電路，通過復(fù)用基礎(chǔ)框架降低成本；二是持續(xù)改進(jìn)原生稀疏模型的訓(xùn)練機(jī)制，在保持可解釋性的同時(shí)提升計(jì)算效率。這些探索或許能為破解大模型黑箱問題提供新的技術(shù)范式。

更多>同類內(nèi)容