国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動(dòng)中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

OpenAI新開源模型:99.9%權(quán)重為零,稀疏性技術(shù)或改寫大模型未來

   發(fā)布時(shí)間:2025-12-15 02:15 作者:江紫萱

OpenAI近期低調(diào)開源了一款僅有0.4億參數(shù)的特殊語言模型,其核心架構(gòu)中99.9%的權(quán)重參數(shù)被強(qiáng)制歸零。這項(xiàng)名為Circuit Sparsity的技術(shù)突破,通過極端稀疏化的設(shè)計(jì)路徑,試圖破解傳統(tǒng)大模型難以解釋的"黑箱"困境。研究人員宣稱,這種改造后的Transformer架構(gòu)能讓AI決策過程像電路圖般透明可追蹤。

傳統(tǒng)大模型的神經(jīng)網(wǎng)絡(luò)如同糾纏的毛線團(tuán),數(shù)以億計(jì)的參數(shù)在密集連接中傳遞信息,導(dǎo)致決策路徑難以拆解。而新模型通過L0范數(shù)約束技術(shù),在訓(xùn)練階段就強(qiáng)制切斷99.9%的無效連接,僅保留千分之一的活性通道。這種設(shè)計(jì)使信息流沿固定路徑傳輸,每個(gè)神經(jīng)元都承擔(dān)特定功能模塊——就像電路中的電阻、電容各司其職。

實(shí)驗(yàn)數(shù)據(jù)顯示,在預(yù)訓(xùn)練損失相當(dāng)?shù)那闆r下,稀疏模型的任務(wù)專屬電路規(guī)模僅為稠密模型的1/16。以Python引號(hào)閉合任務(wù)為例,其核心電路僅由2個(gè)MLP神經(jīng)元和1個(gè)注意力頭構(gòu)成,包含專門的引號(hào)檢測(cè)器和類型分類器。研究人員證實(shí),這些模塊具有嚴(yán)格的必要性:移除任一節(jié)點(diǎn)都會(huì)導(dǎo)致任務(wù)失敗,確保了計(jì)算路徑的可驗(yàn)證性。

這項(xiàng)技術(shù)對(duì)當(dāng)前主流的混合專家模型(MoE)構(gòu)成挑戰(zhàn)。MoE通過門控網(wǎng)絡(luò)將任務(wù)分配給多個(gè)專家子網(wǎng)絡(luò),但存在兩個(gè)根本缺陷:其一,專家間信息協(xié)同依賴復(fù)雜的負(fù)載均衡機(jī)制,容易導(dǎo)致特征流形割裂;其二,專家功能邊界模糊,無法實(shí)現(xiàn)微觀機(jī)制的精準(zhǔn)拆解。相比之下,Circuit Sparsity通過超高維度特征投射和嚴(yán)格激活限制,從設(shè)計(jì)層面確保每個(gè)特征的單義性和正交性,從根源上避免了信息干擾。

然而極端稀疏化也帶來顯著代價(jià)。該模型的訓(xùn)練和推理計(jì)算量達(dá)到傳統(tǒng)稠密模型的100-1000倍,目前尚無法達(dá)到頂尖大模型的性能水平。作為對(duì)比,MoE架構(gòu)在算力效率與模型性能的平衡上已形成成熟方案,短期內(nèi)仍將是工業(yè)界的主流選擇。研究團(tuán)隊(duì)承認(rèn),這項(xiàng)工作僅是可解釋性探索的早期嘗試,未來計(jì)劃向更大規(guī)模模型擴(kuò)展。

針對(duì)訓(xùn)練效率問題,研究人員提出兩條優(yōu)化路徑:一是從現(xiàn)有稠密模型中提取稀疏電路,通過復(fù)用基礎(chǔ)框架降低成本;二是持續(xù)改進(jìn)原生稀疏模型的訓(xùn)練機(jī)制,在保持可解釋性的同時(shí)提升計(jì)算效率。這些探索或許能為破解大模型黑箱問題提供新的技術(shù)范式。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新