OpenAI新研究：借「稀疏模型」探索語(yǔ)言模型內(nèi)部，為理解模型行為開(kāi)新徑-企業(yè)快訊-媒體界

OpenAI新研究：借「稀疏模型」探索語(yǔ)言模型內(nèi)部，為理解模型行為開(kāi)新徑

發(fā)布時(shí)間：2025-11-25 15:19 來(lái)源：快訊作者：馮璃月

在人工智能領(lǐng)域，大語(yǔ)言模型的內(nèi)部運(yùn)作機(jī)制長(zhǎng)期籠罩在神秘面紗之下。即便是頂尖科研人員，也難以完全解析這些模型如何生成輸出結(jié)果。這種"黑箱"特性不僅限制了模型優(yōu)化空間，更在醫(yī)療、金融等關(guān)鍵領(lǐng)域引發(fā)可靠性擔(dān)憂。近日，OpenAI通過(guò)創(chuàng)新研究路徑，為破解這一難題提供了全新思路。

研究團(tuán)隊(duì)突破傳統(tǒng)稠密網(wǎng)絡(luò)訓(xùn)練范式，轉(zhuǎn)而構(gòu)建具有稀疏連接特性的神經(jīng)網(wǎng)絡(luò)模型。這種新型架構(gòu)通過(guò)強(qiáng)制80%以上的權(quán)重參數(shù)歸零，迫使每個(gè)神經(jīng)元僅與數(shù)十個(gè)其他神經(jīng)元建立連接。實(shí)驗(yàn)數(shù)據(jù)顯示，相較于傳統(tǒng)模型，稀疏模型在保持基礎(chǔ)能力的同時(shí)，其內(nèi)部計(jì)算結(jié)構(gòu)呈現(xiàn)出顯著的可解耦特征。研究人員成功從模型中分離出負(fù)責(zé)特定功能的獨(dú)立電路模塊，例如代碼字符串閉合判斷、變量類(lèi)型追蹤等基礎(chǔ)任務(wù)。

以Python代碼補(bǔ)全任務(wù)為例，模型展現(xiàn)出驚人的算法實(shí)現(xiàn)能力。當(dāng)處理字符串引號(hào)匹配問(wèn)題時(shí)，稀疏模型通過(guò)五個(gè)殘差通道、兩個(gè)MLP神經(jīng)元及特定注意力機(jī)制，構(gòu)建出完整的解決方案：首先區(qū)分單雙引號(hào)類(lèi)型，隨后通過(guò)注意力操作定位起始引號(hào)位置，最終將引號(hào)類(lèi)型準(zhǔn)確復(fù)制至字符串結(jié)尾。值得關(guān)注的是，這種實(shí)現(xiàn)方式與人類(lèi)程序員思維高度契合，驗(yàn)證了稀疏模型在特定任務(wù)上的可解釋性?xún)?yōu)勢(shì)。

研究團(tuán)隊(duì)采用漸進(jìn)式剪枝策略驗(yàn)證模型可解釋性。針對(duì)每個(gè)預(yù)設(shè)任務(wù)，研究人員逐步移除無(wú)關(guān)神經(jīng)元連接，最終保留完成該任務(wù)的最小功能電路。實(shí)驗(yàn)表明，規(guī)模更大的稀疏模型在保持能力的同時(shí)，其內(nèi)部電路結(jié)構(gòu)更趨簡(jiǎn)單。這種特性為構(gòu)建可解釋性更強(qiáng)的超級(jí)模型提供了理論支撐，當(dāng)前研究已成功解析變量綁定等復(fù)雜行為的局部電路結(jié)構(gòu)。

技術(shù)實(shí)現(xiàn)層面，研究團(tuán)隊(duì)開(kāi)發(fā)出新型訓(xùn)練框架，通過(guò)動(dòng)態(tài)權(quán)重分配機(jī)制確保模型在稀疏連接條件下保持計(jì)算效率。實(shí)驗(yàn)數(shù)據(jù)顯示，當(dāng)模型稀疏度提升至90%時(shí)，其基礎(chǔ)任務(wù)處理能力下降約15%，但內(nèi)部電路可解釋性指標(biāo)提升3倍以上。這種能力-可解釋性平衡關(guān)系，為后續(xù)超大模型訓(xùn)練提供了重要參考。

當(dāng)前研究仍存在明顯局限。實(shí)驗(yàn)采用的稀疏模型規(guī)模僅為GPT-2的1/10，且僅能解釋約30%的基礎(chǔ)計(jì)算模塊。研究團(tuán)隊(duì)正探索兩條優(yōu)化路徑：一是開(kāi)發(fā)從稠密模型中提取稀疏電路的技術(shù)，二是設(shè)計(jì)專(zhuān)門(mén)的可解釋性訓(xùn)練算法。初步實(shí)驗(yàn)表明，從稠密模型中遷移的稀疏電路，在特定任務(wù)上的表現(xiàn)優(yōu)于從頭訓(xùn)練的同類(lèi)結(jié)構(gòu)。

該研究成果已形成完整技術(shù)報(bào)告，詳細(xì)闡述了稀疏模型訓(xùn)練方法、電路解析技術(shù)及實(shí)驗(yàn)驗(yàn)證過(guò)程。研究團(tuán)隊(duì)強(qiáng)調(diào)，雖然當(dāng)前成果距離完整解析超級(jí)模型仍有差距，但已驗(yàn)證的電路可解釋性特征，為構(gòu)建透明、可控的新一代人工智能系統(tǒng)奠定了重要基礎(chǔ)。完整技術(shù)文檔可通過(guò)OpenAI官方渠道獲取。

更多>同類(lèi)內(nèi)容