Meta新AI“左右互搏”：不依賴人類數(shù)據(jù)，代碼自我進(jìn)化時代或?qū)砼R

發(fā)布時間：2025-12-30 17:45 來源：快訊作者：沈瑾瑜

程序員們常調(diào)侃，最痛苦的時刻不是熬夜寫新代碼，而是凌晨被叫醒修復(fù)自己幾個月前埋下的“神級Bug”。但如今，meta公司的一項新研究讓AI不僅能自己制造問題，還能在無人指導(dǎo)的情況下通過“自我對弈”的方式解決問題，這一突破引發(fā)了科技界的廣泛關(guān)注。

12月下旬，meta與伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合發(fā)表的論文，詳細(xì)介紹了一種名為SSR（Self-play SWE-RL）的全新系統(tǒng)。該系統(tǒng)的核心思路看似簡單卻充滿顛覆性：讓同一個大語言模型同時扮演“破壞者”和“修復(fù)者”的角色。傳統(tǒng)AI編程工具，如GitHub Copilot，依賴人類編寫的代碼、修復(fù)過的Bug以及設(shè)計的測試用例進(jìn)行學(xué)習(xí)，相當(dāng)于“做老師布置的題目”。而SSR則完全反其道而行之，讓AI自己出題、自己解答。

具體實現(xiàn)上，SSR將一個模型拆分為兩個智能體：一個負(fù)責(zé)向開源項目中注入隱蔽的Bug，另一個則需根據(jù)有限線索找出并修復(fù)這些錯誤。兩個角色共享參數(shù)，本質(zhì)上是同一個“大腦”，卻執(zhí)行著完全相反的任務(wù)。這種設(shè)計類似于一個人用左手制造問題，再用右手解決問題，且全程不能參考答案。

為了確保生成的Bug質(zhì)量，SSR引入了三重驗證機制：首先，Bug必須能被弱化測試檢測到；其次，不能直接暴露修復(fù)路徑；最后，需通過“逆向變異測試”確認(rèn)改動確實改變了程序行為。無效的Bug會被直接丟棄，絕不摻雜水分。這種機制生成的訓(xùn)練數(shù)據(jù)，質(zhì)量遠(yuǎn)超人工標(biāo)注，因為所有Bug均源自真實的Git歷史記錄，例如故意撤銷某次修復(fù)提交或刪除看似冗余實則關(guān)鍵的邏輯。這些案例并非教科書中的典型問題，而是工程實踐中常見的“暗坑”。

在實戰(zhàn)測試中，SSR的表現(xiàn)令人矚目。研究團(tuán)隊在SWE-bench Verified和SWE-bench Pro兩個基準(zhǔn)平臺上進(jìn)行了評估。這兩個平臺由普林斯頓、斯坦福等機構(gòu)共同構(gòu)建，收錄了來自Django、PyTorch等知名項目的真實Bug修復(fù)任務(wù)，被視為衡量AI編程能力的“試金石”。實驗結(jié)果顯示，即使完全屏蔽人類提供的任務(wù)描述和測試用例，SSR訓(xùn)練的智能體性能仍持續(xù)提升，最終超越了采用傳統(tǒng)強化學(xué)習(xí)加人類數(shù)據(jù)訓(xùn)練的基線模型。而后者在訓(xùn)練幾十輪后便陷入停滯，難以進(jìn)一步突破。

進(jìn)一步的分析揭示了SSR成功的關(guān)鍵：消融實驗表明，若僅訓(xùn)練Bug注入智能體，模型會陷入“只會搞破壞”的困境；若僅提供固定Bug集讓AI修復(fù)，模型則會迅速過擬合。只有讓兩個智能體形成閉環(huán)聯(lián)動，動態(tài)調(diào)整任務(wù)難度，才能持續(xù)產(chǎn)生新挑戰(zhàn)，促使模型不斷進(jìn)步。這種機制類似于健身時自動增加重量，始終保持“跳一跳夠得著”的狀態(tài)。

盡管SSR展現(xiàn)了強大的潛力，但其局限性同樣明顯。研究團(tuán)隊在論文中坦承，首先，系統(tǒng)嚴(yán)重依賴單元測試作為評判標(biāo)準(zhǔn)，但現(xiàn)實開發(fā)中許多問題（如性能瓶頸、安全漏洞、用戶體驗）無法通過測試腳本量化；其次，目前兩個智能體使用同一模型架構(gòu)，尚未探索“強弱對抗”（如用更大模型充當(dāng)出題者）是否更有效；最后，訓(xùn)練過程極不穩(wěn)定，嘗試加入自然語言描述或聚焦單一代碼倉庫時，性能反而下降。這些限制表明，SSR距離“全自動程序員”仍有很大差距。

不過，SSR的意義遠(yuǎn)不止于技術(shù)突破。它標(biāo)志著AI正在從“模仿人類”轉(zhuǎn)向“自我創(chuàng)造學(xué)習(xí)信號”。就像AlphaGo走出人類從未想過的棋路，SSR也可能發(fā)現(xiàn)工程師忽略的缺陷模式或修復(fù)策略。事實上，12月下旬，智譜AI發(fā)布了“伐謀”智能體框架，支持多智能體協(xié)同演化；阿里通義實驗室也宣布Qwen Code Agent進(jìn)入企業(yè)內(nèi)測階段。全球頂尖團(tuán)隊紛紛押注“自主進(jìn)化型AI”，而SSR的獨特之處在于，它幾乎不需要人類監(jiān)督。

更多>同類內(nèi)容