国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

Meta新AI“左右互搏”:不依賴人類數(shù)據(jù),代碼自我進(jìn)化時代或?qū)砼R

   發(fā)布時間:2025-12-30 17:45 作者:沈瑾瑜

程序員們常調(diào)侃,最痛苦的時刻不是熬夜寫新代碼,而是凌晨被叫醒修復(fù)自己幾個月前埋下的“神級Bug”。但如今,meta公司的一項新研究讓AI不僅能自己制造問題,還能在無人指導(dǎo)的情況下通過“自我對弈”的方式解決問題,這一突破引發(fā)了科技界的廣泛關(guān)注。

12月下旬,meta與伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合發(fā)表的論文,詳細(xì)介紹了一種名為SSR(Self-play SWE-RL)的全新系統(tǒng)。該系統(tǒng)的核心思路看似簡單卻充滿顛覆性:讓同一個大語言模型同時扮演“破壞者”和“修復(fù)者”的角色。傳統(tǒng)AI編程工具,如GitHub Copilot,依賴人類編寫的代碼、修復(fù)過的Bug以及設(shè)計的測試用例進(jìn)行學(xué)習(xí),相當(dāng)于“做老師布置的題目”。而SSR則完全反其道而行之,讓AI自己出題、自己解答。

具體實現(xiàn)上,SSR將一個模型拆分為兩個智能體:一個負(fù)責(zé)向開源項目中注入隱蔽的Bug,另一個則需根據(jù)有限線索找出并修復(fù)這些錯誤。兩個角色共享參數(shù),本質(zhì)上是同一個“大腦”,卻執(zhí)行著完全相反的任務(wù)。這種設(shè)計類似于一個人用左手制造問題,再用右手解決問題,且全程不能參考答案。

為了確保生成的Bug質(zhì)量,SSR引入了三重驗證機制:首先,Bug必須能被弱化測試檢測到;其次,不能直接暴露修復(fù)路徑;最后,需通過“逆向變異測試”確認(rèn)改動確實改變了程序行為。無效的Bug會被直接丟棄,絕不摻雜水分。這種機制生成的訓(xùn)練數(shù)據(jù),質(zhì)量遠(yuǎn)超人工標(biāo)注,因為所有Bug均源自真實的Git歷史記錄,例如故意撤銷某次修復(fù)提交或刪除看似冗余實則關(guān)鍵的邏輯。這些案例并非教科書中的典型問題,而是工程實踐中常見的“暗坑”。

在實戰(zhàn)測試中,SSR的表現(xiàn)令人矚目。研究團(tuán)隊在SWE-bench Verified和SWE-bench Pro兩個基準(zhǔn)平臺上進(jìn)行了評估。這兩個平臺由普林斯頓、斯坦福等機構(gòu)共同構(gòu)建,收錄了來自Django、PyTorch等知名項目的真實Bug修復(fù)任務(wù),被視為衡量AI編程能力的“試金石”。實驗結(jié)果顯示,即使完全屏蔽人類提供的任務(wù)描述和測試用例,SSR訓(xùn)練的智能體性能仍持續(xù)提升,最終超越了采用傳統(tǒng)強化學(xué)習(xí)加人類數(shù)據(jù)訓(xùn)練的基線模型。而后者在訓(xùn)練幾十輪后便陷入停滯,難以進(jìn)一步突破。

進(jìn)一步的分析揭示了SSR成功的關(guān)鍵:消融實驗表明,若僅訓(xùn)練Bug注入智能體,模型會陷入“只會搞破壞”的困境;若僅提供固定Bug集讓AI修復(fù),模型則會迅速過擬合。只有讓兩個智能體形成閉環(huán)聯(lián)動,動態(tài)調(diào)整任務(wù)難度,才能持續(xù)產(chǎn)生新挑戰(zhàn),促使模型不斷進(jìn)步。這種機制類似于健身時自動增加重量,始終保持“跳一跳夠得著”的狀態(tài)。

盡管SSR展現(xiàn)了強大的潛力,但其局限性同樣明顯。研究團(tuán)隊在論文中坦承,首先,系統(tǒng)嚴(yán)重依賴單元測試作為評判標(biāo)準(zhǔn),但現(xiàn)實開發(fā)中許多問題(如性能瓶頸、安全漏洞、用戶體驗)無法通過測試腳本量化;其次,目前兩個智能體使用同一模型架構(gòu),尚未探索“強弱對抗”(如用更大模型充當(dāng)出題者)是否更有效;最后,訓(xùn)練過程極不穩(wěn)定,嘗試加入自然語言描述或聚焦單一代碼倉庫時,性能反而下降。這些限制表明,SSR距離“全自動程序員”仍有很大差距。

不過,SSR的意義遠(yuǎn)不止于技術(shù)突破。它標(biāo)志著AI正在從“模仿人類”轉(zhuǎn)向“自我創(chuàng)造學(xué)習(xí)信號”。就像AlphaGo走出人類從未想過的棋路,SSR也可能發(fā)現(xiàn)工程師忽略的缺陷模式或修復(fù)策略。事實上,12月下旬,智譜AI發(fā)布了“伐謀”智能體框架,支持多智能體協(xié)同演化;阿里通義實驗室也宣布Qwen Code Agent進(jìn)入企業(yè)內(nèi)測階段。全球頂尖團(tuán)隊紛紛押注“自主進(jìn)化型AI”,而SSR的獨特之處在于,它幾乎不需要人類監(jiān)督。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新