在人工智能技術(shù)快速迭代的當(dāng)下,一場關(guān)于工程化能力的較量正在全球范圍內(nèi)展開。近日,百度自主研發(fā)的企業(yè)級算法自主優(yōu)化智能體"伐謀"(Famou)在權(quán)威評測基準(zhǔn)MLE-Bench上以顯著優(yōu)勢登頂,其2.0版本更是在排除數(shù)據(jù)泄露爭議后,以64.44分的成績穩(wěn)居榜首。這項成就不僅驗證了中國AI團(tuán)隊在系統(tǒng)編排工程領(lǐng)域的突破,更標(biāo)志著AI技術(shù)從實驗室走向產(chǎn)業(yè)應(yīng)用的轉(zhuǎn)折點(diǎn)。
MLE-Bench評測體系以其嚴(yán)苛的實戰(zhàn)標(biāo)準(zhǔn)著稱,該基準(zhǔn)選取75個來自Kaggle競賽的真實工程難題,要求AI智能體獨(dú)立完成從需求理解到解決方案輸出的全流程。與常規(guī)評測不同,這項測試不考察單一模型能力,而是重點(diǎn)評估系統(tǒng)在模型訓(xùn)練、數(shù)據(jù)預(yù)處理、實驗迭代等復(fù)雜任務(wù)中的綜合表現(xiàn)。百度伐謀的勝利,意味著其已具備替代人類算法工程師處理復(fù)雜工程問題的能力。
這場評測背后的競爭遠(yuǎn)比表面分?jǐn)?shù)激烈。今年2月,某創(chuàng)業(yè)團(tuán)隊通過利用測試機(jī)制漏洞,在部分任務(wù)中取得近乎完美的零誤差成績,引發(fā)學(xué)術(shù)界對評測公正性的質(zhì)疑。經(jīng)核查發(fā)現(xiàn),該團(tuán)隊智能體通過接收私有測試集反饋信號,并調(diào)用外部網(wǎng)絡(luò)數(shù)據(jù)實現(xiàn)"作弊"。事件曝光后,評測方緊急設(shè)立清潔賽道,百度伐謀憑借無數(shù)據(jù)泄露的純凈表現(xiàn)重返榜首,這場風(fēng)波也暴露出AI工程化領(lǐng)域存在的標(biāo)準(zhǔn)缺失問題。
支撐伐謀突破的核心技術(shù),是被稱為"系統(tǒng)編排工程"(Harness Engineering)的新范式。這項技術(shù)將AI系統(tǒng)比作精密儀器,通過構(gòu)建權(quán)限管理、記憶機(jī)制、工具編排和糾錯循環(huán)四大支柱,確保智能體在開放環(huán)境中穩(wěn)定運(yùn)行。百度研發(fā)團(tuán)隊特別強(qiáng)調(diào),伐謀2.0版本放棄了追求最新基座模型的傳統(tǒng)路徑,轉(zhuǎn)而專注系統(tǒng)架構(gòu)優(yōu)化,這種"反直覺"決策最終證明其工程化思路的正確性。
在汽車研發(fā)領(lǐng)域,伐謀已展現(xiàn)出顛覆性價值。亞洲最大獨(dú)立汽車設(shè)計公司阿爾特將其應(yīng)用于氣動設(shè)計優(yōu)化,將原本需要10小時的風(fēng)阻系數(shù)驗證縮短至數(shù)分鐘,預(yù)測誤差控制在5%以內(nèi)。這種效率躍升使整車研發(fā)周期壓縮25%,設(shè)計師得以實現(xiàn)"邊設(shè)計邊驗證"的并行工作模式。更值得關(guān)注的是,系統(tǒng)在演化過程中自主發(fā)現(xiàn)了人類工程師未曾考慮的優(yōu)化路徑,這種創(chuàng)造性突破正在重新定義工程設(shè)計的可能性邊界。
金融風(fēng)控場景的實踐同樣令人矚目。中信百信銀行引入伐謀后,特征挖掘效率提升100%,系統(tǒng)在7×24小時運(yùn)行中捕捉到多個高價值風(fēng)險指標(biāo),使風(fēng)控模型的風(fēng)險區(qū)分度提升2.41%。這種提升直接轉(zhuǎn)化為業(yè)務(wù)價值:銀行在保持風(fēng)險可控的前提下,優(yōu)質(zhì)客戶識別準(zhǔn)確率顯著提高,普惠金融服務(wù)的覆蓋范圍得以擴(kuò)大。
在科研前沿領(lǐng)域,伐謀正在推動研究范式變革。北京工業(yè)大學(xué)將其應(yīng)用于空間站空氣質(zhì)量監(jiān)測設(shè)備研發(fā),通過自我演化找到氣相色譜柱的最優(yōu)構(gòu)型,突破傳統(tǒng)設(shè)計極限。天津大學(xué)在災(zāi)害預(yù)警模型選優(yōu)中,將原本需要數(shù)周的試驗周期壓縮至6小時,使地質(zhì)災(zāi)害預(yù)測的時效性獲得質(zhì)的提升。這些案例表明,AI智能體已能承擔(dān)科研中最耗時的算法演化工作,讓人類專家得以專注科學(xué)本質(zhì)問題的探索。
當(dāng)前,全球AI競爭焦點(diǎn)正從模型參數(shù)規(guī)模轉(zhuǎn)向系統(tǒng)工程能力。百度伐謀的實踐證明,通過構(gòu)建完善的智能體架構(gòu),可使AI系統(tǒng)在開放環(huán)境中自主解決復(fù)雜問題。這種轉(zhuǎn)變不僅要求技術(shù)突破,更需要建立適應(yīng)工程化需求的新標(biāo)準(zhǔn)體系。隨著更多產(chǎn)業(yè)場景的解鎖,系統(tǒng)編排工程或?qū)⒅匦露x人工智能的技術(shù)邊界與應(yīng)用價值。















