在人工智能視覺領(lǐng)域,一場關(guān)于技術(shù)路徑的深刻變革正在悄然展開。傳統(tǒng)監(jiān)督式微調(diào)方法長期占據(jù)主導(dǎo)地位,但其靜態(tài)模式匹配的特性導(dǎo)致泛化能力受限,尤其在處理復(fù)雜推理任務(wù)時(shí)表現(xiàn)乏力。近期AAAI 2026會(huì)議上,LENS框架的提出為突破這一瓶頸提供了全新思路,其通過強(qiáng)化學(xué)習(xí)機(jī)制重新定義了視覺分割的范式。
傳統(tǒng)方法的核心問題在于將"思考"與"執(zhí)行"過程割裂。以同期Seg-Zero為代表的非端到端架構(gòu),需先由推理模型生成邊界框,再由分割模型執(zhí)行操作。這種分離式設(shè)計(jì)導(dǎo)致誤差單向傳播——初始定位偏差會(huì)直接導(dǎo)致最終失敗,且缺乏自我修正能力。實(shí)驗(yàn)數(shù)據(jù)顯示,在復(fù)雜指令場景下,此類方法的性能衰減幅度超過30%。
LENS框架通過端到端聯(lián)合優(yōu)化機(jī)制破解了這一難題。其核心創(chuàng)新在于構(gòu)建了"推理-橋接-分割"三位一體架構(gòu):多模態(tài)大語言模型(如Qwen2.5-VL-3B-Instruct)作為認(rèn)知中樞,負(fù)責(zé)生成思維鏈推理和初步定位;上下文模塊充當(dāng)信息轉(zhuǎn)換器,將推理軌跡轉(zhuǎn)化為分割提示;SAM2-Large分割模型則完成最終像素級(jí)輸出。這種設(shè)計(jì)使系統(tǒng)具備動(dòng)態(tài)糾錯(cuò)能力,即便初始定位存在偏差,仍能通過反饋閉環(huán)實(shí)現(xiàn)自我優(yōu)化。
研究團(tuán)隊(duì)特別設(shè)計(jì)的統(tǒng)一強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵突破。該機(jī)制包含三個(gè)監(jiān)督維度:格式獎(jiǎng)勵(lì)確保推理過程符合結(jié)構(gòu)規(guī)范,邊界框IoU獎(jiǎng)勵(lì)監(jiān)控定位精度,分割掩碼IoU獎(jiǎng)勵(lì)評估像素級(jí)質(zhì)量。通過將Group Relative Policy Optimization目標(biāo)與監(jiān)督損失結(jié)合,LENS實(shí)現(xiàn)了推理改進(jìn)與分割優(yōu)化的雙向驅(qū)動(dòng)。實(shí)驗(yàn)表明,這種設(shè)計(jì)使系統(tǒng)在定位錯(cuò)誤率達(dá)15%時(shí)仍能保持82%的分割準(zhǔn)確率。
在性能驗(yàn)證環(huán)節(jié),LENS展現(xiàn)出顯著優(yōu)勢。RefCOCO系列基準(zhǔn)測試中,其平均cIoU達(dá)到81.2%,刷新世界紀(jì)錄;在更具挑戰(zhàn)性的GroundingSuite-eval零樣本測試中,以78.3%的cIoU領(lǐng)先第二名近10個(gè)百分點(diǎn)。特別在處理長尾指令和域外數(shù)據(jù)時(shí),LENS的泛化能力較傳統(tǒng)方法提升40%以上,驗(yàn)證了強(qiáng)化學(xué)習(xí)路徑的普適價(jià)值。
這項(xiàng)研究重新定義了視覺語言系統(tǒng)的構(gòu)建邏輯。不同于傳統(tǒng)方法依賴海量標(biāo)注數(shù)據(jù)的模式,LENS通過獎(jiǎng)勵(lì)機(jī)制實(shí)現(xiàn)動(dòng)態(tài)學(xué)習(xí),更接近人類認(rèn)知過程。其端到端特性不僅解決了誤差傳播難題,更開創(chuàng)了推理與分割協(xié)同優(yōu)化的新范式。隨著強(qiáng)化學(xué)習(xí)在視覺領(lǐng)域的深入應(yīng)用,這類自適應(yīng)系統(tǒng)有望推動(dòng)人工智能向更通用、更穩(wěn)健的方向發(fā)展。















