AI視覺新突破：強(qiáng)化學(xué)習(xí)打破傳統(tǒng)瓶頸，LENS引領(lǐng)技術(shù)新方向-資訊速遞-媒體界

AI視覺新突破：強(qiáng)化學(xué)習(xí)打破傳統(tǒng)瓶頸，LENS引領(lǐng)技術(shù)新方向

發(fā)布時(shí)間：2026-01-04 22:04 來源：快訊作者：顧雨柔

在人工智能視覺領(lǐng)域，一場關(guān)于技術(shù)路徑的深刻變革正在悄然展開。傳統(tǒng)監(jiān)督式微調(diào)方法長期占據(jù)主導(dǎo)地位，但其靜態(tài)模式匹配的特性導(dǎo)致泛化能力受限，尤其在處理復(fù)雜推理任務(wù)時(shí)表現(xiàn)乏力。近期AAAI 2026會(huì)議上，LENS框架的提出為突破這一瓶頸提供了全新思路，其通過強(qiáng)化學(xué)習(xí)機(jī)制重新定義了視覺分割的范式。

傳統(tǒng)方法的核心問題在于將"思考"與"執(zhí)行"過程割裂。以同期Seg-Zero為代表的非端到端架構(gòu)，需先由推理模型生成邊界框，再由分割模型執(zhí)行操作。這種分離式設(shè)計(jì)導(dǎo)致誤差單向傳播——初始定位偏差會(huì)直接導(dǎo)致最終失敗，且缺乏自我修正能力。實(shí)驗(yàn)數(shù)據(jù)顯示，在復(fù)雜指令場景下，此類方法的性能衰減幅度超過30%。

LENS框架通過端到端聯(lián)合優(yōu)化機(jī)制破解了這一難題。其核心創(chuàng)新在于構(gòu)建了"推理-橋接-分割"三位一體架構(gòu)：多模態(tài)大語言模型（如Qwen2.5-VL-3B-Instruct）作為認(rèn)知中樞，負(fù)責(zé)生成思維鏈推理和初步定位；上下文模塊充當(dāng)信息轉(zhuǎn)換器，將推理軌跡轉(zhuǎn)化為分割提示；SAM2-Large分割模型則完成最終像素級(jí)輸出。這種設(shè)計(jì)使系統(tǒng)具備動(dòng)態(tài)糾錯(cuò)能力，即便初始定位存在偏差，仍能通過反饋閉環(huán)實(shí)現(xiàn)自我優(yōu)化。

研究團(tuán)隊(duì)特別設(shè)計(jì)的統(tǒng)一強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵突破。該機(jī)制包含三個(gè)監(jiān)督維度：格式獎(jiǎng)勵(lì)確保推理過程符合結(jié)構(gòu)規(guī)范，邊界框IoU獎(jiǎng)勵(lì)監(jiān)控定位精度，分割掩碼IoU獎(jiǎng)勵(lì)評估像素級(jí)質(zhì)量。通過將Group Relative Policy Optimization目標(biāo)與監(jiān)督損失結(jié)合，LENS實(shí)現(xiàn)了推理改進(jìn)與分割優(yōu)化的雙向驅(qū)動(dòng)。實(shí)驗(yàn)表明，這種設(shè)計(jì)使系統(tǒng)在定位錯(cuò)誤率達(dá)15%時(shí)仍能保持82%的分割準(zhǔn)確率。

在性能驗(yàn)證環(huán)節(jié)，LENS展現(xiàn)出顯著優(yōu)勢。RefCOCO系列基準(zhǔn)測試中，其平均cIoU達(dá)到81.2%，刷新世界紀(jì)錄；在更具挑戰(zhàn)性的GroundingSuite-eval零樣本測試中，以78.3%的cIoU領(lǐng)先第二名近10個(gè)百分點(diǎn)。特別在處理長尾指令和域外數(shù)據(jù)時(shí)，LENS的泛化能力較傳統(tǒng)方法提升40%以上，驗(yàn)證了強(qiáng)化學(xué)習(xí)路徑的普適價(jià)值。

這項(xiàng)研究重新定義了視覺語言系統(tǒng)的構(gòu)建邏輯。不同于傳統(tǒng)方法依賴海量標(biāo)注數(shù)據(jù)的模式，LENS通過獎(jiǎng)勵(lì)機(jī)制實(shí)現(xiàn)動(dòng)態(tài)學(xué)習(xí)，更接近人類認(rèn)知過程。其端到端特性不僅解決了誤差傳播難題，更開創(chuàng)了推理與分割協(xié)同優(yōu)化的新范式。隨著強(qiáng)化學(xué)習(xí)在視覺領(lǐng)域的深入應(yīng)用，這類自適應(yīng)系統(tǒng)有望推動(dòng)人工智能向更通用、更穩(wěn)健的方向發(fā)展。

更多>同類內(nèi)容