小紅書(shū)與復(fù)旦聯(lián)手推出InstanceAssemble，AI繪畫(huà)精準(zhǔn)構(gòu)圖新突破-企業(yè)快訊-媒體界

小紅書(shū)與復(fù)旦聯(lián)手推出InstanceAssemble，AI繪畫(huà)精準(zhǔn)構(gòu)圖新突破

發(fā)布時(shí)間：2025-12-27 04:02 來(lái)源：快訊作者：蘇婉清

AI繪畫(huà)領(lǐng)域迎來(lái)重要突破，小紅書(shū)與復(fù)旦大學(xué)聯(lián)合研發(fā)的InstanceAssemble技術(shù)，在布局控制生成（Layout-to-Image）方向取得創(chuàng)新性成果。該技術(shù)通過(guò)構(gòu)建"實(shí)例組裝注意力"機(jī)制，實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的精準(zhǔn)圖像生成，相關(guān)研究已被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2025收錄。

區(qū)別于傳統(tǒng)的文字生成圖像（Text-to-Image）技術(shù)，布局控制生成需要同時(shí)滿足空間位置約束和語(yǔ)義內(nèi)容要求。現(xiàn)有技術(shù)普遍存在三大難題：物體位置偏移、語(yǔ)義內(nèi)容脫節(jié)以及計(jì)算資源消耗過(guò)大。研究團(tuán)隊(duì)針對(duì)這些痛點(diǎn)，開(kāi)發(fā)出能夠精確控制每個(gè)物體位置與內(nèi)容的生成方案，將AI繪畫(huà)的構(gòu)圖精度提升到新高度。

核心技術(shù)突破在于創(chuàng)新設(shè)計(jì)的"實(shí)例拼裝注意力"模塊。該機(jī)制基于擴(kuò)散變換器架構(gòu)，通過(guò)解析用戶提供的邊界框坐標(biāo)和內(nèi)容描述，在指定位置生成符合語(yǔ)義的圖像元素。實(shí)驗(yàn)數(shù)據(jù)顯示，在包含90萬(wàn)個(gè)實(shí)例的密集場(chǎng)景測(cè)試中，新技術(shù)在布局對(duì)齊準(zhǔn)確率和語(yǔ)義一致性方面均顯著優(yōu)于現(xiàn)有方法。

為降低技術(shù)使用門(mén)檻，研究團(tuán)隊(duì)采用輕量化適配策略。僅需調(diào)整約7100萬(wàn)個(gè)參數(shù)（相當(dāng)于Stable Diffusion3-Medium模型總參數(shù)的3.46%），即可實(shí)現(xiàn)模型升級(jí)。當(dāng)適配Flux.1模型時(shí)，額外參數(shù)需求更降至0.84%，這種高效適配方案大幅減少了計(jì)算資源消耗。

研究團(tuán)隊(duì)同步構(gòu)建了專業(yè)評(píng)估體系，包含5000張圖像和9萬(wàn)個(gè)實(shí)例的"Denselayout"基準(zhǔn)測(cè)試集，以及全新的布局匹配度評(píng)分標(biāo)準(zhǔn)（LGS）。測(cè)試結(jié)果表明，經(jīng)過(guò)稀疏場(chǎng)景訓(xùn)練的模型（實(shí)例數(shù)≤10），在密集場(chǎng)景（實(shí)例數(shù)≥10）中仍能保持穩(wěn)定性能，展現(xiàn)出強(qiáng)大的場(chǎng)景適應(yīng)能力。這項(xiàng)突破為AI繪畫(huà)技術(shù)的商業(yè)化應(yīng)用開(kāi)辟了新路徑。

更多>同類(lèi)內(nèi)容