AI繪畫(huà)領(lǐng)域迎來(lái)重要突破,小紅書(shū)與復(fù)旦大學(xué)聯(lián)合研發(fā)的InstanceAssemble技術(shù),在布局控制生成(Layout-to-Image)方向取得創(chuàng)新性成果。該技術(shù)通過(guò)構(gòu)建"實(shí)例組裝注意力"機(jī)制,實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的精準(zhǔn)圖像生成,相關(guān)研究已被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2025收錄。
區(qū)別于傳統(tǒng)的文字生成圖像(Text-to-Image)技術(shù),布局控制生成需要同時(shí)滿足空間位置約束和語(yǔ)義內(nèi)容要求。現(xiàn)有技術(shù)普遍存在三大難題:物體位置偏移、語(yǔ)義內(nèi)容脫節(jié)以及計(jì)算資源消耗過(guò)大。研究團(tuán)隊(duì)針對(duì)這些痛點(diǎn),開(kāi)發(fā)出能夠精確控制每個(gè)物體位置與內(nèi)容的生成方案,將AI繪畫(huà)的構(gòu)圖精度提升到新高度。
核心技術(shù)突破在于創(chuàng)新設(shè)計(jì)的"實(shí)例拼裝注意力"模塊。該機(jī)制基于擴(kuò)散變換器架構(gòu),通過(guò)解析用戶提供的邊界框坐標(biāo)和內(nèi)容描述,在指定位置生成符合語(yǔ)義的圖像元素。實(shí)驗(yàn)數(shù)據(jù)顯示,在包含90萬(wàn)個(gè)實(shí)例的密集場(chǎng)景測(cè)試中,新技術(shù)在布局對(duì)齊準(zhǔn)確率和語(yǔ)義一致性方面均顯著優(yōu)于現(xiàn)有方法。
為降低技術(shù)使用門(mén)檻,研究團(tuán)隊(duì)采用輕量化適配策略。僅需調(diào)整約7100萬(wàn)個(gè)參數(shù)(相當(dāng)于Stable Diffusion3-Medium模型總參數(shù)的3.46%),即可實(shí)現(xiàn)模型升級(jí)。當(dāng)適配Flux.1模型時(shí),額外參數(shù)需求更降至0.84%,這種高效適配方案大幅減少了計(jì)算資源消耗。
研究團(tuán)隊(duì)同步構(gòu)建了專業(yè)評(píng)估體系,包含5000張圖像和9萬(wàn)個(gè)實(shí)例的"Denselayout"基準(zhǔn)測(cè)試集,以及全新的布局匹配度評(píng)分標(biāo)準(zhǔn)(LGS)。測(cè)試結(jié)果表明,經(jīng)過(guò)稀疏場(chǎng)景訓(xùn)練的模型(實(shí)例數(shù)≤10),在密集場(chǎng)景(實(shí)例數(shù)≥10)中仍能保持穩(wěn)定性能,展現(xiàn)出強(qiáng)大的場(chǎng)景適應(yīng)能力。這項(xiàng)突破為AI繪畫(huà)技術(shù)的商業(yè)化應(yīng)用開(kāi)辟了新路徑。















