国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

小紅書(shū)與復(fù)旦聯(lián)手推出InstanceAssemble,AI繪畫(huà)精準(zhǔn)構(gòu)圖新突破

   發(fā)布時(shí)間:2025-12-27 04:02 作者:蘇婉清

AI繪畫(huà)領(lǐng)域迎來(lái)重要突破,小紅書(shū)與復(fù)旦大學(xué)聯(lián)合研發(fā)的InstanceAssemble技術(shù),在布局控制生成(Layout-to-Image)方向取得創(chuàng)新性成果。該技術(shù)通過(guò)構(gòu)建"實(shí)例組裝注意力"機(jī)制,實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的精準(zhǔn)圖像生成,相關(guān)研究已被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2025收錄。

區(qū)別于傳統(tǒng)的文字生成圖像(Text-to-Image)技術(shù),布局控制生成需要同時(shí)滿足空間位置約束和語(yǔ)義內(nèi)容要求。現(xiàn)有技術(shù)普遍存在三大難題:物體位置偏移、語(yǔ)義內(nèi)容脫節(jié)以及計(jì)算資源消耗過(guò)大。研究團(tuán)隊(duì)針對(duì)這些痛點(diǎn),開(kāi)發(fā)出能夠精確控制每個(gè)物體位置與內(nèi)容的生成方案,將AI繪畫(huà)的構(gòu)圖精度提升到新高度。

核心技術(shù)突破在于創(chuàng)新設(shè)計(jì)的"實(shí)例拼裝注意力"模塊。該機(jī)制基于擴(kuò)散變換器架構(gòu),通過(guò)解析用戶提供的邊界框坐標(biāo)和內(nèi)容描述,在指定位置生成符合語(yǔ)義的圖像元素。實(shí)驗(yàn)數(shù)據(jù)顯示,在包含90萬(wàn)個(gè)實(shí)例的密集場(chǎng)景測(cè)試中,新技術(shù)在布局對(duì)齊準(zhǔn)確率和語(yǔ)義一致性方面均顯著優(yōu)于現(xiàn)有方法。

為降低技術(shù)使用門(mén)檻,研究團(tuán)隊(duì)采用輕量化適配策略。僅需調(diào)整約7100萬(wàn)個(gè)參數(shù)(相當(dāng)于Stable Diffusion3-Medium模型總參數(shù)的3.46%),即可實(shí)現(xiàn)模型升級(jí)。當(dāng)適配Flux.1模型時(shí),額外參數(shù)需求更降至0.84%,這種高效適配方案大幅減少了計(jì)算資源消耗。

研究團(tuán)隊(duì)同步構(gòu)建了專業(yè)評(píng)估體系,包含5000張圖像和9萬(wàn)個(gè)實(shí)例的"Denselayout"基準(zhǔn)測(cè)試集,以及全新的布局匹配度評(píng)分標(biāo)準(zhǔn)(LGS)。測(cè)試結(jié)果表明,經(jīng)過(guò)稀疏場(chǎng)景訓(xùn)練的模型(實(shí)例數(shù)≤10),在密集場(chǎng)景(實(shí)例數(shù)≥10)中仍能保持穩(wěn)定性能,展現(xiàn)出強(qiáng)大的場(chǎng)景適應(yīng)能力。這項(xiàng)突破為AI繪畫(huà)技術(shù)的商業(yè)化應(yīng)用開(kāi)辟了新路徑。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容
本欄最新