智能手機(jī)拍照時(shí)自動(dòng)識(shí)別場(chǎng)景中的物體,AI繪畫工具根據(jù)文字描述生成藝術(shù)作品——這些日常應(yīng)用背后,隱藏著一個(gè)困擾人工智能領(lǐng)域多年的核心矛盾:視覺理解與圖像生成需要完全不同的技術(shù)路徑。前者如同精密顯微鏡,需捕捉語義層面的抽象信息;后者則像工筆畫師,必須精確控制每個(gè)像素的細(xì)節(jié)。這種矛盾長(zhǎng)期制約著AI視覺系統(tǒng)的整體發(fā)展,直到一支跨國研究團(tuán)隊(duì)提出突破性解決方案。
由清華大學(xué)、華中科技大學(xué)與快手科技Kolors團(tuán)隊(duì)聯(lián)合研發(fā)的VQRAE技術(shù),在2025年11月發(fā)表的論文中首次實(shí)現(xiàn)了視覺理解與生成任務(wù)的統(tǒng)一架構(gòu)。這項(xiàng)被比喻為"雙焦眼鏡"的創(chuàng)新技術(shù),使AI系統(tǒng)能夠同時(shí)具備兩種核心能力:既能像文學(xué)評(píng)論家般分析圖像內(nèi)涵,又能如數(shù)字藝術(shù)家般創(chuàng)作全新畫面。研究團(tuán)隊(duì)通過純Vision Transformer架構(gòu)與高維語義量化技術(shù),成功訓(xùn)練出利用率達(dá)100%的編碼本,包含16384個(gè)1536維的"視覺詞匯",徹底顛覆了傳統(tǒng)向量量化方法的設(shè)計(jì)范式。
技術(shù)突破的核心在于創(chuàng)造性的雙階段訓(xùn)練策略。第一階段凍結(jié)預(yù)訓(xùn)練視覺基礎(chǔ)模型,專注訓(xùn)練量化模塊與對(duì)稱解碼器,確保語義理解能力不受影響;第二階段解凍整個(gè)編碼器,通過自蒸餾機(jī)制維持原有特征提取能力,同時(shí)優(yōu)化圖像重建質(zhì)量。這種漸進(jìn)式訓(xùn)練方式不僅解決了統(tǒng)一架構(gòu)中的任務(wù)沖突問題,更使系統(tǒng)在ImageNet-50k驗(yàn)證集上取得1.31的rFID分?jǐn)?shù)、22.23的PSNR值和0.762的SSIM值,超越多數(shù)傳統(tǒng)方法。
實(shí)驗(yàn)數(shù)據(jù)顯示,VQRAE在多模態(tài)理解任務(wù)中展現(xiàn)出驚人實(shí)力。在MME-Perception、SEED-Bench等標(biāo)準(zhǔn)測(cè)試集上,該技術(shù)達(dá)到與專用理解模型相當(dāng)甚至更優(yōu)的性能,且無需額外訓(xùn)練——僅需替換現(xiàn)有模型的視覺編碼器即可實(shí)現(xiàn)性能提升。在視覺生成任務(wù)中,0.6B參數(shù)的輕量級(jí)模型在Geneval和DPG-Bench基準(zhǔn)上達(dá)到與更大規(guī)模模型相當(dāng)?shù)乃剑C明高質(zhì)量離散表示對(duì)自回歸生成的關(guān)鍵作用。
研究團(tuán)隊(duì)通過消融實(shí)驗(yàn)揭示了多項(xiàng)關(guān)鍵發(fā)現(xiàn):編碼本維度需達(dá)到1536維才能避免訓(xùn)練崩潰,16384個(gè)條目構(gòu)成最佳平衡點(diǎn);自蒸餾約束的權(quán)重設(shè)置直接影響語義理解與生成質(zhì)量的平衡;純ViT架構(gòu)在視覺重建任務(wù)中展現(xiàn)出超越卷積網(wǎng)絡(luò)的潛力。這些發(fā)現(xiàn)為未來統(tǒng)一視覺模型的設(shè)計(jì)提供了重要指導(dǎo)原則,特別是在高維語義特征處理與訓(xùn)練策略優(yōu)化方面。
技術(shù)實(shí)現(xiàn)細(xì)節(jié)處處體現(xiàn)精妙設(shè)計(jì):采用SigLIP2-so400m和InternViT-300M等預(yù)訓(xùn)練模型作為基礎(chǔ),解碼器使用與編碼器完全對(duì)稱的ViT結(jié)構(gòu);量化過程引入SimVQ方法提升靈活性;損失函數(shù)融合重建損失、感知損失與對(duì)抗損失;數(shù)據(jù)增強(qiáng)策略避免破壞語義信息。這些設(shè)計(jì)共同確保了系統(tǒng)在復(fù)雜場(chǎng)景下的穩(wěn)定表現(xiàn),特別是在處理人物肖像、自然風(fēng)景等多樣化視覺內(nèi)容時(shí)展現(xiàn)出強(qiáng)大泛化能力。
實(shí)際應(yīng)用場(chǎng)景已顯現(xiàn)清晰輪廓。內(nèi)容創(chuàng)作領(lǐng)域?qū)⒄Q生新一代智能助手,能夠同時(shí)理解用戶意圖并生成高質(zhì)量圖像;教育系統(tǒng)可基于學(xué)生理解水平動(dòng)態(tài)生成個(gè)性化視覺教材;醫(yī)療影像分析有望實(shí)現(xiàn)病理識(shí)別與標(biāo)準(zhǔn)化對(duì)比圖像生成的統(tǒng)一處理;游戲引擎將具備實(shí)時(shí)生成新場(chǎng)景與角色的能力。參與研究的快手科技透露,相關(guān)技術(shù)已進(jìn)入產(chǎn)品化驗(yàn)證階段,預(yù)計(jì)1-2年內(nèi)面向普通用戶推出。
盡管當(dāng)前技術(shù)在處理文字密集圖像或高細(xì)節(jié)區(qū)域時(shí)仍存在局限,但研究團(tuán)隊(duì)通過聚類分析驗(yàn)證了系統(tǒng)表示質(zhì)量:連續(xù)語義特征聚焦語義相似性,離散標(biāo)記關(guān)注紋理細(xì)節(jié),這種分化特性正是統(tǒng)一架構(gòu)的理想狀態(tài)。隨著模型規(guī)模擴(kuò)大與訓(xùn)練數(shù)據(jù)積累,這些邊界問題有望逐步解決。該成果不僅為構(gòu)建通用人工智能奠定基礎(chǔ),更預(yù)示著AI工具將向更智能、更靈活的方向進(jìn)化,最終成為能夠適應(yīng)多元需求的智能伙伴。















