智源Emu3模型登Nature：自回歸路線引領(lǐng)多模態(tài)學習新突破

發(fā)布時間：2026-01-29 15:39 來源：快訊作者：鐘景軒

在人工智能領(lǐng)域，多模態(tài)學習一直是備受矚目的研究方向。傳統(tǒng)上，多模態(tài)模型多依賴對比學習、擴散模型等專門路線，而自回歸路線能否成為統(tǒng)一多模態(tài)學習的通用方法，此前一直是未解之謎。近日，我國科研機構(gòu)智源的一項重大成果，為這一問題給出了令人振奮的答案。

智源研究團隊提出了名為Emu3的多模態(tài)模型，該模型僅基于“預(yù)測下一個詞元”這一自回歸路線，便實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學習。這一創(chuàng)新架構(gòu)將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間，并從零開始，在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個單一的Transformer。實驗結(jié)果顯示，Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美。在文生圖任務(wù)中，其效果達到擴散模型水平；在視覺語言理解方面，能夠與融合CLIP和大語言模型的主流方案比肩。Emu3還具備視頻生成能力，通過自回歸方式逐詞元預(yù)測視頻序列，實現(xiàn)基于因果的視頻生成與延展，展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。

“預(yù)測下一個詞元”這一概念，自2018年以來在語言模型領(lǐng)域取得了重大突破。GPT采用該自回歸路線，實現(xiàn)了語言大模型的飛躍，開啟了生成式人工智能浪潮。然而，其在多模態(tài)學習中的潛力此前并不明朗。在多模態(tài)模型領(lǐng)域，視覺生成長期由結(jié)構(gòu)復(fù)雜的擴散模型主導(dǎo)，視覺語言感知則主要由組合式方法引領(lǐng)。盡管已有一些嘗試試圖統(tǒng)一生成與感知，但這些工作要么簡單拼接不同模型，要么在性能效果上不及專用方法。智源的Emu3模型成功證明了，單一的預(yù)測下一個詞元框架能夠作為通用的多模態(tài)學習范式。

Emu3不僅在性能上表現(xiàn)出色，還具有強大的可拓展性。它能夠自然地擴展到機器人操作以及多模態(tài)交錯等生成任務(wù)，例如圖文并茂的菜譜生成、視覺語言動作建模等。研究團隊還對相關(guān)研究的多項關(guān)鍵技術(shù)與模型進行了開源，其中包括一個穩(wěn)定且通用的視覺分詞器，可將圖像與視頻高效轉(zhuǎn)換為離散詞元來表示。同時，通過大規(guī)模消融實驗，系統(tǒng)分析了多項關(guān)鍵技術(shù)的設(shè)計選擇，如分詞器碼本尺寸、初始化策略、多模態(tài)dropout機制以及損失權(quán)重配置等，揭示了多模態(tài)自回歸模型在訓(xùn)練過程中的動態(tài)特性。直接偏好優(yōu)化（DPO）方法可無縫應(yīng)用于自回歸視覺生成任務(wù)，使模型能夠更好地對齊人類偏好。

基于Emu3的研究成果，悟界·Emu3.5進一步實現(xiàn)了重大升級。它通過大規(guī)模長時序視頻訓(xùn)練，學習時空與因果關(guān)系，展現(xiàn)出隨模型與數(shù)據(jù)規(guī)模增長而提升的物理世界建模能力，并觀察到多模態(tài)能力隨規(guī)模擴展而涌現(xiàn)的趨勢，實現(xiàn)了從“預(yù)測下一個詞元”到“預(yù)測下一個狀態(tài)”的范式升級。這一成果對構(gòu)建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義，為統(tǒng)一多模態(tài)學習奠定了堅實基礎(chǔ)，有望推動原生多模態(tài)助手、世界模型以及具身智能等方向的發(fā)展。

Emu系列模型的研發(fā)歷程，見證了智源研究團隊在多模態(tài)大模型領(lǐng)域的持續(xù)探索與創(chuàng)新。自2022年啟動研發(fā)以來，Emu系列模型圍繞“原生多模態(tài)”這一核心技術(shù)主線不斷迭代。2023年7月，發(fā)布并開源首個版本，成為最早打通多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)模型；2023年12月，發(fā)布Emu2，展現(xiàn)出可泛化的多模態(tài)上下文學習能力；2024年10月，發(fā)布Emu3，無需擴散模型或組合方法，即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成；2025年10月，推出原生多模態(tài)世界模型Emu3.5，實現(xiàn)能力躍遷。這一系列成果的取得，離不開智源長期聚焦大模型的原始創(chuàng)新與長期技術(shù)路徑探索。

自2020年啟動“悟道”大模型研究以來，智源持續(xù)發(fā)力人工智能領(lǐng)域。2025年6月，發(fā)布新一代大模型系列“悟界”，旨在構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力，及物理世界的人工智能基座模型。這其中包括Emu系列多模態(tài)世界模型、RoboBrain跨本體具身大腦等多個重要模型，構(gòu)建起覆蓋宏觀具身智能、介觀生命系統(tǒng)到微觀構(gòu)象動力學的多層次技術(shù)基座。FlagOS開源系統(tǒng)軟件棧更是為模型的訓(xùn)練和推理帶來效率突破和多元AI硬件適配能力。成立七年來，智源聚焦人工智能技術(shù)前沿，不斷挑戰(zhàn)最基礎(chǔ)的問題和最關(guān)鍵的難題，推進大模型技術(shù)持續(xù)演進。

更多>同類內(nèi)容