在人工智能領(lǐng)域,多模態(tài)學習一直是備受矚目的研究方向。傳統(tǒng)上,多模態(tài)模型多依賴對比學習、擴散模型等專門路線,而自回歸路線能否成為統(tǒng)一多模態(tài)學習的通用方法,此前一直是未解之謎。近日,我國科研機構(gòu)智源的一項重大成果,為這一問題給出了令人振奮的答案。
智源研究團隊提出了名為Emu3的多模態(tài)模型,該模型僅基于“預(yù)測下一個詞元”這一自回歸路線,便實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學習。這一創(chuàng)新架構(gòu)將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個單一的Transformer。實驗結(jié)果顯示,Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美。在文生圖任務(wù)中,其效果達到擴散模型水平;在視覺語言理解方面,能夠與融合CLIP和大語言模型的主流方案比肩。Emu3還具備視頻生成能力,通過自回歸方式逐詞元預(yù)測視頻序列,實現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。
“預(yù)測下一個詞元”這一概念,自2018年以來在語言模型領(lǐng)域取得了重大突破。GPT采用該自回歸路線,實現(xiàn)了語言大模型的飛躍,開啟了生成式人工智能浪潮。然而,其在多模態(tài)學習中的潛力此前并不明朗。在多模態(tài)模型領(lǐng)域,視覺生成長期由結(jié)構(gòu)復(fù)雜的擴散模型主導(dǎo),視覺語言感知則主要由組合式方法引領(lǐng)。盡管已有一些嘗試試圖統(tǒng)一生成與感知,但這些工作要么簡單拼接不同模型,要么在性能效果上不及專用方法。智源的Emu3模型成功證明了,單一的預(yù)測下一個詞元框架能夠作為通用的多模態(tài)學習范式。
Emu3不僅在性能上表現(xiàn)出色,還具有強大的可拓展性。它能夠自然地擴展到機器人操作以及多模態(tài)交錯等生成任務(wù),例如圖文并茂的菜譜生成、視覺語言動作建模等。研究團隊還對相關(guān)研究的多項關(guān)鍵技術(shù)與模型進行了開源,其中包括一個穩(wěn)定且通用的視覺分詞器,可將圖像與視頻高效轉(zhuǎn)換為離散詞元來表示。同時,通過大規(guī)模消融實驗,系統(tǒng)分析了多項關(guān)鍵技術(shù)的設(shè)計選擇,如分詞器碼本尺寸、初始化策略、多模態(tài)dropout機制以及損失權(quán)重配置等,揭示了多模態(tài)自回歸模型在訓(xùn)練過程中的動態(tài)特性。直接偏好優(yōu)化(DPO)方法可無縫應(yīng)用于自回歸視覺生成任務(wù),使模型能夠更好地對齊人類偏好。
基于Emu3的研究成果,悟界·Emu3.5進一步實現(xiàn)了重大升級。它通過大規(guī)模長時序視頻訓(xùn)練,學習時空與因果關(guān)系,展現(xiàn)出隨模型與數(shù)據(jù)規(guī)模增長而提升的物理世界建模能力,并觀察到多模態(tài)能力隨規(guī)模擴展而涌現(xiàn)的趨勢,實現(xiàn)了從“預(yù)測下一個詞元”到“預(yù)測下一個狀態(tài)”的范式升級。這一成果對構(gòu)建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義,為統(tǒng)一多模態(tài)學習奠定了堅實基礎(chǔ),有望推動原生多模態(tài)助手、世界模型以及具身智能等方向的發(fā)展。
Emu系列模型的研發(fā)歷程,見證了智源研究團隊在多模態(tài)大模型領(lǐng)域的持續(xù)探索與創(chuàng)新。自2022年啟動研發(fā)以來,Emu系列模型圍繞“原生多模態(tài)”這一核心技術(shù)主線不斷迭代。2023年7月,發(fā)布并開源首個版本,成為最早打通多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)模型;2023年12月,發(fā)布Emu2,展現(xiàn)出可泛化的多模態(tài)上下文學習能力;2024年10月,發(fā)布Emu3,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成;2025年10月,推出原生多模態(tài)世界模型Emu3.5,實現(xiàn)能力躍遷。這一系列成果的取得,離不開智源長期聚焦大模型的原始創(chuàng)新與長期技術(shù)路徑探索。
自2020年啟動“悟道”大模型研究以來,智源持續(xù)發(fā)力人工智能領(lǐng)域。2025年6月,發(fā)布新一代大模型系列“悟界”,旨在構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力,及物理世界的人工智能基座模型。這其中包括Emu系列多模態(tài)世界模型、RoboBrain跨本體具身大腦等多個重要模型,構(gòu)建起覆蓋宏觀具身智能、介觀生命系統(tǒng)到微觀構(gòu)象動力學的多層次技術(shù)基座。FlagOS開源系統(tǒng)軟件棧更是為模型的訓(xùn)練和推理帶來效率突破和多元AI硬件適配能力。成立七年來,智源聚焦人工智能技術(shù)前沿,不斷挑戰(zhàn)最基礎(chǔ)的問題和最關(guān)鍵的難題,推進大模型技術(shù)持續(xù)演進。















