阿里巴巴(BABA.US)近日宣布推出世界模型產(chǎn)品HappyOyster,這款基于原生多模態(tài)架構(gòu)的生成式AI系統(tǒng),在音視頻聯(lián)合生成領(lǐng)域?qū)崿F(xiàn)突破性進(jìn)展。該產(chǎn)品由阿里ATH創(chuàng)新事業(yè)部研發(fā)團(tuán)隊(duì)打造,與旗下另一項(xiàng)目HappyHorse共享核心技術(shù)團(tuán)隊(duì),標(biāo)志著中國(guó)科技企業(yè)在前沿模型領(lǐng)域的持續(xù)探索。
與傳統(tǒng)文生視頻模型依賴提示詞輸入的被動(dòng)生成模式不同,HappyOyster采用長(zhǎng)時(shí)序世界演化建模技術(shù),通過(guò)融合文本指令、動(dòng)作軌跡和圖像信號(hào)等多維度控制參數(shù),主動(dòng)模擬物理空間與因果關(guān)系演變。這種技術(shù)路徑與谷歌Genie3同屬世界模擬器流派,在生成質(zhì)量、時(shí)序連貫性和內(nèi)容可控性之間實(shí)現(xiàn)協(xié)同優(yōu)化。
產(chǎn)品核心功能包含"漫游"與"導(dǎo)演"雙模式:漫游模式支持用戶進(jìn)行長(zhǎng)達(dá)1分鐘的連續(xù)位移操作和鏡頭控制,生成畫面保持高分辨率與風(fēng)格一致性;導(dǎo)演模式則突破性地實(shí)現(xiàn)3分鐘以上480p/720p實(shí)時(shí)生成,允許在任意時(shí)間節(jié)點(diǎn)通過(guò)多模態(tài)指令修改劇情走向或調(diào)整角色行為。目前兩種模式尚未完全融合,但開發(fā)團(tuán)隊(duì)透露未來(lái)將向"探索-創(chuàng)作"一體化方向迭代。
該模型在應(yīng)用場(chǎng)景測(cè)試中展現(xiàn)出顯著優(yōu)勢(shì):游戲行業(yè)可降低30%以上的場(chǎng)景構(gòu)建成本,影視制作周期縮短40%,文旅領(lǐng)域?qū)崿F(xiàn)虛擬場(chǎng)景的實(shí)時(shí)交互升級(jí),教育領(lǐng)域則通過(guò)動(dòng)態(tài)模擬提升教學(xué)沉浸感。技術(shù)團(tuán)隊(duì)特別強(qiáng)調(diào),通過(guò)空間物理引擎與因果推理模塊的深度耦合,系統(tǒng)能準(zhǔn)確呈現(xiàn)物體碰撞、光影變化等復(fù)雜物理現(xiàn)象。
據(jù)技術(shù)白皮書披露,HappyOyster的架構(gòu)創(chuàng)新體現(xiàn)在三方面:一是構(gòu)建了跨模態(tài)的統(tǒng)一表征空間,實(shí)現(xiàn)文本、圖像、動(dòng)作的語(yǔ)義對(duì)齊;二是開發(fā)了動(dòng)態(tài)時(shí)序編碼器,可處理長(zhǎng)達(dá)10分鐘的連續(xù)交互數(shù)據(jù);三是引入物理約束模塊,確保生成內(nèi)容符合現(xiàn)實(shí)世界規(guī)律。目前該模型已在GitHub開源部分基礎(chǔ)組件,供開發(fā)者進(jìn)行二次開發(fā)。















