螞蟻靈波科技開源世界模型LingBot-World，長時生成穩(wěn)定交互能力直逼谷歌Genie3

發(fā)布時間：2026-01-30 03:05 來源：快訊作者：趙磊

螞蟻靈波科技近日宣布推出并開源其自主研發(fā)的世界模型LingBot-World，這一框架專為交互式環(huán)境模擬設計，通過高保真、可控且邏輯一致的模擬能力，為生成式AI與具身智能的融合提供了新的技術路徑。該模型在視頻生成穩(wěn)定性、動態(tài)交互響應及長時序一致性等核心指標上達到行業(yè)領先水平，部分能力已接近谷歌Genie 3的表現。

針對視頻生成領域長期存在的“長時漂移”難題，LingBot-World通過多階段訓練架構與并行計算優(yōu)化，實現了近10分鐘的連續(xù)穩(wěn)定輸出。在極端測試中，即使鏡頭移開60秒后返回，模型仍能保持場景中物體結構與空間關系的完整性。例如，在高動態(tài)交通場景中，車輛形態(tài)與道路布局在長時間交互后依然保持精準對應；城市建筑群在晝夜交替模擬中，門窗結構與外墻紋理均未出現扭曲或消失現象。這種突破為復雜任務訓練提供了可靠的數字仿真環(huán)境。

交互性能方面，該模型支持16 FPS的實時生成吞吐量，端到端響應延遲控制在1秒以內。用戶可通過鍵盤、鼠標或文本指令直接操控虛擬角色與相機視角，系統(tǒng)能即時反饋天氣變化、風格遷移等環(huán)境調整，同時確保所有操作不破壞場景的幾何一致性。在虛幻引擎合成的純凈數據訓練下，模型甚至能理解“推開窗戶會引入自然光”這類物理因果關系，使交互行為更具真實感。

為解決交互數據稀缺問題，研發(fā)團隊采用混合采集策略：一方面從海量網絡視頻中篩選多樣化場景，另一方面通過游戲引擎與合成管線生成無UI干擾的高質量數據。這種數據構建方式使模型具備強大的零樣本泛化能力——僅需輸入單張城市街景照片或游戲截圖，即可自動生成對應的可交互視頻流，無需針對特定場景重新訓練。在機器人導航測試中，模型成功模擬了從繁華商業(yè)區(qū)到老舊居民區(qū)的連續(xù)路徑規(guī)劃，展現了跨場景適應能力。

在具身智能應用層面，LingBot-World通過數字孿生技術構建了低成本試錯空間。智能體可在虛擬環(huán)境中預演抓取、搬運等物理操作，系統(tǒng)會精準模擬物體受力變形、碰撞反饋等物理效應。更關鍵的是，模型支持光照條件、物體擺放位置等參數的動態(tài)調整，這種場景多樣化生成能力顯著提升了算法在真實世界中的遷移效率。例如，在倉儲機器人訓練中，通過隨機改變貨架布局與光照強度，模型幫助算法快速適應不同倉庫環(huán)境。

隨著LingBot-World的開源，開發(fā)者可通過Hugging Face、魔搭社區(qū)及GitHub獲取完整代碼庫與技術文檔。該模型的推出標志著螞蟻在具身智能領域完成重要布局，其“基礎模型-通用應用-實體交互”的技術棧正逐步清晰。通過將物理感知能力注入數字世界，這項技術有望推動機器人學習、自動駕駛仿真等產業(yè)進入開放場景適應的新階段。

更多>同類內容