螞蟻靈波科技近日宣布推出并開源其自主研發(fā)的世界模型LingBot-World,這一框架專為交互式環(huán)境模擬設計,通過高保真、可控且邏輯一致的模擬能力,為生成式AI與具身智能的融合提供了新的技術路徑。該模型在視頻生成穩(wěn)定性、動態(tài)交互響應及長時序一致性等核心指標上達到行業(yè)領先水平,部分能力已接近谷歌Genie 3的表現。
針對視頻生成領域長期存在的“長時漂移”難題,LingBot-World通過多階段訓練架構與并行計算優(yōu)化,實現了近10分鐘的連續(xù)穩(wěn)定輸出。在極端測試中,即使鏡頭移開60秒后返回,模型仍能保持場景中物體結構與空間關系的完整性。例如,在高動態(tài)交通場景中,車輛形態(tài)與道路布局在長時間交互后依然保持精準對應;城市建筑群在晝夜交替模擬中,門窗結構與外墻紋理均未出現扭曲或消失現象。這種突破為復雜任務訓練提供了可靠的數字仿真環(huán)境。
交互性能方面,該模型支持16 FPS的實時生成吞吐量,端到端響應延遲控制在1秒以內。用戶可通過鍵盤、鼠標或文本指令直接操控虛擬角色與相機視角,系統(tǒng)能即時反饋天氣變化、風格遷移等環(huán)境調整,同時確保所有操作不破壞場景的幾何一致性。在虛幻引擎合成的純凈數據訓練下,模型甚至能理解“推開窗戶會引入自然光”這類物理因果關系,使交互行為更具真實感。
為解決交互數據稀缺問題,研發(fā)團隊采用混合采集策略:一方面從海量網絡視頻中篩選多樣化場景,另一方面通過游戲引擎與合成管線生成無UI干擾的高質量數據。這種數據構建方式使模型具備強大的零樣本泛化能力——僅需輸入單張城市街景照片或游戲截圖,即可自動生成對應的可交互視頻流,無需針對特定場景重新訓練。在機器人導航測試中,模型成功模擬了從繁華商業(yè)區(qū)到老舊居民區(qū)的連續(xù)路徑規(guī)劃,展現了跨場景適應能力。
在具身智能應用層面,LingBot-World通過數字孿生技術構建了低成本試錯空間。智能體可在虛擬環(huán)境中預演抓取、搬運等物理操作,系統(tǒng)會精準模擬物體受力變形、碰撞反饋等物理效應。更關鍵的是,模型支持光照條件、物體擺放位置等參數的動態(tài)調整,這種場景多樣化生成能力顯著提升了算法在真實世界中的遷移效率。例如,在倉儲機器人訓練中,通過隨機改變貨架布局與光照強度,模型幫助算法快速適應不同倉庫環(huán)境。
隨著LingBot-World的開源,開發(fā)者可通過Hugging Face、魔搭社區(qū)及GitHub獲取完整代碼庫與技術文檔。該模型的推出標志著螞蟻在具身智能領域完成重要布局,其“基礎模型-通用應用-實體交互”的技術棧正逐步清晰。通過將物理感知能力注入數字世界,這項技術有望推動機器人學習、自動駕駛仿真等產業(yè)進入開放場景適應的新階段。















