螞蟻靈波開源LingBot-World世界模型，具身智能閉環生態再進一步

發布時間：2026-01-30 18:03 來源：快訊作者：周琳

近日，一款名為LingBot-World的通用世界模型正式開源，引發科技圈廣泛關注。這款由螞蟻靈波團隊開發的模型，不僅在視覺效果上可與DeepMind的Genie 3媲美，更在時間維度和交互性上實現突破，支持長達10分鐘的持續生成與實時交互。

用戶可通過鍵盤（WASD）和鼠標控制視角移動，如同操作3A游戲般自由探索虛擬世界。更令人驚嘆的是，模型支持自然語言指令實時修改場景——輸入"前面放個煙花"或"變成冰雪世界"，系統會從初始圖像出發，按要求動態生成連貫畫面。這種"言出法隨"的交互方式，讓虛擬世界真正"活"了起來。

在技術實現上，LingBot-World展現出三大核心優勢。首先是跨時長的一致性表現，無論是科幻場景中的光圈特效，還是復雜環境下的物體運動，都能保持高度連貫。其次具備長期記憶能力，即使鏡頭短暫移開，系統仍能準確推斷離屏物體的行為軌跡。更關鍵的是，模型嚴格遵循物理規律，當虛擬貓咪撞到沙發時，會自然產生碰撞反應而非穿模而過。

該模型的成功源于獨特的技術路徑。數據層面，團隊構建了混合數據引擎：一方面收集海量真實世界視頻，另一方面利用虛幻引擎生成帶物理碰撞信息的合成數據。通過分層標注策略，將視頻描述拆解為敘事、靜態場景和密集時序三個層級，幫助模型更好理解環境與運動的解耦關系。

模型訓練采用三階段進化策略：預訓練階段聚焦通用視頻生成能力，中訓練階段通過混合專家架構注入物理規律和交互邏輯，后訓練階段引入因果注意力機制將推理延遲壓縮至1秒以內。這種漸進式優化，使模型在長時序生成、空間記憶和實時響應等關鍵指標上超越同類產品。

值得注意的是，LingBot-World選擇完全開源的策略，與Genie 3形成鮮明對比。這一決定獲得開發者社區熱烈響應，被認為"為具身智能研究提供了關鍵基礎設施"。配套發布的還有LingBot-Depth掩碼深度建模和LingBot-VLA視覺語言動作模型，三者共同構成完整的感知-決策-模擬技術棧。

這套組合方案展現出強大的協同效應：LingBot-VLA可在虛擬環境中進行千萬次推演，以極低成本學習物理規律；LingBot-World生成的高一致性視頻可轉化為3D點云數據，反哺LingBot-Depth的深度感知能力；真實世界反饋又能持續優化模擬環境的物理準確性。這種閉環設計，為機器人訓練提供了高效低成本的解決方案。

目前，項目已公開技術論文和完整代碼庫，并提供在線演示和模型權重下載。開發者可通過GitHub和項目主頁獲取詳細文檔，體驗這個能"理解"物理規律、"記住"場景變化的虛擬世界引擎。隨著社區參與度的提升，這項技術有望在機器人訓練、游戲開發、自動駕駛等領域催生更多創新應用。

更多>同類內容