近日,一款名為LingBot-World的通用世界模型正式開源,引發科技圈廣泛關注。這款由螞蟻靈波團隊開發的模型,不僅在視覺效果上可與DeepMind的Genie 3媲美,更在時間維度和交互性上實現突破,支持長達10分鐘的持續生成與實時交互。
用戶可通過鍵盤(WASD)和鼠標控制視角移動,如同操作3A游戲般自由探索虛擬世界。更令人驚嘆的是,模型支持自然語言指令實時修改場景——輸入"前面放個煙花"或"變成冰雪世界",系統會從初始圖像出發,按要求動態生成連貫畫面。這種"言出法隨"的交互方式,讓虛擬世界真正"活"了起來。
在技術實現上,LingBot-World展現出三大核心優勢。首先是跨時長的一致性表現,無論是科幻場景中的光圈特效,還是復雜環境下的物體運動,都能保持高度連貫。其次具備長期記憶能力,即使鏡頭短暫移開,系統仍能準確推斷離屏物體的行為軌跡。更關鍵的是,模型嚴格遵循物理規律,當虛擬貓咪撞到沙發時,會自然產生碰撞反應而非穿模而過。
該模型的成功源于獨特的技術路徑。數據層面,團隊構建了混合數據引擎:一方面收集海量真實世界視頻,另一方面利用虛幻引擎生成帶物理碰撞信息的合成數據。通過分層標注策略,將視頻描述拆解為敘事、靜態場景和密集時序三個層級,幫助模型更好理解環境與運動的解耦關系。
模型訓練采用三階段進化策略:預訓練階段聚焦通用視頻生成能力,中訓練階段通過混合專家架構注入物理規律和交互邏輯,后訓練階段引入因果注意力機制將推理延遲壓縮至1秒以內。這種漸進式優化,使模型在長時序生成、空間記憶和實時響應等關鍵指標上超越同類產品。
值得注意的是,LingBot-World選擇完全開源的策略,與Genie 3形成鮮明對比。這一決定獲得開發者社區熱烈響應,被認為"為具身智能研究提供了關鍵基礎設施"。配套發布的還有LingBot-Depth掩碼深度建模和LingBot-VLA視覺語言動作模型,三者共同構成完整的感知-決策-模擬技術棧。
這套組合方案展現出強大的協同效應:LingBot-VLA可在虛擬環境中進行千萬次推演,以極低成本學習物理規律;LingBot-World生成的高一致性視頻可轉化為3D點云數據,反哺LingBot-Depth的深度感知能力;真實世界反饋又能持續優化模擬環境的物理準確性。這種閉環設計,為機器人訓練提供了高效低成本的解決方案。
目前,項目已公開技術論文和完整代碼庫,并提供在線演示和模型權重下載。開發者可通過GitHub和項目主頁獲取詳細文檔,體驗這個能"理解"物理規律、"記住"場景變化的虛擬世界引擎。隨著社區參與度的提升,這項技術有望在機器人訓練、游戲開發、自動駕駛等領域催生更多創新應用。















