當人們還在討論AI能否生成逼真視頻時,Google悄然推出了一項名為Project Genie的實驗性項目——一個允許用戶實時創(chuàng)建并交互的虛擬世界生成器。這項技術突破了傳統(tǒng)AI僅能處理文本或靜態(tài)圖像的局限,通過整合圖像生成、語言理解和物理模擬三大模塊,構建出可動態(tài)響應人類操作的沉浸式環(huán)境。
項目負責人將其運作機制類比為人類夢境:系統(tǒng)通過Nano Banana Pro模塊生成視覺畫面,Gemini模型解析語言指令,而核心的Genie 3物理引擎則確保虛擬環(huán)境遵循現(xiàn)實規(guī)律。與依賴物理公式的傳統(tǒng)模擬不同,該引擎通過分析數(shù)百萬段物體運動視頻,自主掌握了重力、慣性等基礎物理特性。這種"觀察學習"模式使其能模擬從沙漠行走到外星球駕駛等多樣化場景。
在Google AI團隊發(fā)布的演示視頻中,產(chǎn)品宣傳委員Josh Woodward展示了完整操作流程:他將個人照片轉化為復古游戲角色,輸入"牛仔在沙漠探索"的指令后,系統(tǒng)立即生成可交互的3D環(huán)境。用戶通過鍵盤方向鍵移動時,系統(tǒng)會實時預測地形變化并生成新畫面,整個過程如同操控開放世界游戲,但所有場景均由AI即時生成而非預先設計。
這項技術面臨顯著的技術挑戰(zhàn)。為控制計算成本,當前版本將單次體驗限制在60秒內(nèi)——開發(fā)團隊解釋稱,更長時間會導致畫面邏輯斷裂,出現(xiàn)物體懸浮或運動軌跡異常等情況。早期測試者反饋,外星球駕駛場景存在約0.5秒的操作延遲,自定義指令響應率約為70%,但已能保留角色動作邏輯,例如從沙漠切換到賽博城市時,牛仔的奔跑姿勢會自動適配新環(huán)境。
相較于娛樂應用,Project Genie更被寄予突破AI發(fā)展瓶頸的厚望。隨著互聯(lián)網(wǎng)高質(zhì)量文本數(shù)據(jù)趨于枯竭,具身智能(Embodied AI)成為新焦點——機器人無法通過閱讀掌握洗碗技能,必須通過實際操作積累經(jīng)驗。Genie 3的物理引擎可生成數(shù)十億個虛擬訓練場,讓AI代理在模擬廚房、倉庫等環(huán)境中反復試錯,這種合成數(shù)據(jù)生成方式將大幅降低機器人訓練成本。
教育領域已浮現(xiàn)具體應用場景。開發(fā)團隊設想,歷史教師可通過指令生成18世紀巴黎街道,讓學生"親歷"法國大革命;心理治療師能創(chuàng)建可控的恐懼環(huán)境,幫助患者逐步脫敏。盡管當前版本存在畫質(zhì)粗糙、無法多人聯(lián)機等缺陷,但測試者@yrzhe_top仍評價:"雖然只實現(xiàn)了承諾的七成,但這種創(chuàng)造世界的自由度已足夠震撼。"
值得關注的是,螞蟻集團同期開源的LingBot-VA模型也展現(xiàn)出類似思路。該模型在生成畫面時同步推演動作序列,使機器人能像人類一樣"邊思考邊操作",在疊衣物、拆快遞等家務任務中表現(xiàn)出色。這些進展表明,AI正從處理信息向模擬現(xiàn)實邁進,而Project Genie的物理引擎或許會成為這場變革的關鍵基礎設施。















