媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

高德具身智能新突破:全球15項SOTA領跑,AGI時代機器人操作系統來了

   發布時間:2026-04-19 18:09 作者:趙靜

導航巨頭高德,竟在具身智能領域掀起了一場風暴。當人們還在疑惑一個國民級導航應用為何與機器人、機器狗產生關聯時,高德已帶著首個面向AGI的全棧具身技術體系ABot驚艷亮相,且成績斐然,躋身全球第一梯隊。

在大多數行業玩家還在專注于單點突破時,高德率先實現了數據、模型、Agent從下到上的全面打通。其世界模型在國際挑戰賽中表現卓越,分數超越谷歌、英偉達,ABot體系更是橫掃具身智能全球15項SOTA。這一成績引發了眾人的好奇:一個做導航的,究竟憑什么能在具身智能賽道脫穎而出?

深入探究發現,高德的成功并非僅僅依賴“數據多”。在其ABot全棧具身技術體系中,最底層雖是數據,但高德構建了一個“物理優先、動作可控、閉環進化”的機器人世界操作系統,實現了從“視覺渲染范式”向“可微分物理引擎范式”的根本性轉變。當其他模型還在生成看似真實的視頻時,高德的ABot - World已能輸出符合物理規律的動態變化過程,不僅能說明“發生了什么”,還能解釋“為什么發生”以及“如果這樣做會發生什么”,這也是它成為全球唯一三項指標(物理合規性/動作可控性/零樣本泛化)全面SOTA的關鍵原因。

面對“如何讓機器人理解真實物理世界”這一難題,高德沒有選擇傳統的“采集→標注→訓練”路徑,而是另辟蹊徑,選擇“重建物理世界”。傳統方法成本高、效率低、覆蓋窄,而高德推出的可交互世界模型ABot - World,旨在構建一個可交互、可推演、可進化的機器人世界操作系統。它與數據合成、數據仿真看似思路相似,實則底層邏輯不同。合成仿真類似“照貓畫虎”,追求模擬盡可能逼近真實;而高德基于現成的真實世界數據,將場景還原后供機器人使用,精準度更高。畢竟,高德在精密重建與理解物理世界方面本就具備優勢,每天處理大量來自衛星、街景車、眾包設備的數據,將其轉化為數字世界。

ABot - World采用雙引擎驅動架構,即ABot - 3DGS和ABot - PhysWorld。ABot - 3DGS作為物理世界的“數字孿生工廠”,以高德積累的厘米級城市、道路、室內空間數據及真實軌跡數據為基礎,結合前沿的3DGS技術,構建可編程的數字孿生空間。在這里,數據不受采集條件限制,任意視角、光照、遮擋狀態均可生成,機器人形態也能靈活切換。更重要的是,它能系統性補齊長尾交互場景,通過大規模組合與仿真,提前構造極端情況和突發干擾,將覆蓋率提升至99%。而且,這里的“空間”帶有物理屬性,每個物體都被賦予質量、摩擦系數等參數,構成可計算、可干預的物理環境。例如,調整物體質量或地面摩擦系數,機器人抓取時的力度和軌跡會相應改變。ABot - 3DGS不再是簡單的數據增強工具,而是主動創造了一個比現實更豐富、更可控、更物理一致的“訓練宇宙”。

高德積累的真實時空數據轉化為“機器人能用的訓練材料”,經歷了“一翻譯二重建三Run”的過程。“一翻譯”是將數據轉成機器能讀懂的“多模態Clip”,如騎車經過路口時,高德記錄的不僅是圖像,還包括路口的空間位置、紅綠燈狀態、行為以及周圍環境等信息,打包成千萬級的Clip。“二重建”是ABot - 3DGS將路口、街道、商場等地方重建為萬級規模的3D真實場景,這些場景因自帶物理規則和空間邏輯而“活”起來。“三Run”是將機器人放入場景中,批量生成千萬級訓練軌跡數據。

解決“懂物理”這一行業難題,則依靠ABot - PhysWorld。它基于14B參數的DiT主干構建,是物理思維引擎,回答機器人“如果我這樣動,接下來會發生什么”的核心問題。在數據層面,高德精選300萬條真實操作視頻,用VLM + LLM雙階段標注,構建四層級物理語義結構(意圖→動作→軌跡→物理關系),為因果推理奠定基礎。訓練層面,摒棄傳統MLE(像素相似度優化),引入“物理判別機制”,通過Proposer module和Scorer module將優化目標從“像素相似度”轉向“物理一致性”,用Diffusion - DPO強化合規行為。輸出層面,ABot - PhysWorld的每一幀不僅是像素,更是包含質量、接觸力場、慣性張量的可微分物理狀態快照,支持“動作條件化推演”與“零樣本泛化”。

將兩個引擎結合,ABot - World內部形成了持續增強的“數據 - 模型”飛輪。ABot - 3DGS不斷生成高質量訓練材料,ABot - PhysWorld不斷提升對真實世界的理解。而且,ABot - World具備自我修正能力,支持完整的VLA閉環(預測→執行→反饋→自我修正)。例如,機器人根據推演抓杯子失敗,誤差信號會回傳給ABot - PhysWorld,模型自動調整參數,下次預測更精準。這種“自生長、自修正、自適應”的能力,讓機器人能在真實環境中持續進化。

高德能跑到具身賽道前列,并非偶然。這是從給“人”導航到給“機器人”構建物理世界操作系統的升維。高德的護城河不僅是“數據多”,還有地圖時代積累的空間理解、地圖構建、實時更新能力,尤其是業界領先的POI(興趣點)數據庫和路網語義信息。高德提供的數據帶“語義”,如“這里是星巴克的入口”“前方是人行橫道”等,而行業里大多數機器人的導航訓練僅用幾何坐標和視覺特征。帶語義的數據讓機器人理解“規則”和“常識”,更容易應用到真實世界中。在北京亦莊機器人半馬活動中,高德的四足機器狗已能幫助盲人朋友精準導航。

如今,高德決定將ABot - World開源,為開發者提供統一的、物理合規的、可進化的機器人世界模型操作系統。這一舉措將緩解行業數據不夠、仿真不夠真的問題,推動生態圍繞這一底座快速收斂并加速爆發。高德一邊鋪好底座,一邊帶動生態發展,在具身賽道占據了核心位置。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新