宇樹發(fā)布開源UnifoLM-VLA-0模型推動通用人形機器人操作能力升級

發(fā)布時間：2026-01-30 01:01 來源：快訊作者：任飛揚

近日，宇樹科技宣布正式開源其最新研發(fā)的通用人形機器人操作大模型——UnifoLM-VLA-0。該模型基于視覺-語言-動作（VLA）架構(gòu)，通過整合機器人操作數(shù)據(jù)與多模態(tài)預(yù)訓(xùn)練技術(shù)，實現(xiàn)了從傳統(tǒng)圖文理解向具備物理交互能力的"具身智能"的跨越式發(fā)展。

針對機器人操作場景中指令理解與空間感知的特殊需求，研發(fā)團隊創(chuàng)新性地構(gòu)建了包含2D/3D空間信息的預(yù)訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集覆蓋2D檢測分割、任務(wù)層級分解、3D目標(biāo)檢測等八大維度，通過持續(xù)預(yù)訓(xùn)練使模型具備精準的空間位置推理能力。實驗數(shù)據(jù)顯示，在真機驗證環(huán)節(jié)，單一策略網(wǎng)絡(luò)即可完成包括抓取、放置、工具使用等在內(nèi)的12類復(fù)雜操作任務(wù)。

技術(shù)實現(xiàn)層面，模型以Qwen2.5-VL-7B開源模型為基礎(chǔ)，通過系統(tǒng)化清洗約340小時真機操作數(shù)據(jù)，構(gòu)建了包含離散動作標(biāo)注的動力學(xué)預(yù)測數(shù)據(jù)集。研發(fā)團隊引入動作分塊預(yù)測機制與雙向動力學(xué)約束，使模型能夠統(tǒng)一建模動作序列，顯著提升對物理交互規(guī)律的理解能力。這種設(shè)計支持長時序動作規(guī)劃，在零樣本測試中展現(xiàn)出強大的任務(wù)泛化性能。

在性能評估方面，該模型在三個權(quán)威空間理解基準測試中均取得突破性進展。對比基線模型Qwen2.5-VL-7B，其空間感知能力提升達47%，在"no thinking"模式下更達到與Gemini-Robotics-ER 1.5相當(dāng)?shù)乃健Ｌ貏e在LIBERO仿真基準測試中，多任務(wù)處理性能接近理論最優(yōu)值，驗證了單模型通用化的可行性。

真機實驗環(huán)節(jié)，基于宇樹G1人形機器人平臺構(gòu)建的12類操作任務(wù)數(shù)據(jù)集發(fā)揮了關(guān)鍵作用。通過統(tǒng)一端到端訓(xùn)練策略，模型在單一策略checkpoint下實現(xiàn)全部任務(wù)穩(wěn)定執(zhí)行，即使在外部擾動條件下仍保持89%以上的任務(wù)成功率。這種抗干擾能力為機器人實際部署提供了重要保障。

目前，該項目已完整開源模型代碼與訓(xùn)練數(shù)據(jù)集，開發(fā)者可通過項目主頁（https://unigen-x.github.io/unifolm-vla.github.io/）獲取技術(shù)文檔，或訪問GitHub倉庫（https://github.com/unitreerobotics/unifolm-vla）參與社區(qū)開發(fā)。此次開源將推動具身智能領(lǐng)域的技術(shù)共享與生態(tài)建設(shè)，為通用人形機器人的商業(yè)化落地奠定基礎(chǔ)。

更多>同類內(nèi)容