国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進業(yè)內(nèi)人士交流分享!

宇樹發(fā)布開源UnifoLM-VLA-0模型 推動通用人形機器人操作能力升級

   發(fā)布時間:2026-01-30 01:01 作者:任飛揚

近日,宇樹科技宣布正式開源其最新研發(fā)的通用人形機器人操作大模型——UnifoLM-VLA-0。該模型基于視覺-語言-動作(VLA)架構(gòu),通過整合機器人操作數(shù)據(jù)與多模態(tài)預(yù)訓(xùn)練技術(shù),實現(xiàn)了從傳統(tǒng)圖文理解向具備物理交互能力的"具身智能"的跨越式發(fā)展。

針對機器人操作場景中指令理解與空間感知的特殊需求,研發(fā)團隊創(chuàng)新性地構(gòu)建了包含2D/3D空間信息的預(yù)訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集覆蓋2D檢測分割、任務(wù)層級分解、3D目標(biāo)檢測等八大維度,通過持續(xù)預(yù)訓(xùn)練使模型具備精準的空間位置推理能力。實驗數(shù)據(jù)顯示,在真機驗證環(huán)節(jié),單一策略網(wǎng)絡(luò)即可完成包括抓取、放置、工具使用等在內(nèi)的12類復(fù)雜操作任務(wù)。

技術(shù)實現(xiàn)層面,模型以Qwen2.5-VL-7B開源模型為基礎(chǔ),通過系統(tǒng)化清洗約340小時真機操作數(shù)據(jù),構(gòu)建了包含離散動作標(biāo)注的動力學(xué)預(yù)測數(shù)據(jù)集。研發(fā)團隊引入動作分塊預(yù)測機制與雙向動力學(xué)約束,使模型能夠統(tǒng)一建模動作序列,顯著提升對物理交互規(guī)律的理解能力。這種設(shè)計支持長時序動作規(guī)劃,在零樣本測試中展現(xiàn)出強大的任務(wù)泛化性能。

在性能評估方面,該模型在三個權(quán)威空間理解基準測試中均取得突破性進展。對比基線模型Qwen2.5-VL-7B,其空間感知能力提升達47%,在"no thinking"模式下更達到與Gemini-Robotics-ER 1.5相當(dāng)?shù)乃健L貏e在LIBERO仿真基準測試中,多任務(wù)處理性能接近理論最優(yōu)值,驗證了單模型通用化的可行性。

真機實驗環(huán)節(jié),基于宇樹G1人形機器人平臺構(gòu)建的12類操作任務(wù)數(shù)據(jù)集發(fā)揮了關(guān)鍵作用。通過統(tǒng)一端到端訓(xùn)練策略,模型在單一策略checkpoint下實現(xiàn)全部任務(wù)穩(wěn)定執(zhí)行,即使在外部擾動條件下仍保持89%以上的任務(wù)成功率。這種抗干擾能力為機器人實際部署提供了重要保障。

目前,該項目已完整開源模型代碼與訓(xùn)練數(shù)據(jù)集,開發(fā)者可通過項目主頁(https://unigen-x.github.io/unifolm-vla.github.io/)獲取技術(shù)文檔,或訪問GitHub倉庫(https://github.com/unitreerobotics/unifolm-vla)參與社區(qū)開發(fā)。此次開源將推動具身智能領(lǐng)域的技術(shù)共享與生態(tài)建設(shè),為通用人形機器人的商業(yè)化落地奠定基礎(chǔ)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新