近日,科技領(lǐng)域迎來一項(xiàng)重要突破——宇樹科技正式開源其最新研發(fā)的視覺-語言-動作(VLA)大模型UnifoLM-VLA-0。這款模型專為通用人形機(jī)器人操作設(shè)計(jì),標(biāo)志著人工智能在物理交互領(lǐng)域邁出關(guān)鍵一步。
傳統(tǒng)視覺-語言模型(VLM)在處理物理世界任務(wù)時(shí)存在明顯短板,例如難以理解空間關(guān)系、缺乏物理常識等。UnifoLM-VLA-0通過針對性預(yù)訓(xùn)練,成功突破這些限制。研發(fā)團(tuán)隊(duì)在機(jī)器人操作數(shù)據(jù)集上進(jìn)行了深度優(yōu)化,使模型能夠從單純的"圖文理解"升級為具備物理認(rèn)知能力的"具身大腦"。這種進(jìn)化讓機(jī)器人不僅能"看懂"指令,更能"感受"環(huán)境、預(yù)測動作結(jié)果。
技術(shù)實(shí)現(xiàn)層面,該模型創(chuàng)新性地融合了多模態(tài)感知與空間推理能力。針對操作任務(wù)中常見的指令理解難題,模型通過構(gòu)建文本指令與2D/3D空間信息的映射關(guān)系,顯著提升了空間定位精度。更值得關(guān)注的是,研發(fā)團(tuán)隊(duì)引入全鏈路動力學(xué)預(yù)測數(shù)據(jù),使模型能夠模擬物理世界的因果關(guān)系,從而在未接觸過的場景中也能生成合理動作策略。
實(shí)際測試數(shù)據(jù)印證了技術(shù)突破的價(jià)值。在真實(shí)機(jī)器人驗(yàn)證環(huán)節(jié),UnifoLM-VLA-0僅需單一策略就完成了12類復(fù)雜操作任務(wù),包括精密裝配、動態(tài)避障等高難度場景。任務(wù)完成質(zhì)量達(dá)到行業(yè)領(lǐng)先水平,特別是在需要多步驟協(xié)同的操作中,模型展現(xiàn)出的泛化能力令人矚目。這項(xiàng)成果為服務(wù)機(jī)器人、工業(yè)自動化等領(lǐng)域提供了新的技術(shù)路徑。















