媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

馬斯克畫的餅,波士頓動力要實現了?

   發布時間:2024-10-29 16:04 作者:陸辰風

文 | 有界UnKnown

人形機器人行業又迎來一對新的強強聯合。

近期,波士頓動力宣稱,會使用豐田研究所的“大型行為模型”來訓練機器人,它類似于驅動ChatGPT的“大型語言模型”,可以讓機器人通過少量演示數據和多模態感知來掌握復雜任務,走向通用機器人。

在過去,這條技術路徑一直是馬斯克為Optimus(下稱“擎天柱”)畫的“餅”,想借此實現通用人形機器人。

今年10月初,馬斯克以《We, Robot》為主題在加州開了一場“科幻”味兒十足的發布會。在現場,擎天柱以服務員的身份一邊為賓客調酒,一邊抬手打招呼說著“Hi,everybody”,甚至在現場和賓客熱舞。

但發布會結束后,有現場賓客卻表示,擎天柱“親口”向他承認,自己是被遠程遙控的。而整個發布會,馬斯克也沒有透露關于擎天柱的任何技術細節。

看似自主的機器人,依舊離不開人類的遠程遙控。

馬斯克似乎做了一個雙面鏡,一面是真實的擎天柱仍然做著人類的提線木偶;而另一面,他又用一種近乎虛假的方式為人們構畫出一個可能實現的未來。

但顯而易見,馬斯克并沒有興趣解答擎天柱當前的研發進度,那么作為馬斯克在機器人領域的強敵, 波士頓動力這次與豐田研究所的聯合,能將馬斯克畫的餅實現嗎?

波士頓動力,率先走到終點?

想要完成馬斯克這張拼圖,擎天柱需要擁有與人類和環境交互的能力。

比如將機器人放在廚房,它首先要能識別出自己所處場景是“廚房”。然后,當人類告訴他要做一道菜時,它可以主動從冰箱拿出食材、清洗、切菜、并按步驟烹飪。

要實現這個過程,意味著機器人能夠自主辨別什么是冰箱,并移動到冰箱前,打開冰箱門,在眾多食材中找到需要的食材,取出來,然后結合各種工具進行清洗.....

這個過程對人類來說十分簡單,但對機器人而言卻十分困難。

當前無論是老牌人形機器人波士頓動力的Atlas,還是“新貴”擎天柱、Figure,都只能在受限制的環境里執行單一任務,比如在案板前將已經分揀好的各種蔬果拿起或者放下。

▲Figure01拾取水果,圖源YouTube@Figure

▲Optimus Gen2拾取雞蛋,圖源YouTube@Tesla

要知道這其中的區別,可以想一想咱們自己家里的冰箱,當各種食材被混雜在一起、用透明塑料袋裝著的時候,識別難度就會高于單個的西紅柿、紅薯。

所以如果將機器人自主做出一頓飯的難度,比作是登上珠穆朗瑪峰,那么現在的人形機器人才剛剛坐進學步車。對,它還沒有學會“走路”。

而更重要的是,當前機器人學習新技能的效率十分低下,比如學會了疊衣服之后,轉而疊被子就要重新學習大量數據。

為了克服這個難題,波士頓動力和豐田研究院團隊采用一種新的AI系統“大型行為模型”訓練機器人,通過物理演示任務(例如觀看視頻)進行教學,來幫助將Atlas打造成一款自主性能力強的通用人形機器人。

經過這套“大型行為模型”的訓練,機器人可以通過少量數據學習新技能,這種方法叫做“擴散策略”,這套策略可以探索多種不同的路徑,并根據實時情況選擇最佳方案,它可以幫助機器人更好地應對不確定性的環境,比如突然的障礙或任務變化。

豐田研究院公布了關于這一成果的報告,其中有一個通俗案例可以解釋這個策略:

經過擴散策略訓練的機器人,可以做醬汁燒注和涂抹任務,需要將醬汁涂抹在披薩面團中心,分拆步驟來看:①握住勺子接近披薩面團中心;②將醬汁以螺旋狀鋪在披薩上;③提起勺子。

▲論文《擴散政策:通過動作擴散進行視覺運動策略學習》

在這個過程里,披薩面團會隨機移動,而機器人可以“隨機應變”,它能跟隨披薩面團中心位置的遷移而即時挪動勺子。

根據豐田工作人員透露,學會這個能力并不費勁,“這個過程從老師遠程操作演示一小部分技能開始”,機器人晚上學習,第二天就可以獲得新技能。也就是說,它用少量數據向機器人演示,便能夠讓機器人獲得“泛化”能力。

和傳統的機器人學習相比,這種行為模型就像運動界的ChatGPT一樣,給它一點行為上的Prompt,就能泛化出一套完成任務的操作軌跡和應變能力。

但并不是任何人形機器人都能適配這套策略,擴散策略更依賴視覺數據,這就需要硬件上擁有高精度視覺傳感器,還要擁有抓取復雜和精細物體操作能力。

這也是目前波士頓動力面臨的挑戰。

其最新款人形機器人Atlas目前并不具備實現“自主”的硬性條件,它既沒有靈巧手,又缺乏生活場景的數據。

Atlas機器人雖然具備一定的抓握能力,但其手部設計相對簡單,只有三指,并且常用場景是應急救援和工廠搬運,對于生活場景的數據也相對缺乏。

與此相比,特斯拉的擎天柱卻顯得更有優勢。

比如在視覺數據上,特斯拉的自動駕駛一直堅持純視覺的解決方案,目前市場上運行著將近600萬輛特斯拉汽車,可以積累大量的視覺數據。

其次擎天柱在靈巧手、關節有更接近人類的設計。在特斯拉最新展示的視頻里,擎天柱可以走到桌邊,用雙手的“指尖”舉起重11kg的4680電池盒。

這雙機械手已經擁有22個自由度,分布在手指、手腕和小指下方,而年初手部擁有11個自由度的第二代擎天柱,所有手指都具有觸覺感應,能夠靈巧地處理雞蛋等易碎物品。

▲擎天柱舉起電池,圖源:Tesla@YouTube

 
 
更多>同類內容
全站最新
熱門內容
本欄最新