在機(jī)器人技術(shù)領(lǐng)域,OpenAI正以一種低調(diào)卻堅定的姿態(tài)推進(jìn)其人形機(jī)器人項(xiàng)目。據(jù)內(nèi)部消息及行業(yè)觀察,這家以大語言模型聞名的公司,正將戰(zhàn)略重心轉(zhuǎn)向物理世界動作的智能化,通過構(gòu)建龐大的數(shù)據(jù)采集體系,為具身智能的突破奠定基礎(chǔ)。
與特斯拉、Figure等公司直接研發(fā)整機(jī)人形機(jī)器人不同,OpenAI選擇了一條更“底層”的路徑。其在舊金山設(shè)立的實(shí)驗(yàn)室雖規(guī)模不大,卻聚集了近百名合同工,以三班倒的方式全天候采集數(shù)據(jù)。這些數(shù)據(jù)并非來自高精尖的傳感器或復(fù)雜場景,而是聚焦于家庭中最日常的任務(wù)——將橡皮鴨放入杯子、把面包片塞進(jìn)烤面包機(jī)、疊放衣物等。這些看似簡單的動作,實(shí)則因環(huán)境變量多、操作標(biāo)準(zhǔn)模糊,成為機(jī)器人學(xué)習(xí)的“硬骨頭”。
實(shí)驗(yàn)室的核心設(shè)備是德國公司Franka提供的機(jī)械臂,搭配3D打印的低成本控制器GELLO。數(shù)據(jù)采集人員通過遠(yuǎn)程操控機(jī)械臂完成任務(wù),同時,多角度攝像頭會記錄操作者的手部動作與機(jī)械臂的軌跡。系統(tǒng)會從中篩選出“有效工時”,即那些動作規(guī)范、可復(fù)現(xiàn)的數(shù)據(jù)片段,用于訓(xùn)練模型。這一流程與OpenAI早期訓(xùn)練大語言模型時依賴人工標(biāo)注數(shù)據(jù)的模式高度相似,只是將對象從語言擴(kuò)展到了物理動作。
這種“機(jī)械臂+低成本控制器”的方案,相比依賴動捕服或VR設(shè)備操控整機(jī)人形機(jī)器人的路線,具有顯著優(yōu)勢。它不僅降低了硬件成本,更關(guān)鍵的是,能更精準(zhǔn)地建立人類動作與機(jī)器人執(zhí)行之間的映射關(guān)系。例如,當(dāng)人類用特定力度捏起面包片時,機(jī)械臂可以復(fù)現(xiàn)相同的力度和軌跡,而無需通過復(fù)雜的算法推測“應(yīng)該用多大勁”。
OpenAI對機(jī)器人技術(shù)路徑的調(diào)整,源于對早期強(qiáng)化學(xué)習(xí)局限性的深刻認(rèn)識。過去,公司曾嘗試讓機(jī)器人在試錯中通過獎勵機(jī)制學(xué)習(xí)動作,但現(xiàn)實(shí)世界的復(fù)雜性使得這種方法成本高昂、效率低下。例如,一個簡單的“開門”動作,可能因門把手材質(zhì)、門軸阻力、環(huán)境光線等變量而需要數(shù)千次試錯,且難以保證每次都能成功。如今,公司轉(zhuǎn)向“先模仿,再泛化”的策略——通過大規(guī)模、結(jié)構(gòu)化的數(shù)據(jù)采集,讓模型先“看懂”人類如何完成任務(wù),再逐步提升其在不同場景下的適應(yīng)能力。
這一戰(zhàn)略調(diào)整也解釋了為何實(shí)驗(yàn)室目前專注于機(jī)械臂而非整機(jī)人形機(jī)器人。在OpenAI看來,機(jī)器人技術(shù)的真正瓶頸不在于外形是否像人,而在于能否穩(wěn)定、可重復(fù)地完成真實(shí)世界任務(wù)。例如,疊衣服時如何處理不同材質(zhì)的布料、如何根據(jù)衣物大小調(diào)整折疊方式,這些細(xì)節(jié)的標(biāo)準(zhǔn)化才是當(dāng)前階段的核心挑戰(zhàn)。
盡管硬件項(xiàng)目尚未被納入公司核心戰(zhàn)略,但實(shí)驗(yàn)室的擴(kuò)張速度已顯示出OpenAI的決心。不到一年時間,團(tuán)隊(duì)規(guī)模已擴(kuò)大數(shù)倍,并計劃在加州里士滿設(shè)立第二個基地。同時,公司開始尋求美國本土制造伙伴,覆蓋消費(fèi)級設(shè)備、機(jī)器人及數(shù)據(jù)中心等多個方向。這些動作表明,OpenAI正在為具身智能的長期發(fā)展提前布局,即便短期內(nèi)不推出產(chǎn)品,也要確保在數(shù)據(jù)、算法和硬件協(xié)同方面占據(jù)先機(jī)。
從技術(shù)積累看,OpenAI的優(yōu)勢在于其語言和多模態(tài)理解能力。一旦機(jī)器人具備可靠的執(zhí)行能力,ChatGPT式的認(rèn)知系統(tǒng)就有機(jī)會成為“機(jī)器人之腦”,使機(jī)器不僅能完成動作,還能理解動作背后的意圖,甚至與人類進(jìn)行更自然的交互。例如,當(dāng)用戶說“把那件藍(lán)色襯衫疊好”,機(jī)器人不僅能識別“藍(lán)色襯衫”的視覺特征,還能理解“疊好”的標(biāo)準(zhǔn),并完成相應(yīng)操作。這種“認(rèn)知+執(zhí)行”的融合,正是具身智能的核心目標(biāo)。
目前,OpenAI的機(jī)器人項(xiàng)目仍處于早期階段,但其通過數(shù)據(jù)驅(qū)動的技術(shù)路徑,已為行業(yè)提供了新的思路。在機(jī)器人技術(shù)競爭日益激烈的背景下,這家公司正以獨(dú)特的耐心和戰(zhàn)略眼光,探索一條通往物理世界智能化的新道路。















