OpenAI機械人炸裂登場!ChatGPT終於有身體了＊阿波羅新聞網

以 GPT-4為代表的大模型已經建造了大腦，下一步則是需要能承載這一大腦的機械人軀體。

昨天深夜，人形機械人明星公司 Figure AI震撼發佈了一段視頻，展示了他們的機械人 Figure01在 OpenAI強大模型的支持下，進行的一系列對話交互。

視頻中的機械人展現出了靈活的操作反應，其與人類溝通的流暢度幾乎可以與真人相媲美。

這距離 Figure AI獲得 OpenAI、微軟、英偉達等公司投資，僅僅過去了不到半個月。也讓我看到，OpenAI最強的多模態大模型有了身體後會是什麼樣子。

Figure01，最懂你的人形機械人？

得益於 OpenAI多模態大模型的強大支持，Figure01現在可是個桌上物品識別的小能手。蘋果、瀝水架、水杯和盤子，對它來說都是小菜一碟！

餓了，想讓它整口吃的，它能秒懂你的心思，麻溜地遞上一個蘋果。

而且，它甚至能在撿起你丟棄的垃圾，邊還能跟你解釋為啥剛才給了你蘋果。在大模型的輔助下，Figure01可以理解桌面上唯一的食物——蘋果。

在人類的一聲令下，Figure01還能做家務，收拾餐具，這機械人，簡直是家庭生活的最佳夥伴。

廣大網友在看到這段令人驚艷的視頻後，反應可謂是五花八門。

網友已經迫不及待地給 Figure01安排任務了，任務清單里怎麼還混進了機械人前輩的電影。

競爭對手怕是要看在眼裏，急在心裏，準備暗地裏摩拳擦掌，來一場技術大比拼？

更興奮的網友表示，AGI的曙光似乎就在眼前。

當然，總有些挑剔的聲音，有的網友就吐槽說，這機械人說法怎麼結結巴巴呢？

網友也沒放過玩梗的機會。

Figure AI掌門人 Brett Adock也不甘寂寞，在 X上跳出來做了一番精彩解讀。

視頻展示了端到端神經網絡的應用（end-to-end neural networks）。在此過程中沒有使用遙控器（teleop）。視頻是以實際速度（1.0倍速）拍攝的，並且是連續不斷的。

如您在視頻中看到的，機械人的速度有了顯著的提升，我們正在逐步達到與人類相似的速度。

無需遙控，自學成才

那麼 Figure01是怎麼做到的呢？

Figure AI團隊負責人 Corey Lynch在 X上解釋了一番。

具體來說，視頻中展示的所有行為都是通過學習獲得的（非遙控操作），並且以實際速度（1.0倍速）執行。

Figure AI將機械人攝像頭拍攝的圖像和通過板載麥克風記錄的語音轉錄文本輸入到一個由 OpenAI訓練的多模態模型中，這個模型能夠同時理解圖像和文本信息。

該模型會處理整個對話的歷史記錄，包括以往的圖像，以生成語言響應，並通過文本到語音的方式向人類回話。同一個模型還負責決定執行哪種已學習的閉環行為來響應給定的命令，它將特定的神經網絡權重加載到 GPU上，並執行相應的策略。

而將 Figure01連接到一個大型預訓練的多模態模型，為其帶來了許多有趣的新功能。

現在，Figure01+ OpenAI能夠：

詳述其周圍環境。

在決策時運用常識推理。例如，「桌子上的餐具，像那個盤子和杯子，很可能接下來會被放到烘乾架上」。

將含糊的高級指令，如「我餓了」，轉化為符合情境的適當行為，比如「遞給那個人一個蘋果』。

用簡單的英語解釋為什麼它執行了某個特定的動作。例如，「這是我能夠從桌子上提供的唯一可食用物品」。

當談到 Figure01通過學習掌握的精細雙手操作技能時，其實這背後也蘊含着一系列複雜而精妙的原理。

所有行為都由神經網絡的視覺-運動轉換器策略驅動，這種策略能直接將圖像像素映射到動作。這些網絡以每秒10幀的速率接收機械人內置圖像，並生成每秒200次的24自由度動作（包括腕部姿勢和手指關節角度）。

這些動作作為高速「設定點」，供更高速率的全身控制器跟蹤，確保動作的精確執行。

這種設計實現了關注點的有效分離：

互聯網預訓練模型對圖像和文本進行常識推理，以生成一個高級計劃。

學習到的視覺-運動策略執行這個計劃，完成那些難以手動指定的快速、反應性行為，例如在任何位置操縱一個可變形的袋子。

同時，全身控制器負責確保動作的安全性和穩定性，例如，保持機械人的平衡。

對於 Figure01取得的巨大進步，Corey Lynch感慨道：

就在幾年前，我還認為與一個能自主規劃和執行學習行為的人形機械人進行完整對話，將是未來數十年後的事情。顯然，許多事情已經發生了巨大變化。

這會是人形機械人的 GPT時刻嗎

不得不說，Figure01的發展速度簡直像是踩了油門，一路狂飆。

今年1月，Figure01就掌握了製作咖啡的技能，這一成就得益於端到端神經網絡的引入，使得機械人能夠自主學習和糾正錯誤，僅需10小時的訓練。

一個月後，Figure01已經學會了搬運箱子並運送至傳送帶的新技能，儘管其速度僅為人類的16.7%。

在這個過程，Figure AI商業化的步伐也未曾停歇，與寶馬製造公司簽訂了商業協議，將 AI和機械人技術融入汽車生產線，並落戶於寶馬的工廠。

緊接着，就在兩周前，Figure宣佈完成了6.75億美元的 B輪融資，公司估值飆升至26億美元。

投資方幾乎涵蓋了矽谷的半壁江山——Microsoft、OpenAI創業基金、英偉達、Jeff Bezos、Parkway Venture Capital、Intel Capital和 Align Ventures等。

當時，OpenAI與 Figure還宣佈將共同開發下一代人形機械人 AI模型，OpenAI的多模態模型將擴展到機械人感知、推理和交互環節。

如今，從 Figure01身上，我們仿佛能窺見未來生活的草稿。

事實上，在大模型之前，機械人屬於專用設備，如今有了大模型的通用能力，通用機械人開始曙光乍現，現在的我們不止需要 ChatGPT，還需要 WorkGPT。

這些進化間接印證了一條清晰可見的道路：當 AI大模型生根發芽之後，總歸是要走進現實世界，而具身智能則是最佳的路徑。

一直活躍在 AI前線的英偉達創始人黃仁勛曾洞察道：「具身智能將引領下一波人工智能浪潮。」

將 OpenAI大模型融入 Figure01也是有意的戰略佈局。

成熟的 AI大模型充當人工大腦，模擬了人腦複雜的神經網絡，實現了語言理解、視覺識別、情景推理等認知功能，解決了機械人更高層次的認知和決策問題。

與此同時，各種傳感器、執行器、計算單元被集成到機械人軀體中，實現了對環境的感知和交互。比如視覺系統可以捕捉圖像和視頻，觸覺傳感器可以感受物體的形狀和質地等。

Figure AI創始人 Brett Adcock此前在接受採訪時表示，未來1-2年，Figure AI將專注於開發具有里程碑意義的產品，期望在未來一兩年內向公眾展示人形機械人的研發成果，涵蓋 AI系統、低級控制等，最終呈現能在日常生活中大展身手的機械人。

他還透露，在成本方面，一個人形機械人約有1000個零件，重約150磅（68公斤），而電動汽車可能有約1萬個零件，重達4000-5000磅（1800-2250公斤）。因此，長期來看，人形機械人的成本有望低於廉價電動汽車，這取決於執行器、電機組件、傳感器的成本及計算成本。

機械人專家 Eric Jang曾提出他的洞見：「儘管許多 AI研究者認為通用機械人的普及還需數十年，但別忘了，ChatGPT的誕生仿幾乎就在一夜之間。」

一年前的今天，OpenAI震撼發佈了 GPT-4，向世界證明了大模型的強大威力。

一年後的今天，我們沒等來 GPT-5，但也迎來 Figure01，而這會是人形機械人的 GPT-4時刻嗎？

只用13天，OpenAI做出了能聽、能說、能自主決策的機械人大模型

資深機械人專家 Eric Jang不久前曾預言：「ChatGPT曾在一夜之間出現。我認為，有智慧的機械人技術也將如此。」

他或許說對了。

北京時間3月13日深夜，一段人形機械人的視頻開始在 X上熱傳。

之前從未展示過機械人方向能力的 OpenAI，在與投資公司的人形機械人的合作中，第一次展示了自己的機械人智能能力。

Figure，OpenAI投資的機械人公司，上傳了這段視頻。在視頻中，Figure的人形機械人，可以完全與人類流暢對話，理解人類的意圖，同時還能理解人的自然語言指令進行抓取和放置，並解釋自己為什麼這麼做。

而其背後，就是 OpenAI為其配置的智能大腦。

在過去一年的具身智能進展中，或許你曾經看過類似的機械人自主決策、拿取物品的展示，但在這段視頻中，Figure人形機械人的對話流暢度、展現出的智能感，接近人類操作速度的動作流暢性，絕對都是第一流的。

Figure還特意強調，整段視頻沒有任何加速，也沒有任何剪輯，是一鏡到底拍攝的。同時，機械人是在完全自主的情況下進行的行為，沒有任何遠程操縱——似乎在暗暗諷刺前段時間爆火的展現了酷炫機械能力，但是沒有太多智能程度的斯坦福炒菜機械人。

比起機械人的智能表現，更可怖的是，這只是 OpenAI小試牛刀的結果——從 OpenAI宣佈與 Figure共同合作推進人形機械人領域的前沿，到這個視頻的發佈，只有短短的十三天。

此次 Figure人形機械人背後的智能，來自端到端的大語言-視覺模型，這是具身智能領域目前非常前沿的領域。去年極客公園報道過谷歌在類似領域的進展。谷歌做出的端到端機械人控制模型，被一些行業內的人士，譽為機械人大模型的 GPT-3時刻。

而當時，谷歌的機械人模型，還只能根據對話來做一些抓取，並不能與人類對話，也不能向人類解釋自己為什麼會這麼做。而谷歌自身，從 Everyday Robotics開始，已經有了五年以上的機械人研究經驗。

而 Figure本身，成立於2022年。從OpenAI宣佈介入與之合作，到今天它們共同推出一個能夠自主對話和決策的機械人，只有13天。

機械人智能的發展，顯然正在加速。

01.端到端大模型驅動，機械人的速度已經接近人類速度

Figure的創始人 Brett Adcock和 AI團隊的負責人 Corey Lynch在 X上解釋了此次視頻中機械人互動背後的原理。

此次的突破，由 OpenAI與 Figure共同做出。OpenAI提供負責提供視覺推理和語言理解，而 Figure的神經網絡提供快速、低水平、靈巧的機械人動作。

機械人所做出的所有行為都是出於已經學習過，內化了的能力，而不是來自遠程操作。

研究人員將機械人攝像頭中的圖像輸入，和機載麥克風捕獲的語音中的文本轉錄到由 OpenAI訓練的，可以理解圖像和文本的多模態模型（VLM）中，由該模型處理對話的整個歷史記錄，得出語言響應，然後通過文本到語音的方式將其回復給人類。

同樣的模型，也負責決定在機械人上運行哪些學習的閉環行為來完成給定的命令，將特定的神經網絡權重加載到 GPU上並執行策略。

這也是為什麼這個機械人，屬於「端到端」的機械人控制。從語言輸入開始，模型接管了一切處理，直接輸出語言和行為結果，而不是中間輸出一些結果，再加載其他程序處理這些結果。

Figure的機載攝像頭以10hz的頻率拍攝圖像，然後神經網絡以200hz輸出24個自由度動作。

Figure的創始人提到，這代表機械人的速度已經有顯著提高，開始接近人類的速度。

Corey Lynch的 X

OpenAI的模型的多模態能力，是機械人可以與世界交互的關鍵，我們能夠從視頻中展示中看到許多類似的瞬間，比如：

描述一下它的周圍環境。

做出決定時使用常識推理。例如，「桌子上的盤子和杯子等餐具接下來很可能會進入晾衣架」。

將「我餓了」等模稜兩可的高級請求轉化為一些適合上下文的行為，例如「遞給對方一個蘋果」。

用簡單的英語描述*為什麼*它會執行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用的物品」。

而模型能力的強大，使其還能夠擁有短期記憶，比如視頻中展示的「你能把它們放在那裏嗎？」「它們」指的是什麼？「那裏」又在哪裏？正確回答需要反思記憶的能力。

而具體的雙手動作，可以分成兩步來理解：

首先，互聯網預訓練模型對圖像和文本進行常識推理，以得出高級計劃。如視頻中展示的：Figure的人形機械人快速形成了兩個計劃：1）將杯子放在碗碟架上，2）將盤子放在碗碟架上。

其次，大模型以200hz的頻率生成的24-DOF動作（手腕姿勢和手指關節角度），充當高速「設定點（setpoint）」，供更高速率的全身控制器跟蹤。全身控制器確保安全、穩定的動力，如保持平衡。

所有行為均由神經網絡視覺運動 Transformer策略驅動，將像素直接映射到動作。

02.從 ChatGPT到 Sora，再到機械人，OpenAI想包攬「智能」這件事

2021年夏天，OpenAI悄悄關閉了其機械人團隊，當時，OpenAI曾宣佈無限期終止對機械人領域的探索，原因是缺乏訓練機械人使用人工智能移動和推理所需的數據，導致研發受到阻礙。

但顯然，OpenAI並沒有放下對這個領域的關注。

2023年3月，正在一年前，極客公園報道了 OpenAI投資了來自挪威的機械人製造商1X Technologies。其副總裁正是我在文初提到的，認為具身智能將會突然到來的 Eric Jang。

而無獨有偶，1X Technologies的技術方向，也是端到端的神經網絡對於機械人的控制。

而今年3月初，OpenAI和其他投資人一起，參與了 Figure的 B輪融資，使其成立兩年，就達到了26億美金估值。

也正是在這一輪融資之後，OpenAI宣佈了與 Figure的合作。

Figure的創始人 Brett Adcock，是個「擅長組局」的連續創業者，整個職業生涯中創立過至少7家公司，其中一家以27億美元的估值上市，一家被1.1億美元的價格收購。

創建公司後，他招募到了研究科學家 Jerry Pratt擔任首席技術官，前波士頓動力/蘋果工程師 Michael Rose擔任機械人控制主管。此次進行分享的 AI團隊負責人 Corey Lynch，則原本是 Google Deepmind的 AI研究員。

Figure宣佈自己在電機、固件、熱量、電子產品、中間件作業系統、電池系統、執行器傳感器、機械與結構方面，都招募了硬核的設計人才。

公司的確進展很快。在與 OpenAI合作之前，已經做出了不少成績。2024年1月，Figure01（Figure的第一款人形機械人）學會了做咖啡，公司稱，這背後引入了端到端神經網絡，機械人學會自己糾正錯誤，訓練時長為10小時。

Figure01引入 AI學會做咖啡

2月，公司對外展示 Figure01的最新進展，在視頻里，這個機械人已經學會搬箱子，並運送到傳送帶上，但速度只有人類的16.7%。

甚至在商業化上，也已經邁出了第一步：Figure宣佈與寶馬製造公司簽署商業協議，將 AI和機械人技術整合到汽車生產中，部署在寶馬位於南卡羅來納州斯巴達堡的製造工廠。

而在今天的視頻展示推文中，Figure宣佈其目標是訓練一個世界模型，最終能夠賣出十億個級別的模型驅動的人形機械人。

不過，儘管OpenAI與 Figure的合作進展順暢，但看起來 OpenAI並未把寶壓在一家機械人公司。

北京時間3月13日，來自谷歌研究團隊、加州大學伯克利分校、史丹福大學教授等一群研究者新成立的一家機械人 AI公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI的融資。

毫無意外，該公司，也是研究未來能夠成為通用機械人系統的人工智能。

多頭下注機械人領域，13天合作做出領先的機械人大模型，OpenAI在機械人領域意圖為何，引人關注。

智能人形機械人，未來不止看馬斯克的了。

責任編輯： zhongkang 　來源：愛范兒/極客公園轉載請註明作者、出處並保持完整。

OpenAI機械人炸裂登場!ChatGPT終於有身體了

相關新聞