新聞 > 科教 > 正文

波士頓動力狗gogo回來了,「五條腿」協同發力

機器狗搬輪胎,「五隻腿」齊發力!

在波士頓動力人工智能研究所的最新方法——結合採樣與學習的動態全身操作中,波士頓動力的機器狗Spot最快僅用3.7秒就能搬起輪胎。

搬運的輪胎重達15公斤,相當於Spot自身重量的一半(32.7千克),並遠超其最大臂力。

而且,搬起輪胎後,它還能將輪胎滾動到指定位置。

甚至還能把一個輪胎疊到另一個輪胎上面(還會用頭幫忙頂一下)。

這一方法克服了傳統操作策略(如搖操)在不同機械人形態學結構上的遷移限制,並通過分層控制實現了機器狗四肢與全身的協調動力學操作。

網友表示,狗子快去回收站去搬輪胎吧!

這是怎麼做到的?

結合採樣與學習的動態全身操作

總的來說,結合採樣與學習的動態全身操作(Combining Sampling and Learning for Dynamic Whole-Body Manipulation)利用強化學習與基於採樣的控制(sampling-based control)相結合的方法,使機械人能夠執行需要手臂、雙腿和軀幹協同配合的動態力交互任務。

為應對複雜的操作任務,研究採用了分層控制(hierarchical control)方法,將控制問題劃分為兩個互補且同步的層級。

在低層,基於強化學習的運動策略直接控制電機力矩,以實現平衡、穩定性與運動執行。

高層控制則根據任務類型而有所不同:

對於輪胎扶正、拖拽與堆疊等任務,系統採用基於採樣的控制,通過模擬潛在的未來情境來發現最優操作策略。

對於輪胎滾動任務,則使用強化學習來捕捉維持物體穩定運動所需的細微動力學特徵與反應性控制機制。

所有的高層方法,最終都會輸出包括底盤速度、姿態參數(包括滾轉、俯仰、高度)、腿部控制以及手臂動作等指令。

在採樣控制中,採樣控制器通過並行模擬多個未來情境,尋找最有效的操作策略,從而選擇最能實現任務目標的動作。

對於那些需要精確施力和多接觸協調的任務,系統會運行32個並行CPU線程,每個線程使用MuJoCo模擬未來幾秒內的不同動作序列。

與直接採樣原始軌跡不同,研究在樣條曲線空間(space of splines)中進行採樣,這種方式能生成更平滑、更自然的運動軌跡,同時降低搜索空間的維度。

該控制器展現出源自物理仿真的機會性行為。在輪胎扶正過程中,控制器自主發現了複雜的操作策略:機械人通過Spot Arm與前腿動作的協調,產生足夠的槓桿力以抬起沉重的輪胎。

為了適應多樣的初始構型,機械人可能使用手臂、前腿、身體,或這些部位的組合來靈活調整操作策略。

值得一提的是,系統並未預設任何固定的操作模式。這種多肢體、多接觸的行為,是在採樣過程中優化自然湧現的結果,而非通過顯式編程設定接觸順序實現的。

此外,控制器會根據實驗室空間中機械人與輪胎的當前構型動態調整策略。

在具體的強化學習策略方面,研究通過PPO算法在IsaacLab中訓練得到的運動策略。

這一策略為高層控制提供了穩健的低層控制抽象,能夠在多種操作場景中保持平衡,從而使高層控制問題更易處理。

在輪胎滾動任務中,研究利用強化學習來應對難以精確建模的複雜摩擦與接觸動力學。

其採用非對稱演員-評論家(asymmetric actor-critic architecture)方法,在單塊GPU上經過約24小時訓練,得到高層技能策略。

該策略接收的觀測狀態包括機械人、輪胎與目標之間的相對姿態,以及關節位置與速度。獎勵函數則根據物體幾何形狀及其與環境的空間關係,計算期望的軀幹與末端執行器位置,引導策略學習達到目標姿態。

訓練得到的輪胎滾動策略使機械人能夠動態調整其軀幹與Spot Arm的位置,以穩定控制滾動的輪胎,防止其傾倒,並將其引導至目標位置。

最後,為解決從仿真到現實的差距,訓練過程中引入了隨機化,包括對物體的質量、摩擦係數與形狀等屬性進行隨機變化。

實測表現

正如我們開頭提到的,在輪胎扶正任務中,機械人最佳成績為3.7秒,平均每個輪胎用時5.9秒,幾乎達到人類在該任務中的操作速度。

這一表現遠超傳統的准靜態假設。

在准靜態假設下,機械人操作物體時速度很慢,加速度產生的慣性被忽略,關節驅動力矩主要依賴靜態平衡。

而在這篇研究中,機器狗能夠高效搬運重達15千克的輪胎——遠超其夾持器的峰值舉升能力(11千克)和持續能力(5千克)。

這說明機械人通過動態協調全身動作,將運動與操作緊密耦合,拓展了操作範圍,超越了傳統的拾取與放置方式。

此外,研究表明,將高層控制與低層控制分離能夠顯著簡化控制問題。

高層控制器無需在擁有數十個自由度的系統中推理關節力矩、接觸力以及穩定性約束,而是僅在一個簡化的動作空間中工作,該空間由底盤速度和姿態參數構成,其將執行細節交由運動控制器處理,從而極大降低了複雜度。

分層控制架構使得高層控制器能夠專注於任務完成,而無需顯式地推理平衡約束或地面接觸。

由此,學習得到的運動抽象層讓高層控制更簡單、計算更可行,控制器只需專注於「在哪裏」和「如何操作物體」,無需處理複雜的低層動力學細節。

責任編輯: 李華  來源:量子位 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/1017/2292587.html