登上油管熱榜,吸引50萬網友圍觀,波士頓動力人形機械人又放大招了——
無遠程遙控(Fully Autonomous),Atlas可完全自主打工了。
只需告訴Atlas前後搬運的位置坐標,它就能全自動分裝物件,動作be like:
而在Atlas的第一視角下,它看到的是醬紫的:
面對「刁難」(物件在底層位置),Atlas直接一個帥氣下蹲,再次成功完成任務。
更有意思的是,當發現自己弄錯位置後,Atlas突然以一個鬼畜完成了瞬間糾錯。(笑死,怪突然的)
總之,在近3分鐘demo中,Atlas進行了一系列秀肌肉操作:頭部、上半身、髖關節都能360°旋轉,可隨時轉向、倒退行走……
有網友驚呼,其他機械人還在學走路,Atlas已經開始朝九晚五,甚至007式打工了!
同行(通用倉庫機械人nimble ai創始人)大讚:Atlas已經遙遙領先了。
只有機械人專家才知道Atlas有多棒
網友:完全自主?你引起了我的注意
自從今年4月宣佈改液壓為電驅後,這是波士頓動力人形機械人為數不多的露面。
上一次還是8月底,他們展示了Atlas能夠一口氣做掌上壓、深蹲等熱身運動,當時就震驚了上百萬網友。
而在最新demo中,Atlas又瞄準了自動化控制,現在它能在集裝箱和移動小車間自主移動發動機蓋了。
據波士頓動力介紹,Atlas使用機器學習視覺模型來檢測和定位環境固定裝置和單個箱子,並且會使用專門的抓取策略,通過不斷估計被操縱物體的狀態來完成任務。
機械人能夠結合視覺、力和感知來檢測環境變化(如移動固定裝置)和動作故障(如未能插入蓋子、絆倒、環境碰撞)並做出反應。
看完一系列最新表現,果不其然又驚倒了一片網友:
網友們也是紛紛cue起了特斯拉人形機械人Optimus~
前一陣,Optimus在特斯拉的發佈會上同樣大秀肌肉(開場熱舞、與人交談猜丁殼、倒酒等一個不落),不過最後被多方證明存在現場遠程操控。
後來特斯拉也發佈了一個展示Optimus自主導航的demo:
對於這兩家人形機械人領域同樣炙手可熱的競爭對手,網友們也開始各自站台,並最終達成了一個「共識」。
二者的差距在於量產。波士頓動力單兵能力強,而特斯拉在商業化量產方面更具優勢。
背後的邏輯也很簡單,人形機械人最終還是要走向消費市場。
不過不管怎樣,Atlas展現的細節已十分驚艷,比如可以360°旋轉的身體、頭部。
雖然也有人吐槽這很詭異,不過大多數人表示看好:
人形機械人能夠被設計而不是進化,意味着一旦我們弄清楚工程原理,各種變形金剛和驅魔人式的能力都可能發生。
另外,還有人疑惑為什麼Atlas不搞個360°全景攝像頭,還需要轉動頭部呢?
對此,有網友推測最大原因還是控成本。
更高解像度的深度相機價格昂貴(帶寬和計算),因此將超密集傳感器限制在工作空間的位置是很有意義的。
實在不行,也可以「低質量的360°全景視覺+面向單一方向的高質量相機/激光雷達」(網友支招有)。
One More Thing
在reddit網友一片熱議中,部分網友發出了靈魂拷問:
機械人完成這種任務(分裝物件)好像沒啥大意義?能不能更貼近現實生活。
對此,也有人對Atlas採用的技術表達擔憂:基於點和規劃器/優化器在泛化能力上可能不如神經網絡等。
且就在剛剛,英偉達新發佈了HOVER,一個1.5M參數的神經網絡控制器,用於人形機械人的全身運動和操作協調。
據負責英偉達具身智能實驗室(GEAR)的Jim Fan介紹:
人類在行走、保持平衡以及操縱四肢到達期望位置時,需要大量的潛意識處理。我們在HOVER中捕捉了這種「潛意識」,這是一個單一模型,學習如何協調人形機械人的電機以支持運動和操縱。
我們在NVIDIA Isaac中訓練了HOVER,這是一個GPU驅動的仿真套件,能夠實現比現實時間快10000倍的物理模擬速度。
為了直觀理解這個數字,機械人在虛擬「道場」中經歷了一年的密集訓練,但在一塊GPU卡上僅花費了大約50分鐘的真實時間。然後,神經網絡無需微調即可零樣本遷移到現實世界。
簡單說,HOVER可以被「提示」執行各種指令,英偉達稱之為「控制模式」。比如:
頭部和手部姿勢:可以通過XR設備如蘋果的Vision Pro捕捉
全身姿勢:通過動作捕捉或RGB相機
全身關節角度:外骨骼
根速度指令:操縱杆
概括而言,HOVER提供了一個統一接口,允許使用任何方便的輸入設備來控制機械人。
它簡化了收集全身遙控操作數據的方式,以便於訓練;且作為一個上游的視覺-語言-動作模型,只要提供運動指令,HOVER就能將其轉換為高頻的低級電機信號。
對此,你怎麼看?