很突然很驚艷特斯拉人形機械人自研超算Dojo ＊阿波羅新聞網

特斯拉的自動化能力很強，不用來造機械人就太浪費了。

「非常抱歉，我們遭遇了一點技術問題，希望以後這可以用 AI來解決。」今天的活動延遲了半個多小時，伊隆·馬斯克這樣做了開場白。

北京時間8月20日上午，萬眾矚目的「特斯拉 AI日」開始了。在活動上，伊隆·馬斯克向全世界展示了特斯拉在自研超級計算機Dojo、FSD軟件等內容上的最新進展。

按照馬斯克本人的說法，吸引最好的 AI人才加入特斯拉似乎是本次活動的唯一目標。

當然，這次發佈向世人宣告的遠不止於此，有關通用機械人的計劃讓我們始料未及。

純視覺自動駕駛系統和 HydraNets

首先，特斯拉最被人們關注的是自動駕駛技術。

特斯拉一直標榜自己的電動車具備高度自動化的輔助駕駛能力，7月10日，FSD（Fully SelfDriving，全自動輔助駕駛系統）軟件迎來更新。不過當時，更新僅限於特斯拉搶先體驗計劃用戶，這些用戶可以進行 FSD Beta V9版本測試，其最大亮點是基於攝像頭和 AI智能算法的純視覺自動輔助駕駛技術路線，而不依賴於雷達傳感器。

7月31日，特斯拉正式推送 FSD的最新版本 FSD Beta V9.1，這是首個使用「特斯拉視覺」的先進司機輔助駕駛套件。8月16日，特斯拉又推送了 FSD Beta V9.2版本。

特斯拉 AI總監 Andrej Karpathy博士介紹了這種基於視覺的自動駕駛系統：它通過八個攝像頭的數據輸入（1280×96012-Bit HDR36Hz）進單個神經網絡中，整合成3D環境的感知，這被稱為 Vector Space。

「AI可以被視為生物，它是從頭開始構建的，包括其合成視覺皮層。」

當特斯拉在汽車中設計視覺皮層時，他們從頭設計了神經網絡，按照生物視覺方法去建模，並利用多頭路線，其中包括相機校準、緩存、隊列和優化以簡化所有任務。

特斯拉從主幹網絡中獲取數據，並將有用的信息輸入到不同的任務中（比如目標檢測、交通信號燈和車道預測），同時拋棄其他內容，避免浪費算力。

特斯拉的自動駕駛算法是從識別單張圖片的普通計算機視覺算法開始的，雖然每個攝像頭的單獨檢測效果很棒，但這顯然不夠。現在的純視覺算法「HydraNets」基於不同攝像頭的視覺內容進行識別的，而且訓練和推斷是端到端的。

該算法將多個攝像頭的視覺內容轉變為向量空間和道路特徵。

多攝像頭網絡的效果值得肯定，儘管只是數量上的增加，但卻可能成為解決預測問題的關鍵之處。該網絡生成的周圍景觀預測很大程度上提高了自動駕駛系統的穩健性。

紅綠燈左轉是對於自動駕駛的巨大挑戰，當車輛在道路上行駛並通過交叉路口時，神經網絡會通過 Spacial RNN進行預測。並在虛擬環境中進行多次模擬，以進一步改善路徑規劃和理解。

在算法模擬的單元空間中，每一個 unit都是一個 RNN，並隨着車輛的運動更新。

Karpathy指出，特斯拉現在的 FSD戰略是更具凝聚力的。事實證明，特斯拉的車輛可以有效地繪製實時地圖。與 SuperCruise和 Waymo等汽車及軟件領域的競爭對手的預繪製地圖策略相比，這是一個巨大的差異。

自動駕駛軟件總監 Ashok Elluswamy介紹了混合規劃系統，以 Autopilot如何變道為例，當與其他汽車並排行駛時，Autopilot不僅要考慮它們的駕駛方式，還必須考慮其他汽車的運行方式。

在狹窄的過道周圍進行規劃時，重要的是要考慮其他駕駛員及其行為，例如在必要時讓行：

Karpathy還提到了數據標註問題。他指出，外包給第三方公司的手動標籤並不是最佳選擇，本着垂直整合的精神，特斯拉選擇建立自己的標註團隊。

一開始，特斯拉使用的是2D圖像標籤。最終，特斯拉轉向了4D標籤，可以在向量空間中進行標註。但是這還不夠，自動標註技術得到了發展。

有太多的標籤需要完成標註，而讓人們手動來完成是不可能的。特斯拉自動駕駛軟件負責人 Ashok Elluswamy展示了道路和道路上的其他物品是如何從一輛正在行駛的汽車中「重建」出來的。這有效地讓特斯拉能夠更快地標記數據，同時允許車輛即使在存在遮擋的情況下也能安全準確地導航。

甚至在對比度過高，攝像頭採集的圖像不夠清晰時，特斯拉還使用神經網絡對畫面進行了增強。

Ashok指出，這些策略最終幫助特斯拉將雷達從 FSD和 Autopilot套件中淘汰，並採用了純視覺模型。雷達+攝像頭系統與純視覺之間的比較顯示了該公司當前的戰略有多精細。同時他也談到了仿真如何幫助特斯拉開發其自動駕駛系統。儘管特斯拉專注於現實世界的數據，但它也使用仿真。

特斯拉利用一個新的仿真程序(用他們自己的話說，就是 Autopilot扮演玩家的視頻遊戲)來測試邊緣情況和其他可能遇到的問題。

神秘超算 Dojo：革命性架構

DOJO，這次特斯拉 AI日的最大看點，最終也沒有讓人失望。

2020年8月，馬斯克表示，該公司正在研發一款名為「Dojo」的神經網絡訓練超級計算機，將主要處理從特斯拉汽車在路上獲得的海量視頻數據。馬斯克發推稱：「DojoV1.0還未完成，估計還需要一年的時間。不僅僅是晶片本身的研發難度，能效和冷卻問題也非常的難。」

幾個月後，馬斯克又補充道：「Dojo採用我們自研的晶片和為神經網絡訓練優化的計算架構，而非 GPU集群。儘管可能是不準確的，但是我認為 Dojo將會是世界上最棒的超算。」

今天，特斯拉終於揭開了 Dojo計算機晶片的神秘面紗。它採用了創新的架構，將算力分佈在複雜的網絡構造中，實現了極高的算力、高帶寬、低延遲的網絡吞吐量。

Dojo的設計是從晶片開始從頭做起的。Dojo的訓練 CPU屬於 ASIC晶片，專注於人工智能訓練，採用7納米製程，可以實現1024GFLOPS的 BF16算力，在晶片周圍的四向都有4TB/s的傳輸帶寬。

特斯拉宣稱它的效率超過了現有的 GPU和 TPU，其主要的優勢是在帶寬上。

Dojo用所有力量做一件事：使自動駕駛汽車成為可能。它是一個純粹的機器學習機器，以現有晶片和伺服器的思路看，它的規格堪稱「瘋狂」：首先把50萬個訓練節點集合在一起，每個區塊都有9 petaflops的算力，每秒36 TB的區塊外帶寬。

但這只是Dojo的冰山一角。在應用時，120個這樣的 D1晶片區塊被整合為一個 ExaPOD，顧名思義，它有每秒超過1億億次的運算能力（10的18次方），這是目前世界上最快的 AI訓練計算機。與業內其他產品相比，在同樣的成本上，ExaPOD的性能要高4倍，能耗比高1.3倍，佔用空間縮小了5倍。

「我們很快就會組裝起第一台這樣的伺服器，這樣的設備可以無限連結。」特斯拉 Dojo項目負責人 GaneshVenkataramanan表示，Dojo有望成為地球上最強大的超級計算機之一。

這些晶片可以幫助 AI模型利用特斯拉汽車上的攝像頭收集到的視頻，進而識別各種內容。「我們應該在明年讓 Dojo投入運營，」馬斯克說道。

與此同時，特斯拉還圍繞這套計算系統構建了完整的軟件堆棧，深度學習框架用的是 PyTorch。

此外，特斯拉還計劃讓下一代 Dojo性能再提升10倍。

特斯拉人形機械人

以上都是此前劇透過的信息，但還有 one more thing，特斯拉要造人形機械人。

在幾張幻燈片中，我們可以了解到 Tesla Bot的一些信息。首先，這款機械人可以用在特斯拉的自動駕駛汽車上，它能學會使用我們在駕駛汽車時所操作的所有裝置。然後，你就可以吩咐它去商店買東西……馬斯克認為，人形機械人「會對未來經濟產生深遠影響」。

它的身高大概是1.72米（5英尺8英寸），重約125磅，身材勻稱，還帶有一張面部屏幕能夠以約5英里/小時的速度移動。

這款機械人的第一個實體版本或將在明年面世，設計初衷就是用來處理那些「不安全、重複的、無聊的工作」。馬斯克說：「我認為在未來，體力工作會是一種選擇，你願意的話也可以，不願意的話也行。」

這仿佛代表了馬斯克的某種設想：「製造類人機械人是特斯拉下一個必然要投入的方向。」畢竟他認真地說過，特斯拉已經是「世界上最大的機械人公司」。

當然，特斯拉機械人目前還只是一個設想，我們距離全能機械人管家的距離，要比自動駕駛汽車更遠。

在最後，QA環節的第一個問題有點幽默：「特斯拉會擁抱開源嗎？」

馬斯克的回答是：「這些東西都是花費了巨資研製的，所以我不太確定要不要開源。」但如果其他汽車公司想要獲得 Autopilot的許可，那是可以做到的。

但正如 SpaceX和特斯拉此前所做的一樣，馬斯克的公司經常能讓先進技術變得越來越便宜。不知在未來，人形機械人是否也會很快有一個親民的價格？

責任編輯： 夏雨荷 　來源：機器之心轉載請註明作者、出處並保持完整。

很突然 很驚艷 特斯拉人形機械人 自研超算Dojo

相關新聞

很突然很驚艷特斯拉人形機械人自研超算Dojo