輝達(Nvidia)強攻機械人放大絕,8月12日宣佈推出最新涵蓋多達70億參數的推理視覺語言模型,主打「要讓機械人更像人類」,透過結合視覺感測應用,讓機械人基於既有知識與概念,學會「連續決策」,並在理解後採取行動,堪稱可打造機械人的推理大腦。
業界認為,這是輝達引領全球機械人發展跨出更重要的一步,也意味AI算力應用再創顛峰,對致力於開發機械人的鴻海、廣達等大型集團是一大助力,同時也將加速AI伺服器建置需求。
輝達在昨天繪圖晶片業年度盛會「SIGGRAPH2025」上,發表推理視覺語言模型「Cosmos Reason」。
輝達說明,「Cosmos Reason」是一款專為物理AI應用與機械人設計的70億參數「推理」視覺語言模型,具備超強大功能,並加入讓機械人具備與人一樣的「推理」能力,透過先驗知識、物理理解和常識,讓機械人與視覺AI代理像人類一樣分析情境、判斷下一步行動。
輝達表示,機械人規劃與推理技術如機械人視覺語言行動(VLA)模型的大腦,讓模型可深思熟慮、有條不紊地做出決策。「Cosmos Reason」可讓機械人解讀環境、在收到複雜的指令後,將指令分解為各種工作,即使在不熟悉的環境,也能運用常識執行這些工作。
輝達強調,「Cosmos Reason」是適用實體AI與機械人的全新開放式、可完全客制化。談到「Cosmos Reason」和既有視覺語言模型(VLM)的差異,輝達說明,自OpenAI推出CLIP模型以來,視覺語言模型(VLM)已廣泛應用於物件與模式識別等電腦視覺任務,但仍難以處理多步驟任務、含糊情境或全新經驗,「Cosmos Reason」可突破上述限制,這種能力對於需要連續決策的場景,如機械人任務規劃或自駕車路徑預測,尤其關鍵。
「Cosmos Reason」可用於資料管理與標註、機械人規劃與推理,以及影片分析AI代理,讓系統在面對複雜指令時,能拆解成可執行的步驟並作出符合常識的判斷,即使處於陌生環境也能正確行動。

示意圖。(AI生成)















