新聞 > 科教 > 正文

DeepMind新突破:AI在「我的世界」中超越了人類專家

DeepMind再放大招!繼AlphaGo之後,他們利用改進的強化學習技術,讓AI在《我的世界》類遊戲Craftax中超越了人類專家水平。AI僅需少量數據就能高效學習。本文將深入解讀DeepMind的最新研究,揭秘AI如何「腦補」世界,實現超越SOTA的性能,甚至讓我們看到了通往AGI的曙光。

DeepSeek R1與OpenAI o系列模型的爆發,掀起了人工智能領域的新一輪浪潮。

甚至讓我們看到了通往AGI的曙光。

這些性能強大模型的背後都離不開一個關鍵技術——強化學習(Reinforcement Learning)。

谷歌的DeepMind團隊在這方面一直很強,轟動全球的「人機大戰」(李世石對戰AlphaGo)就出自他們團隊之手。

近日,DeepMind研究團隊又整了個大的!

他們使用改進的強化學習技術,在類似Minecraft(我的世界)遊戲中,使智能體的遊戲水平甚至超過了人類專家!

論文地址:https://arxiv.org/pdf/2502.01591

強化學習通過讓AI不斷嘗試和犯錯來學習,就像人在學習新技能一樣。

AI在環境中行動,根據結果的好壞來調整自己的策略。

那些在環境中一邊嘗試,一邊學習,收集數據(觀察和獎勵),然後更新自己策略的強化學習算法被稱作在線強化學習。

在線強化學習算法通常不預先「建模」,AI看到什麼就做什麼,這種方法稱為無模型強化學習(MFRL)。

但這種方法需要收集大量環境數據。

因此,有人提出了基於模型的強化學習(MBRL),很顯然它試圖減少訓練所需的數據量。

MBRL會先學習一個「世界模型」(WM),就像在腦海中模擬出一個世界,然後在這個模擬的世界裏進行「想像」和「規劃」。好比AI自己先在腦子裏模擬一下,然後再行動。

為了評估強化學習算法的效率,大家通常使用Atari-100k基準測試,查看算法在Atari遊戲中使用不超過10萬幀訓練數據時的表現。

但是,Atari遊戲的確定性比較高,AI很容易記住一些操作,而不是真正學會泛化。而且,Atari遊戲往往只側重於一兩種技能,不能很好地考察AI的綜合能力。

為了訓練出能力更全面的AI,谷歌DeepMind的研究團隊選擇了Crafter這個環境。

Crafter是一個2D版的《我的世界》,具體來說,他們用的是Craftax-classic環境,它是Crafter的快速復刻版。

Craftax-classic環境有幾個很好的特點:

1.每次遊戲的環境都是隨機生成的,AI需要應對不同的挑戰。

2.AI只能看到局部視野,就好像只能看到屏幕的一部分,而不是整個地圖。

3.這是一個以成就層級來設定獎勵信號的體系,需要進行深入且廣泛的探索才能達成。

DeepMind研究團隊的這篇論文主要研究了如何在Craftax-classic環境中改進基於Transformer世界模型(TWM)的強化學習方法。

研究人員主要從三個方面入手:如何使用TWM、如何將圖像轉換成TWM的輸入以及如何訓練TWM。

結果讓人驚喜!

研究團隊的方法讓智能體在僅用100萬步環境交互的情況下,就取得了Craftax-classic67.42%的獎勵和27.91%的得分,這比之前的最佳研究成果(SOTA)——53.20%的獎勵和19.4%的得分——都有了顯著提升。

智能體的表現甚至超越了人類專家!相當炸裂。

下圖1展示了論文中提出的MBRL方法在Craftax-classic環境中的性能,其中左圖展示了不同算法隨着環境交互步驟的增加所獲得的獎勵。

中間圖展示了Craftax-classic的畫面,即一個63x63像素的圖像,包含智能體周圍的地圖以及智能體的生命值和物品欄。右圖顯示了NNT(最近鄰標記器)提取的64個不同的圖像塊,這些圖像塊用於TWM(Transformer世界模型)的輸入。

相關工作

基於模型的強化學習(MBRL)一般分為背景規劃和決策時規劃兩種。

背景規劃在模型外部(即決策發生之前)使用世界模型(WM)生成想像軌跡,進而訓練策略。而決策時規劃在做決策的時刻利用WM進行前瞻搜索。

由於決策時規劃速度較慢,特別是使用大型世界模型如Transformer模型時。所以,論文側重於背景規劃。

另一個需要關心的問題是世界模型(WM)。世界模型分為生成式世界模型和非生成式世界模型。

生成式世界模型可以生成(或想像)未來的觀察結果,並以此輔助策略學習,從而提高強化學習的效率,而非生成式世界模型則僅使用自預測損失進行訓練。

相對之下,生成式世界模型更適合背景規劃,因為它能方便地將真實和想像數據結合進行策略學習。

訓練方法

研究團隊首先建立了一個基線模型。

這個基線模型在環境中訓練了100萬步後,達到了46.91%的獎勵和15.60%的分數。

研究團隊在此基礎上進行了兩方面的改進:一是增大模型規模,二是在策略中加入RNN(具體來說是GRU)來提供記憶能力。

有趣的是,他們發現如果只是單純增大模型規模,反而會降低性能。但當更大的模型與精心設計的RNN相結合時,性能會有所提升。

對於RNN,研究團隊認為保持隱藏狀態的維度足夠小至關重要,這樣才能讓記憶只關注當前圖像無法提取的、真正重要的歷史信息。

通過這些結構上的改動,模型的獎勵指標提升到了55.49%,得分則達到了16.77%。性能上超過了更為複雜、運行也更慢的DreamerV3(其獎勵為53.20%,得分為14.5%)。

在性能提升的同時,成本也降低了。模型在一張A100 GPU上對環境進行100萬步訓練僅需約15分鐘。

使用Dyna方法進行預熱

接下來就是論文提出的核心改進之一,即如何有效地利用真實環境數據和世界模型(WM)生成的虛擬數據來訓練智能體。

與通常只使用世界模型生成的軌跡進行策略訓練不同,研究者受到Dyna算法的啟發,改進之後以適應深度強化學習。

Dyna方法將真實環境中的軌跡數據和TWM生成的想像軌跡數據混合起來訓練智能體。將世界模型視為一種生成式數據增強

智能體首先與環境交互,收集真實的軌跡數據,並立即用這些數據來更新策略。之後,智能體使用世界模型在想像中生成軌跡,並用這些想像數據來進一步更新策略。

這種混合使用真實數據和虛擬數據的機制,可以被看作是一種生成式數據增強的方式。

文強調,世界模型的準確性對於策略學習至關重要。

為了確保世界模型足夠準確,避免其不準確的預測「污染」訓練數據,研究者提出在開始使用想像軌跡訓練策略之前,先讓智能體與環境交互一段時間。

這個過程被稱為「預熱(warmup)」。具體來說,就是只有在智能體與環境交互達到一定步數之後,才開始使用世界模型生成的軌跡來訓練。

實驗表明,移除預熱步驟會導致獎勵大幅下降,從67.42%降至33.54%。此外,僅僅使用想像數據訓練策略也會導致性能下降到55.02%。

圖像塊最近鄰分詞器

不同於常規的使用VQ-VAE方法來在圖像和tokens之間進行轉換。

在論文中,研究團隊提出了一種新的圖像標記化(tokenization)方法。用於將圖像轉換為Transformer世界模型(TWM)可以處理的token輸入。

研究團隊利用Craftax-classic環境的一個特點,即每個觀察圖像都是由9x9個7x7大小的圖像塊組成。

因此,他們首先將圖像分解為這些不重疊的圖像塊(patches)。然後,獨立地將每個圖像塊編碼為token。

在將圖像塊分解的基礎上,論文使用一個更簡單的最近鄰標記器(Nearest-Neighbor Tokenizer,NNT)來代替傳統的VQ-VAE3。

NNT的編碼過程類似於最近鄰分類器,它將每個圖像塊與一個代碼本中的條目進行比較。

如果圖像塊與代碼本中最近的條目之間的距離小於一個閾值,則將該條目的索引作為token;否則,將該圖像塊作為一個新的代碼添加到代碼本中。

與VQ-VAE不同,NNT的代碼本一旦添加條目,就不再更新。這意味着代碼本是靜態的,但可以不斷增長。

解碼時,NNT只是簡單地返回代碼本中與token索引相對應的代碼(圖像塊)。

這種靜態但不斷增長的代碼本使得TWM的目標分佈更加穩定,大大簡化了TWM的在線學習過程。

實驗結果顯示,在圖像塊分解的基礎上,用NNT替換VQ-VAE可以顯著提高智能體的獎勵,從58.92%提升到64.96%。

不過,NNT對圖像塊的大小比較敏感,如果圖像塊的大小不合適,可能會影響性能。而且如果圖像塊內部的視覺變化很大,NNT可能會生成一個非常大的代碼本。

塊狀教師強制

在通常的做法中,TWM通常採用教師強制來訓練,論文的研究團隊則提出了一種更有效的替代方案,稱為塊狀教師強制(block teacher forcing, BTF)。

這個方案同時修改了TWM的監督方式和注意力機制:當給定前面的全部token後,BTF會並行預測下一時間步中的所有潛在token,從而不再依賴當前時間步已生成的token。

下圖2清晰地展示了BTF如何通過改變注意力模式和監督方式來改進TWM的訓練。

傳統的教師強制自回歸地預測每個token,而BTF則並行預測同一時間步的所有token,從而提高了訓練速度和模型準確性。

實驗表明,與完全自回歸(AR)的方法相比,BTF能得到更準確的TWM。

在本實驗中,BTF將獎勵從64.96%提升到了67.42%,從而獲得了表現最優的基於模型的強化學習(MBRL)智能體。

一舉超越了人類專家的表現!(見表1)

實驗結果

性能階梯

在論文中,智能體按照研究者所採用的改進措施進行排序,形成了一個「MBRL階梯」,具體如下:

M1: Baseline:基準MBRL智能體,使用了VQ-VAE進行tokenization,其獎勵為31.93%,優於IRIS的25.0%。

M2: M1+Dyna:在M1的基礎上,使用Dyna方法,即混合使用真實環境數據和TWM生成的想像數據來訓練策略,獎勵提升至43.36%。

M3: M2+patches:在M2的基礎上,將VQ-VAE的tokenization過程分解到各個圖像塊(patches)上,獎勵進一步提升至58.92%。

M4: M3+ NNT:在M3的基礎上,用最近鄰標記器(NNT)替換VQ-VAE,獎勵提升至64.96%。

M5: M4+ BTF:在M4的基礎上,引入塊教師強制(BTF),最終的獎勵達到67.42%(±0.55),成為論文中最佳的 MBRL智能體。

下圖3清晰地展示了每一步改進帶來的性能提升。

與現有方法比較

研究團隊這次性能最優的模型M5創造了新的SOTA成績,獎勵達到67.42%,得分達到27.91%。

這是首次超過人類專家的平均獎勵水平(該人類水平基於5名專家玩家玩了100局所測得)。

需要指出的是,盡避模型在獎勵上已超越了人類專家,但得分仍明顯低於人類專家水平。

消融實驗

實驗表明,當NNT使用7×7大小的圖像塊時效果最佳,使用較小(5×5)或較大(9×9)的圖像塊時,性能會有所下降,但仍然具有競爭力。

如果不使用量化,而是讓TWM重建連續的7×7圖像塊,性能會大幅下降。

研究者發現,移除「MBRL階梯」中的任何一個步驟,都會導致模型性能下降,這表明論文提出的每個改進都至關重要。

下圖5可視化地展示消融研究的結果,驗證了論文提出的各個改進措施的重要性。

模型如果過早地開始在想像數據上訓練,性能會因TWM的不準確而崩潰。只有在智能體與環境交互足夠長時間,並獲得足夠數據來訓練可靠的WM後,使用想像數據進行訓練才是有效的。

去除MFRL智能體中的RNN或使用較小的模型都會導致模型性能下降。

比較TWM的生成序列

研究者比較了三種不同的世界模型(TWM)的生成軌跡質量,這些模型分別是M1(基線模型)、M3(加入了Dyna和圖像塊分解的模型)以及M5(最佳模型,包含了所有改進)。

為了進行評估,研究者首先構建了一個包含160條軌跡的評估數據集,每條軌跡長度為20。然後,他們使用每個TWM模型,從相同的起始狀態和動作序列出發,生成對應的想像軌跡。

評估的關鍵指標是通過訓練一個CNN符號提取器,來預測真實軌跡和TWM生成軌跡中的符號,並計算預測的符號準確率。

這種方法能夠深入了解模型在多大程度上捕捉到了遊戲的核心動態。

定量評估

通過定量評估,研究團隊發現符號準確率隨着TWM生成軌跡步數的增加而下降,這種下降是由於誤差的累積導致的。

M5模型由於其採用了最近鄰標記器(NNT),保持了所有時間步中最高的符號準確率,表明其能夠更好地捕捉遊戲動態,並且NNT使用的靜態代碼本簡化了TWM的學習過程。

定性評估與分析

除了定量評估外,研究團隊還對TWM生成的軌跡進行了定性分析。

通過視覺檢查,他們觀察到了三種現象:地圖不一致性、符合遊戲規則的幻覺以及不符合遊戲規則的幻覺。

M1模型在地圖和遊戲動態方面都存在明顯的錯誤,而M3和M5模型能夠生成一些符合遊戲規則的幻覺,例如出現怪物和生命值變化。

M3模型仍然會產生一些不符合遊戲規則的幻覺,例如怪物突然消失或生成的動物外觀錯誤,而M5模型則很少出現這種不合理的幻覺。

定性分析表明,盡避所有模型都存在一定的誤差,但M5模型在保持遊戲動態一致性方面明顯優於其他模型,體現了其學習到的世界模型質量的提升。

下圖6表明,NNT和BTF等改進措施對於提高TWM學習效果的重要性,最終促進了MBRL智能體性能的提升。

Craftax完整版本測試結果

研究團隊還比較了多種智能體在Craftax的完整版本(Craftax Full)上的性能。相比 Craftax-classic,這個完整版在關卡數量和成就設置上都有顯著提升,難度更高。

此前的最佳智能體只能達到2.3%的獎勵,而DeepMind團隊的MFRL智能體取得了4.63%的獎勵,MBRL智能體則更是將獎勵提高到5.44%,再次刷新了SOTA紀錄。

這些結果表明,DeepMind團隊所採用的訓練方法能夠推廣到更具挑戰性的環境。

結論與下一步工作

在本論文,DeepMind研究團隊提出了三項針對基於Transformer世界模型(TWM)的視覺MBRL智能體的改進措施。

這些改進應用於背景規劃:帶有預熱的 Dyna方法、圖像塊最近鄰標記化(NNT)以及塊教師強制(BTF)。

這些改進措施結合起來,使得MBRL智能體在Craftax-classic基準測試中取得了顯著更高的獎勵和分數,首次超越了人類專家的獎勵水平。

論文提出的技術也成功地推廣到了更具挑戰性的Craftax(full)環境中,取得了新的SOTA結果。

下一步工作

DeepMind研究團隊未來將研究如何將這些技術推廣到Craftax之外的其他環境,以驗證其通用性。探索使用優先經驗回放來加速TWM的訓練,以提高數據利用效率。

團隊還考慮將大型預訓練模型(如SAM和Dino-V2)的能力與當前的標記器結合起來,從而獲得更穩定的代碼本,並減少對圖像塊大小和表觀變化的敏感性。

為探究無法生成未來像素的非重構型世界模型,團隊還計劃改造策略網絡,使其能夠直接接收TWM生成的潛變量 token,而不是像素。

責任編輯: 李華  來源:新智元 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/0302/2183679.html