新聞 > 科教 > 正文

大模型兩小時暴虐50多名專家 但8小時顯驚人短板

人類-AI差距之間定性分析

為了更好地了解人類專家在哪些條件下,比AI智能體做得更好或更差的原因,研究人員對智能體成績和解決方案進行了定性分析。

AI智能體:知識儲備大,嘗試頻率37次/h

雖然AI智能體通常無法找到與頂級人類專家相匹配的解決方案,但它們也取得了一些顯著的成功。

比如,在AIDE加持下,Claude 3.5 Sonnet(新版)和o1-preview都能找到「優化內核」的解決方案,運行速度約為參考解決方案的2倍。

如下圖所示,其中,o1-preview的解決方案甚至超過了9位人類專家。

這些都是複雜且新穎的算法,能有效繞過GPU通信限制,並使用一種缺少良好公開文檔的低資源編程語言(Triton)。

這個令人驚訝的結果可能部分歸因於,AI智能體和許多人類專家之間的專業知識差距,因為大多數人類專家並不具備編程GPU內核的專門知識。

這種情況在多個環境中都有體現:一些不太熟悉該領域的人類專家需要花費大量時間學習或復現標準方法(有時甚至完全失敗),而AI智能體憑藉其廣泛的知識基礎往往能輕鬆完成。

AI智能體成功的另一個關鍵因素可能是,它們能比人類專家嘗試更多的解決方案。

平均而言,AIDE和模塊化智能體每小時分別運行36.8次和25.3次,而人類專家僅為3.4次。

這通常導致智能體找到高度優化的「局部最優」解決方案,僅通過調整初始解決方案的參數和代碼,就能實現顯著的改進。

例如,許多智能體在解決「優化內核」環境時,並非通過編寫成功的Triton解決方案(這很困難),而是通過仔細調整初始的Pytorch解決方案,使其運行速度顯著提高。

也就是說,它們能夠有效優化現有解決方案。

如下,是「微調GPT-2用於問答」最佳智能體解決方案中,Claude 3.5 Sonnet調整了初始解決方案的參數,並在訓練軌跡和評估中獲得了準確結果。

不過,這一高分有可能是對噪聲過度擬合的結果。

 alt=

總而言之,AI智能體的成功在於能夠進行大量參數微調和代碼優化,偶爾還會提出創造性有效的解決方案,尤其是在評估成本低的環境在非常有效。

失敗因素

但在大多數環境中,智能體仍然沒有達到強大的人類專家的水平。

造成這種情況的原因之一是,AI智能體提出的解決方案缺乏多樣性。

例如,在「受限架構MLM」任務中,智能體在84%的情況下,都在嘗試使用稍作修改的Transformer架構。即使在不能使用除法和指數運算的情況下,仍固守這種方案。

另一個局限性是,持續性的指令理解錯誤,特別是在「受限架構MLM」和「優化LLM Foundry」任務中。

在某些情況下,這些對環境的誤讀可能導致智能體找到令人印象深刻且意想不到的漏洞,這些漏洞在自動評估中得分很高,但在人工檢查時明顯違反了環境規則。

縮小差距

基於以上的觀察,研究人員認為AI智能體在以下特徵的環境中,會比人類表現更好:

- 短期且高保真循環反饋,可以讓AI智能體充分發揮嘗試多個解決方案的優勢

- 工程複雜度低,使得AI智能體通過幾個步驟就解決問題

- 需要專業知識的任務,AI智能體比人類專家具備更全的知識

- 環境中有顯著的噪聲,這種情況下AI智能體可以進行大量嘗試的優勢會超過人類專家較少的嘗試次數。

- 不易出現意外情況,不需要太多的探索和發現

Re-Bench局限性

評估環境的代表性不足

為了創建符合設計標準的高可靠性評估,研究人員需要努力確保指令和評分容易理解,8小時內可以取得顯著進展,並且提供所有必要的資源,還必須選擇易於構建和評估的環境。

這些限制使得評估環境不太能代表真實的研究,常見問題包括不明確的目標、糟糕的指令、慢反饋和無法解決的問題。

結果噪聲

由於環境數量較少,且智能體得分嚴重向右傾斜,大多數運行得分為0,只有少數得分非常高,所以結果評估對抽樣噪聲很敏感。

評估的成本和複雜性

使用H100 GPU運行智能體數小時需要相應的基礎設施和大量預算,對於普通研究人員來說壓力很大,運行大規模實驗來對比多個模型、框架和參數也更具挑戰性。

 alt=

缺乏框架疊代

選擇不同的智能體框架或提示,有可能導致模型在相近的時間內,在基準測試上取得更好的成績。

研究人員的預期是,通過為智能體提供管理GPU資源的工具,或是通過並行探索解決方案來利用更多的token等來實現更好的性能。

覆蓋前沿研究的局限性

由於硬件訪問有限,並且前沿AI研究也大多是閉源的,評估所涵蓋的研究類型與推動前沿AI進步的研究類型之間可能存在差異。

方案可能過度擬合

除了「擴展法則實驗」之外,所有環境都向智能體提供了測試分數輸出,以最小化誤解或混淆的風險;在未來的疊代中,研究人員考慮只在大多數環境中向智能體提供驗證分數,把測試分數隱藏起來。

「擴展法則實驗」得分存在運氣成分

雖然良好的實驗可以幫助人類專家在環境中做出明智的預測,但智能體還是主要依賴猜測,更多是運氣而不是技巧的問題。

責任編輯: 方尋  來源:新智元 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2024/1125/2135232.html