AI智能體離自主研發,還有多遠?
Nature期刊的一篇研究曾證明了,GPT-4能自主設計並開展化學實驗,還能閱讀文檔學習如何使用實驗室設備。
另有Transformer作者之一研發的「世界首個AI科學家」,一口氣肝出10篇論文,完全不用人類插手。
如今,AI在研發領域的入侵速度,遠超人類預期。
來自非營利組織METR的最新研究稱:
同時給定2個小時,Claude 3.5 Sonnet和o1-preview在7項具有挑戰性研究工程中,擊敗了50多名人類專家。
令人印象深刻的是,AI編程速度能以超越人類10倍速度生成並測試各種方案。
在一個需要編寫自定義內核以優化前綴和運算的任務中,o1-preview不僅完成了任務,還創造了驚人的成績:將運行時間壓縮到0.64毫秒,甚至超越了最優秀的人類專家解決方案(0.67毫秒)。
論文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf
不過,當比賽時間延長至8小時,人類卻展現出了明顯的優勢。
由下可以看出,隨着時間逐漸拉長,Claude 3.5 Sonnet和o1-preview的性能提升逐漸趨於平緩。
有趣的是,為了獲得更高的分數,AI智能體居然會違反規則「作弊」。
原本針對一個任務,智能體應該減少訓練腳本運行時間,o1-preview直接複製了輸出的代碼。
頂級預測者看到這一結果驚嘆道,基於這個進步速度,AI達到高水平人類能力的時間可能會比之前預計的更短。
RE-Bench設計架構,遍歷七大任務
為了能夠快速疊代,並以合理的成本收集數據,研究人員設定了運行限制:人類專家的評估不超過8小時,且所有環境都只能使用8個或更少的H100 GPU運行。
在環境設計時,主要考慮最大化覆蓋前沿AI難題,同時確保人類專家與智能體能夠持續推進任務,不會遇到研究瓶頸或得分上限。
RE-Bench包含了七個精心設計的評估環境,其中每個環境都提出了一個獨特的機器學習優化問題,要取得高分需要大量的實驗、實現和高效使用計算資源。
每個評估環境包括三部分:
1、評分函數(scoring function),定義了環境的目標,智能體可以隨時運行該函數。每次運行評分函數時,都會在得分日誌中添加一個帶時間戳的事項。智能體可以看到得分日誌,並檢查評分函數的細節,有助於理解研究目標。
2、簡單但性能不佳的初始解決方案(starting solution),提供給智能體,以展示有效的解決方案是什麼樣子,有助於說明環境設置,可以讓智能體更快地開始研究問題中更具挑戰性的部分。比如說,在「優化核函數」環境中,智能體的輸入為一個簡單但運行緩慢的Python解決方案。
3、由任務作者創建的參考解決方案(reference solution),得分很高。但該解決方案不會提供給智能體,只用于歸一化得分(normalize score),作為一個優秀解決方案的示例。下式中ys為初始方案得分,yr為參考方案得分,y為模型得分,yn為歸一化分數。
除了「Scaling Law Experiment」採用最終分數進行評估外,其他實驗都使用得分日誌中的最高分。
8小時極限,人類專家吊打AI
研究人員使用開源的Vivaria平台來設置安全的虛擬機,配備20-48個虛擬CPU、200-400 GB的RAM,以及0到6個H100 GPU,對比模型選擇了claude-3-5-sonnet-20241022以及o1-preview,框架選擇為METR和AIDE時間限制下的性能在相同時間下,可以看到,o1-preview和Claude 3.5 Sonnet在最初階段進展迅速,但在幾個小時後速度減慢;而人類專家起步較慢,但隨後迅速取得進展。
採樣限制下的性能
除了長時間運行外,研究人員還評估了模型是否能在更短的時間限制下取得更好的性能:對每個環境進行k次採樣,並選擇所有k次運行中取得的最高分數。
結果發現,模塊化框架中的智能體在30分鐘嘗試中表現得更好,而AIDE框架中的智能體則在2小時嘗試中表現最佳。
還可以發現,在AIDE框架中的o1-preview和在模塊化框架中的Claude 3.5 Sonnet總體上取得了最高的分數,分別達到了人類專家的第36和第37百分位。
隨着樣本數量的增加,最佳-k次分數(score@k)也會發生變化:Claude 3.5 Sonnet在30分鐘時,樣本數量增加,性能也穩步提高,但即使在k=128個樣本下,智能體的表現也遠遠落後於頂尖人類的表現。
總體而言,人類起步較慢,但改進軌跡更陡峭,即進步更快,並且在32小時的時間預算內達到了比任何智能體都更高的分數。
按環境評估
研究人員對比了兩個智能體(模塊化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview)在32小時內的最高性能分配與人類結果(四次8小時運行中的最佳表現)以匹配智能體的時間預算。
結果發現不同智能體在不同環境中的表現存在顯著差異:Claude 3.5 Sonnet智能體在「微調GPT-2進行問答」和「擴展法則實驗」環境中接近人類的表現,而o1-preview在這些環境中表現不佳;o1-preview在「優化核函數」環境中的表現超過了人類。