眾所周知,著名數學家陶哲軒曾為LLM提供了一些訓練數據作為參考。但這並不意味着LLM現在能夠在所有數學問題上達到他的水平,因為底層模型可能並不具備相應的知識深度和推理能力。然而,這確實意味着LLM的回答質量顯著優於一般網絡用戶的回答水平。
因此,所謂的「標註者」實際上可以是各自領域的專業人士,例如程式設計師、醫生等,而並非隨意從互聯網上招募的人員。這取決於 LLM 公司在招聘這些數據標註人員時的標準和策略。
如今,他們越來越傾向於僱傭更高技能的工作者。隨後,LLM 會盡其所能模擬這些專業人士的回答風格,從而為用戶提供儘可能專業的回答。
靠Scaling Law,我們會擁有AGI嗎?
說了這麼多,我們心心念念的AGI究竟什麼時候才能實現呢?
LeCun居然一反常態地說,AGI離我們只有5到10年了。

現在,他已經和奧特曼、Demis Hassaibis等大佬的說法一致了。
但是繼續沿用目前的發展路徑,肯定是不行的。
不僅LeCun認為「LLM的路線註定死路一條」,最近也有一位AI研究者和投資人Kevin Niechen發出了長篇博文,用數學公式推演出:為什麼僅靠Scaling Law,我們永遠到達不了AGI。


Niechen指出,目前關於AGI何時到來的判斷,之所以眾說紛紜,就是因為很多觀點更多是基於動機或意識形態,而非確鑿的證據。
有人覺得,我們會很快迎來AGI,有人認為我們離它還很遠。
為什麼很多模型提供商對當今模型的擴展能力如此樂觀?
Niechen決定,親自用Scaling Law做出一些計算上的推斷,看看未來AI模型究竟將如何進化。
Scaling Law並不像我們想得那麼有預測性
Scaling Law是一種定量關係,用於描述模型輸入(數據和計算量)與模型輸出(預測下一個單詞的能力)之間的聯繫。
它是通過在圖表上繪製不同水平的模型輸入和輸出得出的。

我們只需要擴展現有模型,就會獲得顯著的性能提升嗎?
顯然並非如此,使用Scaling Law進行預測,並不像有些人想的那麼簡單。
首先,大多數Scaling Law(如Kaplan等人、Chinchilla和Llama的研究)預測的,是模型在數據集中預測下一個詞的能力,而不是模型在現實世界任務中的表現。
2023年,知名OpenAI研究員Jason Wei就曾在博客中指出,「目前尚不清楚替代指標(例如損失)是否能夠預測能力的湧現現象……這種關係尚未被充分研究……」

將兩個近似值串聯起來進行預測
為了解決上述問題,我們可以擬合第二個Scaling Law,將上游損失與現實任務性能定量關聯起來,然後將兩個Scaling Law串聯起來,以預測模型在現實任務中的表現。
Loss = f(data, compute)Real world task performance = g(loss)Real world task performance = g(f(data, compute))
在2024年,Gadre等人和Dubet等人提出了這種類型的Scaling Law。
Dubet使用這種鏈式法則進行預測,並聲稱其預測能力適用於Llama 3模型,「在四個數量級範圍內具有良好的外推能力」。
然而,關於這些第二類Scaling Law的研究才剛剛起步,仍處於初期階段,由於數據點過少,選擇擬合函數會高度依賴主觀判斷。
例如,在下圖中,Gadre假設多個任務的平均表現與模型能力呈指數關係(上圖),而Dubet針對單一任務(下圖中的 ARC-AGI 任務)假設其關係呈S型曲線。這些Scaling Law還高度依賴於具體任務。
如果沒有關於損失與現實任務準確率之間關係的強假設,我們就無法有力地預測未來模型的能力。

嘗試用鏈式Scaling Law進行預測,是一種拙劣的嘗試
如果我們盲目地使用一些鏈式Scaling Law來進行預測,會發生什麼?
請注意,這裏的目標是展示如何使用一組Scaling Law(如Gadre的研究)來生成預測,而非獲得詳細的預測結果。
首先,我們可以利用公開信息,來估算未來幾代模型發佈所需的數據和計算輸入。
這一部分可以參考最大數據中心建設的公告,根據其GPU容量估算計算能力,並將其映射到每代模型的演進上。

馬斯克的xAI超算最初便能容納10萬塊H100
接着,我們可以利用Scaling Law來估算這些計算集群所需的數據量。
根據我們使用的Scaling Law,最大的公開宣佈的計算集群(可容納大約1億塊GPU)理想情況下需要訓練 269萬億個tokens,以最小化損失。
這個數字大約是RedPajama-V2數據集的十倍,並且是已索引網絡規模的一半。
聽起來比較合理,所以我們暫時沿用這個假設。

最後,我們可以將這些輸入代入鏈式Scaling Law並進行外推。
需要重點關注右側的圖表,因為該圖顯示了垂直軸上的實際任務性能,與水平軸上的數據和計算輸入相對應。
藍色點表示現有模型的性能(如GPT-2、GPT-3等),而紅色點則是通過外推預測的下一代模型(如GPT-5、GPT-6、GPT-7等)的規模擴展表現:

從圖中可以得到這樣的預測結果——
從GPT-4開始,性能提升將顯現出顯著的邊際遞減趨勢。
GPT-4到GPT-7模型(計算量約增加4000倍)在實際任務中的預測性能提升,與從GPT-3到GPT-4(計算量約增加100倍)的預測性能提升相當。
我們是否正在接近不可降低的損失?
如果你查看左側的圖表就會發現:這些Scaling Law的問題在於,我們正在逐漸接近不可降低的損失。
後者與數據集的熵密切相關,代表了模型在該數據集上能夠達到的最佳理論性能。
根據Gadre的Scaling Law,在RedPajama數據集上,如果最優模型只能達到約1.84的不可降低損失,而我們已經在GPT-4上達到了約2.05,那改進空間就十分有限了。

然而,大多數實驗室並未發佈其最新前沿模型訓練的損失值,因此我們現在並不知道,我們實際上離不可降低的損失有多近。
擬合函數的主觀性與數據的局限性
如前所述,第二條Scaling Law中擬合函數的選擇具有很強的主觀性。
例如,我們可以使用sigmoid函數而不是指數函數,重新擬合Gadre論文中的損失和性能點:

然而,結論基本沒有變化。
如果只是比較左圖中的指數擬合(紅線)和我們自定義的sigmoid擬合(紫色虛線),局限性是明顯的:我們根本沒有足夠的數據點,來自信地確定將損失與現實世界性能關聯的最佳擬合函數。
沒人知道下一代模型的強大程度
顯然,有許多方法可以改進上述「預測」:使用更好的Scaling Law,使用更好的數據和計算估計,等等。
歸根結底,Scaling Law是嘈雜的近似值,而通過這種鏈式預測方法,我們將兩個嘈雜的近似值結合在了一起。
如果考慮到下一代模型可能由於架構或數據組合的不同而擁有適用於不同條件的全新Scaling Law,那麼實際上沒有人真正知道未來幾代模型規模擴展的能力。
為什麼大家對Scaling如此樂觀?
如今,不管是科技大廠還是明星初創,都對Scale現有模型十分樂觀:
比如微軟CTO就曾表示:「儘管其他人可能不這麼認為,但我們並未在規模的Scaling上進入收益遞減的階段。實際上,這裏存在着一個指數級的增長。」

有些人將這種樂觀歸因於商業動機,但Niechen認為這來自以下幾個方面的結合:
(1)實驗室可能掌握了更樂觀的內部Scaling Law
(2)儘管存在廣泛懷疑,但實驗室親身經歷了Scaling所帶來的成效
(3)Scaling是一種看漲期權
谷歌CEO劈柴表示:「當我們經歷這樣的曲線時,對於我們來說,投資不足的風險遠遠大於投資過度的風險,即使在某些情況下事實證明確實投資得有些多了……這些基礎設施對我們有廣泛的應用價值……」

而Meta CEO小扎則這樣認為:「我寧願過度投資並爭取這樣的結果,而不是通過更慢的開發來節省資金……現在有很多公司可能正在過度建設……但落後的代價會讓你在未來10到15年最重要的技術中處於劣勢。」
未來何去何從
總結來說,Niechen認為外推Scaling Law並不像許多人聲稱的那樣簡單:
(1)當前大多數關於預測AI能力的討論質量不高
(2)公開的Scaling Law對模型未來能力的預示非常有限
因此,為了有效評估當今的AI模型是否還能Scaling,我們就需要更多基於證據的預測和更好的評估基準。
如果我們能夠了解未來模型的能力,就可以優先為這些能力做好準備——比如,為生物學研究革命提前構建生物製造能力,為勞動力置換準備技能提升公司,等等。
從個人的角度,Niechen對AI能力的進步還是非常樂觀的,因為這個領域擁有傑出的人才。
但AI的Scaling並不像人們想像的那樣具有確定性,也沒有人真正清楚AI在未來幾年將帶來怎樣的發展。














