新聞 > 科教 > 正文

DeepSeek最真實水平 中共將砸1萬億人民幣

—目前看到對DeepSeek真實水平最全面客觀的分析

備註:本文是對SemiAnalysis最新一篇公開分析報告的全文翻譯,譯者張海軍。

原文地址:https://semianalysis.com/2025/01/31/deepseek-debates/

深度求索的故事席捲全球深度求索(DeepSeek)的故事在全球引起了轟動。在過去的一周里,深度求索成了全球各界唯一的熱議話題。

但對於密切關注這一領域的人來說,這其實並非什麼「新鮮事」,令人矚目的是人們對它的瘋狂炒作。長期以來,SemiAnalysis一直認為深度求索極具天賦,但美國大眾此前並不關注。當全世界終於開始關注時,卻陷入了一種脫離現實的瘋狂炒作。幾個月來,我們一直在談論深度求索(每個連結都是例證)。這家公司並不新。

我們想強調的是,輿論風向與上個月相比發生了逆轉。上個月,當規模定律被打破時,有人認為這對英偉達(Nvidia)和 GPU不利;如今,又有人說算法改進速度過快。我們已經破除了這些謬論。

如今的輿論認為,深度求索效率極高,我們不再需要更多計算資源,而且由於模型的變化,現在一切都存在大量過剩產能。雖然傑文斯悖論(Jevons paradox)也被過度炒作了,但它更接近現實情況。這些模型已經對 H100和 H200的定價產生了實際影響,刺激了需求。

深度求索與 High-Flyer(幻方)High-Flyer是一家中國對沖基金,也是將人工智能應用於交易算法的早期 adopters。他們很早就意識到了人工智能在金融領域之外的潛力,以及規模化的關鍵意義。因此,他們不斷增加 GPU的儲備。在使用數千個 GPU集群對模型進行試驗後,High-Flyer在2021年出口限制實施前投資購買了10000個 A100 GPU,這一舉措取得了回報。隨着 High-Flyer的發展,他們在2023年5月決定分拆出「深度求索」,目標是更專注地追求人工智能能力的進一步提升。當時,由於缺乏商業模式,外部投資者對人工智能興趣寥寥,High-Flyer便自行出資成立了這家公司。如今,High-Flyer和深度求索經常共享人力和計算資源。

深度求索如今已發展成為一項認真且協同的事業,絕非許多媒體聲稱的「副業」。我們確信,即便考慮到出口管制因素,他們在 GPU上的投資也超過5億美元。

GPU情況我們認為他們擁有約50000個 Hopper GPU,但這並不等同於50000個 H100,一些人存在這樣的誤解。英偉達為遵守不同規定,生產了 H100的多種變體(H800、H20),目前中國的模型供應商僅能獲得 H20。需要注意的是,H800的計算能力與 H100相同,但網絡帶寬較低。

我們認為深度求索擁有約10000個 H800和10000個 H100。此外,他們還訂購了更多 H20。在過去9個月裏,英偉達生產了超過100萬個專供中國的 GPU。這些 GPU由 High-Flyer和深度求索共享,並在一定程度上進行了地理分佈。它們被用於交易、推理、訓練和研究。如需更具體的詳細分析,請參考我們的《加速器模型》。

深度求索人工智能的總擁有成本我們的分析顯示,深度求索的伺服器總資本支出接近13億美元,運營這些集群的成本高達7.15億美元。同樣,所有人工智能實驗室和超大規模數據中心為了各種任務(包括研究和訓練),擁有的 GPU數量比單次訓練所需的更多,因為資源集中存在一定挑戰。X.AI作為一個人工智能實驗室比較獨特,它所有的 GPU都集中在一個地方。

深度求索只從中國招聘人才,不看重過往資歷,高度關注能力和求知慾。他們經常在北京大學和浙江大學等頂尖大學舉辦招聘活動,招聘廣告中甚至吹噓員工能無限制使用數萬個 GPU。他們極具競爭力,據說為有潛力的候選人提供超過130萬美元的年薪,遠超中國其他大型科技公司和人工智能實驗室,如 Moonshot。他們目前約有150名員工,且規模還在迅速擴大。崗位角色不一定預先設定,招聘人員有一定靈活性。

歷史表明,資金充足且專注的小型初創公司往往能突破極限。深度求索不像谷歌那樣官僚主義,由於是自籌資金,他們能迅速將想法付諸實踐。不過,和谷歌一樣,深度求索(在很大程度上)運營自己的數據中心,不依賴外部機構或供應商。這為實驗開闢了更多空間,使他們能夠在整個技術棧上進行創新。

我們認為他們是目前最好的「開放權重」實驗室,超過了 Meta的 Llama項目、Mistral等。

深度求索的成本與性能本周,深度求索的價格和效率引發了熱潮,主要焦點是深度求索 V3的「600萬美元」訓練成本。但這是錯誤的。這就好比只看產品物料清單上的某一部分,卻將其視為整個產品的成本。預訓練成本只是總成本中很小的一部分。

訓練成本我們認為預訓練成本遠非該模型的實際投入。我們確信,在公司發展歷程中,他們在硬件上的花費遠高於5億美元。為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,並進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和 GPU計算時間。深度求索的關鍵創新——多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數月時間。

論文中提到的600萬美元成本僅指預訓練運行的 GPU成本,這只是模型總成本的一部分。研發費用和硬件本身的總擁有成本等重要部分並未計算在內。參考一下,Claude3.5 Sonnet的訓練成本高達數千萬美元,如果這就是 Anthropic所需的全部成本,他們就不會從谷歌籌集數十億美元,也不會從亞馬遜籌集數百億美元了。這是因為他們必須進行實驗、提出新架構、收集和清理數據、支付員工工資等等。

那麼深度求索是如何擁有如此龐大的集群的呢?出口管制的滯後是關鍵,下面在出口管制部分會詳細討論。

縮小差距——V3的性能V3無疑是一款令人印象深刻的模型,但值得注意的是,要明確它是相對於什麼而言令人印象深刻。許多人將 V3與 GPT-4o進行比較,並強調 V3如何超越4o的性能。這確實沒錯,但 GPT-4o於2024年5月發佈。人工智能發展迅速,從算法改進的角度來看,2024年5月恍如隔世。而且,經過一段時間後,用更少的計算資源實現相當或更強的能力,這並不令人意外。推理成本的下降是人工智能進步的一個標誌。

深度求索 V3的競爭分析

例如,能在筆記本電腦上運行的小型模型,其性能可與 GPT-3相媲美,而 GPT-3的訓練需要超級計算機,推理則需要多個 GPU。換句話說,算法的改進使得用更少的計算資源來訓練和推理具有相同能力的模型成為可能,這種模式反覆出現。這次全世界之所以關注,是因為它來自中國的一個實驗室。但小型模型性能提升並非新鮮事。

到目前為止,我們從這種模式中看到,人工智能實驗室為了獲得更高的智能水平,在絕對金額上的投入越來越多。據估計,算法的進步意味着每年實現相同能力所需的計算資源減少4倍。Anthropic的行政總裁 Dario認為,算法定價在朝着 GPT-3質量發展,成本已下降1200倍。就推理而言,甚至可以實現10倍的改進。

在研究 GPT-4的成本時,我們也看到了類似的成本下降趨勢,不過處於曲線的更早期階段。雖然隨着時間推移成本差異的縮小,不能像上面的圖表那樣通過保持能力不變來解釋。在這種情況下,我們看到算法改進和優化使成本降低了10倍,同時能力也有所提升。

需要明確的是,深度求索的獨特之處在於他們率先達到了這樣的成本和能力水平。他們發佈開放權重的做法也很獨特,不過之前 Mistral和 Llama模型也有過類似舉措。深度求索達到了這樣的成本水平,但到今年年底,如果成本再下降5倍,也不要感到驚訝。

另一方面,R1能夠取得與 o1相當的結果,而 o1直到9月才發佈。深度求索是如何這麼快就追趕上的呢?

答案是,推理是一種新範式,與之前的預訓練範式相比,它的疊代速度更快,且更容易實現較小計算量下的顯著提升,而之前的預訓練範式成本越來越高,且難以取得穩健的進展。如我們在報告中所述,之前的範式依賴於規模定律。

新範式通過在現有模型的訓練後階段,利用合成數據生成和強化學習來提升推理能力,能夠以更低的成本實現更快的進步。較低的進入門檻和易於優化的特點,使得深度求索能夠比往常更快地複製 o1的方法。隨着參與者在這種新範式中找到更多擴展方法,我們預計實現相同能力所需的時間差距將會擴大。

需要注意的是,R1的論文中並未提及所使用的計算資源。這並非偶然——為訓練後的 R1生成合成數據需要大量計算資源,更不用說強化學習了。我們並不否認 R1是一款非常優秀的模型,能如此迅速地在推理能力上追趕上令人欽佩。深度求索作為一家中國公司,用更少的資源實現了追趕,這更是令人讚嘆。

但 R1提到的一些基準測試也具有誤導性。將 R1與 o1進行比較很棘手,因為 R1特別沒有提及那些自己不領先的基準測試。雖然 R1在推理性能上與 o1相當,但它並非在所有指標上都是明顯的贏家,在很多情況下甚至不如 o1。

我們還沒有提到 o3。o3的能力明顯高於 R1和 o1。事實上,OpenAI最近公佈了 o3的結果,其基準測試成績直線上升。「深度學習遇到了瓶頸」,但卻是另一種情況。

谷歌的推理模型與 R1相當在人們為 R1瘋狂炒作時,一家市值2.5萬億美元的美國公司——谷歌,提前一個月發佈了一款推理模型 Gemini Flash2.0 Thinking,且價格更低。這款模型可供使用,通過 API調用時,即使其上下文長度更長,價格也比 R1便宜得多。

在已公佈的基準測試中,Flash2.0 Thinking的表現優於 R1,盡避基準測試並不能說明全部情況。谷歌只公佈了3個基準測試結果,所以這只是一個不完整的畫面。不過,我們認為谷歌的模型很可靠,在很多方面都能與 R1抗衡,卻沒有得到任何炒作。這可能是因為谷歌的市場推廣策略平淡無奇,用戶體驗也不佳,但也可能是因為 R1來自中國,令人感到意外。

需要明確的是,這些都無損於深度求索的卓越成就。深度求索作為一家行動迅速、資金充足、人才濟濟且專注的初創公司,能夠在推理模型發佈上擊敗 Meta等巨頭,值得稱讚。

技術成就深度求索已經找到了關鍵方法,實現了領先實驗室尚未取得的創新。我們預計,深度求索公佈的任何改進,幾乎都會立即被西方實驗室效仿。

責任編輯: 方尋  來源:傅里葉的貓/基本常識 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/0201/2169015.html