這可能是迄今為止海外對 DeepSeek最全面的一份分析報告,來自知名半導體研究機構 Semianalysis。
從 DeepSeek讓訓練成本大幅降低的 MLA模式,R1和 o1等模型的性能對比,人均年薪千萬的頂尖人才,還指出目前 DeepSeek的成本估算是錯誤的,推測其擁有大約5萬塊Hopper GPU……
關於 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據現有信息給出了更客觀的論述。

圖靈獎得主楊立昆最近再次發表了關於 DeepSeek的觀點,他指出矽谷某些圈子的通病,是認定別處的創新都是靠作弊得來的。
而科技要快速進步,恰恰需要讓更多人才參與並共享創新成果。在 DeepSeek的開源模型上,我們也看到了這種願景。
報告原文:
https://semianalysis.com/2025/01/31/deepseek-debates/
APPSO整理了這篇分析報告中的關鍵要點:
推測 DeepSeek大約有5萬塊 Hopper GPU,在 GPU上的投資總額超過5億美元。
廣為討論的600萬美元成本僅指預訓練過程中 GPU的花費,這只是模型總成本的一部分。
DeepSeek團隊目前約150人,從北大浙大等中國高校招聘人才,年薪可達千萬。
多頭潛在注意力(MLA)是 DeepSeek大幅降低推理成本的關鍵創新,將每次查詢所需的 KV緩存減少了約93.3%。
在推理性能上 R1與 o1不相上下,而 o3的能力明顯高於 R1和 o1。
DeepSeek風暴席捲全球過去一周,DeepSeek成為了全世界人們唯一熱議的話題。
目前,DeepSeek的日活(據悉超過1900萬)已經遠高於 Claude、Perplexity甚至 Gemini。
然而,對於長期關注 AI行業的人,這個消息不算新鮮。我們已經討論 DeepSeek數月,對這家公司並不陌生,但瘋狂的炒作卻出乎意料。SemiAnalysis一直認為 DeepSeek極具才華,而美國更廣泛的公眾並不在意。
當世界終於關注到這家公司,其中狂熱的輿論並沒有完全反映它的真實情況。
我們想強調的是,輿論已經發生了轉變。上個月,當 Scaling Laws(擴展定律)被打破時,我們就已揭穿了這個神話;如今,算法改進的速度過快,而這在某種程度上對英偉達和 GPU不利。
現在大家討論的是,DeepSeek效率如此之高,以至於我們不再需要更多的計算資源,而由於模型的變革,出現了巨大的產能過剩。
雖然傑文斯悖論(Jevon?s Paradox)也被過度炒作,但它更接近現實,因為這些模型已經引發了需求,對 H100和 H200的定價產生了實質性的影響。
編者註:傑文斯悖論簡單來說就是,當某種資源的使用效率提高後,雖然單次使用時消耗更少,但因為成本降低、使用更方便,反而可能讓人們用得更多,導致整體消耗量反而上升。
5萬塊 Hopper GPU幻方量化是一家中國對沖基金,也是最早在其交易算法中採用 AI的先行者。他們早早就意識到 AI在金融以外領域的潛力以及擴展能力的重要性,因此不斷增加 GPU的供應。
經過使用數千個 GPU集群進行模型實驗後,幻方量化在2021年,在任何出口限制出台之前,就投資了10000個 A100 GPU。
這筆投資得到了回報。隨着幻方量化的不斷進步,他們意識到是時候在2023年5月剝離出「DeepSeek」,以更專注地追求進一步的 AI能力。
當時由於外部投資者對 AI缺乏興趣(主要擔心商業模式問題),幻方量化自籌資金成立了這家公司。如今,幻方量化與 DeepSeek經常共享資源,包括人力和計算資源。
如今,DeepSeek已經發展成為一項嚴肅且協同的重要項目,絕非很多媒體所稱的「副業項目」。
我們相信即使考慮到出口管制因素,他們在 GPU上的投資總額超過5億美元。

我們認為,他們大約擁有50000個 Hopper GPU,但這並不等同於擁有50000個 H100 GPU。
英偉達根據不同法規要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20可供中國大模型公司使用。需要注意的是,H800的計算能力與 H100相同,但其網絡帶寬較低。
我們認為 DeepSeek擁有大約10000個 H800和大約10000個 H100。此外,他們還訂購了更多的 H20,過去9個月內,英偉達已為中國市場生產了超過1000000個此類 GPU。
這些 GPU在幻方量化和 DeepSeek之間共享,並在地理上有所分佈。它們被用於交易、推理、訓練和研究。

我們的分析顯示,DeepSeek的伺服器資本支出總額約為16億美元,其中與運營這些集群相關的成本高達9.44億美元。
同樣,由於資源集中化是一大挑戰,所有 AI實驗室和超大規模雲服務商都擁有比單次訓練運行所使用的 GPU數量要多得多,用於研究和訓練的任務。
年薪近千萬,在中國高校挖頂尖人才DeepSeek完全從中國招聘人才,不拘泥於以往的資歷,而是高度重視能力與好奇心。DeepSeek定期在北京大學、浙江等頂尖高校舉辦招聘活動,許多員工均畢業於這些院校。
崗位職責並完全固定,招聘時會有一定靈活性,招聘廣告甚至宣稱可以無限制調用10000多個 GPU。
這些職位競爭極為激烈,據稱對有潛力的候選人提供的薪資超過130萬美元(約合934萬人民幣),遠高於中國大型科技公司和 AI實驗室(如 Moonshot)等競爭對手。
目前 DeepSeek約有150名員工,但正在迅速擴張。
歷史證明,一家資金充足且專注的小型初創公司往往能夠突破界限。
DeepSeek不具備像 Google那樣的官僚主義,由於其自籌資金,能夠迅速推進新想法。
然而,與 Google類似,DeepSeek(在大多數情況下)自建數據中心,而不依賴外部方或供應商。這為進一步實驗提供了更大空間,使他們能夠在整個技術棧上實現創新。
我們認為,他們是當今唯一最優秀的「開源權重」實驗室,超越了 Meta的 Llama項目、Mistral以及其他競爭者。
DeepSeek的極低成本被誤讀了DeepSeek的價格與效率引發了矽谷科技圈地震的關鍵。
然而,關於 DeepSeek V3的訓練成本為600萬美元這個廣為流傳的數字,其實是片面的。這相當於只關注產品物料清單中的某一部分,並將其視為全部成本。預訓練成本僅僅是總成本中很小的一部分。
我們認為,預訓練所支出的成本,遠遠不能代表模型所花費的總成本。
我們相信 DeepSeek在硬件上的支出遠超過5億美元。他們為了開發新的架構創新,在模型開發過程中,花費了大量資金用於測試新思路、新架構和消融實驗。
多頭潛在注意力(Multi-Head Latent Attention)—— DeepSeek的一項關鍵創新,耗時數月開發,花費了整個團隊的大量人力和 GPU計算時間。
論文中提到的600萬美元成本僅指預訓練過程中 GPU的花費,這只是模型總成本的一部分。研發費用以及硬件本身的總體擁有成本等重要部分並未包含在內。
作為參考,Claude3.5 Sonnet的訓練成本達數千萬美元,如果那就是 Anthropic的全部成本,那麼他們就沒必要從 Google融資數十億、從亞馬遜融資數十億美元。因為這是他們進行實驗、提出新架構、收集和清洗數據、支付員工工資的必要成本。
那麼,DeepSeek是如何獲得如此大規模的集群的呢?出口管制的滯後是關鍵,我們會在下文將詳細討論。
V3讓性能差距縮小的秘訣毫無疑問,V3是一款令人印象深刻的模型,但值得強調的是,它的「令人印象深刻」是相對於什麼而言。
許多人將 V3與 GPT-4o進行比較,並強調 V3在性能上超越了4o,但 GPT-4o是在2024年5月發佈的。以當下 AI的發展速度,算法改進方面那個時候和現在已是天壤之別。此外,我們並不驚訝在經過一定時間後,用更少的計算資源就能實現相當或更強的能力。
推理成本大幅下降正是 AI改進的標誌。

舉個例子,一些可以在筆記本電腦上運行的小模型,其性能可與需要超級計算機訓練,以及需要大量 GPU推理的 GPT-3相媲美。換句話說,算法改進使得用更少的計算資源即可訓練和推理具備相同性能的模型,而這種模式在業內以及出現了多次。
這一次世界終於注意到了,是因為它來自中國的一家實驗室,但小模型性能提升並不是什麼新鮮事。
目前行業的趨勢是,AI實驗室在投入的絕對資金上不斷增加,以獲取更高的智能水平。
據估算,算法效率每年進步4倍,即每過一年,用於達到相同性能的計算資源減少4倍。
Anthropic的 CEO Dario認為,算法進步甚至會更快,可以實現10倍的提升。
就 GPT-3質量的推理價格而言,成本已經下降了1200倍。
在研究 GPT-4的成本時,我們也看到了類似的下降趨勢,儘管處於曲線的較早階段。時間上的成本差異降低可以解釋為不再像上圖那樣保持性能不變。
在這種情況下,我們看到算法改進和優化使得成本降低10倍,同時性能提升10倍。

需要說明的是,DeepSeek的獨特之處在於他們率先實現了這種成本和性能水平。
雖然 Mistral和 Llama模型也曾在開源模型上做過類似的事情,但 DeepSeek做到的程度獨樹一幟。如果到了年底,成本再下降5倍,也請不要感到驚訝。
R1憑什麼迅速追上 OpenAI o1大家熱議的另一個話題,是 R1能夠達到與 o1相當的效果,而 o1僅在9月發佈。
僅僅幾個月時間,DeepSeek是如何如此迅速地趕上的呢?
問題的關鍵在於,推理能力形成了一種全新的範式。
推理範式疊代速度更快,且以較少的計算資源即可獲得顯著收益。正如我們在擴展定律報告中提到的,以往的範式依賴於預訓練,而這種方式不僅成本越來越高,且已經難以取得穩健的進步。
新的推理範式,專注於通過合成數據生成和在現有模型上進行後訓練中的強化學習來提升推理能力,從而以更低的成本實現更快的進步。
較低的入門門檻加上易於優化,使得 DeepSeek能夠比過去更快地複製 o1方法。隨着各方探索如何在這一新範式下進一步擴展,我們預計不同模型在匹配性能的時間差距將會拉大。
需要注意的是,R1論文中沒有提及所使用的計算資源。這絕非偶然——為了生成用於後訓練的合成數據,R1需要大量的計算資源,更不用說強化學習了。
R1是一款非常優秀的模型,但它披露的一些基準測試也具有誤導性。R1特意沒有提及那些它並不領先的基準測試,雖然在推理性能上 R1與 o1不相上下,但在每項指標上它並不都是明顯的贏家,在許多情況下甚至不如 o1。

這裏我們還沒有提到 o3。o3的能力明顯高於 R1和 o1。實際上,OpenAI最近分享了 o3的結果(還提前發佈了 o3-mini),其基準測試的擴展呈垂直趨勢。
這似乎再次證明了「深度學習遭遇瓶頸」,但這個瓶頸不同以往。

與 Google的推理模型不相上下儘管 R1的炒作熱潮不斷,但很多人忽略了,一家市值2.5萬億美元的美國公司在上個月以更低的價格發佈了一款推理模型:Google的 Gemini Flash2.0 Thinking。


















