新聞 > 中國經濟 > 正文

來了一趟晶片黑市,長了好多奇怪的知識

去年10月份以來,有人開始在垂直社群中喊話出售面臨美國出口管制的英偉達高端晶片,聲稱A100、H100等都有辦法搞到。

「少量H100晶片,有需要的私我。」

「有沒有需要英偉達GPU A100,80G的?原廠原裝,9片一箱。」

這些人往往備註直接——「英偉達晶片貨源」,不論是八九十人的小群還是幾百人的大群,他們都會冒個泡,不少晶片行業群中都收到了類似的消息。

按照這些賣家的說法,可以提供現貨,但無法穩定供應量,期貨一般8-14周交付,「40%定金,貨到驗貨付尾款交付。」總會有人接茬問問價格、貨源,能拿多少片,但成交與否不得而知,更多人只是觀望。

知情人士稱,這些賣家大多來自南方,拿貨渠道隱秘,能把貨從海外送到大陸的指定地點,但並不包售後。行業社群之外,拼多多、小紅書甚至是閒魚等平台上,也偶有「貨源」出現。

今年10月17日,美國更新出口管制條例後,英偉達A800、H800、L40S等更多晶片面臨禁售,地下市場的「尖兒貨」開始洗牌,這些隱秘的賣家又開始在社交、電商平台現身,以二手的形式轉售被禁的先進晶片。

「整機現貨,欲購從速」。4萬、13萬、25萬......不斷變動並走高的價格,也引發從業者調侃:大概這是自去年10月禁售以來,我離天價晶片最近的一次。

天價晶片:H100流向中國黑市

晶片社群中有人喊話出售英偉達晶片

01

A100

電商平台一搜就有

去年10月,美國商務部發佈出口管制條例,限制算力上限為4800以及帶寬上限600 GB/s的AI晶片向中國出口,英偉達A100面臨禁售,彼時正值全球人工智能行業發展的高峰時期。

A100是基於Ampere架構的GPU計算加速器,專為高性能計算、人工智能和機器學習等領域設計,擁有高達 6912 個 CUDA 核心和 40GB 的高速 HBM2 顯存,是目前最強大的數據中心GPU之一。

Lambda網站將A100與V100進行對比測試,結果顯示,在卷積神經網絡訓練中,1塊A100的訓練速度是1塊V100的2.2倍,使用混合精度時,前者則是後者的1.6倍;在語言模型訓練中,1塊A100的訓練速度是1塊V100的3.4倍;使用混合精度時,前者則是後者的2.6倍。

天價晶片:H100流向中國黑市

左圖:A100與V100卷積神經網絡訓練速度對比 右圖:A100與V100語言模型訓練速度對比

這還只是用了A100 40GB版本,80GB版本的A100 HBM2位寬達5120bit,顯存帶寬達1935 GB/s,能支持更快的訓練速度和更大模型容量,處理大規模並行計算的應用程式不在話下。

有從業者直白表示:「你做出來的是人工智能,還是人工智障,全靠背後的算力支持,直接決定勝負。」

此次切斷供應直接影響到大數據、雲計算、自動駕駛、計算機等多個領域,很多企業被迫延遲甚至砍掉了開發計劃。

為了規避出口管制,英偉達針對性地向中國市場推出A800和H800晶片,以滿足中概互聯企業的算力需求,但如果需要採購A100和H100這種在管制清單上的產品,就只能通過非官方渠道。

今年4月以來,社交、電商甚至二手電商平台上,開始有人報價A100晶片,也有一些帖子暗示自己有少量A100貨源,價值不低於一台寶馬

天價晶片:H100流向中國黑市

社交平台上A100晶片售賣、租賃的帖子

根據芯潮IC的跟蹤觀察,今年2月份,A100即開始在國內以非官方渠道的形式流通,價格大概在4萬人民幣左右,最低還賣過2萬多,隨着5月份中概互聯網企業捲起大模型熱潮,A100價格一路走高,最高成交價接近25萬元,浮動範圍極大。

有業內人士透露:「一般一台伺服器上需要裝配8張顯卡」,按最高成交價25萬元來算,一台伺服器整機價格接近200萬元。

人工智能產業對算力渴望,讓更高端的晶片也加入了非官方流通之列,到6月份,H100的報價在上述渠道也多了起來。不少晶片社群裏頭頂「貨源」的潛水銷售們,也將自己的暱稱悄悄改為「H100晶片貨源」。

公開資料顯示,H100相較於A100,16位推理速度上提升3.5倍,訓練速度上提升2.3倍,如果用伺服器集群運算的方式,訓練速度更是能提高到9倍,自發佈起就受到追捧。

亞馬遜CEO Adam Selipsky就曾表示:「H100是最先進的……即使對於AWS來說也很難獲得。」而這話,就連OpenAI、Meta、微軟這些科技巨鱷也非常想說。據江湖流傳的小道消息,H100甚至可以作為一種「敲門磚」,初創公司以此找基金拿抵押貸款。

天價晶片:H100流向中國黑市

CoreWeave抵押H100獲得債務融資

據外媒報道,9月份,英偉達在日本的銷售合作公司把H100價格調漲16%,達544萬日元(26.5萬元人民幣)。

有價無市,一哄而上,作為市場主流,這兩款晶片儼然是AI算力「硬通貨」,但因為出口管制,只能在社交、電商平台等非官方渠道流通。

在具體的詢價過程中,有的店主表示「有單卡,模組和整機」,但更多的手上只有少量的單片散貨:「現貨32張,就看誰手快了」,更有店主大方表示,這些產品沒有保修或支持服務,但被問及發貨地和貨源時,回答會含糊一些,「

海外發貨,大陸交付,但可以送到指定地點。」

有購買者向芯潮IC透露,「確有不少人在銷售英偉達 GPU,但能否獲得真正的A100、H100,在收到貨之前還是難以確認,畢竟也曾有人花了兩萬美金,卻買到了翻新貨。」

02

iPhone水客到H100水客

業內皆知,A100、A800、H100這三款晶片是禁令頒佈以來市場主流。

一般認為:火爆程度上H100>A100>A800,A800主要面向中國市場,是A100的「閹割版」,H100比A100還要更高階一點。此外還有一款號稱是「H100閹割版」的H800。

A100上文已介紹過,這裏不再贅述。A800是英偉達在遵守2022年出口管制標準的前提下,為中國地區開發的A100「平替」。從官方公佈的參數來看,A800主要是將NVLink的互聯帶寬由A100的600GB/s降至了400GB/s,其他參數與A100基本一致。互聯帶寬也就是我們常說的傳輸速率,直接影響着晶片輸入和輸出的能力,對訓練大模型十分重要。

天價晶片:H100流向中國黑市

Jefferies全球證券首席策略官Christopher Wood在研報中指出,英偉達為避開美國2022年9月輸中禁令所打造的「A800」系列晶片,最近幾月對中國的銷量非常龐大。

H100發佈於今年3月,是一款基於4nm工藝,擁有800億個電晶體、18432個核心的 GPU晶片。針對中國市場,英偉達也推出了特供版H800,據外媒報道,H800 的晶片間數據傳輸速度大概是 H100 的一半,阿里巴巴、百度的雲部門已採用H800晶片。

天價晶片:H100流向中國黑市

一位不願透露姓名的渠道商表示:「現在整個市場主流就是H100,很多公司報價高達50萬,但實際成交價格在32萬左右,不過確實很難拿到貨,9月份的出貨量也只有3000片左右。」

至於支付定金,在這位渠道商看來,「市面上傳訂貨要付50%定金,比正規渠道高出了差不多30%,真實貨源面前,支付多少定金已經不重要了。」

而與H100的火熱形成對比,年初嶄露頭角,年中走向高點的A100已基本「退燒」。電子元器件渠道商覺S向芯潮IC透露,「A100最熱的時候,哪怕你手裏只有三五片,人家都會拿過去拼湊,但採購潮在6月份就基本結束了,現在需求基本飽和,至於A800晶片,現在誰拿到基本都會砸在手裏。」

10月17日,美國商務部頒佈新一輪出口管制條款,針對中國市場的平替版本英偉達 A800 和 H800面臨禁售,L40S甚至RTX 4090都被推上了風口浪尖,黑市「尖貨」價格又一次戲劇性上漲。有消息稱,當日晚間預定的H800 GPU整機單價已高達245萬元,較一個月前的期貨預訂價195萬元已高出25%。

天價晶片:H100流向中國黑市

社交平台上關於A800/H800售賣租賃的帖子

不過這次,很多國內廠商都提前接到了消息,預先完成了囤貨。國內一家伺服器廠商的內部人士表示,他們十月初就接到了這個(禁售)消息,目前已經囤了足夠量,不過未來還是有很大壓力。

天價晶片:H100流向中國黑市

出口管制新規發佈前某供應商通知增補訂單 受訪人供圖,僅供參考

綜合市場的信息,應用軟件開發商、初創公司、研究機構和遊戲玩家是這些晶片的主要採購者,也可能涉及一些敏感機構和實體 。

有需求就會有供給,一條隱秘的地下交易鏈條也逐漸成型——供應商們採購晶片的方式主要有二:一是在英偉達向美國大型企業大量發貨後,搶購市場上的剩餘庫存;二是通過在印度、台灣、新加坡等地本地註冊的公司進行進口。

知情人士表示:「對於大型企業來說,拿貨一般有固定的渠道,而且消息都是高層間直接勾兌,走貨量大,中間商作用較弱。」

那市面上持有少量顯卡的賣家又是如何搞到貨呢?

有渠道商透露,其實顯卡大概是兩個巴掌大小,由於每個國家把控嚴格度不一,如果揣在包里,報關時把它報成普通電子設備,流通就成為可能,好比當年水客運輸iPhone。也有人從伺服器上下功夫,「一般伺服器都是類似於茶海大小,海外發到我們這邊都會拆散,但裏面的東西基本上不會損壞。」不過大家心裏也清楚,走中小型中間商渠道,風險會很高,雖然買個幾片、定金也交了,一旦被查基本只能認栽

天價晶片:H100流向中國黑市

渠道商倉庫A100、H100裝箱實拍 受訪人供圖,僅供參考

總的來說,國內真正能勾兌這類交易的人屈指可數,就連坊間傳得神乎其神的華強北,也有很多辦不到的事。中間商就算想分一杯羹,也多會因為繁瑣複雜的過程驗證而退出——客戶會質疑貨物真假,是不是拆機件,能不能確保100%原廠出貨;供貨端更是會仔細盤問買家、用途、是不是真的有能力付錢。

也有渠道商曾試圖在這種產品上賺一筆,但最終嘗盡苦頭,有感而發:「做一單幾萬美金,或者二十萬美金的生意尚且很複雜很小心,更何況這是一筆上千萬美金的訂單,是很難做到的。」

風險因素眾多,除了產品來源非官方、去向不確認,市面上還會有不少翻新貨,運氣夠差的話,你手裏拿到的根本就不是A100。知情人士稱,「拿到晶片後必須得組裝起來才知道真假好壞,有點兒像開盲盒」,「如果向某些比較正規的公司簽合同購買,都至少有1-3年的質保,單從外面的渠道購買是基本不靠譜的,保修售後也不要想了。」

據介紹,運輸過程中磕碰、泡水比較常見,還有賣家把已經不流通的 A100 40GB晶片,改成80GB來賣,上當的也大有人在。

03

所有人都被產能「卡脖子」

H100還沒成為歷史,搶卡又開始了新的輪迴,甚至消費級的RTX 4090一下成為風暴中心。10月17日之後的短短三日,RTX 4090的價格像坐了火箭,衝上4萬不說,在華強北線下和淘寶第三方店鋪均已斷貨。

「4090是被性能密度拖下水的,實際上4090目前也沒有人真的拿來做AI。」有業內人士向芯潮IC表示,RTX 4090是目前遊戲玩家能夠買到的最頂尖的遊戲顯卡,AI大模型訓練等商業需求,RTX 4090雖在理論上可以串聯滿足(很少有人會這麼做),更多還是滿足個人需求當個遊戲卡。

令所有人都沒想到的是,本來有30天窗口期的禁令竟提前生效——24日晚間,英偉達發佈公告稱新出口限制改為立即生效,但炒得正熱的RTX 4090卻不在禁售名單中。

根據英偉達周二提交給SEC的文件,美國商務部10月23日通知該公司,上周(10月17日)公佈的出口限制改為立即生效,影響適用於「總處理性能」為4800或更高,並為數據中心設計或銷售的產品,即 A100、A800、H100、H800和 L40S 的出貨。

天價晶片:H100流向中國黑市

英偉達發佈公告截圖    來源:英偉達官網

從禁售到不受影響,價格也就暴漲暴跌,瘋狂囤貨的黃牛被雙手暴擊,但事情一直在動態翻轉。

日前,又有消息稱,多家英偉達合作顯卡品牌確認RTX 4090系列將於11月17日之後在中國大陸全面禁售。儘管真實性無從考證,4090似乎有着自己的「真香定律」。

從A100、H100、A800,再到H800、 L40S......歷史宛若一個輪迴,套住了深扎其中的玩家,不論是身為製造商的台積電、聯電,還是像英偉達、AMD等人工智能計算公司,更不必說華為、寒武紀、摩爾線程、壁仞等諸多被禁令「點名高掛」的中國大陸企業,都隨這一場場的風波浮浮沉沉。

問題癥結在哪兒?除了天天講的禁令,製造端的產能更為關鍵。

從根源上看,英偉達有多少貨取決於台積電的CoWoS產能

。CoWoS 是台積電的一種「2.5D」封裝技術,其中多個有源矽晶片集成在無源矽中介層上,是最流行的 GPU 和 AI 加速器封裝技術,英偉達 A100、H100晶片均用台積電CoWoS 先進封裝。

2023年,ChatGPT風靡全球,AI晶片需求應聲大漲,這大大超過了英偉達的預估。一位有豐富半導體製造經驗的知情人士表示,「原本英偉達 2022年在台積電預訂的產能是3萬片,今年3月ChatGPT爆火後,又緊急追加了5000片,再後來又追加了1萬片,最終在台積電的訂單共有4.5萬片。」

4.5萬是個什麼概念呢?

2022年,台積電CoWoS年產7萬片,今年受ChatGPT爆火的影響,台積電計劃將年產能提升到14萬片,而這其中單單英偉達一家就已經佔據了超三成。對英偉達來說,台積電出多少就買多少,但同時還有AMD也要出貨,谷歌自研的TPU也在翹首盼望,這14萬片的產能早就被瓜分了個精光。

據業內人士介紹,CoWoS 所需中介層因關鍵製程複雜、高精度設備交期拉長而供不應求,目前產能嚴重受限,正處在艱難爬坡過程中。這也意味着哪怕是英偉達這樣的大客戶,想追加更多都是不可能的。

所以,現在A100、A800、H100、H800等晶片如此緊缺,問題癥結在於台積電CoWoS產能的不足。上述知情人士表示,這個問題有望在明年第二季度解決,那時產能大量釋放,

明年台積電CoWoS有望達到30萬片。

想像一個場景,如果明年產能不再緊缺,在美國、日本、新加坡,這幾款晶片要多少有多少,需求飽和,流入中國市場只是時間早晚。現在全球缺貨加上中國被限,晶片的價差特別高,但產能跟上後,價差自然會變小,千金囤貨的故事終會告一段落。

那麼,產能何時才能跟上?眼下的問題有該怎麼解決呢?

該知情人士認為:「明年應該是見真章的一年,預計明年下半年ChatGPT的落地場景會明確下來。」

屆時,H100在訓練端的需求可能會到頂,但推理端場景有很多,需求增長無窮無盡。現如今,Meta、Microsoft等國外大廠做訓練和推理基本都用H100,部分小廠可能為了性價比選擇訓練用H100,推理用A100。但其實,推理端並不是非高端晶片不可,今年8月,英偉達「曲線救國」,給出了繞過CoWoS封裝的解決方案——L40S。

這是一款專為搭建數據中心設計的 GPU晶片,在具有數十億參數和多種模態的生成式AI工作負載下,L40S的18176個CUDA核心可提供近5倍於A100的單精度浮點(FP32)性能,相較於A100推理性能提升1.2倍,訓練性能提升1.7倍,從而加速複雜計算和數據密集型分析。對於全球而言,在CoWoS封裝產能有限, H100供給不足的當下,L40S 可謂一場及時雨,但現在也遭遇了「一紙禁令」。

禁令的波及不僅體現在先進晶片產品的直接銷售上,也體現在先進工藝的製造代工上,寒武紀,摩爾線程、壁仞已經無法在台積電流片,而只能轉向大陸晶圓廠。據了解,目前中芯南方廠今年、甚至明年上半年的產能已經排滿,相關需求大概明年下半年才能做。

「GPU現在良率很低,必須要有足夠的產能才會去跑GPU,但等到明年下半年中芯南方產能釋放,其實一定程度上已經失去了先機。」

責任編輯: 李冬琪  來源:芯潮IC 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2023/1112/1977222.html