新聞 > 科教 > 正文

從H20到H200,國產算力差在哪兒?

英偉達最近動作不少。先是11月上旬,向我們國內出口了特(yan)供(ge)版的H20晶片,接着一周後就又發佈了面向海外的H200晶片。

看得出,這次晶片命名,老黃還是花了點心思的。特供和美版,肉眼可見的十倍差距,應該會令想制裁中國的登哥十分滿意。

H200確實很強,H20據說也很受歡迎,那麼,國內GPU就真的不行嗎?差距到底在哪裏?

眾所周知的一個差距是在「算力」方面,也就是單位時間能處理的信息。這個差距的彌補主要靠「設計和製造」。晶片製造只能步步追趕,需要設備、材料、工藝等等的綜合提升;而設計方面,需要靠積累,但也已經沒那麼差了。

比如從算力角度來看,國產一款910的產品和H20對比的話,半精度算力還比H20高呢。那差在哪裏?

在顯性算力的背後,隱性的差距,其實是在「網絡」和「存儲」,或者統一而言是「帶寬」。

如果以廚師做飯來做比喻的話,高算力就相當於手藝精湛的大廚,能做好菜、能高效做好菜;但做菜還需要運輸,比如把菜從市場買回來、以及,把菜洗好傳給大廚。如果買菜很慢、或者傳菜很慢,那麼大廚再牛也難為無米之炊。

網絡和存儲,就是買菜和傳菜;它們就是當前限制中國算力大廚的隱性關卡。為什麼會這樣?又該如何破解呢?

01省掉一步,更快速度

特斯拉有一個超算中心Dojo,作為其智能駕駛的火力支撐。然而,特斯拉FSD V12版本的訓練,卻並不是依靠Dojo,而依然是英偉達。

馬斯克對此稱,「目前遇到的最大技術困難,是需要像InfiniBand那樣的高速網絡連接來並行更大的算力。」

提到網絡連接,就得先從美國施樂說起,也就是養活了微軟和蘋果的那位大哥。在計算機初期,網絡連接有各種標準,不容易互相通信。後來,施樂在公司內部使用了一種連接標準,就是以太網的雛形。1982年發佈了以太網標準。

以太網標準下,伺服器之間的交互流程是應用程式的數據,先到核心內存,再送到網卡,然後通過網卡,送到另一台伺服器上。所有的信息對接,都要經過內存轉換,增加了CPU的負擔,也增加了傳輸的時延。

這就好比我們打車。乘客打電話給出租車公司,公司再打電話給司機;司機到了之後,也不聯繫乘客,而是打電話給公司,公司再打電話給乘客。好處是可靠、便於管理。但缺點也很明顯,流程太長了,信息來回傳遞也不方便。

業務量少的時候,沒有問題。但一旦數據量太多、需求很多,那麼,效率就會有折扣。這對於AI而言,就非常明顯了。

大模型就是通過大量數據的大量計算,從而產生了湧現。數據傳輸快一點,能力也就會更強一點。如果數據都傳得很慢,怎麼可能大量計算呢。

於是,InfiniBand脫穎而出。

1999年,InfiniBand貿易協會成立,目的就是為了「幹掉」傳統以太網。目標很大,敵人也很強大,抗爭很艱難。以至於2002年的時候,英特爾就從這個協會裏退出了,隨後微軟也退出了。

但成立於1999年的Mellanox還在堅持,2001年還推出了首款產品。InfiniBand的特點是,數據,不經過核心內存而是直接通過網卡連接。

這個模式對於數據中心而言,效果非常好用。因為數據中心的場景很固定,也沒有各種需求。所以,Mellanox很快就成為了數據中心網絡連接的老大,市佔率一度高達80%。2013年,Mellanox還收購了矽光技術公司,讓數據傳輸進一步加快。

Mellanox的高速發展,也吸引了巨頭們的關注。GPU的高速並行運算,配合高速數據傳輸,對於英偉達而言,可謂是:

周董看到了優樂美。

於是,2019年,英偉達(Nvidia)公司豪擲69億美元,擊敗對手英特爾和微軟(分別出價60億和55億美元),把Mellanox捧到了手心裏。英偉達也拿到了InfiniBand這個利器,令眾人看不慣又干不掉。

但隨着英偉達在AI領域的地位越來越顯著,「反抗」也隨之而來。

超以太網聯盟(Ultra Ethernet Consortium)在今年成立,希望用新的協議來抗爭。UEC集結了AMD、Arista、博通、思科等設備商,以及Meta、微軟等雲廠商。而協議的標準也比較明確,「打不過就抄過來」。

顯然,在網絡連接端吃虧的,也不只是我們的算力公司,馬斯克不也抱怨了麼。誰讓英偉達眼光好呢,只能等超以太網幹活了。

02先進封裝,黃金萬兩

傳菜為什麼也受限了呢?說起這個,就不得不提馮·諾依曼,一位奠定了現代計算機架構的大師,一位讓無數學子重考的大師。在馮·諾依曼架構中,有「運算」、「存儲」、和「輸入輸出」等三大類設備,也就是炒菜、存菜、傳菜。

馮·諾依曼架構

這種架構下,存儲和CPU頻繁的交換數據,一下子就提高了存儲的地位,也讓這個架構里存在了「內存牆」。那麼如何打開一扇窗呢?

這就是H200/H100的另一個核心力,HBM(High Bandwidth Memory,高帶寬內存)存儲晶片。

HBM是2014年由AMD、SK海力士共同發佈的,就是用TSV矽通孔技術,把多個DRAM存儲晶片堆疊起來,並與GPU、CPU或者ASIC封裝在一起,從而提高容量,以及更快的並行數據處理速度。

快是有一定道理的,首先,存儲就是邏輯層上方,從隔壁樓到上下樓,打個招呼就行,自然方便多了,功耗也降低不少。另外,統一封裝,互聯上的延時也更低。效果也很顯著。

HBM的基本結構:左側彩色的5層結構為 HBM封裝

比如一組數據顯示,HBM3的帶寬可以達到819 GB/s,而GDDR6的帶寬最高只有96GB/s,CPU常用DDR4,帶寬也只有HBM的1/10。因此,英偉達、AMD都選擇了HBM技術來配合。英偉達的H200更是選擇了HBM3的升級版HBM3e。

HBM成各家最愛

HBM產品市場份額,目前是海外獨享。海力士佔比50%,三星佔比40%,美光佔比10%。中國企業目前仍在DRAM產品領域追趕。

最簡單的事情,卻往往最難。好比說,炒股賺錢,最簡單的方法就是「低買、高賣」,但賺錢的人不足10%。HBM也是如此,雖然看圖片,好像挺簡單的,但實現起來,則是困難重重。

首先是設計,人才是稀缺的。其次是生產。HBM晶片的生產,主流的路線是台積電的CoWoS(chip-on-wafer-on-substrate)先進封裝,也是2.5D封裝。先把晶片集成在一起,再封裝到基板上。哪一步都不容易。

好消息是華為國產GPU也可以用HBM產品,不太好的消息是最高階的產品,我們還是拿不到。所以,面臨隨時可能的斷供,存儲晶片依然需要持續發力。

03投桃報李,講點義氣

無論是算力、還是網絡、或者高帶寬內存,其實都有一個核心要素是:用起來。

比如台積電的CoWoS技術開發早期,也遭遇過「冷眼」。公司希望價格是7美分/平方毫米,但客戶高通卻只願意支付1美分/平方毫米。巨大的差異,導致公司不得不開發個平替產品。幸好當時自研晶片的蘋果,給了台積電機會,於是有了CoWoS工藝的成熟、普及,以及再研發。

提起英偉達,一個公認的護城河便是CUDA生態。生態,意味着參與者遷移成本很高,比如開發者已經熟悉了英偉達的開發套件,再去熟悉其他公司是有難度的。就跟用慣了微信,就很難再換其他聊天工具一樣。

要打破生態的壁壘,核心也是要讓一批人在新的環境裏用起來。

最近互聯網圈也爆出了不小的新聞,美團、網易、阿里、字節等等公司,都啟動或完成了和鴻蒙系統的適配。只有越來越多的企業支持,系統才有生存空間。

當然,新生態,尤其在後起步的晶片領域,許多環節會不如成熟生態好用。但即使是英偉達,前期搭建CUDA也花費了數十年心力,頂着不小的質疑。因此,對於國產晶片的支持,難免需要一些情懷,用愛發點電。

不過,對於被支持的企業,要記得投桃報李。

雖然目前中國的算力,依然和海外有不小的差距。但慶幸的是,社會已經逐漸形成了共識:

1美分/平方毫米,也就是7萬元/平方米的晶片,比7萬元/平方米的房子,更能產生持久的生產力。

阿波羅網責任編輯:李冬琪

來源:董指導聊科技

轉載請註明作者、出處並保持完整。

家在美國 放眼世界 魂系中華
Copyright © 2006 - 2024 by Aboluowang

投稿 投稿