從H20到H200，國產算力差在哪兒？科教頻道|科教興國|教育新聞☀阿波羅新聞網

英偉達最近動作不少。先是11月上旬，向我們國內出口了特（yan）供（ge）版的H20晶片，接着一周後就又發佈了面向海外的H200晶片。

看得出，這次晶片命名，老黃還是花了點心思的。特供和美版，肉眼可見的十倍差距，應該會令想制裁中國的登哥十分滿意。

H200確實很強，H20據說也很受歡迎，那麼，國內GPU就真的不行嗎？差距到底在哪裏？

眾所周知的一個差距是在「算力」方面，也就是單位時間能處理的信息。這個差距的彌補主要靠「設計和製造」。晶片製造只能步步追趕，需要設備、材料、工藝等等的綜合提升；而設計方面，需要靠積累，但也已經沒那麼差了。

比如從算力角度來看，國產一款910的產品和H20對比的話，半精度算力還比H20高呢。那差在哪裏？

在顯性算力的背後，隱性的差距，其實是在「網絡」和「存儲」，或者統一而言是「帶寬」。

如果以廚師做飯來做比喻的話，高算力就相當於手藝精湛的大廚，能做好菜、能高效做好菜；但做菜還需要運輸，比如把菜從市場買回來、以及，把菜洗好傳給大廚。如果買菜很慢、或者傳菜很慢，那麼大廚再牛也難為無米之炊。

網絡和存儲，就是買菜和傳菜；它們就是當前限制中國算力大廚的隱性關卡。為什麼會這樣？又該如何破解呢？

01省掉一步，更快速度

特斯拉有一個超算中心Dojo，作為其智能駕駛的火力支撐。然而，特斯拉FSD V12版本的訓練，卻並不是依靠Dojo，而依然是英偉達。

馬斯克對此稱，「目前遇到的最大技術困難，是需要像InfiniBand那樣的高速網絡連接來並行更大的算力。」

提到網絡連接，就得先從美國施樂說起，也就是養活了微軟和蘋果的那位大哥。在計算機初期，網絡連接有各種標準，不容易互相通信。後來，施樂在公司內部使用了一種連接標準，就是以太網的雛形。1982年發佈了以太網標準。

以太網標準下，伺服器之間的交互流程是應用程式的數據，先到核心內存，再送到網卡，然後通過網卡，送到另一台伺服器上。所有的信息對接，都要經過內存轉換，增加了CPU的負擔，也增加了傳輸的時延。

這就好比我們打車。乘客打電話給出租車公司，公司再打電話給司機；司機到了之後，也不聯繫乘客，而是打電話給公司，公司再打電話給乘客。好處是可靠、便於管理。但缺點也很明顯，流程太長了，信息來回傳遞也不方便。

業務量少的時候，沒有問題。但一旦數據量太多、需求很多，那麼，效率就會有折扣。這對於AI而言，就非常明顯了。

大模型就是通過大量數據的大量計算，從而產生了湧現。數據傳輸快一點，能力也就會更強一點。如果數據都傳得很慢，怎麼可能大量計算呢。

於是，InfiniBand脫穎而出。

1999年，InfiniBand貿易協會成立，目的就是為了「幹掉」傳統以太網。目標很大，敵人也很強大，抗爭很艱難。以至於2002年的時候，英特爾就從這個協會裏退出了，隨後微軟也退出了。

但成立於1999年的Mellanox還在堅持，2001年還推出了首款產品。InfiniBand的特點是，數據，不經過核心內存而是直接通過網卡連接。

這個模式對於數據中心而言，效果非常好用。因為數據中心的場景很固定，也沒有各種需求。所以，Mellanox很快就成為了數據中心網絡連接的老大，市佔率一度高達80%。2013年，Mellanox還收購了矽光技術公司，讓數據傳輸進一步加快。

Mellanox的高速發展，也吸引了巨頭們的關注。GPU的高速並行運算，配合高速數據傳輸，對於英偉達而言，可謂是：

周董看到了優樂美。

於是，2019年，英偉達（Nvidia）公司豪擲69億美元，擊敗對手英特爾和微軟（分別出價60億和55億美元），把Mellanox捧到了手心裏。英偉達也拿到了InfiniBand這個利器，令眾人看不慣又干不掉。

但隨着英偉達在AI領域的地位越來越顯著，「反抗」也隨之而來。

超以太網聯盟（Ultra Ethernet Consortium）在今年成立，希望用新的協議來抗爭。UEC集結了AMD、Arista、博通、思科等設備商，以及Meta、微軟等雲廠商。而協議的標準也比較明確，「打不過就抄過來」。

顯然，在網絡連接端吃虧的，也不只是我們的算力公司，馬斯克不也抱怨了麼。誰讓英偉達眼光好呢，只能等超以太網幹活了。

02先進封裝，黃金萬兩

傳菜為什麼也受限了呢？說起這個，就不得不提馮·諾依曼，一位奠定了現代計算機架構的大師，一位讓無數學子重考的大師。在馮·諾依曼架構中，有「運算」、「存儲」、和「輸入輸出」等三大類設備，也就是炒菜、存菜、傳菜。

馮·諾依曼架構

這種架構下，存儲和CPU頻繁的交換數據，一下子就提高了存儲的地位，也讓這個架構里存在了「內存牆」。那麼如何打開一扇窗呢？

這就是H200/H100的另一個核心力，HBM（High Bandwidth Memory，高帶寬內存）存儲晶片。

HBM是2014年由AMD、SK海力士共同發佈的，就是用TSV矽通孔技術，把多個DRAM存儲晶片堆疊起來，並與GPU、CPU或者ASIC封裝在一起，從而提高容量，以及更快的並行數據處理速度。

快是有一定道理的，首先，存儲就是邏輯層上方，從隔壁樓到上下樓，打個招呼就行，自然方便多了，功耗也降低不少。另外，統一封裝，互聯上的延時也更低。效果也很顯著。

HBM的基本結構：左側彩色的5層結構為 HBM封裝

比如一組數據顯示，HBM3的帶寬可以達到819 GB/s，而GDDR6的帶寬最高只有96GB/s，CPU常用DDR4，帶寬也只有HBM的1/10。因此，英偉達、AMD都選擇了HBM技術來配合。英偉達的H200更是選擇了HBM3的升級版HBM3e。

HBM成各家最愛

HBM產品市場份額，目前是海外獨享。海力士佔比50%，三星佔比40%，美光佔比10%。中國企業目前仍在DRAM產品領域追趕。

最簡單的事情，卻往往最難。好比說，炒股賺錢，最簡單的方法就是「低買、高賣」，但賺錢的人不足10%。HBM也是如此，雖然看圖片，好像挺簡單的，但實現起來，則是困難重重。

首先是設計，人才是稀缺的。其次是生產。HBM晶片的生產，主流的路線是台積電的CoWoS（chip-on-wafer-on-substrate）先進封裝，也是2.5D封裝。先把晶片集成在一起，再封裝到基板上。哪一步都不容易。

好消息是華為國產GPU也可以用HBM產品，不太好的消息是最高階的產品，我們還是拿不到。所以，面臨隨時可能的斷供，存儲晶片依然需要持續發力。

03投桃報李，講點義氣

無論是算力、還是網絡、或者高帶寬內存，其實都有一個核心要素是：用起來。

比如台積電的CoWoS技術開發早期，也遭遇過「冷眼」。公司希望價格是7美分/平方毫米，但客戶高通卻只願意支付1美分/平方毫米。巨大的差異，導致公司不得不開發個平替產品。幸好當時自研晶片的蘋果，給了台積電機會，於是有了CoWoS工藝的成熟、普及，以及再研發。

提起英偉達，一個公認的護城河便是CUDA生態。生態，意味着參與者遷移成本很高，比如開發者已經熟悉了英偉達的開發套件，再去熟悉其他公司是有難度的。就跟用慣了微信，就很難再換其他聊天工具一樣。

要打破生態的壁壘，核心也是要讓一批人在新的環境裏用起來。

最近互聯網圈也爆出了不小的新聞，美團、網易、阿里、字節等等公司，都啟動或完成了和鴻蒙系統的適配。只有越來越多的企業支持，系統才有生存空間。

當然，新生態，尤其在後起步的晶片領域，許多環節會不如成熟生態好用。但即使是英偉達，前期搭建CUDA也花費了數十年心力，頂着不小的質疑。因此，對於國產晶片的支持，難免需要一些情懷，用愛發點電。

不過，對於被支持的企業，要記得投桃報李。

雖然目前中國的算力，依然和海外有不小的差距。但慶幸的是，社會已經逐漸形成了共識：

1美分/平方毫米，也就是7萬元/平方米的晶片，比7萬元/平方米的房子，更能產生持久的生產力。