接連2位大咖出走谷歌到底出了什麼BUG ＊阿波羅新聞網

不到一個禮拜，接連兩位重量級員工都離開了谷歌。

前有Google DeepMind工程副總裁諾姆·沙澤爾（Noam Shazeer），後有AlphaFold核心負責人約翰·江珀（John Jumper）。

講真的，我很難不懷疑谷歌現在「出BUG」了。

從Gemini3問世，到現在都過去大半年了，谷歌還是只有差別不大的Gemini3.1。你再看看Anthropic這邊，半年前還只是Opus4.5，現在Fable5都停用一個多禮拜了。

不只是模型掉隊，產品也跟着掉隊。如今幾乎所有的AI公司都在發力AI Agent，OpenAI有Codex，Anthropic有Claude Code。

Fable5加持下的Claude Code，現在都能自主修bug，自動循環跑測試直到全綠，還能從設計稿直接生成生產代碼，最後封裝成完整的軟件。

而谷歌這邊，只有一個拿不出手的Antigravity2.0，不僅效果糟糕，使用體驗也一言難盡，網上對這個產品只有一片罵聲。

說到這裏就不得不提一件事，伯克希爾從2025年就開始建倉谷歌，到了2026年第一季度，伯克希爾把谷歌的持倉又加了224%。

2026年6月1日，伯克希爾以定向增發的方式向谷歌母公司Alphabet再投了100億美元。

難道這回巴菲特真的看走眼了？

一、谷歌的全棧優勢怎麼沒了？

2025年11月18日，谷歌發佈了Gemini3。皮查伊親自出來站台，說這是谷歌「最智能的模型」，擁有全球最頂尖的推理能力，多模態理解，還有代碼生成能力。

於是在同一天，谷歌還放出了另外兩樣東西：一個是Google Antigravity，號稱「agent-first」的開發平台；一個是Nano Banana Pro，它是谷歌此前爆火的文生圖模型Nano Banana的威力加強版。

當時的谷歌有多嚇人？這麼說吧，在谷歌這場產品發佈會結束後兩個禮拜，奧特曼向OpenAI內部發出「Code Red（紅色警報）」備忘錄，稱ChatGPT的產品體驗與質量優勢正在被谷歌快速追近，因此全公司暫停所有其他業務，集結全員投入到ChatGPT當中。

奧特曼擔心的不只是這三個產品，而是谷歌的全棧優勢。

在硬件上，谷歌有自研的TPU晶片。谷歌從2015年就開始做TPU，到今天已經到了第七代Ironwood，一顆晶片頂過去四顆的算力，液冷散熱，一個pod塞進去9216顆晶片，提供42.5 ExaFlops的算力。

和英偉達那種通用的GPU不同，TPU是專門為AI推理任務進行過優化的，成本低，而且性能更好。

再往上一層是DeepMind。

2023年4月，谷歌把Google Brain和DeepMind合併成了一個單位。此前，這兩家雖然是同一家公司，但長期以來是兩套體系、兩套文化，Brain偏產品和商業化，DeepMind偏長期研究。

合併之後，哈薩比斯統一帶隊，傑夫·迪恩（Jeff Dean）退居首席科學家。也就是說，谷歌的「左右腦」合一了。

繼續往上，還有一層很多人容易忽略的東西：入口。谷歌不是只有模型，它有Chrome、Android、YouTube、Google Maps、Gmail、Google Workspace、Google Search。

這些東西加起來，日活幾十億。全世界沒有任何一家AI公司擁有這個量級的用戶。它能通過入口去鋪產品，再用這些成熟的產品拿到用戶反饋，加快整個產品的開發疊代。

比如用戶在哪一步退出了，哪種能力被反覆調用，哪些生成結果被用戶改掉了或者直接放棄了，哪些功能形成了留存，哪些場景出現大量報錯和投訴。

就拿Nano Banana來說。

這個產品雖然體量非常小，但是它其實是通過谷歌的全棧，擁有自己一個完整飛輪。

Nano Banana剛剛在LM Arena一類的盲測環境裏走紅後，谷歌做的第一件事就是把它立刻上線到Gemini App、AI Studio、Gemini API當中，甚至連專門面向企業的VertexAI也沒放過。

用戶不僅能通過各種產品感受Nano Banana，谷歌還能用這些產品收集反饋，這也就是為什麼Nano Banana產品疊代速度那麼快，碾壓GPT-4o的作圖能力。

那為什麼到現在，谷歌的全棧優勢沒了呢？

文生圖是一個低風險、短鏈路、結果立刻可見的產品。

用戶輸入一句話，幾十秒後得到一張圖，不滿意就重來，滿意就分享。它不需要長期記憶，也不需要調用工具權限，更不需要為一次錯誤承擔現實後果。

但是Agent不一樣。它不是「給用戶一個結果」，它是要徹底駐紮進用戶的工作環境，持續讀取上下文、調用工具、執行操作，並對最後的結果負責。

Nano Banana的成功並不能完全復刻到Agent了。

當產品需要跨模型、權限、執行環境、企業系統和長期責任時，谷歌那套原本強大的全棧能力，開始顯露出協調不起來的問題。

二、谷歌真正的病是組織架構太混亂

如果你去翻谷歌的開發者產品線，你會發現一個很詭異的現象。谷歌同時有好幾個工具，都在幫你用AI寫代碼，產品功能幾乎都重疊了。

Gemini CLI，一個命令行工具，可以查代碼庫、生成應用、自動執行複雜流程，2025年底隨Gemini3一起推出。到了2026年6月，谷歌發了個公告：Gemini CLI即將被Antigravity CLI取代。

Jules，一個異步編碼Agent，Google Labs出品，定位是自動幫你修bug、寫測試、提Pull Request。它不需要你盯着看，你把任務扔給它，它自己克隆倉庫、寫代碼、開PR，幹完了通知你。

Code Assist，Google Cloud旗下的企業級編程助手，裝在VS Code和JetBrains里用，收費22.8到54美元一個用戶一個月。Firebase Studio，瀏覽器里的全棧開發工作枱，內置了Gemini，也能幫你生成代碼。

然後是永遠扶不上牆的Antigravity，前文也提到了，2026年5月I/O大會上又發了個2.0版本，分了桌面App、CLI、SDK、Managed Agents、企業層五塊。

它們都在做同一件，但它們是不同團隊做的，有不同的品牌名，有不同的入口，有不同的收費模式，甚至有的在互相替代。

這種情況根本就不叫產品線豐富，這叫浪費算力。

這件事的根源其實是在組織架構層面。

谷歌的AI Agent相關能力，被拆分在至少幾個互不統屬的組織手裏。每個組織有自己的KPI，獨立的匯報線。

比如Google DeepMind，它管的是模型在benchmark上的分數能不能壓過GPT和Claude。DeepMind的成功是「我們做出了最強的模型」。

它根本不關心用戶在Antigravity里完成一個真實項目的成功率是多少。

到了Google Labs部門，它只管這個東西酷不酷，能不能在社交媒體上引發討論。

Google Labs的產品有CC（Gmail里的AI助理）、Project Genie（無限世界生成）、Pomelli（AI營銷工具）、Opal（自然語言做小應用），以及Jules。

實驗跑完了，熱度過去了，團隊可能去做下一個實驗了，它不會對產品進行長期維護。

Google Cloud和Vertex AI管的是模型能不能通過API調用，企業能不能採購，權限和合規有沒有覆蓋，Agent能不能部署到生產環境。

Antigravity更慘，它是從Google DeepMind裏面走出來的，現在歸Google Labs維護。但是又必須接入Google Cloud的權限、部署和合規體系。

所以誰也不會對它負責，就這麼擺爛。

你可能會問了，那到皮查伊這關可怎麼辦？

DeepMind說，我們的模型又刷榜了。Labs說，Jules在社交網絡上又有10萬轉發了。然後Google Cloud那邊說，Agent Engine又簽了多少個企業客戶。Gemini App說，這個月的DAU穩住了。Search說，AI Overviews用戶破20億。

大家的飯碗都保住了，卻最後留給Antigravity一地雞毛。

但沒有人能回答一個最簡單的問題：一個開發者，今天應該用谷歌的哪一個工具來完成他的工作？如果他現在用的是Codex或者Claude Code，谷歌準備用哪個產品把他搶過來？

三、評測贏了，不等於任務真的交付了

谷歌現在所有的敘事都只圍繞着評分，但現在大家早就不迷信benchmark了，能交付任務的才是好模型。

模型在benchmark上分數高，比如它推理題能答對，代碼能生成，圖像能看懂，多輪對話能保持連貫。

這些測試通常是在受控環境下進行的。單輪或有限輪次，輸入輸出乾淨，不需要操作外部工具，不需要管理權限，不需要長時間持續運行。

失敗了的表現是什麼？答案不對。最壞的結果，就是重來一遍。

但是到了任務交付這塊，模型的價值變了。

用戶把一個真實的工作扔給AI，到最後拿到了一個能用的結果，中間的鏈條其實是非常長的。

什麼叫「真實的工作」？是「這個項目的支付模塊有個bug，請定位、修復、測試、提交PR」。它涉及多個步驟，可能要花幾十分鐘甚至幾個小時，中間需要調用Git、終端、瀏覽器、文件系統、API，每一步都有失敗的可能。

失敗了的表現是什麼？不是答案不對，而是代碼改壞了、權限控不住了、流程卡死了、環境崩了、用戶不知道從哪裏恢復。

我舉個例子。

假設一個模型在單步判斷上的正確率已經有95%，看起來很強；但一個真實開發任務若需要連續完成20個關鍵步驟，全部不出錯的概率只有0.95^20，約等於36%。

哪怕單步正確率提升到98%，20步全程順利完成的概率也只有約67%。

所以Agent產品真正的護城河，不是把benchmark再刷高兩分，而是給錯誤恢復、狀態保存、權限確認、人工接管、回滾和結果驗證做出可靠機制。

但是Antigravity都2.0了，還是沒有類似且完整的機制。

你去讀Gemini3的官方博文，皮查伊親自寫的開頭，後面跟着的全是benchmark對比表。

但是你現在如果去看OpenAI和Anthropic關於新模型的官方博文，裏面全都是各種客戶對模型的評價。

不是說benchmark沒用。benchmark當然有用，它是一個尺子。但如果一個Agent產品的全部敘事都圍繞benchmark展開，那就說明這個模型確實幹不了活。

谷歌不可能放棄AI Agent，因為這個板塊真的太賺錢了，不信你看看友商們就懂了。

2026年2月，OpenAI的Codex，獨立桌面App上線後首周下載量超過100萬。僅僅過了兩個月，Codex周活用戶就達到了400萬

Claude Code就更不用說了，Anthropic在2月份的融資材料中就暗示，該產品的年化收入已經突破了20億美元。

Antigravity2.0發了一個多月了，現在打開它的官網，你會發現還是沒有企業版的定價。

Claude Code可以通過Claude Team按人頭付費，Codex可以走GPT Business或者ChatGPT Enterprise，同樣是按人頭收費。

到了谷歌這裏，企業要是想用Antigravity2.0，你只能走Gemini Enterprise Agent，它會贈送你一些額度讓你拿手上玩玩，並不能像OpenAI和Anthropic那樣，把它變成一個收費的產品。

所以我猜沙澤爾和江珀離開谷歌，大概也是因為對這家公司失望了。

責任編輯： zhongkang 　來源：字母AI 轉載請註明作者、出處並保持完整。

接連2位大咖出走 谷歌到底出了什麼BUG

相關新聞

接連2位大咖出走谷歌到底出了什麼BUG