新聞 > 國際財經 > 正文

接連2位大咖出走 谷歌到底出了什麼BUG

不到一個禮拜,接連兩位重量級員工都離開了谷歌。

前有Google DeepMind工程副總裁諾姆·沙澤爾(Noam Shazeer),後有AlphaFold核心負責人約翰·江珀(John Jumper)。

講真的,我很難不懷疑谷歌現在「出BUG」了。

從Gemini3問世,到現在都過去大半年了,谷歌還是只有差別不大的Gemini3.1。你再看看Anthropic這邊,半年前還只是Opus4.5,現在Fable5都停用一個多禮拜了。

不只是模型掉隊,產品也跟着掉隊。如今幾乎所有的AI公司都在發力AI Agent,OpenAI有Codex,Anthropic有Claude Code。

Fable5加持下的Claude Code,現在都能自主修bug,自動循環跑測試直到全綠,還能從設計稿直接生成生產代碼,最後封裝成完整的軟件。

而谷歌這邊,只有一個拿不出手的Antigravity2.0,不僅效果糟糕,使用體驗也一言難盡,網上對這個產品只有一片罵聲。

說到這裏就不得不提一件事,伯克希爾從2025年就開始建倉谷歌,到了2026年第一季度,伯克希爾把谷歌的持倉又加了224%。

2026年6月1日,伯克希爾以定向增發的方式向谷歌母公司Alphabet再投了100億美元。

難道這回巴菲特真的看走眼了?

一、谷歌的全棧優勢怎麼沒了?

2025年11月18日,谷歌發佈了Gemini3。皮查伊親自出來站台,說這是谷歌「最智能的模型」,擁有全球最頂尖的推理能力,多模態理解,還有代碼生成能力。

於是在同一天,谷歌還放出了另外兩樣東西:一個是Google Antigravity,號稱「agent-first」的開發平台;一個是Nano Banana Pro,它是谷歌此前爆火的文生圖模型Nano Banana的威力加強版。

當時的谷歌有多嚇人?這麼說吧,在谷歌這場產品發佈會結束後兩個禮拜,奧特曼向OpenAI內部發出「Code Red(紅色警報)」備忘錄,稱ChatGPT的產品體驗與質量優勢正在被谷歌快速追近,因此全公司暫停所有其他業務,集結全員投入到ChatGPT當中。

奧特曼擔心的不只是這三個產品,而是谷歌的全棧優勢。

在硬件上,谷歌有自研的TPU晶片。谷歌從2015年就開始做TPU,到今天已經到了第七代Ironwood,一顆晶片頂過去四顆的算力,液冷散熱,一個pod塞進去9216顆晶片,提供42.5 ExaFlops的算力。

和英偉達那種通用的GPU不同,TPU是專門為AI推理任務進行過優化的,成本低,而且性能更好。

再往上一層是DeepMind。

2023年4月,谷歌把Google Brain和DeepMind合併成了一個單位。此前,這兩家雖然是同一家公司,但長期以來是兩套體系、兩套文化,Brain偏產品和商業化,DeepMind偏長期研究。

合併之後,哈薩比斯統一帶隊,傑夫·迪恩(Jeff Dean)退居首席科學家。也就是說,谷歌的「左右腦」合一了。

繼續往上,還有一層很多人容易忽略的東西:入口。谷歌不是只有模型,它有Chrome、Android、YouTube、Google Maps、Gmail、Google Workspace、Google Search。

這些東西加起來,日活幾十億。全世界沒有任何一家AI公司擁有這個量級的用戶。它能通過入口去鋪產品,再用這些成熟的產品拿到用戶反饋,加快整個產品的開發疊代。

比如用戶在哪一步退出了,哪種能力被反覆調用,哪些生成結果被用戶改掉了或者直接放棄了,哪些功能形成了留存,哪些場景出現大量報錯和投訴。

就拿Nano Banana來說。

這個產品雖然體量非常小,但是它其實是通過谷歌的全棧,擁有自己一個完整飛輪。

Nano Banana剛剛在LM Arena一類的盲測環境裏走紅後,谷歌做的第一件事就是把它立刻上線到Gemini App、AI Studio、Gemini API當中,甚至連專門面向企業的VertexAI也沒放過。

用戶不僅能通過各種產品感受Nano Banana,谷歌還能用這些產品收集反饋,這也就是為什麼Nano Banana產品疊代速度那麼快,碾壓GPT-4o的作圖能力。

那為什麼到現在,谷歌的全棧優勢沒了呢?

文生圖是一個低風險、短鏈路、結果立刻可見的產品。

用戶輸入一句話,幾十秒後得到一張圖,不滿意就重來,滿意就分享。它不需要長期記憶,也不需要調用工具權限,更不需要為一次錯誤承擔現實後果。

但是Agent不一樣。它不是「給用戶一個結果」,它是要徹底駐紮進用戶的工作環境,持續讀取上下文、調用工具、執行操作,並對最後的結果負責。

Nano Banana的成功並不能完全復刻到Agent了。

當產品需要跨模型、權限、執行環境、企業系統和長期責任時,谷歌那套原本強大的全棧能力,開始顯露出協調不起來的問題。

二、谷歌真正的病是組織架構太混亂

如果你去翻谷歌的開發者產品線,你會發現一個很詭異的現象。谷歌同時有好幾個工具,都在幫你用AI寫代碼,產品功能幾乎都重疊了。

Gemini CLI,一個命令行工具,可以查代碼庫、生成應用、自動執行複雜流程,2025年底隨Gemini3一起推出。到了2026年6月,谷歌發了個公告:Gemini CLI即將被Antigravity CLI取代。

Jules,一個異步編碼Agent,Google Labs出品,定位是自動幫你修bug、寫測試、提Pull Request。它不需要你盯着看,你把任務扔給它,它自己克隆倉庫、寫代碼、開PR,幹完了通知你。

Code Assist,Google Cloud旗下的企業級編程助手,裝在VS Code和JetBrains里用,收費22.8到54美元一個用戶一個月。Firebase Studio,瀏覽器里的全棧開發工作枱,內置了Gemini,也能幫你生成代碼。

然後是永遠扶不上牆的Antigravity,前文也提到了,2026年5月I/O大會上又發了個2.0版本,分了桌面App、CLI、SDK、Managed Agents、企業層五塊。

它們都在做同一件,但它們是不同團隊做的,有不同的品牌名,有不同的入口,有不同的收費模式,甚至有的在互相替代。

這種情況根本就不叫產品線豐富,這叫浪費算力。

這件事的根源其實是在組織架構層面。

谷歌的AI Agent相關能力,被拆分在至少幾個互不統屬的組織手裏。每個組織有自己的KPI,獨立的匯報線。

比如Google DeepMind,它管的是模型在benchmark上的分數能不能壓過GPT和Claude。DeepMind的成功是「我們做出了最強的模型」。

它根本不關心用戶在Antigravity里完成一個真實項目的成功率是多少。

到了Google Labs部門,它只管這個東西酷不酷,能不能在社交媒體上引發討論。

Google Labs的產品有CC(Gmail里的AI助理)、Project Genie(無限世界生成)、Pomelli(AI營銷工具)、Opal(自然語言做小應用),以及Jules。

實驗跑完了,熱度過去了,團隊可能去做下一個實驗了,它不會對產品進行長期維護。

Google Cloud和Vertex AI管的是模型能不能通過API調用,企業能不能採購,權限和合規有沒有覆蓋,Agent能不能部署到生產環境。

Antigravity更慘,它是從Google DeepMind裏面走出來的,現在歸Google Labs維護。但是又必須接入Google Cloud的權限、部署和合規體系。

所以誰也不會對它負責,就這麼擺爛。

你可能會問了,那到皮查伊這關可怎麼辦?

DeepMind說,我們的模型又刷榜了。Labs說,Jules在社交網絡上又有10萬轉發了。然後Google Cloud那邊說,Agent Engine又簽了多少個企業客戶。Gemini App說,這個月的DAU穩住了。Search說,AI Overviews用戶破20億。

大家的飯碗都保住了,卻最後留給Antigravity一地雞毛。

但沒有人能回答一個最簡單的問題:一個開發者,今天應該用谷歌的哪一個工具來完成他的工作?如果他現在用的是Codex或者Claude Code,谷歌準備用哪個產品把他搶過來?

三、評測贏了,不等於任務真的交付了

谷歌現在所有的敘事都只圍繞着評分,但現在大家早就不迷信benchmark了,能交付任務的才是好模型。

模型在benchmark上分數高,比如它推理題能答對,代碼能生成,圖像能看懂,多輪對話能保持連貫。

這些測試通常是在受控環境下進行的。單輪或有限輪次,輸入輸出乾淨,不需要操作外部工具,不需要管理權限,不需要長時間持續運行。

失敗了的表現是什麼?答案不對。最壞的結果,就是重來一遍。

但是到了任務交付這塊,模型的價值變了。

用戶把一個真實的工作扔給AI,到最後拿到了一個能用的結果,中間的鏈條其實是非常長的。

什麼叫「真實的工作」?是「這個項目的支付模塊有個bug,請定位、修復、測試、提交PR」。它涉及多個步驟,可能要花幾十分鐘甚至幾個小時,中間需要調用Git、終端、瀏覽器、文件系統、API,每一步都有失敗的可能。

失敗了的表現是什麼?不是答案不對,而是代碼改壞了、權限控不住了、流程卡死了、環境崩了、用戶不知道從哪裏恢復。

我舉個例子。

假設一個模型在單步判斷上的正確率已經有95%,看起來很強;但一個真實開發任務若需要連續完成20個關鍵步驟,全部不出錯的概率只有0.95^20,約等於36%。

哪怕單步正確率提升到98%,20步全程順利完成的概率也只有約67%。

所以Agent產品真正的護城河,不是把benchmark再刷高兩分,而是給錯誤恢復、狀態保存、權限確認、人工接管、回滾和結果驗證做出可靠機制。

但是Antigravity都2.0了,還是沒有類似且完整的機制。

你去讀Gemini3的官方博文,皮查伊親自寫的開頭,後面跟着的全是benchmark對比表。

但是你現在如果去看OpenAI和Anthropic關於新模型的官方博文,裏面全都是各種客戶對模型的評價。

不是說benchmark沒用。benchmark當然有用,它是一個尺子。但如果一個Agent產品的全部敘事都圍繞benchmark展開,那就說明這個模型確實幹不了活。

谷歌不可能放棄AI Agent,因為這個板塊真的太賺錢了,不信你看看友商們就懂了。

2026年2月,OpenAI的Codex,獨立桌面App上線後首周下載量超過100萬。僅僅過了兩個月,Codex周活用戶就達到了400萬

Claude Code就更不用說了,Anthropic在2月份的融資材料中就暗示,該產品的年化收入已經突破了20億美元。

Antigravity2.0發了一個多月了,現在打開它的官網,你會發現還是沒有企業版的定價。

Claude Code可以通過Claude Team按人頭付費,Codex可以走GPT Business或者ChatGPT Enterprise,同樣是按人頭收費。

到了谷歌這裏,企業要是想用Antigravity2.0,你只能走Gemini Enterprise Agent,它會贈送你一些額度讓你拿手上玩玩,並不能像OpenAI和Anthropic那樣,把它變成一個收費的產品。

所以我猜沙澤爾和江珀離開谷歌,大概也是因為對這家公司失望了。

責任編輯: zhongkang  來源:字母AI 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2026/0621/2398662.html