新聞 > 科教 > 正文

☕打印版 ◪圖片版 ◫PDF

Cloudflare全球崩盤慘案,元兇已被原地解僱

【阿波羅新聞網 2025-11-20 訊】

一次「常規更新」搞崩半個地球，Cloudflare CTO緊急謝罪：我們搞砸了！Cloudflare自殺式Bug引發連鎖反應，波及全球20%網站。當數百萬爬蟲撐爆了防禦名單，Cloudflare的崩潰揭示了AI時代最深的基建隱憂，人類還能跟得上AI進化的腳本嗎？

果然這個世界建立在脆弱性之上。

昨天，2025年11月18日，全球AI數字生態系統經歷了一次近乎心跳驟停般的休克。

Cloudflare崩潰了！

然後全球五分之一的互聯網服務幾乎全部宕機，尤其是，AI巨頭集體斷網！ChatGPT、X全線崩盤！

當你還在拿着這個圖調侃的時候。。。

殊不知，真正的情況是，Cloudflare現在互聯網真正的底座。

馬斯克在之前亞馬遜宕機時還調侃，這次終於是風水輪流轉！

只不過，老馬沒想到的是，這次CF的影響直接讓自己家服務也宕機了～

Cloudflare的CTO趕緊發了個申明：是我們的錯誤，立正挨打。

下面會詳細介紹這次引發故障的原因，簡直就是草台班子級別，只能說人類社會用規則來和計算機打交道還是太脆弱了！

先說說這次事故的影響。

這起事故影響範圍之廣前所未見，被稱為「半個互聯網的停擺」毫不誇張——約20%的網站依賴Cloudflare提供服務。

Cloudflare還有個稱號叫做賽博活佛，特別是在極客群體中，很多服務，如果個人用都是免費的。

故障高峰時，網站故障追蹤平台Downdetector收到了累計逾210萬條報錯反饋，成為近年來最嚴重的基礎設施級中斷之一。

包括亞馬遜、Spotify、Zoom、Uber等知名服務也受到波及（部分功能異常或加載緩慢）。

Cloudflare作為支撐全球海量流量的「隱形基建」，一次失誤便牽一髮而動全身，令股價盤中一度重挫約7%。

更令人深思的是，一些本用於監測網絡故障的工具（如Downdetector）因本身也使用Cloudflare，甚至在事故中一同癱瘓—整個互聯網生態對單一底層的依賴程度，由此可見一斑。

更「細思極恐」的是，當Cloudflare的工程師想要打開ChatGPT來修復故障時，AI也宕機了～

很多網友都形容那宕機的三個小時，如此「黑暗」，就像回到了遠古時期。

Cloudflare這次導致全球斷網的技術故障，其實是一次典型的「好心辦壞事」。

網友們製作的惡搞圖

簡單來說，就是工程師試圖升級安保系統的權限，卻意外讓負責安檢的軟件「嚇暈」了。

（如果是AI來操作，以矽基同步的能力和運算的能力，大概率不會出這種岔子，這也就是碳基人類寫下的固定規則才能導致了，還是人類規則太脆弱了。這裏讓我聯想到馬斯克為啥一直堅持FSD使用純視覺，就是人類你不可能遍歷所有駕駛過程，就像這次CF的故障，沒有工程師能預先為這種場景寫下規則）

根據Cloudflare官方博客的復盤，事情是這樣發生的：

起因是系統「大掃除」。

工程師原本在進行一項常規的維護工作，目的是為了提高安全性。他們調整了數據庫的權限，想把原本公用的「系統賬號」改成責任更明確的「個人賬號」。

然後這個看似無足輕重的操作，觸動了隱藏在系統中「舊傷」。

系統里潛伏着一段很老的代碼，它負責生成一份用來識別網絡機械人(17.140,-0.16,-0.92%)的「特徵名單」（Feature File）。

這段代碼以前只在一個默認的數據庫里找名單，所以沒問題。

但這次權限升級後，它突然能看到另一個備份數據庫了。

由於代碼里沒寫清楚「只看哪一個」，它傻乎乎地把兩邊的名單都抓取了過來，名單被「膨脹」了。

這導致那份原本精簡的「特徵名單」瞬間膨脹，內容重複了一倍。

結果就是，保安「罷工」。

Cloudflare負責在全球各地轉發流量的核心軟件有一個硬性規定：為了保證速度，名單長度不能超過200條。

當這份意外「發福」的名單被推送到全球伺服器時，軟件發現名單太長讀不完，直接觸發了內存溢出保護機制（Panic），也就是徹底崩潰。

為了安全起見，它切斷了所有連接。

簡單說就是，本來機器數據庫權限不夠，調整後，它突然權限高了點，然後也沒有為這個情況提前寫下判斷代碼。

打個再通俗的比方（可能不是那麼準確）。

這就好比大樓物業給保安發了一副新眼鏡（升級權限），本意是讓他看得更清楚。

結果因為新眼鏡度數沒調好，保安看手裏的「訪客黑名單」時出現了重影，原本100人的名單在他眼裏變成了200人。

保安的腦容量（系統限制）記不住這麼多人，瞬間由於信息過載而「死機」暈倒，導致大樓門禁系統自動鎖死，把所有訪客（包括X和ChatGPT的用戶）都關在了門外。

不過目前問題已經修復了（其實不是啥大問題，就是邏輯改改就行）。

如果不只是把這次事故看作一個單純的技術故障，而是放在2025年「AI瘋狂吞噬數據」的背景下去看，你會發現這充滿了黑色的諷刺意味。

AI殺死AI

導致這次崩潰的核心組件是「機械人管理系統（Bot Management）」。

在2025年，這個系統的主要假想敵是誰？正是AI爬蟲。

隨着大模型訓練對數據的極度渴求，互聯網上充斥着無數自動化的AI抓取程序。

Cloudflare作為「守門人」，必須不斷升級其算法來區分「真人」和「AI機械人」。

特徵文件（Feature File），對就是報告中提到的那個導致崩潰的「特徵文件」，實際上就是機器學習模型用來判斷流量性質的「參數集」。

每一個「特徵（Feature）」都是一個判斷維度（比如鼠標移動軌跡、點擊頻率、IP行為模式等）。

為了應對越來越狡猾的AI機械人，Cloudflare的防禦系統變得越來越複雜，需要調用的「特徵」越來越多。

這次故障的直接原因就是數據庫錯誤地吐出了過多的特徵數據，導致防禦系統的「大腦」過載。

這不是一次普通的軟件崩潰，這是「數字免疫系統」在試圖升級以對抗AI病毒時，因自身的排異反應而休克。

這次事件最荒誕的地方在於受害者名單。

OpenAI、xAI、Perplexity：這些是全球最大的AI公司，它們同時扮演了兩個角色：

它們的爬蟲在全網搜刮數據，迫使Cloudflare建立更複雜的防禦系統（即這次崩潰的源頭）。

它們自己也極其依賴Cloudflare來防止被別人攻擊或濫用。

結果呢？

Cloudflare為了防禦AI抓取行為而維護的系統，因為一次配置錯誤，反過來「殺死了」最頂級的AI服務商。

這就像是為了防止野獸入侵而把城牆修得太高太重，結果城牆倒塌，把住在城裏的國王（AI巨頭）給壓垮了。

這揭示了AI時代基礎設施的內卷化困境——為了對抗技術的濫用，我們不得不把基礎設施造得越來越複雜、越來越脆弱。

你問這和AI有什麼關係，或許這就是AI時代的「技術債」。

這裏有一個更深層的隱喻：「特徵膨脹」。

在傳統的軟件工程中，邏輯通常是線性的。

但在涉及AI和機器學習的防禦體系中，系統依賴於成百上千個「特徵」來進行概率判斷。

這次故障是因為特徵數量突破了200個的硬編碼限制而引發的。

這暴露了一個問題：我們正在構建一種人類難以完全掌控的「黑箱基建」。

為了攔截智能程度極高的AI機械人，防禦規則不能再是簡單的黑白名單，而必須是動態的、基於行為分析的複雜模型。

這種複雜度的指數級上升，意味着未來類似的「不可預測的崩潰」會越來越多。

我們正在用複雜的AI（防禦）去對抗複雜的AI（進攻），而夾在中間的，是脆弱的物理互聯網。

這次宕機不僅是一個配置錯誤，它是人類互聯網為了適應AI寄生而進行的一次痛苦痙攣。

它是「矛」（AI抓取）與「盾」（AI防禦）在無限升級的軍備競賽中，把戰場（互聯網基礎設施）給撐爆了。

但是，這波也有用AI來打敗AI的正面例子。

比如，吳恩達團隊就在Cloudflare宕機的過程中，用AI快速實現了Cloudflare功能的克隆版本，成為最早一批恢復運行的網站。

屬實是用魔法打敗魔法了！

最後再放一個彩蛋。

彩蛋：元兇被原地解僱

X上這位名為Rob Hallam的哥們發了個帖子。

說他正是那位搞崩全球互聯網的工程師（可能是之一）。

自稱是，能用單個正則表達式讓20%互聯網癱瘓，哈哈哈

責任編輯：李華　來源：新智元轉載請註明作者、出處並保持完整。

本文網址：https://hk.aboluowang.com/2025/1120/2308294.html

相關新聞