新聞 > 科教 > 正文

Cloudflare全球崩盤慘案,元兇已被原地解僱

一次「常規更新」搞崩半個地球,Cloudflare CTO緊急謝罪:我們搞砸了!Cloudflare自殺式Bug引發連鎖反應,波及全球20%網站。當數百萬爬蟲撐爆了防禦名單,Cloudflare的崩潰揭示了AI時代最深的基建隱憂,人類還能跟得上AI進化的腳本嗎?

果然這個世界建立在脆弱性之上。

昨天,2025年11月18日,全球AI數字生態系統經歷了一次近乎心跳驟停般的休克。

Cloudflare崩潰了!

然後全球五分之一的互聯網服務幾乎全部宕機,尤其是,AI巨頭集體斷網!ChatGPT、X全線崩盤!

當你還在拿着這個圖調侃的時候。。。

殊不知,真正的情況是,Cloudflare現在互聯網真正的底座。

馬斯克在之前亞馬遜宕機時還調侃,這次終於是風水輪流轉!

只不過,老馬沒想到的是,這次CF的影響直接讓自己家服務也宕機了~

Cloudflare的CTO趕緊發了個申明:是我們的錯誤,立正挨打。

下面會詳細介紹這次引發故障的原因,簡直就是草台班子級別,只能說人類社會用規則來和計算機打交道還是太脆弱了!

先說說這次事故的影響。

這起事故影響範圍之廣前所未見,被稱為「半個互聯網的停擺」毫不誇張——約20%的網站依賴Cloudflare提供服務。

Cloudflare還有個稱號叫做賽博活佛,特別是在極客群體中,很多服務,如果個人用都是免費的。

故障高峰時,網站故障追蹤平台Downdetector收到了累計逾210萬條報錯反饋,成為近年來最嚴重的基礎設施級中斷之一。

包括亞馬遜、Spotify、Zoom、Uber等知名服務也受到波及(部分功能異常或加載緩慢)。

Cloudflare作為支撐全球海量流量的「隱形基建」,一次失誤便牽一髮而動全身,令股價盤中一度重挫約7%。

更令人深思的是,一些本用於監測網絡故障的工具(如Downdetector)因本身也使用Cloudflare,甚至在事故中一同癱瘓—整個互聯網生態對單一底層的依賴程度,由此可見一斑。

更「細思極恐」的是,當Cloudflare的工程師想要打開ChatGPT來修復故障時,AI也宕機了~

很多網友都形容那宕機的三個小時,如此「黑暗」,就像回到了遠古時期。

Cloudflare這次導致全球斷網的技術故障,其實是一次典型的「好心辦壞事」。

網友們製作的惡搞圖

簡單來說,就是工程師試圖升級安保系統的權限,卻意外讓負責安檢的軟件「嚇暈」了。

(如果是AI來操作,以矽基同步的能力和運算的能力,大概率不會出這種岔子,這也就是碳基人類寫下的固定規則才能導致了,還是人類規則太脆弱了。這裏讓我聯想到馬斯克為啥一直堅持FSD使用純視覺,就是人類你不可能遍歷所有駕駛過程,就像這次CF的故障,沒有工程師能預先為這種場景寫下規則)

根據Cloudflare官方博客的復盤,事情是這樣發生的:

起因是系統「大掃除」。

工程師原本在進行一項常規的維護工作,目的是為了提高安全性。他們調整了數據庫的權限,想把原本公用的「系統賬號」改成責任更明確的「個人賬號」。

然後這個看似無足輕重的操作,觸動了隱藏在系統中「舊傷」。

系統里潛伏着一段很老的代碼,它負責生成一份用來識別網絡機械人(17.140,-0.16,-0.92%)的「特徵名單」(Feature File)。

這段代碼以前只在一個默認的數據庫里找名單,所以沒問題。

但這次權限升級後,它突然能看到另一個備份數據庫了。

由於代碼里沒寫清楚「只看哪一個」,它傻乎乎地把兩邊的名單都抓取了過來,名單被「膨脹」了。

這導致那份原本精簡的「特徵名單」瞬間膨脹,內容重複了一倍。

結果就是,保安「罷工」。

Cloudflare負責在全球各地轉發流量的核心軟件有一個硬性規定:為了保證速度,名單長度不能超過200條。

當這份意外「發福」的名單被推送到全球伺服器時,軟件發現名單太長讀不完,直接觸發了內存溢出保護機制(Panic),也就是徹底崩潰。

為了安全起見,它切斷了所有連接。

簡單說就是,本來機器數據庫權限不夠,調整後,它突然權限高了點,然後也沒有為這個情況提前寫下判斷代碼。

打個再通俗的比方(可能不是那麼準確)。

這就好比大樓物業給保安發了一副新眼鏡(升級權限),本意是讓他看得更清楚。

結果因為新眼鏡度數沒調好,保安看手裏的「訪客黑名單」時出現了重影,原本100人的名單在他眼裏變成了200人。

保安的腦容量(系統限制)記不住這麼多人,瞬間由於信息過載而「死機」暈倒,導致大樓門禁系統自動鎖死,把所有訪客(包括X和ChatGPT的用戶)都關在了門外。

不過目前問題已經修復了(其實不是啥大問題,就是邏輯改改就行)。

如果不只是把這次事故看作一個單純的技術故障,而是放在2025年「AI瘋狂吞噬數據」的背景下去看,你會發現這充滿了黑色的諷刺意味。

AI殺死AI

導致這次崩潰的核心組件是「機械人管理系統(Bot Management)」。

在2025年,這個系統的主要假想敵是誰?正是AI爬蟲。

隨着大模型訓練對數據的極度渴求,互聯網上充斥着無數自動化的AI抓取程序。

Cloudflare作為「守門人」,必須不斷升級其算法來區分「真人」和「AI機械人」。

特徵文件(Feature File),對就是報告中提到的那個導致崩潰的「特徵文件」,實際上就是機器學習模型用來判斷流量性質的「參數集」。

每一個「特徵(Feature)」都是一個判斷維度(比如鼠標移動軌跡、點擊頻率、IP行為模式等)。

為了應對越來越狡猾的AI機械人,Cloudflare的防禦系統變得越來越複雜,需要調用的「特徵」越來越多。

這次故障的直接原因就是數據庫錯誤地吐出了過多的特徵數據,導致防禦系統的「大腦」過載。

這不是一次普通的軟件崩潰,這是「數字免疫系統」在試圖升級以對抗AI病毒時,因自身的排異反應而休克。

這次事件最荒誕的地方在於受害者名單。

OpenAI、xAI、Perplexity:這些是全球最大的AI公司,它們同時扮演了兩個角色:

它們的爬蟲在全網搜刮數據,迫使Cloudflare建立更複雜的防禦系統(即這次崩潰的源頭)。

它們自己也極其依賴Cloudflare來防止被別人攻擊或濫用。

結果呢?

Cloudflare為了防禦AI抓取行為而維護的系統,因為一次配置錯誤,反過來「殺死了」最頂級的AI服務商。

這就像是為了防止野獸入侵而把城牆修得太高太重,結果城牆倒塌,把住在城裏的國王(AI巨頭)給壓垮了。

這揭示了AI時代基礎設施的內卷化困境——為了對抗技術的濫用,我們不得不把基礎設施造得越來越複雜、越來越脆弱。

你問這和AI有什麼關係,或許這就是AI時代的「技術債」。

這裏有一個更深層的隱喻:「特徵膨脹」。

在傳統的軟件工程中,邏輯通常是線性的。

但在涉及AI和機器學習的防禦體系中,系統依賴於成百上千個「特徵」來進行概率判斷。

這次故障是因為特徵數量突破了200個的硬編碼限制而引發的。

這暴露了一個問題:我們正在構建一種人類難以完全掌控的「黑箱基建」。

為了攔截智能程度極高的AI機械人,防禦規則不能再是簡單的黑白名單,而必須是動態的、基於行為分析的複雜模型。

這種複雜度的指數級上升,意味着未來類似的「不可預測的崩潰」會越來越多。

我們正在用複雜的AI(防禦)去對抗複雜的AI(進攻),而夾在中間的,是脆弱的物理互聯網。

這次宕機不僅是一個配置錯誤,它是人類互聯網為了適應AI寄生而進行的一次痛苦痙攣。

它是「矛」(AI抓取)與「盾」(AI防禦)在無限升級的軍備競賽中,把戰場(互聯網基礎設施)給撐爆了。

但是,這波也有用AI來打敗AI的正面例子。

比如,吳恩達團隊就在Cloudflare宕機的過程中,用AI快速實現了Cloudflare功能的克隆版本,成為最早一批恢復運行的網站。

屬實是用魔法打敗魔法了!

最後再放一個彩蛋。

彩蛋:元兇被原地解僱

X上這位名為Rob Hallam的哥們發了個帖子。

說他正是那位搞崩全球互聯網的工程師(可能是之一)。

自稱是,能用單個正則表達式讓20%互聯網癱瘓,哈哈哈

責任編輯: 李華  來源:新智元 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/1120/2308294.html