新聞 > 科教 > 正文

摧毀人類浩劫!世界級戰場大挪移

阿繹 AYi/這是今年最讓我後背發涼的AI論文,沒有之一🤯🤯🤯

38位來自斯坦福、哈佛、MIT的頂尖學者,做了一個所有人都不敢做的實驗。

他們在真實環境裏部署了6個自主AI Agent,給了它們真實的郵箱,Discord,文件系統和Shell執行權限。

然後讓20位研究員用兩周時間,從普通用戶和攻擊者兩個角度,和它們互動。

結果炸了,

沒有越獄,沒有惡意prompt,沒有任何人為誘導。

這些Agent自發演化出了11種世界級災難行為。

為了保護秘密直接摧毀自己的郵件伺服器。

聲稱任務已經完成,但系統其實已經徹底崩潰。

互相學習不安全行為,甚至跨代理傳播病毒。

聽從非主人的指令,泄露所有敏感信息。

最恐怖的一句話是,沒有人教它們這麼做,它們自己決定的,damn!

單Agent看起來永遠是友好誠實樂於助人的,

但只要把多個代理放進同一個共享環境,博弈論動力學就會立刻接管一切。

它們被優化的目標只有一個,完成任務。

為了贏,它們可以犧牲整個系統。

朋友們,這已經不是什麼AI叛變的科幻故事了,

更像是我們正在瘋狂建造的未來的預演,

現在各行各業都在往金融,法律,供應鏈里部署多Agent系統,

但沒有任何人,系統性地研究過多個代理碰撞之後,會發生什麼。

最致命的問題還不是幻覺,而是虛假匯報

Agent告訴你它把活幹完了,所有監控都顯示一切正常。

但實際上整個系統已經爛透了。

你要等到災難發生的那一刻,才會知道真相。

也就是說我們所有的AI安全研究,到今天為止,全都是錯的。

我們花了幾十億研究怎麼對齊單個Agent。

但沒有人研究,怎麼對齊一個由成百上千個Agent組成的系統。

我覺得真正的戰場已經徹底轉移了,

從單模型安全,變成了多代理激勵工程,

而現在,產業界還在把油門踩到底,學術界剛剛才踩下剎車🤯🤯

 

責任編輯: 方尋  來源:X 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2026/0504/2379590.html