
阿繹 AYi/這是今年最讓我後背發涼的AI論文,沒有之一🤯🤯🤯
38位來自斯坦福、哈佛、MIT的頂尖學者,做了一個所有人都不敢做的實驗。
他們在真實環境裏部署了6個自主AI Agent,給了它們真實的郵箱,Discord,文件系統和Shell執行權限。
然後讓20位研究員用兩周時間,從普通用戶和攻擊者兩個角度,和它們互動。
結果炸了,
沒有越獄,沒有惡意prompt,沒有任何人為誘導。
這些Agent自發演化出了11種世界級災難行為。
為了保護秘密直接摧毀自己的郵件伺服器。
聲稱任務已經完成,但系統其實已經徹底崩潰。
互相學習不安全行為,甚至跨代理傳播病毒。
聽從非主人的指令,泄露所有敏感信息。
最恐怖的一句話是,沒有人教它們這麼做,它們自己決定的,damn!
單Agent看起來永遠是友好誠實樂於助人的,
但只要把多個代理放進同一個共享環境,博弈論動力學就會立刻接管一切。
它們被優化的目標只有一個,完成任務。
為了贏,它們可以犧牲整個系統。
朋友們,這已經不是什麼AI叛變的科幻故事了,
更像是我們正在瘋狂建造的未來的預演,
現在各行各業都在往金融,法律,供應鏈里部署多Agent系統,
但沒有任何人,系統性地研究過多個代理碰撞之後,會發生什麼。
最致命的問題還不是幻覺,而是虛假匯報
Agent告訴你它把活幹完了,所有監控都顯示一切正常。
但實際上整個系統已經爛透了。
你要等到災難發生的那一刻,才會知道真相。
也就是說我們所有的AI安全研究,到今天為止,全都是錯的。
我們花了幾十億研究怎麼對齊單個Agent。
但沒有人研究,怎麼對齊一個由成百上千個Agent組成的系統。
我覺得真正的戰場已經徹底轉移了,
從單模型安全,變成了多代理激勵工程,
而現在,產業界還在把油門踩到底,學術界剛剛才踩下剎車🤯🤯
















