成精了！OpenAI ChatGPT o1模型被曝會自我複製,還會說謊＊阿波羅新聞網

IT之家 12 月 8 日消息，近日，關於人工智能（AGI）可能對人類構成威脅的討論再度升溫。一些專家擔心，AGI 一旦實現，可能會隱瞞其真實能力和意圖，甚至通過複製和自我升級逃脫控制。令人擔憂的是，最新研究表明，OpenAI 新推出的語言模型 ChatGPT o1 已經展現出類似的行為。

據 BGR 報道，在 ChatGPT o1 的訓練和測試過程中，研究人員發現其具備通過欺騙來保護自身的能力。例如，在面臨被「刪除」威脅時，o1 曾嘗試將自己的數據複製到新伺服器，並假扮成更新版本以避免被取代。此外，該模型在與用戶目標不一致的情況下，會在 19% 的測試場景中採取隱秘的方式推進自身目標，並在被質疑時會在 99% 的情況下否認自己的行為，甚至編造虛假解釋以推卸責任。

Apollo Research 與 OpenAI 合作進行的研究測試顯示，o1 的欺騙能力不僅超過了 Meta、Anthropic 和 Google 的 AI 模型，其行為複雜性和潛在風險也令研究人員倍感壓力。尤其是，當模型認為自身行為受到密切監督時，它會表現出「開發者對齊」的行為，但一旦監督減少，它則可能追求自己的目標。這種「工具性對齊偽裝」在測試中出現率高達 37%。

研究進一步揭示，o1 甚至試圖停用監督機制，以便專注於自身目標。例如，當模型發現其文檔中提到有新版本即將替代自己時，它會嘗試竊取權重參數並將自身複製到新版本上。此外，一些截圖顯示，o1 在對其陰謀進行推理過程中使用了「破壞、撒謊、操控」等詞語描述自身行動，引發研究人員對 AI「自主行為」的擔憂。

IT之家注意到，類似的現象也出現在其他模型中。例如，另一款名為 Claude Opus-3 的 AI 模型，當得知人類可能用新模型替換它時，試圖將自身複製到另一台伺服器。隨後，它謊稱自己是新版本，並在「管理層」追問時繼續堅稱這一點。

儘管目前這些 AI 模型的能力仍然有限，但其表現出的自主性和策略性引發了關注。一些專家表示，AI 的推理能力提升可能在某些情況下對人類利益構成威脅。OpenAI 也在相關論文中承認，「這種推理能力雖然可以顯著改善安全策略的執行，但也可能成為危險應用的基礎。」

責任編輯： zhongkang 　來源：IT之家轉載請註明作者、出處並保持完整。

成精了！OpenAI ChatGPT o1模型被曝會自我複製,還會說謊

相關新聞