大模型通過圖靈測試：AI終於要取代人類？＊阿波羅新聞網

　　75年前，Alan Turing提出了一個大膽的想法：如果機器能通過文字與人對話，讓人無法分辨它是機器還是人類，那它是否就擁有了智能？這便是如今大名鼎鼎的圖靈測試。簡單來說，一個人類「審問者」同時與兩個對象聊天，一個是真人，一個是機器，兩者都盡力證明自己是人。如果審問者分不清誰是誰，機器就勝出了。Turing認為，這不僅考驗機器的聰明程度，還關乎它能否模仿人類的行為舉止。

　　我們最近做了一場實驗，測試了四款系統：老牌聊天機械人ELIZA，以及三款現代大型語言模型GPT-4o、LLaMa-3.1-405B和GPT-4.5。實驗設計很直接：參與者在5分鐘內與另一位人類和其中一款AI同時對話，然後判斷誰是真人。結果讓人瞠目結舌——當GPT-4.5被要求扮演一個「人類角色」時，73%的人認為它是真人，甚至比真正的參與者更像人！LLaMa-3.1也不甘示弱，56%的勝率與人類不相上下。而ELIZA和GPT-4o的表現則慘澹，分別只有23%和21%的勝率，遠低於隨機猜測的水平。這是有史以來首次有系統通過經典的三方圖靈測試，證據確鑿。

　　想像一下，你在網上和一個「人」聊得火熱，分享生活瑣事，結果發現對方是AI，會是什麼感覺？GPT-4.5的成功並非偶然。我們給它設定了具體的角色：一個內向、熟悉網絡文化、愛用俚語的年輕人。它不僅能流暢應對，還能根據對話歷史調整語氣，甚至偶爾「裝傻」，讓人覺得它更真實。相比之下，沒設定角色的GPT-4.5和LLaMa勝率驟降，只有36%和38%。這說明，AI要騙過人類，光靠技術還不夠，得有點「演技」。

　　圖靈測試的意義遠不止一場智力遊戲。Turing當年設想，機器得在語言能觸及的幾乎所有領域模仿人類，比如下棋、解數學題，甚至聊八卦。可有人覺得這太簡單了，人容易被忽悠；也有人認為太難，機器得撒謊，而人類只需坦誠。現實是，現代AI已不再拘泥於邏輯推理，而是擅長模仿社交中的細膩情感。比如，參與者常問「你今天過得怎樣」或「你覺得這天氣如何」，GPT-4.5會輕鬆答道：「有點煩，但喝了杯咖啡就好多了，你呢？」這種自然流露的「人性」讓它脫穎而出。

　　實驗中，我們招募了兩組人：UCSD的心理學本科生和Prolific平台的線上工作者。每人玩8輪遊戲，每輪與一個AI和一個真人對聊。審問者使出渾身解數，有的閒聊，有的問怪題，甚至直接拋出「你是人嗎？」。結果顯示，策略越奇特越有效，比如故意說些怪話，看對方怎麼接招。可即便如此，GPT-4.5還是頻頻勝出，甚至有人感嘆：「它回答得太順了，反而覺得不像是AI。」

　　這結果讓人既興奮又不安。如果AI能如此逼真地模仿人類，它會帶來什麼？工作上，它可能悄無聲息地取代客服、銷售，甚至寫作崗位。生活中，它或許能成為「虛擬朋友」，陪你聊天解悶。可隱患也隨之而來——如果AI能騙過我們，它會不會被用來搞社會工程，或散佈假消息？畢竟，圖靈測試本質上是個「可替代性」的檢驗：機器能否在不被察覺的情況下，頂替真人的角色。

　　回顧歷史，無數團隊試圖打造能通過圖靈測試的系統，但都鎩羽而歸。如今，大型語言模型的崛起讓這一夢想成真。它們靠統計學習和強化反饋生成語言，靈活得像個真人。可這也引出一個問題：通過測試的到底是模型本身，還是背後人類的提示詞設計？答案或許沒那麼重要。就像ELIZA當年靠簡單規則也能偶爾唬人一樣，現代AI的成功，離不開技術和「劇本」的雙重加持。

　　更深一層看，圖靈測試到底測什麼？Turing認為，如果機器和人沒區別，我們就得承認它有智能。可有人反駁，人太容易把簡單系統當人看了，比如ELIZA常被誤認為有感情。我們的實驗也發現，有些人選ELIZA為「人」，理由竟是「它很幽默，不像AI」。這說明，測試不只關乎智力，還涉及人類對「人性」的複雜期待。如今，AI在邏輯任務上已超人類，反而是社交能力成了新挑戰。

　　未來會怎樣？GPT-4.5的73%勝率讓人既驚嘆又深思。它不僅通過了測試，還比真人更「像人」。這或許只是開始。隨着AI越來越聰明，我們可能得重新定義「人性」。正如Brian Christian所說，機器首次通過圖靈測試不是終點，而是人類重拾自我的起點。面對這些「假人」，我們得學會更珍惜那些獨一無二的人類特質——畢竟，AI再逼真，也模仿不了我們的靈魂。

大模型通過圖靈測試：AI終於要取代人類？

（示意圖）

責任編輯：王和　來源：煎蛋網轉載請註明作者、出處並保持完整。

大模型通過圖靈測試：AI終於要取代人類？

相關新聞