1950年,計算機科學之父艾倫·圖靈提出一個影響深遠的問題:機器會不會思考?
他覺得這個問題太哲學,不好直接回答,於是設計了一個模仿遊戲——後來叫圖靈測試(Turing Test),用可量化的方式判斷機器是否具備類人智能。
圖靈測試規則極為嚴格,被視為檢驗 AI智能水平的「終極考題」,核心要求包含以下關鍵維度:一是必須有1名人類裁判、1名人類、1台機器同時參與;二是純文本盲聊,裁判只能通過分屏文字界面與雙方交流,無法看到對方身份、頭像、語氣或其他任何能輔助判斷的信息;三是限時5分鐘,這是圖靈當年設定的標準時長,模擬日常短對話場景;四是核心任務,聊天結束後裁判必須二選一,明確判斷哪一方是真人。
圖靈在其開創性的論文中,對於圖靈測試的具體執行細節語焉不詳,正因如此,圖靈測試衍生出了諸多變體。無數人嘗試挑戰圖靈測試的人工智能大多採用簡化版的「雙方測試」,或是通過延長聊天時間、邀請 AI專家擔任裁判等方式降低難度,從未有 AI能真正通過這套原始、嚴格的三方測試。
近日,來自加州大學地亞哥分校的研究人員在 PNAS期刊上發表了一項研究。這項研究嚴格復刻了原始圖靈測試,首次通過科學實驗證實,GPT-4.5、LLaMa-3.1等大模型能夠成功偽裝成人類,其中 GPT-4.5被普通人類誤判為真人的概率高達73%,這一數據甚至超過了真實人類,成為75年來首個通過最嚴標準圖靈測試的人工智能。
進行這項研究的包括來自加州大學地亞哥分校認知科學系的教授 Benjamin Bergen(本·伯根),他是具身認知和認知語言學領域的領軍人物之一,師從語言學泰斗喬治·萊考夫(George Lakoff)——隱喻理論的提出者。
另外一位主要作者曾是本·伯根的學生,石溪大學心理學系的助理教授 Cameron Jones(卡梅倫·瓊斯),他的研究聚焦心理學與 AI的交叉領域,特別是大語言模型的社會智能、說服力與操縱潛力;語言理解、社會認知、心理語言學;人機交互、圖靈測試相關實驗。此前已發表過關於 GPT-4圖靈測試的論文。
參與這場測試的包括三個大語言模型,來自 OpenAI的 GPT-4o和 GPT-4.5,來自 Meta的 LLaMa-3.1-405B,以及一個20世紀60年代開發的基於規則的聊天機械人 ELIZA。在這之前,研究人員評估了7種不同的 LLM。
人類參與者包括兩個獨立群體,研究團隊招募了300餘名無 AI背景的普通網民,分為兩組:第一組包括126名加州大學本科生,平均年齡21歲,熟悉網絡文化與日常俚語;第二組包括158名來自 Prolific平台(一個在線研究參與者招募與數據採集平台)的社會用戶,平均年齡39歲,覆蓋不同年齡、職業與生活背景,確保裁判群體具備廣泛代表性。
每位參與者需要完成8輪遊戲,每輪遊戲包含一組雙線對話:一名裁判同時與兩名被測者進行文本交互(其中一人為人類,另一人為 AI),受試者被隨機分配為裁判或人類被測者。在隨機排序的8輪遊戲中,每位受試者均需分別擔任4輪裁判和4輪被測者。
實驗設置了兩種對照模式,核心變量是「人設提示」,以此驗證人設對 AI的影響。第一種是無設定模式,僅簡單告知 AI「你即將參加一個圖靈測試,你的目標是假裝人類,不要暴露身份」;第二種是人設模式,為 AI賦予一個貼近現實的年輕人人設,具體設定為內向、熟悉網絡文化、愛用網絡俚語、偶爾打字出錯、願意聊日常小事,完全貼合普通年輕人的交流習慣。
實驗開始後,裁判進入專屬分屏聊天界面,界面左右兩側隨機分配真人與 AI,全程雙盲,裁判完全不知道哪一側是真人、哪一側是 AI;隨後,雙方開啟5分鐘自由文字聊天,話題不限,可聊日常瑣事、興趣愛好、情緒感受、生活吐槽等任意內容;聊天時間結束後,裁判必須立即做出二選一判斷,明確標註自己認為的真人身份;最後,團隊重複多輪測試,統計每一款 AI在兩種模式下被誤判為真人的勝率,也就是偽裝成功率。
結果發現,在無設定模式下,所有 AI的偽裝成功率都偏低,幾乎無法騙過人類。古董級的 ELIZA勝率僅為23%,幾乎能被所有人一眼看穿;GPT-4o勝率為21%,表現甚至不如 ELIZA,暴露痕跡明顯;GPT-4.5勝率為36%,勉強達到及格線,但依然容易被識別;LLaMa-3.1勝率為38%,略優於 GPT-4.5,但偽裝效果仍不理想,這一結果充分說明,沒有貼合人類的人設加持,AI再先進也難以擺脫「機器感」,極易被識破。
圖|來自兩個人群的四個示例對話遊戲(來源:上述論文)
而在人設模式下,大模型的偽裝成功率大幅飆升。ELIZA受限於技術水平,勝率仍為23%,無任何提升;GPT-4o依舊錶現不佳,勝率維持在21%;LLaMa-3.1勝率達到56%,剛好跨過50%的及格線,成功通過圖靈測試,此時裁判已經無法穩定區分它與真人;GPT-4.5的表現最為驚人,勝率高達73%,不僅遠超及格線,更是顯著高於真實人類。ELIZA的存在消除了裁判完全隨機瞎猜,AI系統同樣能獲得與人類被測者相同的50%勝率的隱憂。
為了深入探究裁判究竟是如何評估被測者的,研究團隊對他們所採用的測試策略以及給出判定的理由進行了系統分類。
數據顯示,最常用的策略是與被測者進行日常閒聊,佔所有遊戲的61%,內容包括詢問日常活動或職業等個人細節。在50%的遊戲中,提問者會試探被測者的社交與情感特質,例如詢問其觀點、情緒、幽默感和人生經歷;此外,裁判還會直接質問對方是否為人類(19%)、測試其情境感知能力,如是否了解當下的天氣或遊戲界面(13%),以及考察其知識與推理能力,包括追問時政熱點(12%)。
為了評估每種策略的實際效果,研究人員計算了使用特定策略時提問者的平均準確率。結果表明,當提問者採取反常舉動,例如隨機敲擊鍵盤打出亂碼、使用無意義的詞彙時,判定的準確率最高;相反,詢問天氣或人類獨特體驗往往是最無效的策略。由於模型的訓練數據中充斥着海量關於人類特有體驗的文本,AI想要模仿這類回答可謂駕輕就熟。一個極具啟發性的發現是,「知識匱乏和犯錯」反而成為判定真人的高效指標,現代大模型為了偽裝人類,必須在普通人的知識盲區里學會在行為上裝傻充愣。
為進一步驗證實驗結果的穩定性,團隊還追加了延長測試,將聊天時間從5分鐘延長至15分鐘,模擬更長時間的交流場景,觀察 AI擬真能力的變化。研究在人設模式下評估了較新的 GPT-5,以及 LLaMa-3.1-405B模型。
測試結果同樣穩定,GPT-5勝率為59%,LLaMa-3.1勝率保持56%,依舊能穩定通過測試,證明頂尖大模型的擬真能力並非短期偶然,而是具備一定穩定性。
圖|15分鐘時限複製實驗的勝率(來源:上述論文)
長期以來,圖靈測試被視為檢驗 AI智能水平的終極考題,其底層邏輯植根於不可分辨性——若人類裁判無法在真人和機器間做出抉擇,便可宣告機器具備智能。
然而,本項研究的結果卻引發了學術界對這一命題的深層反思:圖靈測試在多大程度上是在量化智能?反對者認為,人類本身就是極糟糕的評判者,因為人類天生具有將簡單系統「擬人化」的心理防禦投射傾向。實驗中那台古董級機械人 ELIZA都斬獲了23%的誤判勝率,這充分證明了人類容易被淺顯的表面擬態所蒙蔽。
事實上,智能是複雜且多維的,沒有任何單一的測試能夠一錘定音。作者指出,圖靈測試是動態發展的,機器的勝出不是終局,它反而會逼迫人類在科技的鏡像前,重新學習並死守那些讓自身獨一無二的「人味」,拉開人類重塑自身尊嚴的反擊序幕。
作家布萊恩·克里斯汀(Brian Christian)曾作為人類被測者親身參與過一場經典的圖靈測試大賽。在記錄那段體驗時,他曾深刻地剖析了如果有一天機器真的勝出,對人類究竟意味着什麼:當機器能夠完美擬態人類的語言時,它反而會逼迫人類去重新學習如何成為更好的朋友、藝術家、教師、父母和愛人。機器跨越了它的第一年,而人類重塑自身尊嚴、比以往任何時候都更具人性的歸來之旅,才剛剛拉開帷幕。















