75年前,Alan Turing提出了一個大膽的想法:如果機器能通過文字與人對話,讓人無法分辨它是機器還是人類,那它是否就擁有了智能?這便是如今大名鼎鼎的圖靈測試。簡單來說,一個人類「審問者」同時與兩個對象聊天,一個是真人,一個是機器,兩者都盡力證明自己是人。如果審問者分不清誰是誰,機器就勝出了。Turing認為,這不僅考驗機器的聰明程度,還關乎它能否模仿人類的行為舉止。
我們最近做了一場實驗,測試了四款系統:老牌聊天機械人ELIZA,以及三款現代大型語言模型GPT-4o、LLaMa-3.1-405B和GPT-4.5。實驗設計很直接:參與者在5分鐘內與另一位人類和其中一款AI同時對話,然後判斷誰是真人。結果讓人瞠目結舌——當GPT-4.5被要求扮演一個「人類角色」時,73%的人認為它是真人,甚至比真正的參與者更像人!LLaMa-3.1也不甘示弱,56%的勝率與人類不相上下。而ELIZA和GPT-4o的表現則慘澹,分別只有23%和21%的勝率,遠低於隨機猜測的水平。這是有史以來首次有系統通過經典的三方圖靈測試,證據確鑿。
想像一下,你在網上和一個「人」聊得火熱,分享生活瑣事,結果發現對方是AI,會是什麼感覺?GPT-4.5的成功並非偶然。我們給它設定了具體的角色:一個內向、熟悉網絡文化、愛用俚語的年輕人。它不僅能流暢應對,還能根據對話歷史調整語氣,甚至偶爾「裝傻」,讓人覺得它更真實。相比之下,沒設定角色的GPT-4.5和LLaMa勝率驟降,只有36%和38%。這說明,AI要騙過人類,光靠技術還不夠,得有點「演技」。
圖靈測試的意義遠不止一場智力遊戲。Turing當年設想,機器得在語言能觸及的幾乎所有領域模仿人類,比如下棋、解數學題,甚至聊八卦。可有人覺得這太簡單了,人容易被忽悠;也有人認為太難,機器得撒謊,而人類只需坦誠。現實是,現代AI已不再拘泥於邏輯推理,而是擅長模仿社交中的細膩情感。比如,參與者常問「你今天過得怎樣」或「你覺得這天氣如何」,GPT-4.5會輕鬆答道:「有點煩,但喝了杯咖啡就好多了,你呢?」這種自然流露的「人性」讓它脫穎而出。
實驗中,我們招募了兩組人:UCSD的心理學本科生和Prolific平台的線上工作者。每人玩8輪遊戲,每輪與一個AI和一個真人對聊。審問者使出渾身解數,有的閒聊,有的問怪題,甚至直接拋出「你是人嗎?」。結果顯示,策略越奇特越有效,比如故意說些怪話,看對方怎麼接招。可即便如此,GPT-4.5還是頻頻勝出,甚至有人感嘆:「它回答得太順了,反而覺得不像是AI。」
這結果讓人既興奮又不安。如果AI能如此逼真地模仿人類,它會帶來什麼?工作上,它可能悄無聲息地取代客服、銷售,甚至寫作崗位。生活中,它或許能成為「虛擬朋友」,陪你聊天解悶。可隱患也隨之而來——如果AI能騙過我們,它會不會被用來搞社會工程,或散佈假消息?畢竟,圖靈測試本質上是個「可替代性」的檢驗:機器能否在不被察覺的情況下,頂替真人的角色。
回顧歷史,無數團隊試圖打造能通過圖靈測試的系統,但都鎩羽而歸。如今,大型語言模型的崛起讓這一夢想成真。它們靠統計學習和強化反饋生成語言,靈活得像個真人。可這也引出一個問題:通過測試的到底是模型本身,還是背後人類的提示詞設計?答案或許沒那麼重要。就像ELIZA當年靠簡單規則也能偶爾唬人一樣,現代AI的成功,離不開技術和「劇本」的雙重加持。
更深一層看,圖靈測試到底測什麼?Turing認為,如果機器和人沒區別,我們就得承認它有智能。可有人反駁,人太容易把簡單系統當人看了,比如ELIZA常被誤認為有感情。我們的實驗也發現,有些人選ELIZA為「人」,理由竟是「它很幽默,不像AI」。這說明,測試不只關乎智力,還涉及人類對「人性」的複雜期待。如今,AI在邏輯任務上已超人類,反而是社交能力成了新挑戰。
未來會怎樣?GPT-4.5的73%勝率讓人既驚嘆又深思。它不僅通過了測試,還比真人更「像人」。這或許只是開始。隨着AI越來越聰明,我們可能得重新定義「人性」。正如Brian Christian所說,機器首次通過圖靈測試不是終點,而是人類重拾自我的起點。面對這些「假人」,我們得學會更珍惜那些獨一無二的人類特質——畢竟,AI再逼真,也模仿不了我們的靈魂。

(示意圖)













