研究人員正在開發新工具,以便能夠觀察AI模型的內部。研究結果讓許多人開始對這些模型接近通用人工智能的結論產生疑問。
人工智能領域的大佬——OpenAI、Anthropic、谷歌(Google)及其他公司的領導者——仍然自信滿滿地預測,人工智能很快就會變得跟人類一樣聰明。但持反對意見的人越來越多,聲量也越來越大。他們說,人工智能壓根就不會像人類這樣思考。
這些研究人員的工作表明,今天的人工智能模型在底層架構上存在某種根本性限制。今天的人工智能之所以能夠模擬人類的智能,從本質上說是通過學習大量經驗法則來實現的,它們將這些法則有選擇地應用於遇到的所有信息。
而人類乃至動物則能夠以多種方式對世間萬事進行推理並預測未來。我們生物體會建立「世界模型」來理解事物如何運作,包括因果關係。
許多人工智能工程師聲稱,他們的模型也在龐大的人工神經元網絡內建立了這樣的世界模型,證據是這些模型能夠寫出明顯表現出推理能力的流暢文字。所謂「推理模型」的最新進展讓一些觀察人士更加確信,ChatGPT和其他公司已經達到與人類相當的能力水平,這在業內被稱為AGI,也就是通用人工智能。
ChatGPT及其競品自問世以來,大多數時候都像是神秘的黑盒子。
我們不知道它們是如何生成結果的,因為我們對它們進行的是訓練而不是編程,構成這些模型人工「大腦」的大量參數以創造者捉摸不透的方式對信息和邏輯進行編碼。但研究人員正在開發新工具,以便能夠觀察這些模型的內部。研究結果讓許多人開始對這些模型接近通用人工智能的結論產生疑問。
「關於這些模型究竟在做什麼,還有用來描述它們的一些擬人化語言,存在一些爭議。」聖菲研究所(Santa Fe Institute)研究人工智能的教授梅蘭妮·米切爾(Melanie Mitchell)說。
聖菲研究所教授梅蘭妮·米切爾 圖片來源:KATE JOYCE/SANTA FE INSTITUTE
「啟發式規則包」
探索大語言模型的新技術——屬於「機械可解釋性」這一不斷發展的領域——能夠向研究人員展現這些人工智能如何進行數學運算、學習玩遊戲或在環境中導航。米切爾在最近發表的一系列文章中指出,越來越多的研究表明,可能的情況似乎是,模型會建立巨大的「啟發式規則包」,而不是創建效率更高的場景心智模型,然後通過推理來完成手頭的任務。(用平白的話來說,「啟發式」是指解決問題的捷徑。)
當哈佛大學(Harvard University)的人工智能研究者基恩·瓦法(Keyon Vafa)第一次聽說「啟發式規則包」理論時,「我覺得它為我解鎖了一些東西,」他說。「這正是我們試圖描述的東西。」
瓦法自己的研究是探索人工智能在接受數百萬次類似谷歌地圖那種逐個提示轉彎的導航訓練之後,會構建出什麼樣的心智地圖。瓦法和同事使用了曼哈頓密集的街道網絡作為原始材料。
AI在經過數百萬條逐個轉彎路線的訓練後,在其「思維」中生成的曼哈頓地圖。該研究成果來自於Keyon Vafa、Justin Y. Chen、Ashesh Rambachan、Jon Kleinberg和Sendhil Mullainathan的論文《評估生成式AI模型中隱含的世界模型》(Evaluating the World Model Implicit in a Generative Model)。
結果看起來一點也不像曼哈頓的街道地圖。經過仔細觀察,研究者發現人工智能推斷出了各種脫離現實的機動路線,比如直接越過中央公園或斜穿許多街區的路線。但由此產生的模型成功給出了曼哈頓區任意兩點之間可用的逐個轉彎路線,準確率高達99%。
瓦法說,儘管這張亂七八糟的地圖會讓駕車者抓狂,但人工智能模型已經基本學會在多種情況下從每一個可能的起點出發進行導航的單獨規則。
人工智能龐大的「大腦」加上前所未有的處理能力,使它們能夠學會如何以一種雜亂無章的方式來解決問題,而這是人類不可能做到的。
思考還是記憶?
還有一些研究關注大語言模型嘗試進行數學運算時所表現出的特殊性,這些模型從前不擅長數學運算,但現在的表現越來越好。一些研究表明,模型在做某個數值範圍內的乘法,比如200到210之間數字的乘法時,會學習一套單獨的規則,在做其他數值範圍內的乘法時,則會學習另一套規則。如果你認為這種數學運算方式不太理想,那你說得沒錯。
這方面的研究都表明,在引擎蓋下,今天的人工智能是過於複雜、拼拼湊湊的魯布·戈德堡機械,其中充滿了回答我們提示的臨時性解決方案。瓦法說,如果理解了這些系統是一長串拼湊在一起的經驗法則,就能很好地解釋,為什麼當它們被要求做未經訓練的事情,哪怕只是超出訓練範圍一丁點的事情,也會非常困難。當他的團隊阻斷僅1%的曼哈頓虛擬道路,迫使人工智能繞道而行,人工智能的表現便直線下降。
他補充說,這說明了今天的人工智能與人類之間的一項重大差異。人可能無法以99%的準確率記住紐約市內的每一處轉彎,但人的思維足夠靈活,可以避開一些道路作業。
這項研究還揭示出為什麼許多模型都如此龐大:它們必須記住無窮無盡的經驗法則,而無法像人一樣,把知識濃縮到心智模型中。這或許也有助於解釋,為什麼人工智能必須從海量的數據中學習,而人只需要經過幾次嘗試就能掌握知識:為了得出這一條條經驗法則,它們必須看到單詞、圖像、棋盤位置等所有可能的組合。而要想真正訓練好人工智能模型,需要讓它們反覆看這些組合。
這項研究或許還能解釋,為什麼不同公司推出的人工智能似乎都在以同樣的方式「思考」,甚至性能水平也在趨同——而這種性能水平的發展可能趨於停滯。
以前的人工智能研究者也曾信心滿滿。1970年,麻省理工學院(Massachusetts Institute of Technology)教授馬文·明斯基(Marvin Minsky)告訴Life雜誌,「三到八年後」,計算機將擁有普通人的智力。
去年,埃隆·馬斯克(Elon Musk)聲稱,到2026年,人工智能將超越人類的智力。今年2月,山姆·阿爾特曼(Sam Altman)在自己的博客上寫道,「我們看到,系統開始指向通用人工智能」,這一歷史時刻代表着「某種東西的開始,很難不說『這次不一樣』」。4月22日,Anthropic的首席安全官警告說,「虛擬員工」將在一年內進入美國公司工作。
即便這些預言被證明為時尚早,人工智能也將繼續存在,並改變我們的生活。軟件開發人員才剛剛摸索出如何利用這些無疑令人驚艷的系統來幫助我們所有人提高工作效率。雖然人工智能固有才智的發展可能趨於停滯,但完善人工智能的工作仍在繼續。
與此同時,對人工智能「思考」方式局限性的研究恰恰可能是完善人工智能的重要一環。麻省理工學院人工智能研究員雅各布·安德烈亞斯(Jacob Andreas)在最近的一篇文章中寫道,更好地理解語言模型所面臨的挑戰,有助於找到訓練它們的新方法。他說:「當我們着手處理這些局限性時,我們就能讓語言模型變得更好(更準確、更可信、更可控)。」