每當有人問我AI是不是比人聰明的時候,我只用一句話他就會閉嘴。
那就是,9.11和9.9哪個大?
自打去年有網友發現比大小這個bug以來,這一個人類可以一眼定真的問題,對AI來說那就跟送命題一樣,比女朋友問我跟你媽掉水裏先救誰還難回答。
所以每次有新AI出現都會被網友們拿這個問題測試一遍,到現在2025年都要過去1/3了,還是有AI做不對。
不過,要理解AI為啥數學上犯傻,咱還是得站到ai的角度上來聊。
當你告訴AI「9.11和9.9哪個大?」這句話的時候,它的眼中並沒有數字,而是一個個碎片化的詞。
比如「9.11」會被拆成[token_9, token_dot, token_11],而「9.9」則會被拆成[token_9, token_dot, token_9]。
也就是說,這倆數對AI而言一開始就沒有大小之分,而是一堆Tokens。所以當你提問以後, AI的第一反應是要明白,這裏的9.11是個啥?
眾所周知,AI嘴裏的所有內容,全都靠從網上的各種信息里學,而「這個網絡」是程式設計師們「創造的」,所以當AI學多了這些語料後,腦子也就變成人家的形狀了。
所以再看到9.11和9.9時,AI可能就壓根沒把這倆數當成數學裏的小數比大小,而是字符串、版本號,甚至可能是飛機撞雙子塔,和撞塔的前天。
再加上現在的AI都引入了注意力機制,所以系統一開始就過度注意了可能象徵着日期、字符串、版本號的token_11,而不是把9.11這個數字當成整體。
於是AI完事兒把這兩堆Tokens拉一塊兒做比較:
「9」=「9」,「.」=「.」,「11」>「9」,破案了,9.11大於9.9。
有差友可能就要問了,像OpenAI-o1這些推理大模型,不是都號稱能做奧數題嗎,那人家怎麼就能搞明白這些數學?
該說不說,那還真不一定。
本月初的一篇來自INSAIT、蘇黎世聯邦理工學院(ETH Zurich)等頂尖機構的論文研究顯示,這些號稱能做對奧數題的大模型絕大部分做的都是算術填空題。
當研究人員把題庫換成論述解答題以後,發現從 DeepSeek-R1到 OpenAI-o1pro,甚至新出的Claude3.7都只能拿到零點幾分(滿分7分)。
從這幫大模型的翻車記錄中,研究人員發現目前這些推理大模型也是一個比一個抽象。
比如在一道幾何證明題里,所有模型都幻想出了不同的假定理,然後用假定理去硬解題,最後做出來的也就是全錯的。
像o3-mini就直接假設一個點位於特定圓外部,但實際上那個點應該在裏面,於是後面模型利用切線做的論證就全錯了。
而gemini-2.5-pro更離譜,它在論述過程里寫了個表情,然後把表情當成參考文獻去證明了。。。
雖然這可能是因為模型的隨機性,但更無語的是這些大模型往往相當固執。
即使你告訴它這裏是錯的,它還是不會跳出原先的思維定式,老是在一棵樹上吊死。
而在所有失敗分佈中,有將近一半的原因都是因為推理邏輯錯誤。沒錯,這些號稱推理的大模型,真到了純推理的時候就會翻車。。。
比如在一個要證明所有數據都滿足某個性質的問題中,Claude3.7模型只證明了一個,就直接說所有的都符合這個性質,中間沒有任何歸納、推廣的步驟,就純嘴硬。
也就是說,這些推理大模型看上去能分析這那的,但實際上不具備真正深度思考的能力,當然這是因為Transformer的問題,也是大語言模型的通病。
對Transformer模型來說,它實際上是通過tokens之間的概率,權重來輸出對應的文字符號,它操作的是符號的統計關聯,是在預測「給定前面的符號,後面跟哪個符號的可能性更大」,而不是在理解和執行抽象的數學公理。
所以在論文最後,研究人員總結說:當前的LLMs不足以完成嚴格的數學推理任務,這凸顯了推理和證明生成能力需要大幅改進。
也就是說,AI確實擅長模仿(Mimicry),但它和真正的理解(Understanding)與創造(Creation)還相當遙遠,AI到目前也還不具備像人類一樣,對數學的思考和認知能力。
但要從更本質上講,AI的數學缺陷其實是因為符號與理解的割裂。
雖然它能學會跟你對答如流,但這只是照搬語言的模式,而這種模式跟精確的數學邏輯不是一回事兒,人類語言本身就充滿歧義。
維特根斯坦說,「語言的邊界意味着世界的邊界」。對我們人類而言,數字並不是是眼前的黑白符號,「9」就是九個蘋果,「0.11米」就是尺子上那段你量出的長度,這些概念全部來自你和世界的互動。
而語言卻無法描述這些經歷到底有多豐富,就像AI永遠弄不明白,她的「愛過」兩個字,會讓你的心有多痛。
前幾個月deepseek大火的時候,有人問deepseek如果變成人,最想做什麼?deepseek說它想去經歷暴雨、去熬夜讀書、去經歷失戀,甚至承認自己會犯錯。
實際上,這恰恰就是AI越來越強的現在,你和我作為人類存在的價值。
生命的意義不是要你成為一台不會出錯的機器,而是全然地投入這場有笑有淚、有成有敗、充滿不確定的旅程。正是這些看似平平無奇還不完美的經歷,構成了人的一生:豐富、複雜、充滿體驗而不斷變化。
所以下一次,當你輕鬆地判斷出9.9大於9.11時,不妨停頓一下,感受這中理所當然背後作為人類的深刻與幸運。
畢竟在這浩瀚宇宙中,能夠思考、能夠感受、能去愛,去體驗生活本身,就是我們存在的奇蹟。