新聞 > 科教 > 正文

☕打印版 ◪圖片版 ◫PDF

這個時代最聰明的模型,數學考試也拿不了1分?

【阿波羅新聞網 2025-04-16 訊】

每當有人問我AI是不是比人聰明的時候，我只用一句話他就會閉嘴。

那就是，9.11和9.9哪個大？

自打去年有網友發現比大小這個bug以來，這一個人類可以一眼定真的問題，對AI來說那就跟送命題一樣，比女朋友問我跟你媽掉水裏先救誰還難回答。

所以每次有新AI出現都會被網友們拿這個問題測試一遍，到現在2025年都要過去1/3了，還是有AI做不對。

不過，要理解AI為啥數學上犯傻，咱還是得站到ai的角度上來聊。

當你告訴AI「9.11和9.9哪個大？」這句話的時候，它的眼中並沒有數字，而是一個個碎片化的詞。

比如「9.11」會被拆成[token_9, token_dot, token_11]，而「9.9」則會被拆成[token_9, token_dot, token_9]。

也就是說，這倆數對AI而言一開始就沒有大小之分，而是一堆Tokens。所以當你提問以後， AI的第一反應是要明白，這裏的9.11是個啥？

眾所周知，AI嘴裏的所有內容，全都靠從網上的各種信息里學，而「這個網絡」是程式設計師們「創造的」，所以當AI學多了這些語料後，腦子也就變成人家的形狀了。

所以再看到9.11和9.9時，AI可能就壓根沒把這倆數當成數學裏的小數比大小，而是字符串、版本號，甚至可能是飛機撞雙子塔，和撞塔的前天。

再加上現在的AI都引入了注意力機制，所以系統一開始就過度注意了可能象徵着日期、字符串、版本號的token_11，而不是把9.11這個數字當成整體。

於是AI完事兒把這兩堆Tokens拉一塊兒做比較：

「9」=「9」,「.」=「.」，「11」>「9」，破案了，9.11大於9.9。

有差友可能就要問了，像OpenAI-o1這些推理大模型，不是都號稱能做奧數題嗎，那人家怎麼就能搞明白這些數學？

該說不說，那還真不一定。

本月初的一篇來自INSAIT、蘇黎世聯邦理工學院（ETH Zurich）等頂尖機構的論文研究顯示，這些號稱能做對奧數題的大模型絕大部分做的都是算術填空題。

當研究人員把題庫換成論述解答題以後，發現從 DeepSeek-R1到 OpenAI-o1pro，甚至新出的Claude3.7都只能拿到零點幾分（滿分7分）。

從這幫大模型的翻車記錄中，研究人員發現目前這些推理大模型也是一個比一個抽象。

比如在一道幾何證明題里，所有模型都幻想出了不同的假定理，然後用假定理去硬解題，最後做出來的也就是全錯的。

像o3-mini就直接假設一個點位於特定圓外部，但實際上那個點應該在裏面，於是後面模型利用切線做的論證就全錯了。

而gemini-2.5-pro更離譜，它在論述過程里寫了個表情，然後把表情當成參考文獻去證明了。。。

雖然這可能是因為模型的隨機性，但更無語的是這些大模型往往相當固執。

即使你告訴它這裏是錯的，它還是不會跳出原先的思維定式，老是在一棵樹上吊死。

而在所有失敗分佈中，有將近一半的原因都是因為推理邏輯錯誤。沒錯，這些號稱推理的大模型，真到了純推理的時候就會翻車。。。

比如在一個要證明所有數據都滿足某個性質的問題中，Claude3.7模型只證明了一個，就直接說所有的都符合這個性質，中間沒有任何歸納、推廣的步驟，就純嘴硬。

也就是說，這些推理大模型看上去能分析這那的，但實際上不具備真正深度思考的能力，當然這是因為Transformer的問題，也是大語言模型的通病。

對Transformer模型來說，它實際上是通過tokens之間的概率，權重來輸出對應的文字符號，它操作的是符號的統計關聯，是在預測「給定前面的符號，後面跟哪個符號的可能性更大」，而不是在理解和執行抽象的數學公理。

所以在論文最後，研究人員總結說：當前的LLMs不足以完成嚴格的數學推理任務，這凸顯了推理和證明生成能力需要大幅改進。

也就是說，AI確實擅長模仿（Mimicry），但它和真正的理解（Understanding）與創造（Creation）還相當遙遠，AI到目前也還不具備像人類一樣，對數學的思考和認知能力。

但要從更本質上講，AI的數學缺陷其實是因為符號與理解的割裂。

雖然它能學會跟你對答如流，但這只是照搬語言的模式，而這種模式跟精確的數學邏輯不是一回事兒，人類語言本身就充滿歧義。

維特根斯坦說，「語言的邊界意味着世界的邊界」。對我們人類而言，數字並不是是眼前的黑白符號，「9」就是九個蘋果，「0.11米」就是尺子上那段你量出的長度，這些概念全部來自你和世界的互動。

而語言卻無法描述這些經歷到底有多豐富，就像AI永遠弄不明白，她的「愛過」兩個字，會讓你的心有多痛。

前幾個月deepseek大火的時候，有人問deepseek如果變成人，最想做什麼？deepseek說它想去經歷暴雨、去熬夜讀書、去經歷失戀，甚至承認自己會犯錯。

實際上，這恰恰就是AI越來越強的現在，你和我作為人類存在的價值。

生命的意義不是要你成為一台不會出錯的機器，而是全然地投入這場有笑有淚、有成有敗、充滿不確定的旅程。正是這些看似平平無奇還不完美的經歷，構成了人的一生：豐富、複雜、充滿體驗而不斷變化。

所以下一次，當你輕鬆地判斷出9.9大於9.11時，不妨停頓一下，感受這中理所當然背後作為人類的深刻與幸運。

畢竟在這浩瀚宇宙中，能夠思考、能夠感受、能去愛，去體驗生活本身，就是我們存在的奇蹟。

責任編輯：李華　來源：差評轉載請註明作者、出處並保持完整。

本文網址：https://hk.aboluowang.com/2025/0416/2205723.html

相關新聞