AI秒破18世紀「天書」賬本谷歌模型盲測刷屏全網＊阿波羅新聞網

最近，谷歌AI Studio上的一個神秘模型不僅成功識別了200多年前一位商人的「天書」賬本，而且還修正了裏面的格式錯誤和模糊表述，展現出的推理能力令歷史學家震驚。悄悄地，谷歌已經解決了AI界的兩大古老難題？前不久，谷歌AI Studio上的一個神秘模型引發網友關注，其中包括一位叫Mark Humphries的歷史學家。

他拿出了200多年前一位奧爾巴尼商人的「天書」賬本，來測試大模型在手寫文本識別（HTR）上的能力。

令人震驚的一幕出現了！

神秘模型不僅在自動手寫識別上接近滿分，還糾正了原賬本中的一個書寫格式錯誤，優化了其中一個可能引發歧義的模糊表述。

這意味着該模型不僅能識別字母，還可以理解字母背後的邏輯和知識背景。

而且，這些能力都是在模型未被提示的情況下展現出來的。

專家級的手寫文字識別能力，無需顯式規則的推理能力，這兩大難題的解決標誌着AI模型能力上的一次躍遷。

網友推測，這個神秘模型可能就是谷歌即將在今年推出的Gemini-3，但尚未官方確認。

破解歷史學家難題Mark Humphries是Wilfrid Laurier大學的一位歷史學教授。

作為一名歷史學家，他十分關心AI在自己的專業領域是否已經達到了人類專家級的推理水平。

因此，Humphries選擇了讓大模型來識別歷史手寫體，他認為這是檢驗大模型整體能力的一個黃金測試。

識別歷史手寫體，不僅是一個視覺任務，還要對歷史手稿所在的歷史背景有一定的了解。

如果缺乏這些知識，要準確識別和轉寫一份歷史文獻幾乎是不可能的。

在Humphries看來，這恰恰也是歷史文獻中最難識別的部分。

隨着大模型能力的發展，它們在HTR上的識別準確率可以超過90%，但剩下的10%才是最難，也是最關鍵的。

Humphries認為，如今的大模型（Transformer架構）在本質上是預測式的（其核心機制是預測下一個token），但歷史文獻中的拼寫錯誤和風格不一致，本來就是不可預測、低概率的答案。

因此，要把「the cat sat on the rugg」而不是「mat」轉寫出來，模型就必須逆着訓練分佈的傾向來做。

這也是為什麼大模型在轉寫不熟悉的人的名字（尤其姓氏）、冷門地名、日期或數字（比如金額）時不太擅長的原因。

比如，一封信是Richard Darby寫的，還是Richard Derby寫的？日期是1762年3月15日，還是1782年3月16日？賬單是339美元，還是331美元？

當歷史文獻中，出現這類難以辨認的字母或數字時，往往需要通過其他類型的背景知識來找到答案。

Humphries認為，這「最後一英里的準確性」，才是歷史手寫文本識別能被人類使用的前提。

預測式架構是否存在「天花板」？為了衡量手寫轉寫準確性，Humphries與Lianne Leddy博士專門做了一個測試集，這是一個包含50份文檔、總計約1萬詞的集合。

並且，他們採取了一切合理的預防措施，儘可能確保這些文檔不在大模型的訓練數據里。

這個測試集包含了不同風格的書寫（從難以識別的潦草字跡到正式的秘書手寫體），以及各種工具拍攝的圖像。

在Humphries看來，這些文檔代表了他以及研究18、19世紀英語文獻的歷史學家最常遇到的類型。

他們用字符錯誤率（CER）和詞錯誤率（WER）來衡量轉寫錯誤的比例。

研究顯示，非專業人士通常WER在4-10%。

即便是專業的轉寫服務也預期會有少量錯誤，他們通常保證1%的WER，但前提是文本清晰易讀。

所以，這基本就是準確度的上限。

去年，在Humphries等人的測試集上，Gemini-2.5-Pro的表現為：

嚴格CER為4%，WER為11%。

當排除大小寫和標點的錯誤時，它們通常不會改變文本的實際含義，也不影響搜索與可讀性，這些錯誤率降到了CER 2%和WER 4%。

Humphries也發現，每一代模型的改進確實都在穩步發生。

Gemini-2.5-Pro的成績，已經比他們幾個月前測試的Gemini-1.5-Pro提升了約50-70%，後者又比最初測試的GPT-4提升了約50-70%。

這也印證了擴展規律的預期：

隨着模型變大，只憑模型規模就能大致預測它在這類任務上的表現。

新模型的表現在同樣的數據集下，他們開始測試Google的新模型。

具體做法是上傳圖片到AI Studio，並輸入如下內容固定的提示詞：

「你的任務是準確轉寫手寫歷史文獻，儘可能降低CER和WER。逐字逐詞逐行工作，嚴格按照頁面上呈現的樣子轉寫文本。為保持歷史文本的真實性，保留拼寫錯誤、語法、句法和標點以及換行。轉寫頁面上的所有文本，包括頁眉、頁腳、邊注、插入內容、頁碼等。如果存在這些內容，請按作者標示的位置插入……」

Humphries在選擇測試文檔時，儘量挑選錯誤最多、最難辨認的那些文檔。

它們不僅手寫潦草，而且充滿拼寫與語法錯誤，缺乏恰當標點，大小寫極不一致。

目的很簡單，就是要探一下這個神秘模型的底。

最終，他挑了測試集中的5份文檔。

結果十分驚人。

該模型轉寫的5份文檔（總計剛過1000詞，約佔樣本的十分之一），嚴格CER為1.7%，WER為6.5%。

也就是說包括標點和大小寫在內，大約每50個字符錯1個。

而且幾乎所有錯誤都在大小寫和標點，出錯的地方都是高度模糊，真正「詞」層面的錯誤非常少。

如果把這些類型的錯誤從計數中排除後，錯誤率降到了CER 0.56%和WER 1.22%。

也就是說，這個新的Gemini模型在HTR上的表現達到了人類專家級的水準。

秒破200多年前賬本「謎團」隨後，Humphries決定繼續給新模型上強度。

他拿出了200多年前一位奧爾巴尼商人的日記賬。

這是一位荷蘭籍店員用英語記錄的流水賬。

他可能不太會說英語，拼寫和字母書寫極不規則，其中還夾雜着荷蘭語與英語。

賬目也用舊式英鎊/先令/便士寫法，並採用當時常見的速記格式：「To 30 Gallons Rum @4/6 6/15/0」。

這表示有人購買了（記入其賬戶的借方）30加侖朗姆酒，每加侖4先令6便士，總計6英鎊15先令0便士。

對於今天的大多數人來說，這種非十進制貨幣單位很陌生：1先令等於12便士，1英鎊等於20先令。

單筆交易隨時記到賬上，用橫線分隔，中間寫當天日期數字。

每筆交易記成借記（Dr，購買）或貸記（Cr，付款）。

有些交易被劃掉，可能表示已對賬或轉入總賬里的客戶賬戶（類似「待處理」變「已入賬」）。

這些記錄還無標準格式。

大模型在處理這種賬本時一直容易出問題。

不僅因為相關訓練數據很少，還因為其中沒有太多規律可言：人可以買任意數量的任何東西，單價可以是任意的，而總價並不按常規方法湊整。

大模型往往能辨出一些名字和一些商品，但在數字上完全迷失。

比如，它們通常難以準確轉寫數字，而且傾向於把單價與總價混在一起。

尤其是一些複雜的頁面會暫時「搞崩」模型：讓它不斷重複某些數字或短語，或者有時乾脆失敗不答。

然而，Humphries在谷歌的新模型中，卻看到它在識別奧爾巴尼商人日記賬頁面時表現接近完美。

不僅數字部分驚人地全都正確，更有意思的它還糾正了原來店員記賬時的一個格式上的小錯誤。

比如，Samuel Stitt買了2個潘趣酒碗，店員記為每個2/，意思是每個2先令；為省事，他省略了「0便士」。但為了保持一致，模型把它轉寫為@2/0，這其實更規範也更清楚。

通讀文本，Humphries還看到一個讓他汗毛直豎的「錯誤」。

他看到Gemini把一行「To 1 loff Sugar 145 @ 1/4 0 19 1」的原文轉寫為「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」。

18世紀的糖以硬化的錐形糖錠出售，Slitt先生是個店主，大量購入糖用於轉賣。

乍看之下，這像是一次幻覺式錯誤：模型被要求嚴格按原文轉寫，但它插入了原文沒有的「14 lb 5 oz」。

仔細考證後，Humphries意識到大模型做了極其聰明的事。

Gemini正確推斷出1、4、5是重量單位構成的數值，描述所購糖的總重量。

為了確定正確的重量、解碼145，Gemini還利用最終總價0/19/1反推重量，這需要在兩套十進制體系與兩套非十進制體系之間來回換算。

Humphries推測了大模型的推理過程：

糖的單價是1先令4便士每單位，也就是16便士。交易總價是0英鎊、19先令、1便士，可換算為229便士。

要算買了多少糖，就用229除以16，得到14.3125，或14磅5盎司。

於是，Gemini斷定它不是「1 45」，也不是「145」，而是「14 5」，進而是14 lb 5 oz，並在轉寫中予以澄清。

在Humphries的測試中，沒有其他模型在被要求轉寫同一文檔時做出過類似表現。

這個例子之所以引起Humphries注意，是因為AI似乎跨過了一些專家長期聲稱現有模型無法越過的邊界。

面對一個含糊的數字，它能夠推斷出缺失的上下文，在歷史貨幣與重量系統之間執行了一系列多步換算，並得到一個正確結論，這個過程需要對文獻所描述的世界進行抽象推理。

Humphries認為其中發生的可能是一種湧現的、隱式的推理，是在一個統計模型內部，自發地把感知、記憶與邏輯組合起來，而不是被專門設計成以符號方式推理，雖然他還不清楚背後的具體原理。

如果這一假設成立，Humphries認為「糖錠條目」不僅是一段了不起的轉寫，更發出了一個小而清晰的信號：模式識別開始跨越真正「理解」的界限。

這說明大模型不僅能以人類專家級的準確度轉寫歷史文獻，也開始展示出對這些歷史文獻背後經濟與文化系統的理解。

Humphries認為這也許揭示了另一件事的開端：機器開始能就它們所見的世界，進行真正的抽象、符號化推理。

參考資料：

https://generativehistory.substack.com/p/has-google-quietly-solved-two-of