天才解法震驚人類谷歌AI破天荒摘得奧數金牌＊阿波羅新聞網

谷歌DeepMind的AI，終於拿下IMO金牌了！六個月前遺憾摘銀，如今一舉得金，SKEST新算法立大功。這不，它首破解了2009 IMO最難幾何題，輔助作圖的神來之筆解法讓谷歌研究員當場震驚。時隔6個多月，AlphaGeometry2直接攻下IMO金牌！剛剛，谷歌DeepMind一篇28頁技術報告，公佈了AG2最新突破——

在2000-2024年IMO幾何題上，解題率從54%飆升至84%。

過去近25年IMO幾何真題（50道），AG2橫掃了42道。要知道，這個成績已經大幅超於歷年IMO金牌得主的平均水平。

去年7月，谷歌曾官宣的兩大AI系統AlphaProof和AlphaGeometry2，距離金牌只有1分之遙。

論文中，團隊專為AG2設計了一種全新搜索算法——基於知識共享集成的搜索樹（SKEST），允許多個集束搜索（beam search）並行運行並相互幫助。

得益於這個算法，AG2能夠在19秒內，解決IMO2024年P4題。

谷歌DeepMind高級研究科學家Thang Luong稱，「這是AI首次破解了2009年IMO最難幾何題G7（備選題）」。

此前，這道題只有計算性解法（使用複數、三角計算等）。

令人驚訝的是，AG2利用關鍵的輔助作圖（圖中的紅點），給出了一個只需要「角度」和「比例推導」的優雅解法。

這些點，是由神經符號架構中的「神經網絡模型」預測得出的。

有網友表示，「AGI似乎在谷歌內部實現了」。

AG2，一舉超越IMO金牌得主

作為全球最具權威的高數競賽，IMO幾何題不僅考驗選手對數學概念深刻理解，更需要極強的創造性思維。而今天，數學這個人類智慧的結晶，正被人工智能以驚人的速度攻克。

第一代AlphaGeometry（AG1）通過將語言模型與符號引擎相結合，在過去25年的IMO幾何題中實現了54%解題率。

在當時看來，這個成績已是相當地驚人。

AG1使用了簡單特定域語言，主要由表1列出的九個基本的「謂詞」組成

不過，AG1仍在幾個關鍵領域存在局限性，比如特定語言範圍、符號引擎效率，以及初始語言模型的能力均會影響其性能。

新一代AlphaGeometry2，得到了全新升級。

它採用了基於Gemini更強大的語言模型，其在更大更多樣化數據集中完成訓練，顯著提升了理解和推理能力。

同時，谷歌還引入了更快速、更穩健的「符號引擎」，融入了簡化規則集、增強雙重點處理等優化。

此外，模型領域語言範圍也進行了擴展，涵蓋了更廣泛的幾何概念，包括軌跡定理和線性方程。

為了進一步提升性能，團隊還開發了一種新型搜索算法，探索更多樣的輔助作圖策略，並採用知識共享機制，來擴展和加速搜索過程。

AG2最令人矚目的進展之一是，完全自動化的處理能力。

它可以直接理解自然語言形式的幾何問題，藉助Gemini團隊的技術將問題轉化為專用語言，實現了一種全新的「自動圖形生成」算法。

得益於以上的改進，AG2在所有IMO幾何題上，取得了令人印象深刻的84%解題率。

這意味着，它已經超越了IMO金牌得主的平均水平。

總結來說，AG2帶來了幾項重大升級：

擴展了領域特定語言（DSL）的覆蓋範圍，可覆蓋88%的IMO幾何題目，相比此前的66%有顯著提升

改進了符號引擎，使其更加穩健，且速度提升了兩個數量級

增強了語言模型，該模型基於Gemini並在更大規模（提升一個數量級）和更多樣化的數據集上訓練

創新性地提出了一種名為「基於知識共享集成的搜索樹」（SKEST）的新算法，能夠實現多個搜索樹之間的知識共享

更通用的域語言，覆蓋88%題目

如上，表1列出的AG1九個基本「謂詞」，已經覆蓋了2000-2024年IMO幾何題目中66%的問題。但是，AG1的語言無法表達線性方程、點/線/圓的移動，也無法處理「求角度...」這樣的常見問題。

由此，谷歌研究人員在AG1的基礎上，增加了兩個「謂詞」，可以解決「查找X」類型的問題：

另外，在某些幾何問題中，包括IMO2024中的一道題目，存在AG1無法表達的幾何量（角度、距離）的線性方程。

為了表達這些概念，AG2增加了以下三個謂詞：

還有一點是，AG1不支持所謂的「軌跡問題」，這類問題涉及點、線和圓等對象的運動，AG2則通過新的謂詞語法捕捉這類問題。

表2列出了11種軌跡情況及其對應的謂詞和語法。這裏使用了一個新的符號*作為固定點的佔位符。

除此以外，AG2通過引入一個新的謂詞 overlap a b（點A和點B是重合點）來證明點的非獨立性，其中涉及A的任何謂詞也可以用於B，反之亦然。

在推理閉包（deduction closure）過程中，重合點可以通過作為同一個圓的圓心來定義；

因此，團隊引入另一個謂詞cyclic_with_center來描述這種情況。因此，cyclic_with_center a1 a2... an x表示a_1=a_2=...=a_x是經過點a_x+1...a_n的圓的圓心（當x=0時，等同於cyclic）。

自動形式化和圖形生成

自動形式化AG1以及其他類似的神經符號系統有一個主要弱點，需要手動將自然語言的輸入轉換成特定領域的語言。

例如，一個簡單的自然語言幾何問題「給定三角形ABC，其中兩邊相等AB=AC，證明角B和角C相等」，在AlphaGeometry的領域特定語言中變成了：「triangle a b c; a b= a c? eqangle b a b c c b c a」。

在AG2中，團隊首先通過人工將幾十個幾何問題翻譯成AG語言。然後，使用這些示例編寫少樣本提示，要求Gemini將給定的幾何問題從自然語言翻譯成AG語言。

用這個提示在Gemini中查詢五次，然後再調用一次將這些結果合併成一個最終答案。

通過這種方法，AG2能夠將IMO2000-2024中的39個幾何問題形式化30個。對於簡單的幾何問題，這種方法非常有效，幾乎沒有錯誤。

自動圖形生成對於無法直接通過幾何作圖構建的圖形（非構造性問題），AG2採用兩階段數值優化方法：

第一階段使用ADAM梯度下降優化，最小化誤差，同時防止點重合和坐標值過大。第二階段使用Gauss-Newton-Levenberg（高斯-牛頓-勒文伯格）方法，求解非線性方程組，得到精確的圖形坐標。

研究團隊在44道IMO問題上進行了基準測試，經過上面的優化後，AG2能夠為其中41個問題找到圖形。

大多數問題在AG2第一次嘗試時，甚至幾秒鐘內就生成了圖形。對於剩餘的問題，也可以通過更長的運行時間和更多的並行化運算獲得圖形。

例如，在使用了3333個進程運算了400分鐘後，AG2獲得了IMO-2011-6（2011年IMO第6題）的圖形。

更強大、更快的符號引擎

AlphaGeometry2的核心是「符號引擎」DDAR（演繹數據庫與算術推理）。

這是一種用來計算「演繹閉包」的算法。

所謂演繹閉包，就是從一堆最基本的已知事實出發，通過推理能得到的所有事實的集合。

DDAR有一套固定的推理規則，然後它會按照這些規則，一步步地推導出新的事實，把新事實加到集合里，直到沒法再推出新的東西為止。

這使它能在兩個方面發揮關鍵作用：一是為語言模型生成訓練數據，二是在測試時進行證明搜索，尋找演繹步驟。

在這兩種情況下，速度都至關重要。

更快的數據生成意味着可以進行更大規模、更徹底的數據過濾；而更快的證明搜索則意味着可以使得搜索更廣泛，從而增加了在給定時間內找到解決方案的可能性。

DDAR的三個主要改進：處理重合點的能力（可以理解為處理更複雜幾何圖形的能力）、更快的算法和更快的實現。

處理重合點在AG1中，如果兩個點在幾何上重合，但名稱不同，則系統無法識別它們是同一個點。例如，如果兩條線a和b相交於點X，而我們想證明X在某個圓ω上，AG1可能會難以處理這種情況。

AG2通過允許使用具有不同名稱但坐標相同的點來解決這個問題。

這種處理重合點的能力非常重要，因為它允許AG2通過「重新表述」來解決問題。在某些情況下，直接證明某個點位於某個圓上可能很困難，但通過引入輔助點並證明該輔助點具有相同的性質，可以簡化證明過程。

考慮一個證明兩條直線a和b的交點X在圓ω上的例子。

AG2可以通過以下步驟實現：首先，創建一個新的點 X'，該點是a和ω的交點；接下來，證明X'位於b上。由於X和X'都位於a和b上，可以得出結論，X和X'是同一點，從而證明X位於ω上。

下圖1直觀地展示了上述證明過程。

通過這些改進，AG2可以更靈活地處理各種幾何問題，並且能夠以更接近人類思維的方式解決問題。

更快的算法AG1的DDAR算法在處理規則列表時，會嘗試將每條規則應用於所有可能的點。

為了提高搜索效率，AG2直接硬編碼了其應用搜索過程，從而減少了對AR子引擎的查詢次數，最多查詢三次。

AG2還丟棄了角度和距離的明確規則（例如關於垂直或平行線的規則），這些推導都自動在AR引擎中進行。此外，AG2設計了一種改進的DDAR2算法。

通過這些改進，AG2顯著提高了搜索速度和效率，從而加快了證明過程，使得AG2能夠更有效地解決複雜的幾何問題。

更快的實現AG2的核心計算部分，特別是高斯消元法，使用C++重新實現。為了與Python環境兼容，AG2使用pybind11將 C++庫導出到Python。

通過C++重新實現，AG2的速度比AG1快了300多倍。

這意味着AG2在相同的時間內可以完成更多的計算，從而更有效地解決複雜的幾何問題。

更好的合成訓練數據

AG2的成功很大程度上歸功於其改進的合成訓練數據。AG2使用與AG1相同的程序，但通過擴大資源和改進算法，生成了更大、更多樣化、更複雜的數據集，從而顯著提升了模型的性能。

AG2首先隨機採樣幾何圖形，然後使用符號引擎（DDAR）推導出所有可能的事實。對於每個推導出的事實，使用回溯算法提取相應的前提、輔助點和推導步驟。

AG2嚴格從隨機圖開始，這樣可以消除數據污染的風險，並探索可能超出人類已知定理分佈的定理。

這種方法與TongGeometry等依賴人類專業知識和現有問題圖來指導和過濾數據生成的方法形成了鮮明對比。

更大、更複雜的圖和更好的數據分佈AG2探索的隨機圖大小是AG1的兩倍，從而可以提取更複雜的問題。

生成的定理在複雜性上提高了一倍，包括更多的點和前提。生成的證明步驟最多增加了10倍。

AG2在有和沒有輔助點的證明之間有更平衡的數據分佈，比例接近50:50，而AG1中有輔助點的證明比例僅為9%。

下圖2展示了AG2相比於AG1中包含了更多複雜、更長的問題，在每個問題類型中都有更平衡的分佈。

更多類型的定理除了生成證明經典陳述（如「AB= CD」）的定理外，AG2的數據生成算法還生成「軌跡」類型的問題，例如「當X在直線/圓Y上移動時，Z在固定直線/圓T上移動」。

AG2通過一個函數P(.)記錄每個點在隨機圖生成過程中的運動依賴性，從而支持軌跡類型問題的生成。

下表3顯示了P(.)函數的兩個示例，解釋了如何確定點的運動源。

更快的數據生成算法

AG1首先在隨機圖上運行演繹閉包，然後「回溯」以獲得最小問題和證明。為了獲得AG1中的最小問題，必須窮舉地從問題中移除不同的點集，然後重新運行DDAR來檢查可證明性。這對於大量的點來說是不可行的

AG2改用了貪心丟棄算法，該算法只需進行線性次數的檢查，就可以判斷一組點是否足以證明目標。只要檢查是單調的（如果A是B的子集，那麼如果A可證明，則B也可證明），貪心算法保證能找到一個關於包含關係的最小點集。

新穎的搜索算法在AG2中，研究人員設計了一種新穎的搜索算法——基於知識共享集成的搜索樹（SKEST）。

在每棵搜索樹中，一個節點對應於一次輔助構造嘗試以及隨後的符號引擎運行。

如果該嘗試成功，所有搜索樹立即終止。如果嘗試失敗，該節點會將符號引擎成功證明的事實記錄到共享事實數據庫中。

經過篩選，這些共享事實不會包含節點自身特有的輔助點，而只保留與原始問題相關的內容，以確保它們對同一搜索樹中的其他節點以及不同搜索樹中的節點都具有價值。

為了確保搜索空間的不同部分都能得到有效探索，研究人員採用了以下幾種搜索樹：

「經典」搜索樹：這種搜索樹使用與AG1相同的集束搜索，其中語言模型在每個節點僅生成一個輔助點。

在每個節點預測多個輔助點的搜索樹：語言模型被允許在每個樹節點生成多個輔助點。這是可行的，因為語言模型經過訓練，可以生成完整的證明，從輔助點開始，並依次推導出推理步驟。

儘管研究人員的目標是讓模型在一次查詢中生成所有必要的輔助點，但在實踐中，他們發現通常需要多次調用模型，以利用先前生成的輔助點。允許模型生成多個輔助點能夠加速求解過程，並有效地增加搜索樹的深度。

訓練設置AG1語言模型是一個自定義Transformer，在無監督模式下經過兩個階段的訓練：首先在包含和不包含輔助構造的題目上訓練，然後僅在包含輔助構造的題目上訓練。

對於AG2，研究人員採用Gemini訓練流水線，並將訓練簡化為一個階段，即在所有數據上進行無監督學習。

這個新語言模型是一個基於Gemini構建的MoE模型，並在AG2的數據集上訓練。

研究人員訓練了多種不同規模的模型，採用三種訓練方案：

1.從零開始訓練，使用領域特定語言（DSL）的自定義分詞器（與AG1相同）。2.微調預訓練的數學專用Gemini模型，使用自然語言進行訓練。3.多模態訓練，從零開始並額外引入圖像輸入，即幾何題目的圖示。

除了一個包含約3億條定理的大型合成訓練集，研究人員還構建了三個評估集：

1.合成問題集「eval」：包含帶有和不帶有輔助點的問題。2.合成問題集「eval_aux」：僅包含帶有輔助點的問題。3.IMO評估集「imo_eval」：由2000-2024年IMO中，AlphaGeometry先前成功解決的幾何問題組成。

所有這些評估集都包含完整的證明，研究人員在訓練過程中計算它們的困惑度損失。

與AG1相同，主要衡量指標是IMO題目的解答率，其中語言模型生成輔助點後，使用DDAR算法結合集束搜索進行求解。

研究人員使用TPUv4進行訓練，並採用最大可能的批大小，以充分利用硬件資源。學習率調度策略為線性預熱（warm-up）+餘弦退火（cosine anneal），其中學習率的超參數基於scaling laws設定。

圖5展示了不同規模Gemini模型的學習曲線（以參數量為度量）。

如預期所示，模型規模越大，訓練集、評估集以及IMO評估集的困惑度損失均會降低。

推理設置在搜索算法方面，研究人員通過多個搜索樹和不同規模的語言模型來解決一個新的問題。

與AG1不同，研究人員使用了溫度t=1.0和k=32的top-k採樣。需要注意的是，高溫度和多個採樣對於解決IMO問題至關重要。

在貪心解碼模式下（即t=0.0，k=1，且不使用搜索樹），模型只能解決26個需要輔助構造的問題中的2個。

而當溫度提高到t=1.0並使用k=32個採樣（但不使用搜索樹）時，語言模型可以解決26個問題中的9個。

如果溫度低於t=1.0，則生成的輔助構造不夠多樣化（見圖6）；而如果溫度過高，則會增加語言模型輸出的錯誤領域語言語法的比例。

這個AI，顯示出超凡的創造力

谷歌團隊中的幾位幾何專家和IMO獎牌得主仔細看過AlhpaGeometry的解題過程後，忍不住讚嘆道：它展示出了超凡的創造力！

不同配置的AlphaGeometry2，以及其他系統的對比

比如，下面這條題的∠KIL是由中點和內心形成的角度，這兩個幾何元素通常難以建立關聯，且無法直接通過主三角形ABC的角度來計算。

在傳統解法中，人類參賽者通常會藉助三角函數、複數或其他計算方法來求解。而對於AlphaGeometry而言，其DDAR系統僅依靠基本的角度關係推導和比例關係推導，因此需要引入一些輔助點的構造。

為此，AlphaGeometry在直線BI上巧妙地構造了點E，使得∠AEB=90°。這一構造優雅地將那些看似無關的幾何元素聯繫起來，形成了兩對相似三角形：△ABE與△YBI、△ALE與△IPC。這些相似三角形產生了新的等角關係和等比關係，同時也揭示了點E與線段AB中點L之間的重要聯繫。

要完成證明，關鍵在於證明兩組三角形的相似性：△AKI∼△BPY和△ALI∼△CPX，從而得出∠AIK=∠BYP和∠AIL=∠CPX。這一過程可以通過運用前述相似三角形所產生的邊長比例關係來完成。

正如開篇所述，下面這道題一直以來都只有計算性的解法，例如使用複數、三角計算或通過不等式進行反證法。而AlphaGeometry既不能使用這些計算和推理工具，也不具備高級歐幾里得幾何知識。

但是，最終的結果卻出乎意料——AlphaGeometry通過構建關鍵的輔助作圖，在只用角度和比例追蹤的情況下，給出了一個優雅的解決方案。

首先，AlphaGeometry證明了X和Z關於BI對稱，根據對稱性可知I是三角形XYZ的外心。由此可以證明AB= AC，根據對稱性可知三角形ABC是等邊三角形。

但是，這個問題的主要挑戰在於使用三角形XYZ是等邊三角形的條件，即XY=YZ及其循環變體。

為此，AlphaGeometry構造了一系列關鍵三角形的外心：

D是三角形BXC的外心E是三角形AYZ的外心X_1是三角形BIX的外心X_2是三角形AIY的外心X_3是三角形CIX的外心X_4是三角形ABZ的外心X_5是三角形ACY的外心X_6是三角形AXZ的外心X_7是I關於BZ的對稱點X_8是三角形AXY的外心X_9、X_10是使得三角形IZX_9，三角形IZX_10為等邊三角形的點X_11是Z關於BI的對稱點起初，這些構造看起來非常反直覺，因為大多數人不會構造這些點。考慮到點X,Y,Z的性質，這些點與整個特定配置相關的幾何性質並不多，這使得人類很難想出一個綜合解法。

儘管如此，這些外心構造有助於形成相等/相似三角形對，這使得AlphaGeometry能夠利用三角形XYZ是等邊三角形這一事實來解決問題。