實測GPT5.5：最強模型不是嘴炮，它真能幹活兒＊阿波羅新聞網

GPT-5.5，終於發佈。

作為OpenAI當下最強的模型，這次更新的亮點是「為真實工作而設計」。

和過去的模型相比，GPT-5.5能更快理解使用者真正想做的事情，也能自己承擔更多執行過程，可以在線檢索信息、分析數據、生成文檔和表格、操作軟件，並在不同工具之間來回切換，直到把任務完成。

用戶不再需要精細地拆解每一步，可以直接給它一個混亂、多步驟的問題，讓它自己規劃路徑、調用工具、檢查結果，在不確定中繼續推進。

有網友直接評價，這是目前為止最接近AGI的模型。

目前，GPT-5.5已經在ChatGPT和Codex中向Plus、Pro、團隊版和企業版用戶逐步開放，GPT-5.5 Pro則面向Pro及以上用戶。API版本尚未上線。

模型性能

先來看看模型在基準測試中的得分情況。

其中最值得關注的指標是GDPval，這個測試不是傳統選擇題，而是用44種真實職業任務來評估模型，比如分析數據、寫報告、做判斷。

GPT-5.5的成績是84.9%，相比GPT-5.4的83.0%，有一定的提升，也高於Claude Opus4.7的80.3%和Gemini3.1 Pro的67.3%。

第二個關鍵測試是OSWorld，用來衡量模型在真實電腦環境中的操作能力。GPT-5.5達到78.7%，高於GPT-5.4的75.0%，提升幅度不算誇張，但意義很大。

這項能力考驗了一個更現實的問題：模型不僅能告訴你怎麼做，還能不能直接替你去做，包括點擊界面、切換工具、執行多步驟操作。

還有Tau2 Telecom，這是一個電信客服流程測試，GPT-5.5在無需額外調優的情況下達到98.0%。這類任務更接近企業里的真實工作，需要在複雜、多步驟、有上下文依賴的流程中完成。

在更細分的能力上，GPT-5.5的編程能力繼續提升，在Terminal-Bench2.0上達到了82.7%，在SWE-Bench Pro上達到了58.6%。

在其他知識工作基準測試中，GPT-5.5的表現也很出色：FinanceAgent得分60.0%，內部投資銀行建模任務得分88.5%，OfficeQA Pro得分54.1%。說明它在結構化分析和數據處理上已經相當成熟。

科研方面雖然分數提升相對溫和，但已經出現能夠參與推理、驗證甚至輔助發現新結果的案例，這一點更像能力邊界的變化，而不是簡單的性能增長。

把這些跑分放在一起看，會發現這次模型的評價標準正在發生變化：過去我們常用MMLU、GPQA這樣的指標看模型的知識和推理能力，但現在更側重於GDPval、OSWorld這類「任務級評估」。

相比起問模型知不知道某項知識，現在更看重它能不能完成一項完整工作。

這也對應了GPT-5.5本次的更新重點。模型開始能夠自主地組織步驟：先獲取信息，再做判斷，必要時調用工具，最後把結果整理成可以直接使用的輸出。

在編程上，它參與整個開發流程，而不只是生成代碼；在知識工作中，它產出報告、模型和決策建議，而不只是提供答案；在操作層面，它甚至可以直接進入電腦環境，把這些步驟執行出來。

這一代模型更像一個可以協作的執行者，得分只是表面，更重要的是這些分數背後指向的一件事：GPT-5.5的定位，從「回答」轉向了「執行」。

順便一提，根據ARC Prize官方驗證，GPT-5.5在ARC-AGI-2基準測試中取得最高85.0%的準確率，成為了新的SOTA模型。

除了能力本身，這一代模型還有一個被反覆強調的點：效率。

OpenAI給出的數據是，在實際服務中，GPT-5.5的速度與GPT-5.4基本持平，但在完成同樣Codex任務時使用的token明顯更少。這一點對API用戶尤其重要，因為它直接決定了真實使用成本。

在定價上，GPT-5.5 API為每百萬輸入token5美元、輸出30美元，Pro版本更高。這個價格是GPT-5.4的兩倍。

不過OpenAI的邏輯是：單價雖然提升，但由於任務完成效率更高，總成本未必上升。

另外，安全體系也在同步升級：GPT-5.5是目前防護最嚴格的一代模型，在發佈前經歷了完整的安全評估流程，包括內部與外部紅隊測試，以及針對網絡安全、生物等高風險能力的專項驗證，並結合了近200個真實使用場景進行調整。

模型表現

作為一個擅長複雜任務的模型，GPT-5.5的編碼優勢在Codex中表現尤為突出，可以完成從實現和重構到調試、測試和驗證等工程工作。

根據官方文檔，它在真實工程上表現很好：在大型任務中能夠持續保持上下文（不會只盯着一小段代碼）；在問題不明確時，能夠推理出故障原因；會用工具去驗證自己的假設；能把修改真正「貫穿」到整個代碼庫，而不是只改一處。

官方給出了一些比較複雜的示例，例如把一張天體圖片重新做成一個新的Web應用。

技術上要求用WebGL做3D渲染、用Vite搭項目，內容上要儘量接入ArtemisII任務的真實數據，把軌道、飛行路徑、天體位置這些信息真實地表現出來。

還有讓GPT-5.5結合Codex生成的3D地牢競技場原型。

模型不僅搭建了遊戲架構，還寫出了基於Three.js的前端實現，並覆蓋了戰鬥系統、敵人機制和界面反饋等關鍵模塊；環境貼圖和角色對話也由GPT生成。只有角色模型和動畫交給了第三方工具處理。

在編程能力之外，GPT-5.5的能力已經延伸到更廣泛的知識工作，由於它更擅長理解真實意圖，所以可以更自然地跑完整個知識工作的流程：從獲取信息、抓住重點、調用工具、檢查結果，到把原始材料整理成真正有用的輸出。

在Codex里，GPT-5.5在生成文檔、表格和演示文稿方面，比GPT-5.4更強。OpenAI內部已經在真實工作中使用這些能力：目前，公司內部超過85%的員工每周都會使用 Codex，覆蓋軟件工程、財務、傳播、市場、數據科學和產品等多個團隊。

例如下列演示，就是使用GPT-5.5生成財務建模。

除了官方的複雜demo，為了看清模型在「單次生成」層面的表現，我們也做了一些更偏基礎能力的測試。

首先是每次都被拉出來的鵜鶘騎自行車，左邊是GPT-5.4的表現，右邊是GPT-5.5。

還有六邊形小球滾動，可以看模型的物理理解。

在審美上，我們用一句話讓GPT-5.5設計了一個高端品牌網站，效果如下。

prompt：Design a premium brand website with a strong identity, focusing on typography, spacing, and a cohesive visual style. Avoid generic layouts.Use Chinese.Can run entirely in a single HTML file.

接下來讓它自由發揮，創造一個Unity風格的複雜SVG動畫。

prompt：Create a complex svg animation that an engineer with a background in unity would appreciate.Can run entirely in a single HTML file.

編程能力之外，像在社媒上很火的洗車問題，我知道肯定也會有人想問。

這類問題一般難以回答的原因是，模型並不會默認車一定要開過去才能洗（可能有上門洗車的服務）。不過既然需要「理解用戶真實意圖」，我想這並不是什麼答錯的理由。

模型定位

如果把GPT-5.5放在過去這一年的演進脈絡里看，它並非單純地圍繞模型能力做提升，而是在逐漸改變模型的使用方式。

這條線其實可以從GPT-4o開始算起。當時最大的變化是把文本、圖像和語音放進同一個模型里處理，多個能力被放在同一個系統中完成，模型的內部開始變得統一。

GPT-5把這種「統一」延伸到了使用層。模型不再只是等待用戶提問，然後給出一次性儘可能完整的回答，它多了一層判斷：這個問題需要多快的響應、多深的推理，要不要調用工具。

後面的幾個5系版本，基本都在把這件事做細。

在GPT-5.3這一階段，編碼能力和工具調用被明顯強化，模型開始更穩定地完成多步驟代碼生成、調試和執行流程。它不只是寫代碼，還會自己一步步改、修錯誤，最後給出一個能用的結果。與此同時，它用工具的方式也變得更自然，不再是生成一堆看不懂的調用代碼，而是直接把該調用的工具給用上。

到了GPT-5.4，重點已經轉向computer use和工作流能力，模型可以在不同應用之間來回切換，比如查資料、整理信息、再生成結果，一步步把事情做完。同時，響應速度、token利用率和長任務中的穩定性也在持續優化：它的反應更快了，回答更乾脆，不再動不動就寫一大段推理過程，在連續做一件事的時候，也更少出現前後說不一致的情況。

這些調整放在一起，能看出一種變化：模型開始更像一個在後台持續運轉的系統，而不是一次性的問答工具。

用戶與模型之間的關係也在發生變化，從一問一答，變成把一件事情交給它，然後看它一步步往下做。

順着這條路徑看，GPT-5.5的位置就比較清楚了。它不只有性能上的提升，還在繼續把模型往任務執行的方向推進。

OpenAI將這一次的升級稱為「very strong model」、「為真實工作而設計的一類新智能」，強調模型在持續運行時的效率和穩定性，比如在更長時間內完成一整套流程，用更少的計算支撐更多步驟。

很多人會同時感覺它更快了，也更「短」了，本質上是模型開始主動控制自己的計算方式，把更多資源留給真正需要展開的部分：單次回答不再一味追求展開，而是更貼近任務本身的需求。

對於需要連續操作的場景來說，這種變化非常有價值。同樣一件事可以用更少的token完成，不僅是體驗上的提升，也直接影響到最終的成本。

當模型開始承接完整流程，評價標準也會隨之改變。比起單次回答的好壞，更重要的是它能否穩定高效地把一件事做完。

畢竟，更適合真實工作場景的模型，才是好用的模型。