-
作者
-
發佈日期
2026-04-24
-
閱讀時間
12分鐘
-
字體大小
OpenAI 於 2026 年 4 月 23 日正式推出最新旗艦模型 GPT-5.5。新模型主打自主完成複雜任務、編寫程式碼及科研輔助三大場景,在保持前代 GPT-5.4 相同 token 回應速度下,大幅提升智能表現。
GPT-5.5 最大特點是「少指令、多完成」。用戶無需逐步監督,可將繁複、多步驟的工作任務直接交予模型,讓其自行規劃、運用工具、檢查結果並持續執行至完成。GPT-5.5 完成同等 Codex 任務所需 token 數量明顯少於 GPT-5.4,效率更高。
編程能力:Terminal-Bench 達 82.7%、SWE-Bench 達 58.6%
GPT-5.5 目前是 OpenAI 最強的自主編寫程式(agentic coding)模型。在測試複雜指令行工作流程的 Terminal-Bench 2.0 中,GPT-5.5 的準確率達 82.7%,排行業界第一,超越 Claude Opus 4.7 的 69.4% 及 Gemini 3.1 Pro 的 68.5%。它在真實 GitHub 問題解決測試 SWE-Bench Pro 中取得 58.6%,並在內部長時程編程測試 Expert-SWE 中以 73.1% 領先前代,三項評測均以更少token 完成。
早期測試者的評價大好,程式碼管理平台 Lovable 技術總監 Fabian Hedin 表示,過去需要多次嘗試才能完成的身份認證、即時同步及跨檔案編輯等功能,現在一次就攪定。Nvidia 工程師直言:「失去 GPT-5.5 的使用權,感覺就像截肢。」
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | – | – | 69.4% | 68.5% |
| Expert-SWE (Internal) | 73.1% | 68.5% | – | – | – | – |
| GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | – | – | 78.0% | – |
| Toolathlon | 55.6% | 54.6% | – | – | – | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | – | – | 73.1% | – |
知識工作:跨 44 個職業測試評分達 84.9%
知識工作是 GPT-5.5 另一主要應用場景。在橫跨 44 個職業的知識工作評估 GDPval 中,GPT-5.5 以 84.9% 勝率領先 Claude Opus 4.7 的 80.3% 及 Gemini 3.1 Pro 的 67.3%。它在測試模型獨立操作真實電腦環境的 OSWorld-Verified 取得 78.7%,並在 Tau2-bench Telecom 客戶服務工作流程測試中高達 98.0%,期間完全不需調整 prompt。
提早兩星期完成工作
OpenAI 內部已大規模使用新模型處理業務。超過 85% 員工每週使用 Codex,財務團隊以其審查 24,771 份、共 71,637 頁 K-1 稅務表格,比去年提早兩星期完成;市場團隊將每週業務報告自動化,每週節省 5 至 10 小時。Nvidia 企業 AI 副總裁 Justin Boitano 指出,GPT-5.5 協助團隊將除錯時間由數天壓縮至數小時,更將需時數星期的實驗縮短至一晚完成。

科研能力:協助發現拉姆齊數新證明
科學研究方面,GPT-5.5 在多階段基因與定量生物學數據分析 GeneBench 取得 25.0%,超越前代 GPT-5.4 的 19.0%;在真實生物資訊學數據分析 BixBench 則達 80.5%。Jackson Laboratory 免疫學教授 Derya Unutmaz 利用 GPT-5.5 Pro 分析包含 62 個樣本、近 28,000 個基因的基因表達數據集,成功撰寫詳細報告並找出關鍵重點。他直言同等工作量以往需要團隊花費幾個月時間。
配備特製框架的 GPT-5.5 版本,早前協助發現關於組合數學核心研究對象「拉姆齊數」(Ramsey numbers)的新定理證明,並已於 Lean 定理證明系統完成驗證。波蘭亞當密茨凱維奇大學數學助理教授 Bartosz Naskręcki 亦利用 GPT-5.5,在 11 分鐘內從單一 prompt 編寫出一個代數幾何應用程式,將二次曲面交線圖像化,並轉換為 Weierstrass 模型。
網絡安全評級升至「高危」 引入更嚴格分類器
按照內部《Preparedness Framework》,OpenAI 將 GPT-5.5 的網絡安全及生化能力評級列為「高危」(High),尚未達到「危急」(Critical)級別。GPT-5.5 在 CyberGym 測試得分達 81.8%,高於前代及 Claude Opus 4.7,並在內部 Capture-the-Flag 挑戰測試取得 88.1%。
因應新模型強大的網絡安全能力,OpenAI 加入更嚴格的請求分類器,同步推出「Trusted Access for Cyber」計劃。經核實的防禦性質用戶(如關鍵基礎設施保護人員)可在較少限制下使用 GPT-5.5 的進階網絡安全功能。
定價及供應情況
| 版本 | 目標用戶 | API 輸入價 | API 輸出價 |
|---|---|---|---|
| GPT‑5.5 | Plus / Pro / Business / Enterprise | $5 / 1M tokens(約 HK$39) | $30 / 1M tokens(約 HK$234) |
| GPT‑5.5 Pro | Pro / Business / Enterprise | $30 / 1M tokens(約 HK$234) | $180 / 1M tokens(約 HK$1,404) |
| Batch / Flex | 開發者 | 標準價半價 | 標準價半價 |
| Priority 優先處理 | 開發者 | 標準價 2.5x | 標準價 2.5x |
GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 及 Enterprise 用戶開放;Codex 版本同時向 Edu 及 Go 計劃用戶提供,上下文視窗為 400K tokens,另設速度快 1.5 倍、收費高 2.5 倍的 Fast Mode。GPT-5.5 Pro 限 Pro、Business 及 Enterprise 用戶使用。API 版本將於短期內推出,gpt-5.5 的 1M 上下文視窗版本定價亦如上表所示。
OpenAI 指出,雖然 GPT-5.5 API 標準定價高於上一代,但完成同等 Codex 任務所需 token 數量大幅減少。官方特意調整 Codex 體驗,令大多數用戶實際 token 消耗量低於 GPT-5.4。市場正關注 API 正式推出的時間,以及企業版能否為香港及亞太區開發者帶來實質效率提升。
