GPT 5.5 發表 ChatGPT：最強 AI 編程模型、API 定價 5 美元起壓倒 Claude 及 Gemini

作者
發佈日期

2026-04-24
閱讀時間

12分鐘
字體大小

OpenAI 於 2026 年 4 月 23 日正式推出最新旗艦模型 GPT-5.5。新模型主打自主完成複雜任務、編寫程式碼及科研輔助三大場景，在保持前代 GPT-5.4 相同 token 回應速度下，大幅提升智能表現。

GPT-5.5 最大特點是「少指令、多完成」。用戶無需逐步監督，可將繁複、多步驟的工作任務直接交予模型，讓其自行規劃、運用工具、檢查結果並持續執行至完成。GPT-5.5 完成同等 Codex 任務所需 token 數量明顯少於 GPT-5.4，效率更高。

編程能力：Terminal-Bench 達 82.7%、SWE-Bench 達 58.6%

GPT-5.5 目前是 OpenAI 最強的自主編寫程式（agentic coding）模型。在測試複雜指令行工作流程的 Terminal-Bench 2.0 中，GPT-5.5 的準確率達 82.7%，排行業界第一，超越 Claude Opus 4.7 的 69.4% 及 Gemini 3.1 Pro 的 68.5%。它在真實 GitHub 問題解決測試 SWE-Bench Pro 中取得 58.6%，並在內部長時程編程測試 Expert-SWE 中以 73.1% 領先前代，三項評測均以更少token 完成。

早期測試者的評價大好，程式碼管理平台 Lovable 技術總監 Fabian Hedin 表示，過去需要多次嘗試才能完成的身份認證、即時同步及跨檔案編輯等功能，現在一次就攪定。Nvidia 工程師直言：「失去 GPT-5.5 的使用權，感覺就像截肢。」

Benchmark	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	–	–	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	–	–	–	–
GDPval (wins or ties)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	–	–	78.0%	–
Toolathlon	55.6%	54.6%	–	–	–	48.8%
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
FrontierMath Tier 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	–	–	73.1%	–

知識工作：跨 44 個職業測試評分達 84.9%

知識工作是 GPT-5.5 另一主要應用場景。在橫跨 44 個職業的知識工作評估 GDPval 中，GPT-5.5 以 84.9% 勝率領先 Claude Opus 4.7 的 80.3% 及 Gemini 3.1 Pro 的 67.3%。它在測試模型獨立操作真實電腦環境的 OSWorld-Verified 取得 78.7%，並在 Tau2-bench Telecom 客戶服務工作流程測試中高達 98.0%，期間完全不需調整 prompt。

提早兩星期完成工作

OpenAI 內部已大規模使用新模型處理業務。超過 85% 員工每週使用 Codex，財務團隊以其審查 24,771 份、共 71,637 頁 K-1 稅務表格，比去年提早兩星期完成；市場團隊將每週業務報告自動化，每週節省 5 至 10 小時。Nvidia 企業 AI 副總裁 Justin Boitano 指出，GPT-5.5 協助團隊將除錯時間由數天壓縮至數小時，更將需時數星期的實驗縮短至一晚完成。

▲ GPT-5.5 , GPT 5.4 , Opus 4.7 , Opus 4.6 , Gemini 3.1 智能 , Token 比較圖，

科研能力：協助發現拉姆齊數新證明

科學研究方面，GPT-5.5 在多階段基因與定量生物學數據分析 GeneBench 取得 25.0%，超越前代 GPT-5.4 的 19.0%；在真實生物資訊學數據分析 BixBench 則達 80.5%。Jackson Laboratory 免疫學教授 Derya Unutmaz 利用 GPT-5.5 Pro 分析包含 62 個樣本、近 28,000 個基因的基因表達數據集，成功撰寫詳細報告並找出關鍵重點。他直言同等工作量以往需要團隊花費幾個月時間。

配備特製框架的 GPT-5.5 版本，早前協助發現關於組合數學核心研究對象「拉姆齊數」（Ramsey numbers）的新定理證明，並已於 Lean 定理證明系統完成驗證。波蘭亞當密茨凱維奇大學數學助理教授 Bartosz Naskręcki 亦利用 GPT-5.5，在 11 分鐘內從單一 prompt 編寫出一個代數幾何應用程式，將二次曲面交線圖像化，並轉換為 Weierstrass 模型。

網絡安全評級升至「高危」引入更嚴格分類器

按照內部《Preparedness Framework》，OpenAI 將 GPT-5.5 的網絡安全及生化能力評級列為「高危」（High），尚未達到「危急」（Critical）級別。GPT-5.5 在 CyberGym 測試得分達 81.8%，高於前代及 Claude Opus 4.7，並在內部 Capture-the-Flag 挑戰測試取得 88.1%。

因應新模型強大的網絡安全能力，OpenAI 加入更嚴格的請求分類器，同步推出「Trusted Access for Cyber」計劃。經核實的防禦性質用戶（如關鍵基礎設施保護人員）可在較少限制下使用 GPT-5.5 的進階網絡安全功能。

定價及供應情況

版本	目標用戶	API 輸入價	API 輸出價
GPT‑5.5	Plus / Pro / Business / Enterprise	$5 / 1M tokens（約 HK$39）	$30 / 1M tokens（約 HK$234）
GPT‑5.5 Pro	Pro / Business / Enterprise	$30 / 1M tokens（約 HK$234）	$180 / 1M tokens（約 HK$1,404）
Batch / Flex	開發者	標準價半價	標準價半價
Priority 優先處理	開發者	標準價 2.5x	標準價 2.5x

GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 及 Enterprise 用戶開放；Codex 版本同時向 Edu 及 Go 計劃用戶提供，上下文視窗為 400K tokens，另設速度快 1.5 倍、收費高 2.5 倍的 Fast Mode。GPT-5.5 Pro 限 Pro、Business 及 Enterprise 用戶使用。API 版本將於短期內推出，gpt-5.5 的 1M 上下文視窗版本定價亦如上表所示。

OpenAI 指出，雖然 GPT-5.5 API 標準定價高於上一代，但完成同等 Codex 任務所需 token 數量大幅減少。官方特意調整 Codex 體驗，令大多數用戶實際 token 消耗量低於 GPT-5.4。市場正關注 API 正式推出的時間，以及企業版能否為香港及亞太區開發者帶來實質效率提升。