free web page counters

GPT 5.5 發表 ChatGPT:最強 AI 編程模型、API 定價 5 美元起壓倒 Claude 及 Gemini

GPT 5.5 發表 ChatGPT:最強 AI 編程模型、API 定價 5 美元起壓倒 Claude 及 Gemini
1

GPT 5.5 發表 ChatGPT:最強 AI 編程模型、API 定價 5 美元起壓倒 Claude 及 Gemini

  • 作者

  • 發佈日期

    2026-04-24

  • 閱讀時間

    12分鐘

  • 字體大小

OpenAI 於 2026 年 4 月 23 日正式推出最新旗艦模型 GPT-5.5。新模型主打自主完成複雜任務、編寫程式碼及科研輔助三大場景,在保持前代 GPT-5.4 相同 token 回應速度下,大幅提升智能表現。

GPT-5.5 最大特點是「少指令、多完成」。用戶無需逐步監督,可將繁複、多步驟的工作任務直接交予模型,讓其自行規劃、運用工具、檢查結果並持續執行至完成。GPT-5.5 完成同等 Codex 任務所需 token 數量明顯少於 GPT-5.4,效率更高。

編程能力:Terminal-Bench 達 82.7%、SWE-Bench 達 58.6%

GPT-5.5 目前是 OpenAI 最強的自主編寫程式(agentic coding)模型。在測試複雜指令行工作流程的 Terminal-Bench 2.0 中,GPT-5.5 的準確率達 82.7%,排行業界第一,超越 Claude Opus 4.7 的 69.4% 及 Gemini 3.1 Pro 的 68.5%。它在真實 GitHub 問題解決測試 SWE-Bench Pro 中取得 58.6%,並在內部長時程編程測試 Expert-SWE 中以 73.1% 領先前代,三項評測均以更少token 完成。

早期測試者的評價大好,程式碼管理平台 Lovable 技術總監 Fabian Hedin 表示,過去需要多次嘗試才能完成的身份認證、即時同步及跨檔案編輯等功能,現在一次就攪定。Nvidia 工程師直言:「失去 GPT-5.5 的使用權,感覺就像截肢。」

Benchmark GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5%
Expert-SWE (Internal) 73.1% 68.5%
GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% 78.0%
Toolathlon 55.6% 54.6% 48.8%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
FrontierMath Tier 1–3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% 73.1%

知識工作:跨 44 個職業測試評分達 84.9%

知識工作是 GPT-5.5 另一主要應用場景。在橫跨 44 個職業的知識工作評估 GDPval 中,GPT-5.5 以 84.9% 勝率領先 Claude Opus 4.7 的 80.3% 及 Gemini 3.1 Pro 的 67.3%。它在測試模型獨立操作真實電腦環境的 OSWorld-Verified 取得 78.7%,並在 Tau2-bench Telecom 客戶服務工作流程測試中高達 98.0%,期間完全不需調整 prompt。

提早兩星期完成工作

OpenAI 內部已大規模使用新模型處理業務。超過 85% 員工每週使用 Codex,財務團隊以其審查 24,771 份、共 71,637 頁 K-1 稅務表格,比去年提早兩星期完成;市場團隊將每週業務報告自動化,每週節省 5 至 10 小時。Nvidia 企業 AI 副總裁 Justin Boitano 指出,GPT-5.5 協助團隊將除錯時間由數天壓縮至數小時,更將需時數星期的實驗縮短至一晚完成。

▲ GPT-5.5 , GPT 5.4 , Opus 4.7 , Opus 4.6 , Gemini 3.1 智能 , Token 比較圖,

科研能力:協助發現拉姆齊數新證明

科學研究方面,GPT-5.5 在多階段基因與定量生物學數據分析 GeneBench 取得 25.0%,超越前代 GPT-5.4 的 19.0%;在真實生物資訊學數據分析 BixBench 則達 80.5%。Jackson Laboratory 免疫學教授 Derya Unutmaz 利用 GPT-5.5 Pro 分析包含 62 個樣本、近 28,000 個基因的基因表達數據集,成功撰寫詳細報告並找出關鍵重點。他直言同等工作量以往需要團隊花費幾個月時間。

配備特製框架的 GPT-5.5 版本,早前協助發現關於組合數學核心研究對象「拉姆齊數」(Ramsey numbers)的新定理證明,並已於 Lean 定理證明系統完成驗證。波蘭亞當密茨凱維奇大學數學助理教授 Bartosz Naskręcki 亦利用 GPT-5.5,在 11 分鐘內從單一 prompt 編寫出一個代數幾何應用程式,將二次曲面交線圖像化,並轉換為 Weierstrass 模型。

網絡安全評級升至「高危」 引入更嚴格分類器

按照內部《Preparedness Framework》,OpenAI 將 GPT-5.5 的網絡安全及生化能力評級列為「高危」(High),尚未達到「危急」(Critical)級別。GPT-5.5 在 CyberGym 測試得分達 81.8%,高於前代及 Claude Opus 4.7,並在內部 Capture-the-Flag 挑戰測試取得 88.1%。

因應新模型強大的網絡安全能力,OpenAI 加入更嚴格的請求分類器,同步推出「Trusted Access for Cyber」計劃。經核實的防禦性質用戶(如關鍵基礎設施保護人員)可在較少限制下使用 GPT-5.5 的進階網絡安全功能。

定價及供應情況

版本 目標用戶 API 輸入價 API 輸出價
GPT‑5.5 Plus / Pro / Business / Enterprise $5 / 1M tokens(約 HK$39) $30 / 1M tokens(約 HK$234)
GPT‑5.5 Pro Pro / Business / Enterprise $30 / 1M tokens(約 HK$234) $180 / 1M tokens(約 HK$1,404)
Batch / Flex 開發者 標準價半價 標準價半價
Priority 優先處理 開發者 標準價 2.5x 標準價 2.5x

GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 及 Enterprise 用戶開放;Codex 版本同時向 Edu 及 Go 計劃用戶提供,上下文視窗為 400K tokens,另設速度快 1.5 倍、收費高 2.5 倍的 Fast Mode。GPT-5.5 Pro 限 Pro、Business 及 Enterprise 用戶使用。API 版本將於短期內推出,gpt-5.5 的 1M 上下文視窗版本定價亦如上表所示。

OpenAI 指出,雖然 GPT-5.5 API 標準定價高於上一代,但完成同等 Codex 任務所需 token 數量大幅減少。官方特意調整 Codex 體驗,令大多數用戶實際 token 消耗量低於 GPT-5.4。市場正關注 API 正式推出的時間,以及企業版能否為香港及亞太區開發者帶來實質效率提升。

Leave A Reply

Your email address will not be published.