OpenAI 近來推出了不少新模型,不過最近 o3 模型在官方和第三方基準測試結果之間的差異,就引發了外界對 OpenAI 透明度和模型測試實踐的爭議。
OpenAI 於去年十二月發布 o3 時,宣稱該模型能夠解答 FrontierMath(一組困難的數學問題)中超過 25% 的問題。這一成績遠遠超越競爭對手,排行第二的模型只能正確回答約 2% 的 FrontierMath 問題。OpenAI 研究總監 Mark Chen 曾在直播中表示:「目前市場上所有產品在 FrontierMath 上的表現都低於 2%,而我們在內部看到,採用激進測試計算設定的 o3 能達到超過 25% 的正確率。」
然而,FrontierMath 的開發機構 Epoch AI 上週五公布的獨立基準測試結果顯示,o3 的實際得分約為 10%,遠低於 OpenAI 宣稱的最高分數。這一差距可能源於測試條件的不同,公開版本的 o3 模型比 OpenAI 內部測試的版本計算能力更弱,且針對聊天和產品使用進行了最佳化。
OpenAI 技術人員 Wenda Zhou 上週在直播中承認,目前的 o3 模型「更注重現實世界用例和速度」,這可能導致基準測試結果出現「差異」。他表示:「我們進行了最佳化,使模型更具成本效益,總體上更有用。我們認為這是一個更好的模型⋯⋯當你尋求答案時,不必等待太久,這對這類模型來說是真正重要的。」
來源:TechCrunch
相關文章:
OpenAI 震撼發布 o3、o4-mini 具圖像思維、識自己揀工具、編程大幅躍進
OpenAI 傳內部測試 AI 社交平台 目標整合圖像生成功能並強化創化能力
傳 Netflix 測試加入 AI 搜尋 採用 OpenAI 技術改善使用體驗
The post OpenAI o3 模型基準分數惹爭議 第三方測試與官方測試結果相差太大 appeared first on 香港 unwire.hk 玩生活.樂科技.

Comments are closed, but trackbacks and pingbacks are open.