Apple 發表 AI 圖像壓縮編解碼器 PICO 同等畫質下數據量最多縮至三分之一

  • 作者

  • 發佈日期

    2026-05-25

  • 閱讀時間

    4分鐘

  • 字體大小

Apple 研究團隊發表以機器學習為基礎的圖像壓縮編解碼器「PICO」(Perceptual Image Codec,知覺圖像編解碼器)。憑藉人類視覺感知最佳化設計,在同等畫質下,數據量最多可縮至傳統編解碼器的三分之一。研究人員稱 PICO 為業界首個同時具備實用性,並直接針對人類視覺系統進行最佳化的學習型編解碼器。

PICO 的壓縮優勢

根據 Apple 研究頁面,PICO 相較 AV1、AV2、VVC、ECM 及 JPEG-AI,可達到 2.3 至 3 倍位元率節省,即同樣畫質所需的數據量僅為傳統標準的三分之一至不足一半。與現有頂尖學習型編解碼器相比,PICO 亦進一步實現 20% 至 40% 的位元率削減。

與傳統編解碼器(如 JPEG、PNG、HEIC)不同,PICO 採用神經網絡學習圖像壓縮與復原方式,訓練過程結合了知覺品質損失、GAN 損失,以及專門抑制小字體模糊和磚狀色塊的損失函數。Apple 論文解釋,GAN 損失可令壓縮後的頭髮絲、布料紋理等細節看起來更自然。但同時存在生成原圖並不存在之圖案的風險,因此研究團隊加入了專項對策加以抑制。

端上效能表現

在 iPhone 17 Pro Max 上,PICO 最快可以 230 毫秒完成 1,200 萬像素圖像的編碼,復碼則只需 150 毫秒,速度比大多數頂尖 ML 編解碼器在 V100 GPU 上運行時更快。雖然與 HEIC 等在裝置上高度最佳化的傳統編解碼器相比仍有差距,但已大幅縮窄學習型編解碼器在實用性方面的落差。

Apple 為 PICO 加入「跨裝置兼容性」設計,確保在不同裝置或不同實作版本之間均能正確復碼。部分運算過程採用確定性設計,以避免浮點運算差異導致復碼失敗的問題。

人類主觀評估方法

Apple 採用 CLIC 2020 Test、Kodak 及 DIV2K 三個資料集進行評估,邀請 610 位評估者就基準圖像與兩種復原圖像進行配對比較,合計蒐集 74,925 件回應。評估者的偏好結果以貝葉斯 Elo 分數換算,客觀呈現各編解碼器的知覺品質排名。

PICO 局限性

Apple 論文指出,PICO 針對自然圖像的知覺品質最佳化,在壓縮動漫插圖等高度簡化的合成圖像時,有時需要比傳統編解碼器更高的位元率才能達到相同品質。Apple 研究團隊為找到最佳模型架構,探索了數百萬種神經網絡配置,目標是在壓縮率、視覺品質與實用效能三方面取得最佳平衡。

資料來源:Apple Machine Learning Research

Comments (0)
Add Comment