free web page counters

中國研發 14nm AI 晶片 算力可媲美 NVIDIA 4nm 晶片 加新封裝技術、特殊架構 – unwire.hk 香港

中國研發 14nm AI 晶片 算力可媲美 NVIDIA 4nm 晶片 加新封裝技術、特殊架構 – unwire.hk 香港
20

在北京 ICC 全球 CEO 峰會上,中國半導體行業協會 IC 設計分會副理事長、清華大學集成電路學院教授魏少軍表示,中國團隊研發一款採用 14nm 邏輯工藝配合 18nm DRAM,再透過 3D hybrid bonding 疊層封裝、並採用 software-defined near-memory computing 架構 AI 加速晶片。他聲稱晶片在能效比與單位算力成本上,足以媲美目前 NVIDIA 以 4nm 製程生產高階 GPU。這方案期望走「系統級創新」路線,在無需 EUV 光刻機情況下,用成熟製程配合先進封裝,作為中國 AI 基礎設施「完全可控」關鍵一環,減少對美國硬件及 CUDA 生態依賴。

 

採用 3D 封裝突破記憶體限制

魏少軍形容,這款晶片將 14nm 邏輯裸晶直接與 18nm DRAM 堆疊,利用 3D hybrid bonding 實現銅對銅超高密度連接,大幅縮短運算單元與記憶體之間距離,目標是突破傳統「記憶體牆」。在此架構下,系統記憶體頻寬可達 TB/s 級別,延遲顯著降低。按其說法,整卡功耗下每瓦能效可達約 2 TFLOPS,總算力約 120 TFLOPS。外電分析指,這數字如以較低精度(例如 INT8、稀疏計算等)計算,確有機會在「每瓦實際推理效能」上追近甚至超越 NVIDIA A100 某些工作負載,惟目前仍欠缺公開標準化測試數據、實際晶片樣品及量產計劃細節,很多層面仍停留概念和實驗性架構階段。

 

生態系統仍是最大障礙

若按公開峰值算力比較,NVIDIA A100 FP16 算力約 312 TFLOPS,而新一代 H100 FP16 峰值已接近 1,000 TFLOPS,最新 Blackwell 架構 B200 更被業界估計可達數千 TFLOPS,遠高於中國這款 120 TFLOPS 等級設計。即使計算 INT8 或混合精度,H100 和 Blackwell 在絕對算力與記憶體頻寬上仍處於另一級別。同時,CUDA、cuDNN、TensorRT 以及圍繞 NVIDIA GPU 建立成

熟軟件、生態與開發工具,仍是目前 AI 大型訓練和推理平台主流,遠非單靠硬件算力數字就可輕易取代,中國本地 CANN、Ascend 等生態仍追趕中。

定位戰略替代非全面超越

對香港及內地市場而言,這條 14nm 配合 18nm 近存計算路線,最大意義在於「戰略替代」而非「全面性能碾壓」。在美國出口管制持續收緊下,中國難於短期內取得 3nm、4nm 級別 GPU 與 HBM 供應。透過成熟節點配合 3D hybrid bonding,理論上可在數據中心和行業專用 AI 推理場景,例如政務雲、本地大模型服務、金融風控及工業視覺等,提供「自主可控、成本較低、能效尚可」選項。未來若中國團隊在編譯器、軟件適配、多晶片互聯與散熱設計等方面持續突破,加上華為 Ascend、Biren 等國產 AI 加速器部署,或逐步形成與 NVIDIA 不同差異化產品帶。雖然整體性能仍有差距,但有機會在本地市場建立可用、可持續 AI 硬件生態。

 

資料來源:Tom’s Hardware

Comments are closed, but trackbacks and pingbacks are open.