free web page counters

100 美元超舊卡 NVIDIA V100 行 AI 效能實測 竟快過 RTX 3060

100 美元超舊卡 NVIDIA V100 行 AI 效能實測 竟快過 RTX 3060
0

超舊NVIDIA V100卡片測試.

  • 作者

  • 發佈日期

    2026-05-11

  • 閱讀時間

    9分鐘

  • 字體大小

NVIDIA V100 跑 LLM 實測結果意外勝過多張消費級顯示卡。Hardware Haven 改裝一張二手 Tesla V100 16GB SXM2 並測試本地 LLM,在 gpt-oss-20b 及 Gemma 4 E4B 測試中,速度分別壓過 RX 7800 XT 及 RTX 3060 12GB,最高領先約 44%。

這張 V100 並非普通用家熟悉的遊戲顯示卡,而是 2017 年推出 NVIDIA 資料中心 GPU。NVIDIA 官方資料顯示,V100 採用 Volta 架構,配備 HBM2 記憶體、Tensor Core,記憶體頻寬達 900 GB/s,原本定位是 AI、HPC 及深度學習工作負載。

二手 V100 只計卡價約 HK$780 實際改裝成本約 HK$1,830

Hardware Haven 測試的並非 PCIe 版 V100,而是 SXM2 介面版本。這類卡在海外二手市場卡價可低至 100 美元(約港幣 HK$780),但要放入一般 PC 使用,還需加上 SXM2 轉 PCIe x16 轉接器、額外 80mm Noctua 風扇及 3D 列印風扇罩,整套成本約 234.64 美元(約港幣 HK$1,830)。

高性能NVIDIA V100顯卡進行AI效能測試.

這亦是最大門檻:V100 沒有影像輸出,不能當一般顯示卡打機或接駁螢幕;SXM2 版本亦不是即插即用,需自行處理轉接、散熱及機箱相容性。對只想買卡即用的香港用戶而言,這套方案更接近 DIY AI 實驗平台,而非消費級顯示卡替代品。

高效散熱的NVIDIA V100 GPU卡片.

gpt-oss-20b 跑出 130 tokens/s 比 RX 7800 XT 快約 44%

在 Ollama 上執行 gpt-oss-20b 時,V100 系統錄得約 130 tokens/s,RX 7800 XT 則約 90 tokens/s,V100 領先約 44%。Ollama 頁面顯示,gpt-oss:20b 為 20.9B 參數模型,採用 MXFP4 量化,模型大小約 14GB,正好落在 16GB 記憶體可處理範圍。

在 Gemma 4 E4B 測試中,V100 亦錄得 108 tokens/s,RTX 3060 12GB 為 76 tokens/s,差距約 42%。Ollama 說明指 Gemma 4 E4B 屬 Edge model,E4B 代表 effective 4B,定位較適合邊緣裝置及本地執行模型。

NVIDIA V100 16GB 與 RTX 3060 12GB 性能對比.

V100 功耗較高 限功耗後仍比 RTX 3060 快近 40%

V100 缺點是整機功耗偏高。原測試中,V100 系統功耗為 293W,RTX 3060 12GB 系統為 235W;但當 Hardware Haven 將整機功耗限制在 170W 時,V100 仍有 95 tokens/s,RTX 3060 則為 68 tokens/s,V100 仍領先近 40%。

NVIDIA V100 16GB 與 RTX 3060 12GB 性能對比圖.

若進一步以每瓦輸出效率比較,在 100W 限制下,V100 為 0.55 tokens/s/W,RTX 3060 為 0.39 tokens/s/W,V100 領先約 41%。這代表 V100 雖然待機及整機功耗未必理想,但在特定 LLM 推論負載下,每瓦產出仍具優勢。

NVIDIA V100 16GB 與 RTX 3060 12GB 性能對比.

測試成績與硬件規格比較

項目 NVIDIA Tesla V100 16GB SXM2 RTX 3060 12GB / RX 7800 XT 對比
gpt-oss-20b 速度 130 tokens/s RX 7800 XT 約 90 tokens/s
Gemma 4 E4B 速度 108 tokens/s RTX 3060 12GB 約 76 tokens/s
整機功耗 293W RTX 3060 系統 235W
170W 限功耗 95 tokens/s RTX 3060 約 68 tokens/s
100W 能效 0.55 tokens/s/W RTX 3060 約 0.39 tokens/s/W
記憶體 16GB HBM2 RTX 3060 12GB GDDR6
記憶體頻寬 900 GB/s RTX 3060 約 360 GB/s

HBM2 高頻寬是關鍵 LLM 推論未必只看新舊世代

V100 能反勝較新消費級顯示卡,關鍵在記憶體頻寬及資料中心定位。LLM 推論生成文字時,系統需持續讀取模型權重;在模型能放入記憶體前提下,記憶體頻寬往往直接影響 tokens/s。

NVIDIA 官方規格列明,V100 SXM2 具備 640 個 Tensor Core、5,120 個 CUDA Core、125 TFLOPS Tensor Performance,最大功耗 300W,散熱方案為被動式設計。Tensor Core 是 NVIDIA 用於加速矩陣運算專用核心,正是深度學習及 AI 推論常用運算類型。

資料來源:Hardware Haven、NVIDIA V100、Ollama gpt-oss:20b、Ollama Gemma 4 E4B

Leave A Reply

Your email address will not be published.