100 美元超舊卡 NVIDIA V100 行 AI 效能實測竟快過 RTX 3060

超舊NVIDIA V100卡片測試.

作者
發佈日期

2026-05-11
閱讀時間

9分鐘
字體大小

NVIDIA V100 跑 LLM 實測結果意外勝過多張消費級顯示卡。Hardware Haven 改裝一張二手 Tesla V100 16GB SXM2 並測試本地 LLM，在 gpt-oss-20b 及 Gemma 4 E4B 測試中，速度分別壓過 RX 7800 XT 及 RTX 3060 12GB，最高領先約 44%。

這張 V100 並非普通用家熟悉的遊戲顯示卡，而是 2017 年推出 NVIDIA 資料中心 GPU。NVIDIA 官方資料顯示，V100 採用 Volta 架構，配備 HBM2 記憶體、Tensor Core，記憶體頻寬達 900 GB/s，原本定位是 AI、HPC 及深度學習工作負載。

二手 V100 只計卡價約 HK$780　實際改裝成本約 HK$1,830

Hardware Haven 測試的並非 PCIe 版 V100，而是 SXM2 介面版本。這類卡在海外二手市場卡價可低至 100 美元（約港幣 HK$780），但要放入一般 PC 使用，還需加上 SXM2 轉 PCIe x16 轉接器、額外 80mm Noctua 風扇及 3D 列印風扇罩，整套成本約 234.64 美元（約港幣 HK$1,830）。

高性能NVIDIA V100顯卡進行AI效能測試.

這亦是最大門檻：V100 沒有影像輸出，不能當一般顯示卡打機或接駁螢幕；SXM2 版本亦不是即插即用，需自行處理轉接、散熱及機箱相容性。對只想買卡即用的香港用戶而言，這套方案更接近 DIY AI 實驗平台，而非消費級顯示卡替代品。

高效散熱的NVIDIA V100 GPU卡片.

gpt-oss-20b 跑出 130 tokens/s　比 RX 7800 XT 快約 44%

在 Ollama 上執行 gpt-oss-20b 時，V100 系統錄得約 130 tokens/s，RX 7800 XT 則約 90 tokens/s，V100 領先約 44%。Ollama 頁面顯示，gpt-oss:20b 為 20.9B 參數模型，採用 MXFP4 量化，模型大小約 14GB，正好落在 16GB 記憶體可處理範圍。

在 Gemma 4 E4B 測試中，V100 亦錄得 108 tokens/s，RTX 3060 12GB 為 76 tokens/s，差距約 42%。Ollama 說明指 Gemma 4 E4B 屬 Edge model，E4B 代表 effective 4B，定位較適合邊緣裝置及本地執行模型。

NVIDIA V100 16GB 與 RTX 3060 12GB 性能對比.

V100 功耗較高　限功耗後仍比 RTX 3060 快近 40%

V100 缺點是整機功耗偏高。原測試中，V100 系統功耗為 293W，RTX 3060 12GB 系統為 235W；但當 Hardware Haven 將整機功耗限制在 170W 時，V100 仍有 95 tokens/s，RTX 3060 則為 68 tokens/s，V100 仍領先近 40%。

NVIDIA V100 16GB 與 RTX 3060 12GB 性能對比圖.

若進一步以每瓦輸出效率比較，在 100W 限制下，V100 為 0.55 tokens/s/W，RTX 3060 為 0.39 tokens/s/W，V100 領先約 41%。這代表 V100 雖然待機及整機功耗未必理想，但在特定 LLM 推論負載下，每瓦產出仍具優勢。

NVIDIA V100 16GB 與 RTX 3060 12GB 性能對比.

測試成績與硬件規格比較

項目	NVIDIA Tesla V100 16GB SXM2	RTX 3060 12GB / RX 7800 XT 對比
gpt-oss-20b 速度	130 tokens/s	RX 7800 XT 約 90 tokens/s
Gemma 4 E4B 速度	108 tokens/s	RTX 3060 12GB 約 76 tokens/s
整機功耗	293W	RTX 3060 系統 235W
170W 限功耗	95 tokens/s	RTX 3060 約 68 tokens/s
100W 能效	0.55 tokens/s/W	RTX 3060 約 0.39 tokens/s/W
記憶體	16GB HBM2	RTX 3060 12GB GDDR6
記憶體頻寬	900 GB/s	RTX 3060 約 360 GB/s

HBM2 高頻寬是關鍵　LLM 推論未必只看新舊世代

V100 能反勝較新消費級顯示卡，關鍵在記憶體頻寬及資料中心定位。LLM 推論生成文字時，系統需持續讀取模型權重；在模型能放入記憶體前提下，記憶體頻寬往往直接影響 tokens/s。

NVIDIA 官方規格列明，V100 SXM2 具備 640 個 Tensor Core、5,120 個 CUDA Core、125 TFLOPS Tensor Performance，最大功耗 300W，散熱方案為被動式設計。Tensor Core 是 NVIDIA 用於加速矩陣運算專用核心，正是深度學習及 AI 推論常用運算類型。

資料來源：Hardware Haven、NVIDIA V100、Ollama gpt-oss:20b、Ollama Gemma 4 E4B

100 美元超舊卡 NVIDIA V100 行 AI 效能實測 竟快過 RTX 3060

二手 V100 只計卡價約 HK$780 實際改裝成本約 HK$1,830

gpt-oss-20b 跑出 130 tokens/s 比 RX 7800 XT 快約 44%

V100 功耗較高 限功耗後仍比 RTX 3060 快近 40%