NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

女性用手機進行語音識別.

作者
發佈日期

2026-06-21
閱讀時間

7分鐘
字體大小

NVIDIA NeMo 語音團隊於 6 月初在 HuggingFace 上架新模型 Nemotron 3.5 ASR。模型以 600M 參數涵蓋 40 種語言的即時語音轉錄，毋需 GPU 亦能在純 CPU 或 Apple Silicon 裝置上運作，為本地 AI 語音 pipeline 開發者提供開源選擇。

Nemotron 3.5 ASR語音模型，支援40種語言，CPU運作.

Nemotron 3.5 ASR 簡介

Nemotron 3.5 ASR 是 NVIDIA 繼英文串流版本 nemotron-speech-streaming-en-0.6b 推出的多語言擴充版，同樣採用 600M 參數。模型透過「語言 ID 提示」機制，令單一模型能處理 40 種語言的語音轉錄，毋需為每種語言準備獨立模型。架構採用 Cache-Aware FastConformer-RNNT，由 24 層 FastConformer 編碼器搭配 RNNT 解碼器組成。每個音訊幀只需處理一次，有效降低計算量與延遲。

支援 40 種語言及三個層級

NVIDIA 將支援語言分為三個品質等級：

即用型（19 種語言）：包含英文、西班牙文、法文、德文、日文、韓文、中文、阿拉伯文及印地文等。

廣泛覆蓋（13 種語言）：涵蓋波蘭文、瑞典文、捷克文及挪威文等歐洲語言。

適配型（8 種語言）：分詞器已支援但需針對特定領域資料微調。

語言控制方式有兩種。推理時以 target_lang 指定語言，或設為 auto 讓模型自動偵測。自動偵測模式下，模型會在標點符號後輸出語言標籤，處理混合語言音訊。

自由調整延遲時間

Nemotron 3.5 ASR 透過 att_context_size 參數，讓開發者在推理時調整延遲與準確率平衡，毋需重新訓練模型：

80ms 超低延遲：適合即時互動

160ms 低延遲

560ms 平衡模式：預設值

1,120ms 最高準確率模式

單一 checkpoint 能覆蓋所有場景，開發者無需為不同應用準備多個模型。

與 Whisper 相比有何優勢

根據 Microsoft Research 一項針對逾 50 個配置的大型基準測試，NVIDIA Nemotron 被評為「資源受限硬件上即時串流 ASR 最強候選模型」。具體測試數據顯示，Nemotron 0.6B 平均詞錯率（WER）為 7.07%，低於 Whisper large-v3-turbo 的 7.83% 。另有測試指出，Nemotron 在 L40S GPU 上的延遲僅 43ms，較 Whisper medium 的 916ms 快達 21 倍。

不過，Whisper 在嘈雜環境及帶口音音訊上的穩健性仍較強，且原生支援帶時間戳的分段輸出，在特定場景下仍有優勢。

內置實用功能

Nemotron 3.5 ASR 除基本語音轉文字外，亦內置多項功能：

Word Boosting：可自訂優先辨識詞彙。毋需重新訓練模型，對醫療及科技等領域實用。

Speaker Diarization：辨識並區分不同說話者，適合會議及播客等多語境。

自動標點與大寫：輸出文字自帶標點符號及正確大寫，省卻額外處理步驟。

部署方式與授權細節

Nemotron 3.5 ASR 以 OpenMDW-1.1 授權開源，模型權重已在 HuggingFace 上架，能直接用於商業用途。部署方式包括使用 NeMo 框架、OpenAI 相容 HTTP 伺服器、NVIDIA NIM 雲端託管服務及標準 HuggingFace Transformers 流程。即時語音平台 LiveKit 發布詳細整合指南，展示將 Nemotron 3.5 ASR 接入即時語音 Agent pipeline 的方法。

Nemotron 3.5 ASR語音辨識模型界面截圖.

資料來源：NVIDIA / HuggingFace