-
作者
-
發佈日期
2026-06-21
-
閱讀時間
7分鐘
-
字體大小
NVIDIA NeMo 語音團隊於 6 月初在 HuggingFace 上架新模型 Nemotron 3.5 ASR。模型以 600M 參數涵蓋 40 種語言的即時語音轉錄,毋需 GPU 亦能在純 CPU 或 Apple Silicon 裝置上運作,為本地 AI 語音 pipeline 開發者提供開源選擇。

Nemotron 3.5 ASR 簡介
Nemotron 3.5 ASR 是 NVIDIA 繼英文串流版本 nemotron-speech-streaming-en-0.6b 推出的多語言擴充版,同樣採用 600M 參數。模型透過「語言 ID 提示」機制,令單一模型能處理 40 種語言的語音轉錄,毋需為每種語言準備獨立模型。架構採用 Cache-Aware FastConformer-RNNT,由 24 層 FastConformer 編碼器搭配 RNNT 解碼器組成。每個音訊幀只需處理一次,有效降低計算量與延遲。
支援 40 種語言及三個層級
NVIDIA 將支援語言分為三個品質等級:
即用型(19 種語言):包含英文、西班牙文、法文、德文、日文、韓文、中文、阿拉伯文及印地文等。
廣泛覆蓋(13 種語言):涵蓋波蘭文、瑞典文、捷克文及挪威文等歐洲語言。
適配型(8 種語言):分詞器已支援但需針對特定領域資料微調。
語言控制方式有兩種。推理時以 target_lang 指定語言,或設為 auto 讓模型自動偵測。自動偵測模式下,模型會在標點符號後輸出語言標籤,處理混合語言音訊。
自由調整延遲時間
Nemotron 3.5 ASR 透過 att_context_size 參數,讓開發者在推理時調整延遲與準確率平衡,毋需重新訓練模型:
80ms 超低延遲:適合即時互動
160ms 低延遲
560ms 平衡模式:預設值
1,120ms 最高準確率模式
單一 checkpoint 能覆蓋所有場景,開發者無需為不同應用準備多個模型。
與 Whisper 相比有何優勢
根據 Microsoft Research 一項針對逾 50 個配置的大型基準測試,NVIDIA Nemotron 被評為「資源受限硬件上即時串流 ASR 最強候選模型」。具體測試數據顯示,Nemotron 0.6B 平均詞錯率(WER)為 7.07%,低於 Whisper large-v3-turbo 的 7.83% 。另有測試指出,Nemotron 在 L40S GPU 上的延遲僅 43ms,較 Whisper medium 的 916ms 快達 21 倍 。
不過,Whisper 在嘈雜環境及帶口音音訊上的穩健性仍較強,且原生支援帶時間戳的分段輸出,在特定場景下仍有優勢 。
內置實用功能
Nemotron 3.5 ASR 除基本語音轉文字外,亦內置多項功能:
Word Boosting:可自訂優先辨識詞彙。毋需重新訓練模型,對醫療及科技等領域實用。
Speaker Diarization:辨識並區分不同說話者,適合會議及播客等多語境。
自動標點與大寫:輸出文字自帶標點符號及正確大寫,省卻額外處理步驟。
部署方式與授權細節
Nemotron 3.5 ASR 以 OpenMDW-1.1 授權開源,模型權重已在 HuggingFace 上架,能直接用於商業用途。部署方式包括使用 NeMo 框架、OpenAI 相容 HTTP 伺服器、NVIDIA NIM 雲端託管服務及標準 HuggingFace Transformers 流程。即時語音平台 LiveKit 發布詳細整合指南,展示將 Nemotron 3.5 ASR 接入即時語音 Agent pipeline 的方法。

資料來源:NVIDIA / HuggingFace