-
作者
-
發佈日期
2026-06-10
-
閱讀時間
5分鐘
-
字體大小
Google 近日發表最新語音模型 Gemini 3.5 Live Translate。新模型主打近乎即時 speech-to-speech 翻譯,支援逾 70 種語言,並會在發言者說話後數秒內持續輸出翻譯音訊。Google 指出模型會盡量保留原聲語調、節奏及音高,令翻譯聽起來更自然,避免傳統逐輪翻譯系統常見停頓感。

分階段擴展至旗下產品
Google 表示 Gemini 3.5 Live Translate 即日起分階段擴展至旗下產品。開發者可透過 Gemini Live API 及 Google AI Studio 以 public preview 形式使用。企業用戶本月起可在 Google Meet 參與 private preview,一般用戶則可在 Android 及 iOS 版 Google Translate 全球逐步使用。Google 亦提到新模型會處理串流中語音輸入,用戶無須手動設定多語言模式。模型具備噪音耐受能力,適合會議、課堂、廣播及多語言通話等場景。

Grab 測試 Gemini 3.5 Live Translate 解決司機搭客溝通問題
Grab 就開始測試利用 Gemini 3.5 Live Translate 解決司機與乘客在接載時的語言隔閡。Grab 打算這套模型,讓雙方能夠近乎即時溝通,而無須等待對方說完才進行翻譯。如果司機接到使用不同語言的旅客,系統可以即時將對話轉換成對方聽得懂的語言,方便說明上車位置、車牌、目的地或改道安排。Google 亦提到,Grab 用戶每月有超過 1,000 萬通語音通話,這類場景正好適合進行即時多語言翻譯測試。旅客說明目的地、司機確認上下車位置,或者雙方臨時更改接送安排,都能夠即時轉譯,從而減少誤會與等待時間。
Google Translate 新增聆聽模式
Google Translate 應用程式亦同步加入新體驗。用戶在 Live translate 模式下接駁任何耳機,即可聽到更貼近說話者語氣翻譯聲音。Android 版將新增 listening mode,讓用戶像接聽電話般將智能電話貼近耳朵,直接經聽筒收聽翻譯。這項功能特別適合不方便佩戴耳機,又不想旁人聽到譯文時使用。
Google Meet 支援超過 2,000 組配對
Google Meet 的 Speech translation 功能日後會改用 Gemini 3.5 Live Translate,支援語言由以往 5 種增至逾 70 種。一場會議內可處理超過 2,000 組語言配對。介面設計亦會同步更新,讓用戶更快啟動語音翻譯功能。Google 預計這次更新會先向部分 Google Workspace 企業客戶推出,其後再擴展至更多用戶。
加入 SynthID 水印防誤導
為協助防止誤導性內容流傳,Google 補充所有由模型生成音訊均會加入 SynthID 水印,用作標示 AI 生成內容。官方同時透露 Grab 正測試這套模型,用於司機與乘客接載時即時溝通。該平台每月處理超過 1,000 萬通語音通話。
資料來源:Google Blog