google 的人工智慧團隊已正式推出新一代即時語音翻譯模型——gemini 3.5 即時翻譯——標誌著跨語言溝通邁入更自然、更沉浸的新紀元。該模型不僅支援超過 70 種語言,還在模仿語調、語速與音高方面達成突破性的精準度,使翻譯後的聲音幾乎與原聲難以區分,徹底消除任何機械感或失真現象。
與傳統語音翻譯方案因延遲時間長、頻繁中斷而受限不同,gemini 3.5 即時翻譯採用串流推理架構,在上下文理解與即時回應之間取得智能平衡:既確保翻譯準確性,又提供流暢、連續的音訊輸出,端到端延遲始終控制在數秒之內。這大幅提升了用戶在視訊會議、日常對話及遠端協作等高頻場景中的使用體驗。
目前,該模型已全面整合至多款核心產品:
- google 翻譯應用程式(ios/android)現已在全球範圍內開放,用戶可免費啟用全新的即時語音翻譯功能。
- 開發者可透過 gemini live api 與 google ai studio 快速整合,建構客製化口譯系統,或將其融入複雜的媒體串流處理流程。
- google meet enterprise 將於本月開始向部分客戶提供私人預覽,支援會議期間的多國語言即時同聲傳譯。
在技術亮點方面,gemini 3.5 即時翻譯原生支援串流語音處理,實現邊聽邊翻譯,並能自動識別與回應多種輸入語言,無需手動切換語言。此外,它還搭載先進的內建降噪模組,即使在地鐵站或咖啡廳等挑戰性聲學環境下,也能保持穩定表現與高準確率。
使用方式便捷且靈活:全球用戶現可透過 google 翻譯應用程式直接體驗。為減少回音干擾,建議搭配耳機使用;android 用戶還可啟用「聆聽模式」——只需將手機靠近耳朵,翻譯後的語音便會透過耳機清晰播放,帶來真正免持、高度私密且極具沉浸感的即時對話體驗。