
小米今日正式推出 mimo-v2.5-tts 系列與 mimo-v2.5-asr,這是一種專為智能助理時代打造的全棧式語音模型,涵蓋語音辨識與合成這兩項核心功能,實現對語音輸入與輸出的完全靈活語言驅動控制。
其中,mimo-v2.5-tts 系列包含三款模型,目前已在小米的 mimo 開放平台上市,並於限時內免費開放使用。這三款模型具備統一的風格引導式指令遵循、音訊標籤控制以及文本理解能力:標準版預載多種高品質優質語音,並支援對語速、情感與語調進行細緻調控;voicedesign 版則讓用戶僅需一句話即可快速生成全新語音;而 voiceclone 版更可僅憑少量樣本,忠實複製目標語音。使用者如同指導演員般描述所需的情感細節,模型便能穩定呈現——甚至支援劇本層級的導演式、階層化輸入,確保角色聲音始終如一,且每句對白皆可個別掌控。
同時,mimo-v2.5-asr 也已正式開源。該模型在諸多複雜的真實場景中均達成業界領先表現,涵蓋中英雙語情境、中國各地方言(如吳語、粵語、閩南語、四川話等)、代碼切換、重度噪音環境以及多說話者場景。它還能精準轉錄知識密集型內容,例如歌曲歌詞、古典詩詞及專業術語,並原生支援標點符號輸出。評估結果顯示,其在多項指標上均表現出頂尖或極具競爭力的水準。用戶可在小米 mimo api 開放平台與 mimo studio 上探索 tts 系列,開發者則可透過開源程式碼直接使用或進一步客製化 asr 模型。藉由這套完整的端到端語音解決方案,小米正為基於智能助理的互動提供更自然、更可控的語音基礎。