
當地時間4月28日,nvidia正式發布了nemotron 3 nano omni,這是一種開源的多模態推理模型,旨在為企業級ai代理提供一體化的基礎模型。該模型基於具備300億參數的a3b專家混合架構,能夠根據任務與模態動態啟用,實現高吞吐量與可擴展的多模態效能。
與傳統方案倚賴分散的視覺—語音—語言模型鏈不同,nemotron 3 nano omni將視頻、音訊、圖像與文字等多模態推理統合為單一、高效且開放的模型,從而減少推理步驟與協調複雜度,顯著降低推理成本,並提升跨模態的上下文一致性。在固定交互延遲門檻下,該模型在視頻推理任務中的有效系統容量最高可達其他開源多模態模型的約9.2倍,在多文件推理任務中亦高達約7.4倍。
此模型可作為代理系統中的多模態感知與情境子代理,使代理能在單一共享的「感知—行動」迴路中處理視覺、音訊與文本輸入。在文件智能基準測試mmlongbench-doc與ocrbenchv2上,它取得了同類別的頂尖準確率;同時,在worldsense、dailyomni及voicebench等視頻與音訊理解基準測試中也表現卓越。在架構設計方面,nemotron 3 nano omni結合了旨在提升序列與記憶效率的mamba層,以及針對精確推理優化的transformer層,使記憶與運算效率最高提升四倍。視覺處理採用3d卷積以捕捉幀間運動,音訊部分則基於nvidia的parakeet編碼器,而文本部分則以強大的語言模型作為核心解碼器。
目前,該模型的權重已在hugging face上公開,並將很快以nvidia nim微服務的形式部署,讓開發者得以自由自訂、部署並整合多模態子代理。