
nvidia已正式推出其全新的輕量級多模態ai模型——nemotron 3 nano omnia,並將其整合至自身的ai軟體生態系統中。該模型擁有300億個參數,針對高效處理圖像、影片與音訊等異質媒體資料進行了優化。
實境測試顯示,它能在一小時內完成近10小時長影片的智慧分析,處理速度比即時播放快十倍。與競爭對手gwen 3 omni相比,其影片分析速度快三倍,文件理解速度更是快七倍。
其核心創新在於動態稀疏架構——僅啟用與當前任務相關的參數子集,跳過冗餘運算,因此天生適合整合到基於代理的系統中,而非作為獨立的大型模型使用。
研發團隊強調五項關鍵技術特點:
上下文線性擴展:模型的推理開銷隨輸入長度平穩增長,大幅降低處理長序列時的資源壓力。
情感感知音訊編碼:直接將原始聲波轉換為語義豐富的符號,準確保留語調與情感等非語言資訊,無需額外的asr模組。
區塊級三維卷積:以時空區塊方式處理影片串流,在保持原始畫面比例與畫質的同時,顯著降低gpu負荷。
多任務統一蒸餾:將文本-影像對齊、實例分割與細粒度識別等功能整合至單一編碼器,提升跨模態協作的精確度。
智慧畫格取樣:自動剔除影片中語義重複的畫格,壓縮運算負荷,加速端到端工作流程。
該模型專為高吞吐量場景而設計,如影視製作、智慧安防及工業級資料分析等,所需gpu記憶體為25gb,並支援本地私有部署與主流雲端平台。其採用商業友善的授權協議,使用者經歸因後即可在生產環境中部署。
值得注意的是,nemotron 3 nano omnia在純文字深度推理與程式碼生成等高度邏輯性的任務上表現有限;nvidia建議將此類需求交由專用的語言模型來處理。