NVIDIA推出Nemotron 3 Nano Omni,這是一種多模式模型,其吞吐量最高可提升92倍

NVIDIA推出Nemotron 3 Nano Omni,這是一種多模式模型,其吞吐量最高可提升92倍

當地時間4月28日,nvidia正式發布了nemotron 3 nano omni,這是一種開源的多模態推理模型,旨在為企業級ai代理提供一體化的基礎模型。該模型基於具備300億參數的a3b專家混合架構,能夠根據任務與模態動態啟用,實現高吞吐量與可擴展的多模態效能。

與傳統方案倚賴分散的視覺—語音—語言模型鏈不同,nemotron 3 nano omni將視頻、音訊、圖像與文字等多模態推理統合為單一、高效且開放的模型,從而減少推理步驟與協調複雜度,顯著降低推理成本,並提升跨模態的上下文一致性。在固定交互延遲門檻下,該模型在視頻推理任務中的有效系統容量最高可達其他開源多模態模型的約9.2倍,在多文件推理任務中亦高達約7.4倍。

此模型可作為代理系統中的多模態感知與情境子代理,使代理能在單一共享的「感知—行動」迴路中處理視覺、音訊與文本輸入。在文件智能基準測試mmlongbench-doc與ocrbenchv2上,它取得了同類別的頂尖準確率;同時,在worldsense、dailyomni及voicebench等視頻與音訊理解基準測試中也表現卓越。在架構設計方面,nemotron 3 nano omni結合了旨在提升序列與記憶效率的mamba層,以及針對精確推理優化的transformer層,使記憶與運算效率最高提升四倍。視覺處理採用3d卷積以捕捉幀間運動,音訊部分則基於nvidia的parakeet編碼器,而文本部分則以強大的語言模型作為核心解碼器。

目前,該模型的權重已在hugging face上公開,並將很快以nvidia nim微服務的形式部署,讓開發者得以自由自訂、部署並整合多模態子代理。

Adobe Firefly AI助理推出公開測試版,實現跨應用程式協調,加速創意執行

adobe 今日宣布,firefly ai 助理已正式進入公開測試階段,並即日起向全球用戶逐步推出。首批符合資格的用戶群體包括 creative cloud pro 訂閱者,以及 firefly pro、pro plus 和

Adobe Firefly AI助理推出公開測試版,實現跨應用程式協調,加速創意執行

NVIDIA推出Nemotron 3 Nano Omni,這是一種多模式模型,其吞吐量最高可提升92倍

當地時間4月28日,nvidia正式發布了nemotron 3 nano omni,這是一種開源的多模態推理模型,旨在為企業級ai代理提供一體化的基礎模型。該模型基於具備300億參數的a3b專家混合架構,

NVIDIA推出Nemotron 3 Nano Omni,這是一種多模式模型,其吞吐量最高可提升92倍

據傳Kimi K3將於第三季度亮相,擁有25兆參數,旨在突破中國大型模型的性能天花板

中國大型ai模型之間的競爭正進入白熱化階段。繼「通義千問」v4引發市場熱議後,月之暗面推出的下一代模型「kimi k3」也公布了最新進展。據相關消息稱,kimi k3預計將於今年第

據傳Kimi K3將於第三季度亮相,擁有25兆參數,旨在突破中國大型模型的性能天花板

蘋果的iOS 27據傳將推出三項主要的人工智慧相片編輯功能,但部分工具的開發面臨障礙

根據彭博社今日報導,蘋果預計將在6月8日開幕的wwdc26全球開發者大會上,推出三項全新的人工智慧驅動照片編輯功能,並強調智能影像處理。改版後的照片應用程式將新增「apple int

蘋果的iOS 27據傳將推出三項主要的人工智慧相片編輯功能,但部分工具的開發面臨障礙

Anthropic 將 Claude 升級,並深度整合至八大創意應用程式,包括 Adobe 和 Blender

今天,anthropic 宣布對 claude 進行一項重大升級,推出多款專為創意人士量身打造的新連接器,並與包括 adobe 和 blender 在內的八大頂尖創意軟體生態系統全面整合,將 ai 功能深度

Anthropic 將 Claude 升級,並深度整合至八大創意應用程式,包括 Adobe 和 Blender

Anthropic澄清「Opus額外收費」的謠言:文件存在錯誤,訂閱權益維持不變

近日,一份官方anthropic支援文件的更新在ai社群中引發了巨大騷動。據媒體報導,anthropic修訂了部分條款,顯示claude pro訂閱用戶在調用強大的opus系列模型時,可能需要額外購買

Anthropic澄清「Opus額外收費」的謠言:文件存在錯誤,訂閱權益維持不變

蘋果首款智慧眼鏡曝光:雙攝影鏡頭、手勢控制與Siri整合

蘋果正加速研發其首款智慧眼鏡,預計最早於2027年上市,直接與meta的雷朋等產品競爭。內部消息指出,蘋果並未著手推出一款功能齊全的擴增實境(ar)頭戴裝置;相反,它將焦點放在相機功能

蘋果首款智慧眼鏡曝光:雙攝影鏡頭、手勢控制與Siri整合

DeepSeek 的灰度版「影像辨識模式」測試,因其多模態辨識能力而備受關注

人工智能公司deepseek近日宣布,正針對其全新「圖像識別模式」進行灰度測試。該模式將與現有的「快速模式」及「專家模式」並存,但其功能遠超於單純的ocr文字識別,具備更為先進

DeepSeek 的灰度版「影像辨識模式」測試,因其多模態辨識能力而備受關注

LG能源解決方案公布第一季虧損2078億韓元,但ESS業務顯著成長

近期,lg能源解決方案公布了第一季財務業績,顯示營業額為6.555兆韓元,營業損失達2,078億韓元。營業額較去年同期下滑2.5%,營業利潤轉為虧損。第一季認列的北美生產補助金為1,898

LG能源解決方案公布第一季虧損2078億韓元,但ESS業務顯著成長

OpenAI推出GPT-55-Cyber網路安全模型,僅限專業人士使用,不對公眾開放

據報導,openai正準備推出一款名為「gpt-5.5-cyber」的全新尖端網路安全模型。在社交媒體平台x上,執行長山姆·艾爾特曼透露,該模型不會向一般大眾開放;相反,它將以有限的試行計

OpenAI推出GPT-55-Cyber網路安全模型,僅限專業人士使用,不對公眾開放

伊隆·馬斯克的Neuralink推出了一款手術機器人,能夠縮短腦機介面植入手術的時間,並降低感染風險

據外國媒體「interesting engineering」報導,由伊隆·馬斯克創立的腦機介面公司neuralink,正迅速推進一項新技術——一種專用的手術機器人,旨在讓腦機晶片植入手術實現更高程度

伊隆·馬斯克的Neuralink推出了一款手術機器人,能夠縮短腦機介面植入手術的時間,並降低感染風險

亞馬遜推出AI語音問答功能,將購物模式從閱讀轉變為對話模式

昨日,電商巨擘亞馬遜正式推出一項全新的人工智慧驅動的音訊問答功能,名為「加入聊天」。這項功能將生成式人工智慧技術導入電商互動場景,旨在透過將傳統的「閱讀模式」升級為

亞馬遜推出AI語音問答功能,將購物模式從閱讀轉變為對話模式

馬斯克在法庭上承認:xAI 曾使用 OpenAI 的模型訓練 Grok

當地時間4月30日,伊隆·馬斯克在加州聯邦法院作證,承認其新創公司xai曾使用openai的模型來協助訓練自家的聊天機器人grok。這項證詞是在馬斯克對openai及其執行長山姆·阿爾

馬斯克在法庭上承認:xAI 曾使用 OpenAI 的模型訓練 Grok

美國國防部與七家人工智慧公司簽約,將先進工具整合至機密網路中

當地時間5月1日,美國國防部宣布與七家人工智慧公司達成協議,將其尖端技術部署於國防部的機密網路中,從而擴大了軍方可合作的人工智慧企業陣容。spacex、openai、google、nvidia

美國國防部與七家人工智慧公司簽約,將先進工具整合至機密網路中

OpenAI 新型圖像工具推出一週後:印度躍居最大用戶市場

週四,openai 宣布,其最新推出的圖像生成工具「chatgpt images 2.0」自上周發布以來,已迅速使印度成為該功能的最大用戶群體。這款新工具旨在處理複雜的提示,並以多語言、精確的

OpenAI 新型圖像工具推出一週後:印度躍居最大用戶市場