
谷歌正式公開了其全新的開源人工智慧模型——diffusiongemma,這標誌著文字擴散架構首次被引入大型語言模型領域。與傳統的自回歸模型每次僅按順序生成一個符號不同,該模型借鑑了影像生成中廣為應用的去噪機制,能夠同時、並行地重建所有符號,即使在邊緣裝置或資源有限的環境下,也能實現推理效率的質的飛躍——實際測試顯示,其本地推理速度比同等的自回歸模型快達四倍。
diffusiongemma 完全以 apache 2.0 許可證開放源碼,模型權重現已於 hugging face 平台上免費提供,供用戶自由存取與部署。基準測試顯示,其採樣吞吐量高達每秒 1,479 個符號;在 humaneval 基準測試中,其編碼能力得分為 89.6%,與 gemini 2.0 flash-lite 水準相當。特別值得一提的是,其數學推理表現十分突出,在 aime 2025 測試中取得 23.3% 的正確率,比競爭對手高出 3.3 個百分點;不過,在用於高級科學推理任務的 gpqa diamond 基準測試中,其得分為 40.4%,仍略遜一籌,未來仍有進一步優化的空間。
nvidia 工程團隊已驗證,該模型針對 gpu tensor core 架構進行了深度優化,在單一 h100 gpu 上即可穩定產出每秒 1,000 個符號;而在多 gpu 的 dgx station 配置下,更可擴展至每秒 2,000 個符號。此外,diffusiongemma 還支援動態錯誤修正與生成過程中的多輪迭代精煉,顯著提升了輸出的一致性與邏輯穩健性。