google deepmind 正式發布了其下一代開源大型模型 gemma 4,以「體積小、密度高、泛化強」重新定義了邊緣智能的界限。儘管其參數量仍維持在約 300 億左右,但每個參數的認知能力卻大幅提升,在代碼生成、多語言理解、影片分析等關鍵基準測試中,已達到甚至超越僅 18 個月前頂級閉源模型的實際表現。
這項技術突破的核心在於開創性的 e2b(嵌入到瓶頸)動態卸載架構。該設計透過將全局嵌入表分解為輕量級的層內查表模組,從根本上重塑了傳統變壓器模型的運算模式,大幅降低了矩陣乘法的開銷。實證結果顯示,啟用 e2b 後,一個 50 億參數的模型可將駐留於 gpu 記憶體中的參數壓縮至僅 20 億,而餘下的 30 億則能根據需求動態調度至 cpu 或本地儲存空間。在推理階段,記憶體需求可降至低至 2 gb,實現真正端到端的本地化部署,涵蓋從智慧手機、嵌入式系統到 raspberry pi 等廣泛裝置。
gemma 4 現已深度整合於 android studio 開發環境,支援完全離線、零資料上傳的 ai 協助編碼,兼顧隱私合規與開發效率。該模型繼承並擴展了 gemma 3 的多模態能力,可處理 140 種語言的文字處理與語音辨識,同時還提供針對長度 30 至 60 秒短片的端到端語義分析。deepmind 預測,在未來 12 至 24 個月內,主流旗艦智慧手機將能原生運行性能媲美 gemma 3 pro 的 ai 模型,無需依賴雲端協作,從而推動智慧代理、即時翻譯、個人化助理等應用邁向全面的終端自主化。