
據外國媒體報導,google 最近正式公開了用於 gemma 4 系列模型的多-token 預測起草器。這項技術突破利用了一種推測式解碼架構,將模型推理速度提升至多三倍,同時不影響輸出品質或邏輯推理能力。作為全球最受關注的開源模型之一,gemma 4 在推出後不久便已累計超過六千萬次下載;而此次更新的核心目標正是解決大型語言模型長期以來的推理瓶頸,從而進一步最大化運算資源的使用效率。
傳統語言模型的推理往往受限於 gpu 記憶體頻寬:在生成文字時,處理器必須花費大量時間將數十億個參數從 gpu 記憶體傳輸到運算單元,導致大部分硬體資源處於閒置狀態,進而造成明顯的回應延遲。google 新推出的推測式解碼技術採用了「主—從」協調模式:系統將像 gemma 4 31b 這樣的重量級目標模型與輕量級 mtp 草稿器配對。草稿器利用閒置的運算能力主動預測多個未來可能出現的 token,隨後由主模型並行驗證這些預測。一旦預測結果相符,模型便可直接在一次運算中確認整個序列,大幅縮短文字生成時間。
根據官方基準測試數據,在本地裝置上的加速效果尤其顯著。在 apple silicon 芯片上,gemma 4 26b 模型的本地推理速度提升了約 2.2 倍。這意味著開發者現在可以在個人電腦或標準消費級 gpu 上順暢運行複雜的離線程式設計助理或智慧代理工作流程;同時,推理效率的提升也顯著降低了邊緣裝置的功耗。這項技術更新主要針對即時聊天機器人、自動化程式設計工具等低延遲應用場景。透過 mtp 草稿器,google 證明了即使在資源受限的硬體環境下,開發者也能部署最先進的語言模型,無需在回應速度與運算精確度之間做出妥協。隨著推理成本與門檻持續下降,gemma 4 正將 ai 從雲端帶到更廣泛的個人運算終端。