
昨日,小米mimo正式與tilert合作,為小米mimo‑v2.5‑pro推出超速推理模式,首次在通用gpu平台上實現了針對萬億參數大型模型的生成吞吐量超過每秒1,000個token。這一突破源自於從模型架構、系統調度到底層運算子的全棧協同優化,進一步拓展了輕量化部署與高效能推理的邊界。
測試結果顯示,超速模式可在不到10秒內生成一個端到端的貪吃蛇遊戲,並在60秒內忠實還原出macos級別的使用者介面,速度幾乎是標準版的十倍。為了協助開發者快速整合,小米同步推出了專屬的mimo‑v2.5‑pro‑超速api服務,提供限時試用價,為標準版的三倍,同時單位時間內的輸出效能最高可達標準版的十倍。
特別說明:超速模式僅透過api調用方式提供,不支援按token計費的模式。作為參考,標準版命中緩存時每百萬token收費0.025元,未命中時每百萬token收費3元,統一輸出費用為每百萬token6元。相較之下,超速模式以「投入三倍,回應效能提升十倍」為核心價值主張。鑑於高效能推理資源稀缺,採用定向申請機制,開放申請期間為2026年6月9日00:00至2026年6月23日23:59。
審核將優先考量實際商業場景,聚焦於具備明確ai整合需求的企業客戶及專業開發者團隊。審核時程與通過率均不保證。獲批用戶將享有限時免費的對話互動體驗,每個帳號每日最多可成功排隊10次;每次會話最長30分鐘,閒置五分鐘後資源將自動回收。業界普遍認為,這項速度上的飛躍將大幅加速萬億參數模型在低延遲、高互動應用場景中的大規模部署。