
5月27日,小米汽車正式發布了全新自研的世界模型架構——「小米汽車世界模型」,這標誌著智能駕駛在底層感知與推理能力上實現了全新的認知層級躍升。該架構首次將3d場景重建與視頻生成深度整合,突破了傳統「重建+生成」的碎片化技術路徑。在「幾何錨定、想像延伸」的核心理念引導下,它推動產業從被動感知邁向主動理解與動態演進。
與業界主流維持兩條獨立路徑——「worldrec(重建)」與「worldgen(生成)」——不同,小米汽車世界模型建構了一種結構耦合、雙向約束的整合架構:重建模組輸出高精度的4d幾何表徵,作為生成過程的堅實骨幹;同時,生成模組在此基礎上延展時空預測能力,補足未觀測的視角與未來狀態。這兩個模組形成閉環反饋系統,在穩定性、一致性和真實性三大關鍵面向實現協同增強:
- 強大穩定性:借助重建提供的確定性3d結構約束,大幅抑制長時間自回歸推斷中的誤差累積與視覺漂移;
- 強大一致性:以統一的4d場景表徵作為跨畫面共享記憶,確保多視角、多時點間語義與幾何的全局對齊;
- 強大真實性:生成過程以重建渲染的rgb影像為物理基準,使合成內容不僅契合真實傳感器成像特性,更保持合理的空間邏輯,從而大幅縮小仿真與真實車輛之間的領域差距。
該模型已在多個國際權威基準上創下新的sota紀錄,並全面應用於小米汽車的實際業務生態中:
✅ 合成數據引擎:迄今已提供超過10萬段高品質合成影片,精準涵蓋極端與長尾駕駛場景,加速提升感知模型的魯棒性;
✅ 閉環仿真平台:構建高度逼真的虛擬測試環境,支持事故重現、策略逆向與定向優化,顯著提升算法迭代效率與驗證完整性;
✅ 駕駛輔助訓練系統:率先推出生成式第一人稱教學影片,能即時回應複雜道路狀況,動態示範最佳駕駛操作,目前已全面融入小米量產車「駕駛輔助學院」的真實場景仿真模組。