
繼今年二月釋出並開源 vla 大型模型 xiaomi-robotics-0 之後,小米今日宣布正式推出該模型面向真實場域部署的全鏈端到端後訓練工作流程,使這款曾榮登 hugging face 全球 vla 模型下載排行榜第六名的模型,更進一步邁向成為「即插即用」的生產力工具。
據小米表示,透過運用預訓練基礎模型,並在實體硬體上進行僅需 20 小時的任務專屬微調,團隊便讓機器人成功掌握「將耳塞收納至充電盒中」這項極具挑戰性的任務,且能順暢地連續執行多項收納動作。看似簡單的任務,其實充滿難題:耳塞與儲物槽之間的間隙極為狹小,需要亞毫米級的空間感知精準度才能精確對位;同時,耳塞與充電盒的表面粗糙度低至 ra 0.03 µm,接觸時容易發生位移,因此必須快速修正運動偏差,以避免組裝失敗。
藉由公開完整的後訓練工作流程,小米展現了 vla 模型在精密操作任務上的快速學習能力。公司指出,這意味著開發者與產業用戶能夠基於開源基礎模型,以更少的資料與運算資源,進行高效、針對特定場景的微調。也因此,xiaomi-robotics-0 得以加速從通用型預訓練模型演進為能解決真實世界問題的專用機器人智慧代理。