
近期,騰訊的「鶴園」團隊與中國人民大學高瓴人工智能學院及其他多家研究機構合作,正式發布並開源了一個用於評估與訓練規劃能力的新框架——「planningbench」。該框架以真實世界的規劃問題為基礎,建立了一套既具可擴展性、可驗證性,又具多樣化任務類型的數據生成與評估體系,旨在系統性地測量並提升大型語言模型在複雜約束條件下的結構化決策能力。
突破傳統單一任務評估的局限,planningbench 首次實現了對六種核心規劃場景的全面覆蓋:排程規劃、資源分配、人力排班、路線優化、生產管理及緊急應對,涵蓋超過30個子任務。其數據生成機制並非僅靠簡單延長提示長度,而是依據任務拓撲結構、多層約束耦合程度以及資源供需緊張度等關鍵維度動態調整難度,確保每個樣本都能直擊現實規劃中的瓶頸。每一個實例都配備了一份結構化的檢查清單,從輸入一致性、約束滿足度到目標最優性進行三重驗證,全面識別模型輸出中的可行性問題。
尤其值得一提的是,該框架創新性地提出了「局部符合性—全局可行性」的雙軌評估模式,能夠精確定位諸如「步驟正確但整體仍存衝突」或「資源分配合理卻不切實際」等典型失敗模式,大幅提升了對模型背後規劃邏輯的診斷能力。實證結果顯示,經由 planningbench 生成的可驗證數據進行強化訓練後,模型不僅在未見過的規劃基準上表現顯著提升,更在一般推理與多步驟任務中展現出跨領域轉移的優勢。因此,planningbench 建立起了完整的閉環體系——「場景驅動—數據生成—可驗證訓練—泛化評估」,為科學評估與高效推進大型模型的規劃能力奠定了堅實基礎。