騰訊與中國人民大學合作,推出了 PlanningBench,這是一個開源評估基準,專注於系統性地評估大型模型在複雜任務規劃方面的能力

騰訊與中國人民大學合作,推出了 PlanningBench,這是一個開源評估基準,專注於系統性地評估大型模型在複雜任務規劃方面的能力


近期,騰訊的「鶴園」團隊與中國人民大學高瓴人工智能學院及其他多家研究機構合作,正式發布並開源了一個用於評估與訓練規劃能力的新框架——「planningbench」。該框架以真實世界的規劃問題為基礎,建立了一套既具可擴展性、可驗證性,又具多樣化任務類型的數據生成與評估體系,旨在系統性地測量並提升大型語言模型在複雜約束條件下的結構化決策能力。

突破傳統單一任務評估的局限,planningbench 首次實現了對六種核心規劃場景的全面覆蓋:排程規劃、資源分配、人力排班、路線優化、生產管理及緊急應對,涵蓋超過30個子任務。其數據生成機制並非僅靠簡單延長提示長度,而是依據任務拓撲結構、多層約束耦合程度以及資源供需緊張度等關鍵維度動態調整難度,確保每個樣本都能直擊現實規劃中的瓶頸。每一個實例都配備了一份結構化的檢查清單,從輸入一致性、約束滿足度到目標最優性進行三重驗證,全面識別模型輸出中的可行性問題。

尤其值得一提的是,該框架創新性地提出了「局部符合性—全局可行性」的雙軌評估模式,能夠精確定位諸如「步驟正確但整體仍存衝突」或「資源分配合理卻不切實際」等典型失敗模式,大幅提升了對模型背後規劃邏輯的診斷能力。實證結果顯示,經由 planningbench 生成的可驗證數據進行強化訓練後,模型不僅在未見過的規劃基準上表現顯著提升,更在一般推理與多步驟任務中展現出跨領域轉移的優勢。因此,planningbench 建立起了完整的閉環體系——「場景驅動—數據生成—可驗證訓練—泛化評估」,為科學評估與高效推進大型模型的規劃能力奠定了堅實基礎。

日本已成立跨部會工作小組,以加速人工智能與半導體等戰略領域的人才培育

日本政府近日決定成立一個跨部會專案小組,專門培育人工智慧、半導體、量子技術、造船及國防製造等戰略產業的人才。東京正協調設立一個名為「再技能化與人才發展推進委員會

日本已成立跨部會工作小組,以加速人工智能與半導體等戰略領域的人才培育

Mozilla推出開源企業級人工智慧客戶端Thunderbolt,著重資料主權與全堆疊控制

近日,mozilla基金會的子公司mzla technologies推出了thunderbolt,這是一款定位為主權ai解決方案的開源企業級ai客戶端。它專為自託管部署而設計,使組織能夠完全掌控其資料、模

Mozilla推出開源企業級人工智慧客戶端Thunderbolt,著重資料主權與全堆疊控制

英特爾推出Core i7-245HX處理器:首款非超級低功耗的Arrow Lake-HX系列

近期,英特爾悄然推出了數款新處理器——其中一些因廠商新款電腦型號的規格洩露而早已為公眾所知,另一些則是透過英特爾官方網站的更新被發現。這些新品與前代產品的規格大同

英特爾推出Core i7-245HX處理器:首款非超級低功耗的Arrow Lake-HX系列

豐田的CUE7機器人展現了其籃球技巧

豐田汽車公司推出了新款籃球機器人「cue7」。這款機器人在日本的一場籃球賽中首次亮相,並在比賽中成功投進一球。據日經亞洲報導,這款機器人身高219公分,以兩個輪子移動,手臂上

豐田的CUE7機器人展現了其籃球技巧

一鍵啟用純淨音質:三星Galaxy S26系列開啟升級版「音頻消除」體驗

「音頻消除」功能內建於三星galaxy裝置中,[1] 能智慧地去除不必要的背景噪音,同時強化核心音訊,帶來身臨其境的影音體驗。自首次登場於三星galaxy s25系列以來,此功能經過多代

一鍵啟用純淨音質:三星Galaxy S26系列開啟升級版「音頻消除」體驗

Anthropic執行長:人工智慧發展永無止境;未來五年內,它可能取代一半的基層白領職位

人工智慧公司anthropic的執行長達里奧·阿莫迪近日在採訪中表示,人工智慧的發展仍有極大的空間——就像彩虹一樣,似乎沒有盡頭——而運算能力距離發揮其全部潛力還有很長一段

Anthropic執行長:人工智慧發展永無止境;未來五年內,它可能取代一半的基層白領職位

報導指出,三星Galaxy Z Fold 3已在美國停產

三星的三折式智慧手機galaxy z fold3,已正式宣告結束其產品生命週期。該機最初僅在韓國以限量方式上市,短暫上架後便已停售;然而,在美國卻持續販售一段時間;4月10日,三星進行了最

報導指出,三星Galaxy Z Fold 3已在美國停產

阿普特拉的太陽能汽車比住宅太陽能發電廠更強大

aptera的負責人做了一個不同尋常的比較:結果發現,他的太陽能汽車在早晨產生的能源竟然比他家的太陽能系統還多。這個例子清楚地展現了太陽能電動車設計的高效性。相比之下,早

阿普特拉的太陽能汽車比住宅太陽能發電廠更強大

Unitree H1機器人逼近人類速度紀錄

unitree robotics 發佈了一段影片,展示 h1 人形機器人加速至約每秒 10 公尺的速度。這已是人形機器人所達成的最快速度之一,幾乎與人類的速度紀錄相當。示範活動在體育場舉行

Unitree H1機器人逼近人類速度紀錄

Web 部署平台 Vercel 遭駭;第三方 AI 工具被用作攻擊向量

知名網路應用程式託管與開發平台 vercel 最近證實,其遭遇了安全漏洞事件。一名自稱為「shinyhunters」組織成員的駭客,該組織近期曾入侵 rockstar games,已將部分竊取資料公開

Web 部署平台 Vercel 遭駭;第三方 AI 工具被用作攻擊向量

三星電子工會警告,罷工可能導致30兆韓元的損失,半導體生產亦面臨中斷風險

繼韓國就業與勞動部近日核實其為多數代表工會後,三星電子工會已大幅加劇對公司的施壓。該工會警告稱,若下月計畫舉行的罷工如期進行,將可能造成高達30兆韓元(約1,385.4億元人民

三星電子工會警告,罷工可能導致30兆韓元的損失,半導體生產亦面臨中斷風險

OPPO正式宣布,全新O-Log2將於4月21日舉行Find X9 Ultra全球首發!

4月20日,oppo正式宣布其旗艦影像裝置——oppo find x9 ultra,在影片創作領域取得重大突破,首次推出全新o-log2專業影片格式,並原生支援3d lut匯入與燒錄。oppo更與全球專業影視

OPPO正式宣布,全新O-Log2將於4月21日舉行Find X9 Ultra全球首發!

宇樹科技的機器狗設計專利已獲批;其設計要點在於外形

近日,宇樹科技有限公司獲得了「機器狗」的外觀設計專利。據相關資料顯示,該設計產品適用於服務、搜救、陪伴、巡檢、教育、導航、攝影、玩具、智能互動、娛樂互動以及執行特定

宇樹科技的機器狗設計專利已獲批;其設計要點在於外形

小米的澎湃OS 4正式亮相:重構底層架構並內建自研AI基礎模型

小米的澎湃os即將展開新一輪系統迭代。據近期洩露消息,預計於今年八月亮相的澎湃os 4,將搭載自研底層ai,支援多視窗優化與ui自適應功能,並對系統核心架構進行全面升級。早期報

小米的澎湃OS 4正式亮相:重構底層架構並內建自研AI基礎模型

華為Pura 90 Pro Max搭載2億像素RYYB長焦鏡頭與全新技術正式亮相

4月20日,在華為最新一場全場景發布會上,華為董事會成員理查德·余宣布,華為pura 90 pro max的長焦鏡頭搭載了業界首款2億像素ryb感光元件,並配備三合一超聚光稜鏡。此外,該機的

華為Pura 90 Pro Max搭載2億像素RYYB長焦鏡頭與全新技術正式亮相