5月8日報導,騰訊混元與加州大學洛杉磯分校(ucla)、香港中文大學等機構合作,共同發佈了opensearch-vl開源多模態訓練框架,運用強化學習(rl)技術打造最先進的深度搜尋代理。
多模態搜尋代理是能夠處理多種輸入形式(如圖像與文字)的智慧系統,並主動調用外部工具(如搜尋引擎與圖像處理工具),進行多步驟推理、證據驗證與知識檢索,以解決複雜且知識密集的視覺問答任務。這份報告於昨日(5月6日)發表在arxiv平台上,介紹了用於訓練尖端多模態深度搜尋代理的opensearch-vl框架。研究團隊開發了一條高品質資料管道,採用維基百科路徑採樣與模糊實體重寫技術,減少檢索捷徑,從而產生了searchvl-sft-36k等資料集。
研究團隊指出,目前制約最先進多模態搜尋代理發展的主要瓶頸,在於高品質訓練資料的缺乏。現今多數領先系統均由商業公司研發,其資料來源、過濾標準及工具使用紀錄均屬專有,這極大限制了先進功能的複製與系統性研究。為應對這一挑戰,該研究提出opensearch-vl,這是一套涵蓋資料、工具與訓練演算法的端到端開源解決方案。
在建構資料管道時,opensearch-vl利用維基百科的超連結圖進行多跳實體路徑採樣,將中間實體改寫為模糊描述,並將樞紐實體與來源圖像相連結,從而抑制單步檢索捷徑,促使代理學習多跳搜尋與推理行為。
該管道生成了用於監督式微調的searchvl-sft-36k資料集,每條軌跡平均包含6.3次工具呼叫。同時,10%的資料會隨機接受模糊化、降採樣等劣化處理,並搭配增強工具,以引導代理產生「邊處理圖像邊思考」的行為。
工具環境不僅限於簡單的檢索代理,還整合了文字搜尋、圖像搜尋、ocr、裁剪、銳化、超解析度以及透視校正等功能。這使代理能夠先處理模糊、低解析度或歪斜的視覺輸入,再查詢外部知識,從而實現主動感知與知識獲取的無縫結合。
實驗結果顯示,opensearch-vl-30b-a3b模型將基線平均分數由47.8提升至61.6,在vdr與mmsearch等基準上取得了顯著改善。消融實驗也證實了各組成部分的貢獻:移除來源—樞紐連結、模糊重寫或階段式過濾後,平均分數會下降8.2至11.5分。