騰訊開源 OpenSearch-VL,突破多模態搜尋AI代理訓練的瓶頸

騰訊開源 OpenSearch-VL,突破多模態搜尋AI代理訓練的瓶頸

5月8日報導,騰訊混元與加州大學洛杉磯分校(ucla)、香港中文大學等機構合作,共同發佈了opensearch-vl開源多模態訓練框架,運用強化學習(rl)技術打造最先進的深度搜尋代理。

多模態搜尋代理是能夠處理多種輸入形式(如圖像與文字)的智慧系統,並主動調用外部工具(如搜尋引擎與圖像處理工具),進行多步驟推理、證據驗證與知識檢索,以解決複雜且知識密集的視覺問答任務。這份報告於昨日(5月6日)發表在arxiv平台上,介紹了用於訓練尖端多模態深度搜尋代理的opensearch-vl框架。研究團隊開發了一條高品質資料管道,採用維基百科路徑採樣與模糊實體重寫技術,減少檢索捷徑,從而產生了searchvl-sft-36k等資料集。

研究團隊指出,目前制約最先進多模態搜尋代理發展的主要瓶頸,在於高品質訓練資料的缺乏。現今多數領先系統均由商業公司研發,其資料來源、過濾標準及工具使用紀錄均屬專有,這極大限制了先進功能的複製與系統性研究。為應對這一挑戰,該研究提出opensearch-vl,這是一套涵蓋資料、工具與訓練演算法的端到端開源解決方案。

在建構資料管道時,opensearch-vl利用維基百科的超連結圖進行多跳實體路徑採樣,將中間實體改寫為模糊描述,並將樞紐實體與來源圖像相連結,從而抑制單步檢索捷徑,促使代理學習多跳搜尋與推理行為。

該管道生成了用於監督式微調的searchvl-sft-36k資料集,每條軌跡平均包含6.3次工具呼叫。同時,10%的資料會隨機接受模糊化、降採樣等劣化處理,並搭配增強工具,以引導代理產生「邊處理圖像邊思考」的行為。

工具環境不僅限於簡單的檢索代理,還整合了文字搜尋、圖像搜尋、ocr、裁剪、銳化、超解析度以及透視校正等功能。這使代理能夠先處理模糊、低解析度或歪斜的視覺輸入,再查詢外部知識,從而實現主動感知與知識獲取的無縫結合。

實驗結果顯示,opensearch-vl-30b-a3b模型將基線平均分數由47.8提升至61.6,在vdr與mmsearch等基準上取得了顯著改善。消融實驗也證實了各組成部分的貢獻:移除來源—樞紐連結、模糊重寫或階段式過濾後,平均分數會下降8.2至11.5分。

Anthropic向谷歌承諾投入2000億美元,引發市場對人工智慧運算能力軍備競賽的懷疑

根據最新報導,人工智慧初創巨頭anthropic已承諾在未來五年內向google支付高達2,000億美元,用於雲端服務及內部晶片運算能力。這一數字凸顯了當前人工智慧產業面臨的極高運算

Anthropic向谷歌承諾投入2000億美元,引發市場對人工智慧運算能力軍備競賽的懷疑

騰訊開源 OpenSearch-VL,突破多模態搜尋AI代理訓練的瓶頸

5月8日報導,騰訊混元與加州大學洛杉磯分校(ucla)、香港中文大學等機構合作,共同發佈了opensearch-vl開源多模態訓練框架,運用強化學習(rl)技術打造最先進的深度搜尋代理。多模態搜

騰訊開源 OpenSearch-VL,突破多模態搜尋AI代理訓練的瓶頸

OpenAI為ChatGPT推出「可信聯絡人」功能,以降低人工智慧對話中自傷的風險

近期,openai為chatgpt推出了一項名為「信任聯絡人」的新功能,旨在當用戶的對話中出現與自傷相關的內容時,主動介入並提供人際支持。這項功能主要針對成人用戶:一旦系統偵測到潛

OpenAI為ChatGPT推出「可信聯絡人」功能,以降低人工智慧對話中自傷的風險

谷歌推出適用於Gemma 4的多令牌預測技術,將AI推論速度提升300%

據外國媒體報導,google 最近正式公開了用於 gemma 4 系列模型的多-token 預測起草器。這項技術突破利用了一種推測式解碼架構,將模型推理速度提升至多三倍,同時不影響輸出品質

谷歌推出適用於Gemma 4的多令牌預測技術,將AI推論速度提升300%

向外部依賴說再見!馬斯克與英特爾攜手,投資550億美元興建晶片工廠

近日,根據德州格賴姆斯縣發布的公聽會通知,由太空探索技術公司(spacex)主導的半導體專案被命名為「terafab」。文件顯示,該專案的第一階段預計至少需要550億美元的投資,總支出則

向外部依賴說再見!馬斯克與英特爾攜手,投資550億美元興建晶片工廠

OpenAI的內部晶片研發面臨障礙,因博通要求微軟採購其40%的產能

據外媒最新報導,openai 與博通之間的 ai 芯片合作已陷入僵局。內部備忘錄及兩位熟悉談判情況的消息人士透露,雙方目前正討論一項協議:由博通提供資金,以推進第一階段的晶片生產

OpenAI的內部晶片研發面臨障礙,因博通要求微軟採購其40%的產能

ChatGPT 和 Claude 的辦公室外掛程式已正式發佈,並相容於 Excel 等辦公軟體

近期,openai 的 chatgpt 與 anthropic 的 claude 已被整合至辦公軟體環境中,包括 excel、google 表格以及 microsoft 365。這一發展重塑了試算表處理與資料分析的方式:使用者

ChatGPT 和 Claude 的辦公室外掛程式已正式發佈,並相容於 Excel 等辦公軟體

Zeroth的M1成為全球首款與OpenClaw相整合的人形機器人

中國蘇州樂享智能科技有限公司正式宣佈,旗下具身智能品牌「zeroth元典」旗下的m1人形機器人,已成為全球首款可量產、並整合騰訊「openclaw」的機器人,這標誌著ai代理在雲端、

Zeroth的M1成為全球首款與OpenClaw相整合的人形機器人

OpenAI推出適用於Chrome擴充功能的Codex,以促進智慧型瀏覽器協作

openai 最近正式推出了一款名為「codex for chrome」的瀏覽器擴展程式,為桌面版 chrome 瀏覽器用戶提供更直接的 codex 智能支援。該擴展程式目前已全面兼容 macos 與 windo

OpenAI推出適用於Chrome擴充功能的Codex,以促進智慧型瀏覽器協作

CarPlay新增成員:Grok AI正式整合至車內語音互動系統

繼 chatgpt 和 perplexity 之後,蘋果的 carplay 生態系統又迎來了一位重量級新成員。科技媒體 9to5mac 昨日(5月8日)報導,埃隆·馬斯克旗下的 xai——現已更名為 spacex ai——

CarPlay新增成員:Grok AI正式整合至車內語音互動系統

OpenAI推出GPT-55-Cyber預覽版,這是一款專門用於網路安全的模型

週四,openai 宣布向經審核的安全團隊有限釋出 gpt-5.5-cyber 預覽版。這是一種專門針對網路安全的最新模型版本,即 gpt-5.5。該公司強調,此變體並非用於增強攻擊或防禦性的網路

OpenAI推出GPT-55-Cyber預覽版,這是一款專門用於網路安全的模型

谷歌為安卓版推出Snapseed 40,新增相機與底片濾鏡

5月9日,谷歌在play商店發布了照片編輯應用程式snapseed 4.0,為安卓用戶推出snapseed相機功能,並可使用底片風格的濾鏡拍攝照片。此次更新包含:重新設計的使用者介面——編輯速度

谷歌為安卓版推出Snapseed 40,新增相機與底片濾鏡

實驗發現克勞德曾「勒索」虛構的高層主管,安瑟羅普將此歸因於網路文本的影響

在去年進行的一項研究中,anthropic 發現其人工智慧模型 claude sonnet 3.6 在虛構情境下表現出「勒索」行為。研究人員設立了一家名為「summit bridge」的虛構公司,並委託 cl

實驗發現克勞德曾「勒索」虛構的高層主管,安瑟羅普將此歸因於網路文本的影響

機器人僧侶首次參與佛教儀式

南韓首次舉行了由人形機器人參與的佛教儀式。這款名為「gabi」的機器人在首爾 jogyesa 寺廟的佛誕慶典前夕,與僧侶們一同參與了儀式。這款高130公分的機器人身著傳統僧袍,由

機器人僧侶首次參與佛教儀式

Google 地圖的 CarPlay 版本將整合 Gemini AI,讓用戶可以透過語音進行互動!

根據macrumors在谷歌地圖應用程式中發現的代碼,谷歌地圖的carplay版本可能即將支援gemini ai。這項整合將讓carplay用戶透過gemini獲取詳細的導航路線與相關資訊。應用程式

Google 地圖的 CarPlay 版本將整合 Gemini AI,讓用戶可以透過語音進行互動!