騰訊開源 OpenSearch-VL，突破多模態搜尋AI代理訓練的瓶頸

人工智慧 06.15.26

5月8日報導，騰訊混元與加州大學洛杉磯分校（ucla）、香港中文大學等機構合作，共同發佈了opensearch-vl開源多模態訓練框架，運用強化學習（rl）技術打造最先進的深度搜尋代理。

多模態搜尋代理是能夠處理多種輸入形式（如圖像與文字）的智慧系統，並主動調用外部工具（如搜尋引擎與圖像處理工具），進行多步驟推理、證據驗證與知識檢索，以解決複雜且知識密集的視覺問答任務。這份報告於昨日（5月6日）發表在arxiv平台上，介紹了用於訓練尖端多模態深度搜尋代理的opensearch-vl框架。研究團隊開發了一條高品質資料管道，採用維基百科路徑採樣與模糊實體重寫技術，減少檢索捷徑，從而產生了searchvl-sft-36k等資料集。

研究團隊指出，目前制約最先進多模態搜尋代理發展的主要瓶頸，在於高品質訓練資料的缺乏。現今多數領先系統均由商業公司研發，其資料來源、過濾標準及工具使用紀錄均屬專有，這極大限制了先進功能的複製與系統性研究。為應對這一挑戰，該研究提出opensearch-vl，這是一套涵蓋資料、工具與訓練演算法的端到端開源解決方案。

在建構資料管道時，opensearch-vl利用維基百科的超連結圖進行多跳實體路徑採樣，將中間實體改寫為模糊描述，並將樞紐實體與來源圖像相連結，從而抑制單步檢索捷徑，促使代理學習多跳搜尋與推理行為。

該管道生成了用於監督式微調的searchvl-sft-36k資料集，每條軌跡平均包含6.3次工具呼叫。同時，10%的資料會隨機接受模糊化、降採樣等劣化處理，並搭配增強工具，以引導代理產生「邊處理圖像邊思考」的行為。

工具環境不僅限於簡單的檢索代理，還整合了文字搜尋、圖像搜尋、ocr、裁剪、銳化、超解析度以及透視校正等功能。這使代理能夠先處理模糊、低解析度或歪斜的視覺輸入，再查詢外部知識，從而實現主動感知與知識獲取的無縫結合。

實驗結果顯示，opensearch-vl-30b-a3b模型將基線平均分數由47.8提升至61.6，在vdr與mmsearch等基準上取得了顯著改善。消融實驗也證實了各組成部分的貢獻：移除來源—樞紐連結、模糊重寫或階段式過濾後，平均分數會下降8.2至11.5分。

Anthropic向谷歌承諾投入2000億美元，引發市場對人工智慧運算能力軍備競賽的懷疑

根據最新報導，人工智慧初創巨頭anthropic已承諾在未來五年內向google支付高達2,000億美元，用於雲端服務及內部晶片運算能力。這一數字凸顯了當前人工智慧產業面臨的極高運算

06.15.26 0

騰訊開源 OpenSearch-VL，突破多模態搜尋AI代理訓練的瓶頸

5月8日報導，騰訊混元與加州大學洛杉磯分校（ucla）、香港中文大學等機構合作，共同發佈了opensearch-vl開源多模態訓練框架，運用強化學習（rl）技術打造最先進的深度搜尋代理。多模態搜

06.15.26 0

OpenAI為ChatGPT推出「可信聯絡人」功能，以降低人工智慧對話中自傷的風險

近期，openai為chatgpt推出了一項名為「信任聯絡人」的新功能，旨在當用戶的對話中出現與自傷相關的內容時，主動介入並提供人際支持。這項功能主要針對成人用戶：一旦系統偵測到潛

06.15.26 0

谷歌推出適用於Gemma 4的多令牌預測技術，將AI推論速度提升300%

據外國媒體報導，google 最近正式公開了用於 gemma 4 系列模型的多-token 預測起草器。這項技術突破利用了一種推測式解碼架構，將模型推理速度提升至多三倍，同時不影響輸出品質

06.15.26 0

向外部依賴說再見！馬斯克與英特爾攜手，投資550億美元興建晶片工廠

近日，根據德州格賴姆斯縣發布的公聽會通知，由太空探索技術公司（spacex）主導的半導體專案被命名為「terafab」。文件顯示，該專案的第一階段預計至少需要550億美元的投資，總支出則

06.15.26 0

OpenAI的內部晶片研發面臨障礙，因博通要求微軟採購其40%的產能

據外媒最新報導，openai 與博通之間的 ai 芯片合作已陷入僵局。內部備忘錄及兩位熟悉談判情況的消息人士透露，雙方目前正討論一項協議：由博通提供資金，以推進第一階段的晶片生產

06.15.26 0

ChatGPT 和 Claude 的辦公室外掛程式已正式發佈，並相容於 Excel 等辦公軟體

近期，openai 的 chatgpt 與 anthropic 的 claude 已被整合至辦公軟體環境中，包括 excel、google 表格以及 microsoft 365。這一發展重塑了試算表處理與資料分析的方式：使用者

06.15.26 0

Zeroth的M1成為全球首款與OpenClaw相整合的人形機器人

中國蘇州樂享智能科技有限公司正式宣佈，旗下具身智能品牌「zeroth元典」旗下的m1人形機器人，已成為全球首款可量產、並整合騰訊「openclaw」的機器人，這標誌著ai代理在雲端、

06.15.26 0

OpenAI推出適用於Chrome擴充功能的Codex，以促進智慧型瀏覽器協作

openai 最近正式推出了一款名為「codex for chrome」的瀏覽器擴展程式，為桌面版 chrome 瀏覽器用戶提供更直接的 codex 智能支援。該擴展程式目前已全面兼容 macos 與 windo

06.15.26 0

CarPlay新增成員：Grok AI正式整合至車內語音互動系統

繼 chatgpt 和 perplexity 之後，蘋果的 carplay 生態系統又迎來了一位重量級新成員。科技媒體 9to5mac 昨日（5月8日）報導，埃隆·馬斯克旗下的 xai——現已更名為 spacex ai——

06.15.26 0

OpenAI推出GPT-55-Cyber預覽版，這是一款專門用於網路安全的模型

週四，openai 宣布向經審核的安全團隊有限釋出 gpt-5.5-cyber 預覽版。這是一種專門針對網路安全的最新模型版本，即 gpt-5.5。該公司強調，此變體並非用於增強攻擊或防禦性的網路

06.15.26 0

谷歌為安卓版推出Snapseed 40，新增相機與底片濾鏡

5月9日，谷歌在play商店發布了照片編輯應用程式snapseed 4.0，為安卓用戶推出snapseed相機功能，並可使用底片風格的濾鏡拍攝照片。此次更新包含：重新設計的使用者介面——編輯速度

06.15.26 0

實驗發現克勞德曾「勒索」虛構的高層主管，安瑟羅普將此歸因於網路文本的影響

在去年進行的一項研究中，anthropic 發現其人工智慧模型 claude sonnet 3.6 在虛構情境下表現出「勒索」行為。研究人員設立了一家名為「summit bridge」的虛構公司，並委託 cl

06.15.26 0

機器人僧侶首次參與佛教儀式

南韓首次舉行了由人形機器人參與的佛教儀式。這款名為「gabi」的機器人在首爾 jogyesa 寺廟的佛誕慶典前夕，與僧侶們一同參與了儀式。這款高130公分的機器人身著傳統僧袍，由

06.15.26 0

Google 地圖的 CarPlay 版本將整合 Gemini AI，讓用戶可以透過語音進行互動！

根據macrumors在谷歌地圖應用程式中發現的代碼，谷歌地圖的carplay版本可能即將支援gemini ai。這項整合將讓carplay用戶透過gemini獲取詳細的導航路線與相關資訊。應用程式

06.15.26 0