
阿里巴巴的qwen團隊正式發布了全新的多模態大規模模型「qwen3.7‑plus」,這表明該模型基於代理的各項能力,代表著視覺與語言深度融合又邁出了重要一步。此模型不僅僅是版本升級,而是以「統一感知—理解—決策—執行」為核心設計理念打造而成。它在繼承qwen3.7強大的文本處理、程式碼生成、工具調用及辦公自動化等功能的同時,還系統性地重構了其視覺認知架構,全面提升了跨模態協作能力。
qwen3.7‑plus支援來自多種來源的異質輸入,包括圖像、短影片、桌面截圖、網頁快照以及純文字等,並能與gui、cli及各種saas工具環境無縫整合。在真實辦公場景中,它可實現端到端的任務完成——從識別介面元素、進行圖表的邏輯分析,到自主調用api、生成腳本並產出報告,全程無需人工干預。目前,該模型已部署於阿里雲的百煉平台,並提供qwen studio的互動體驗,讓開發者與企業用戶能夠即時存取並部署。
在權威評估框架中,qwen3.7‑plus表現突破性卓越。在全球視覺領域總榜上位居第五,在中國則榮登榜首。此外,它在babyvision、mathvision等前沿視覺推理基準測試中也取得了顯著的分數提升;在screenspot pro和osworld驗證的任務中,其螢幕理解準確度與操作成功率更是大幅躍進。更值得一提的是,androidworld的測試顯示,其任務完成率較上一代提升了40%以上。同時,其文本處理能力仍處於世界領先水準,在編碼、推理、指令遵循及多語種支援等方面,已接近當前最佳閉源模型的水平。此次發布不僅為國內多模態模型樹立了新標準,也為以實質性生產力提升為目標的基於代理的人工智能設定了全新規範。