
阿里巴巴近日正式發布了通義千問系列的下一代旗艦型號——通義千問3.6-max預覽版。作為該系列的早期預覽版本,用戶現可在通義千問工作室與其進行互動對話,並透過阿里雲百煉api以「通義千問3.6-max預覽版」之名調用。與上一代通義千問3.6-plus相比,新模型在多個面向皆有顯著提升,涵蓋基於智能代理的編程能力、世界知識以及指令遵循等。
據阿里巴巴透露,通義千問3.6-max預覽版在六大主要編程基準測試中均取得最高分,涵蓋swe-benchpro、terminal-bench2.0、skillsbench、qwenclawbench、qwenwebbench及scicode等項目。具體而言,其基於智能代理的編程能力顯著提升:skillsbench得分提高9.9分,scicode提升10.8分,而nl2repo與terminal-bench2.0分別提升5.0分與3.8分。這些成績標誌著該模型在編程能力方面邁出了重要一步。
此外,通義千問3.6-max預覽版在世界知識的掌握上亦有明顯進步,supergpqa得分提升2.3分,qwenchinesebench則提升5.3分。其指令遵循能力同樣出色,toolcallformatifbench得分亦提高2.8分。綜合各項表現,這款新模型堪稱智能編程領域的重大創新。
雖然目前僅提供預覽版本,但阿里巴巴表示,該模型仍處於積極研發階段,未來將持續優化,以帶來更強大的功能與性能提升。