
stability ai 正式發布了 stability audio 3.0 系列的音頻生成模型,這標誌著人工智慧音樂生成邁向新的里程碑——其旗艦版支援輸出長度超過六分鐘、結構完整且風格一致的專業級作品。
新推出的模型家族包含四種不同的架構:xfs 輕量版與標準小版,分別擁有 4,590 萬個參數;中型版則擁有 14 億個參數;而旗艦大型版更擁有 27 億個參數。其中,兩個小型模型專為邊緣裝置部署而優化,可在本地實時生成音效及兩分鐘以內的短篇音樂作品。同時,中型與大型模型在時間建模與結構一致性方面實現突破,能夠生成長達 6 分鐘 20 秒的連續作品,具備各樂段間自然流暢的過渡、穩定的調性以及強烈的主題連貫性——最大時長較上一代 stability audio 2.0 提升逾一倍。
開源策略持續重視社群驅動的創新:小型 sfx 模型,以及小型與中型版本,已全面公開其權重與原始碼,供用戶免費下載、微調並商用。然而,最強大的大型模型仍無法進行本地部署,僅能透過 api 接口與雲端託管服務使用;企業若年營收超過百萬美元,則需簽署商業授權協議後方可獲取使用權。
在資料合規方面,stability ai 已完成關鍵基礎建設——與華納音樂集團及環球音樂集團建立戰略合作關係,確保 stability audio 3.0 所使用的訓練資料均來自合法授權的音樂庫,從源頭降低版權風險。
同時,公司正加速拓展專業音訊生態系統,邀請前環球音訊與芬達公司首席數位官伊森·卡普蘭加入,領導開發一套專為專業音樂人量身打造的新世代 ai 驅動創作工具套件。